437 32 8MB
English Pages 788 [790] Year 2007
Exact Methods in the Study of Language and Text
≥
Quantitative Linguistics 62
Editors
Reinhard Köhler Gabriel Altmann Peter Grzybek
Mouton de Gruyter Berlin · New York
Exact Methods in the Study of Language and Text Dedicated to Gabriel Altmann on the Occasion of his 75th Birthday Edited by
Peter Grzybek Reinhard Köhler
Mouton de Gruyter Berlin · New York
Mouton de Gruyter (formerly Mouton, The Hague) is a Division of Walter de Gruyter GmbH & Co. KG, Berlin. Published with the financial support of the Alexander von Humboldt Foundation
Office for the Government of the Province of Styria (Department for Science)
University of Graz
앝 Printed on acid-free paper which falls within the guidelines 앪 of the ANSI to ensure permanence and durability. Library of Congress Cataloging-in-Publication Data Exact methods in the study of language and text : dedicated to Gabriel Altmann on the occasion of his 75th birthday / edited by Peter Grzybek and Reinhard Köhler. p. cm. ⫺ (Quantitative linguistics ; 62) Includes bibliographical references and indexes. ISBN 978-3-11-019354-1 (hardcover : alk. paper) 1. Linguistics ⫺ Statistical methods. 2. Linguistics ⫺ Methodology. I. Altmann, Gabriel. II. Grzybek, Peter. III. Köhler, Reinhard. P138.5.E97 2007 410.21⫺dc22 2007011128
Bibliographic information published by the Deutsche Nationalbibliothek The Deutsche Nationalbibliothek lists this publication in the Deutsche Nationalbibliografie; detailed bibliographic data are available in the Internet at http://dnb.d-nb.de.
ISBN 978-3-11-019354-1 ISSN 0179-3616 쑔 Copyright 2007 by Walter de Gruyter GmbH & Co. KG, D-10785 Berlin. All rights reserved, including those of translation into foreign languages. No part of this book may be reproduced in any form or by any means, electronic or mechanical, including photocopy, recording, or any information storage and retrieval system, without permission in writing from the publisher. Cover design: Martin Zech, Bremen. Printed in Germany.
Gabriel Altmann
Luca Pacioli, Jacopo de’Barbari, ca. 1496
Viribus Quantitatis
The carefully chosen motto of this preface – Viribus quantitatis – might as well have been an adequate title of this whole book, dedicated to Professor Gabriel Altmann on the occasion of his 75th birthday. After all, the motto has more than one semantic implication, which renders it an adequate opening into the present volume. First, the title refers to the important Renaissance mathematician Luca Pacioli (ca. 1445–1514), specifically to his book De viribus quantitatis.1 Pacioli, began to write this ‘compendium’ around 1500, but it remained unpublished during his lifetime.2 The work is divided into three parts: the first is a collection of mathematical recreational problems; the second is a collection of geometrical problems and games; the third is a collection of proverbs and verses.– In our view, this book can be interpreted as an indication of the deep insight researchers as early as at the time of Lucas Pacioli had into the ontological, epistemological, heuristic, and methodological aspects of quantitative approaches to cultural and natural phenomena. Second, Viribus quantitatis alludes, of course, to the Festschrift entitled Viribus unitis, devoted to Gabriel Altmann on the occasion of his 60th birthday. In fact, that motto was chosen as an apt expression of his personal conviction that in our times, scientific progress in general, and in linguistics, specifically, can be achieved only by the intensive co-operation of scholars from many fields. Viribus quantitatis thus can be understood as the complementary addition to this general research credo. Finally, the title may be understood to describe the overall endeavor of the 1. Pacioli was personally well-acquainted with celebrities such as Leone Battista Alberti (famous for his 1435 Della Pictura on the laws of perspective) and Leonardo da Vinci. Pacioli’s 1494 work Summa de Arithmetica, Geometria, Proportioni et Proportionalità gave a summary of the mathematics known at the time: it was one of the first ever printed books on mathematics, and it is considered to be one of the most important Renaissance mathematical treatises. The same holds true for Pacioli’s Divina proportione (1509), inspired and, in fact, illustrated by Leonardo da Vinci. 2. One of the manuscripts has survived to our day and is held at Bologna University. A recent edition has been provided by Augusto Marinoni and Maria Garlaschi Peirani (Milan: Ente Raccolta Vinciana, 1997).– Cf.: http://www.uriland.it/matematica/ DeViribus/Presentazione.html
viii Peter Grzybek and Reinhard Köhler
present volume, namely, to present a representative book on the occasion of Gabriel Altmann’s 75 birthday – a pioneer and “global player” in the field of quantitative linguistics, indeed. As a result, this book represents a good synopsis of the efforts taken in this specific discipline within the broad field of language and text studies, which is now called quantitative linguistics. And, in fact, it clearly shows, to what degree both quantification and co-operation are necessary to arrive at a theory of text and language, in the strict sense of the word. Generally speaking, it is first and foremost George Kingsley Zipf (1902– 1950) who is considered to be the founder of modern Quantitative Linguistics. He was the first to systematically study text and language, using statistics for purely scientific purposes. Since that time, Quantitative Linguistics has, of course, significantly grown, and has become a fully-fledged branch of general linguistics. In fact, it has grown to a degree which makes it difficult to maintain an overview over the many topics and objects of investigation, the models and methods applied and developed, and the various results published in books and in several journals. This situation is well reflected by the present collection of original papers from such diverse areas of research as can be found in language and text studies in general. The book reflects also another fact: Since Zipf, only one scholar can be said to have inspired and advanced Quantitative Linguistics to a similar extent – or even more – and who continues doing so: Gabriel Altmann. There is probably no researcher in this field who is not familiar with Altmann’s work, or at least with part of it, and many of them would not be able to do their research without reference to his seminal linguistic and methodological innovations, and his exceptional paradigm. Many a scholar has profited directly from his advice, his cooperation and generous help. The present volume is intended to be a modest sign of appreciation and gratitude for his unlimited support and unselfish co-operativeness which many of us have repeatedly experienced over the years. With this perspective, all contributors to the present volume have realized their wish to express their esteem and gratitude. As the editors of this volume, we have to add that all authors have kindly agreed to contribute, in spite of the strict regulations which we had to set. That is to say that for technical reasons, we had to ask all authors to complete their papers within a month’s time, and to reduce the size of their contributions to a limited number of pages. Nevertheless, irrespective of these rigorous require-
Viribus Quantitatis ix
ments, 81 friends and colleagues accepted these conditions and delivered 66 papers on time. Our thank goes to all authors who have co-operatively agreed to these limitations. The result of our call is a book which gives an up-to-date picture of current research in quantitative linguistics. At the same time, the wide scope of this book reflects Gabriel Altmann’s wide horizon of interests, his broad area of research and teaching, his scientific and philosophical concerns, and his hitherto lifework. It includes papers on fundamental semiotic questions, semantic, pragmatic and grammatical topics, geolinguistic, typological and onomatological themes, as well as recent research into methodology. Many papers include the results of empirical findings, presenting relevant results of the application of quantitative methods in language and text studies. Several papers are of a more theoretical character, e.g. the contributions on semiotic and systems-theoretical topics; others deal with purely methodological problems, nevertheless showing the applicational significance of their results for linguistics. Some authors present deductive-hypothetical approaches together with the empirical testing of their assumptions and models, thus giving examples of the integrated deductive-inductive method of scientific work in general, and in quantitative linguistics in particular. In a way, the present book therefore may seem to have a double-faced appearance: on the one hand, its character resembles that of a yearbook of quantitative linguistics, on the other hand, it is dedicated as a Festschrift on the occasion of a jubilee to celebrated joyfully and respectfully. This is, therefore, the place to give some biographical background and a short characterisation of Gabriel Altmann’s scientific work. Gabriel Altmann was born on May 24, 1931 in the Slovak village of Poltar, where his father worked as a general practitioner. After basic school, he visited the grammar school in Luˇcenec and passed his final examinations in 1951. He studied Indonesian linguistics and Japanese philology at Charles University in Prague from 1953 to 1958. After his PhD, he received the State doctorate at the Czechoslovakian Academy of Sciences with his thesis Kvantitativne štúdie indonezistiky (Quantitative Studies in Indonesian Philology). From 1960 to 1968, Gabriel Altmann worked as a researcher at the Oriental Institute of the Slovak Academy of Sciences in Bratislava. A grant from the Alexander von Humboldt Foundation enabled him to visit the Institute of Phonetics at the University of Cologne from 1968 to 1969. In 1970, he accepted the position of a researcher in the project »Automatic syntax analysis of German« at the Institut für Deutsche Sprache in Mannheim; then, again
x Peter Grzybek and Reinhard Köhler
supported by the Alexander von Humboldt Foundation, he was appointed visiting professor for quantitative linguistics at the Department of Linguistics (Ruhr University Bochum). In 1971, he received his German venia legendi, this time with his Habilitationsschrift Introduction to Quantitative Phonology. Since that time, he worked as full professor for mathematical linguistics at this institute until he retired in 1996. In his early Bochum days, when he started his enterprise to create a new scientific discipline (before, quantitative methods were used in linguistics rather sporadically and more or less unsystematically), he encountered various problems. More often than not, colleagues and students would have rather sparse mathematical backgrounds; the specific way of thinking Altmann introduced seemed extremely strange to most contemporary linguists; the demand he imposed on scientific methodology and reflection of methods was quite unfamiliar and unusual in the humanities (and still continues to be so), as opposed to the natural sciences; only those of his students seriously interested in his ideas and concepts, and who were ready to invest years of (additional) hard and concentrated work, had a chance to follow him. Nevertheless, Gabriel Altmann succeeded in gathering a circle of ‘infected’ students and scholars within a rather short time period – first in Bochum, later also in other countries. His charisma grew: more and more interested researchers came as demies or visiting professors from all over the world or started co-operation with him; again, quite a number of them were supported by the Alexander von Humboldt Foundation). In 1978, Gabriel Altmann founded, after years of preparation, the book series Quantitative Linguistics, with the two sub-series Glottometrika and Musikometrika (to be sure, Altmann is not only an ingenious linguist and mathematician, but also a gifted musician and analyst). Within the first ten years, under his supervision thirty volumes by authors from all five continents were published in this series, which prevailed until volume 60 in an almost unchanged form. Altmann’s students became researchers and professors and formed, together with an increasing number of colleagues, an international and interdisciplinary scientific network. The discipline of quantitative linguistics became more and more established; in 1993, the international Journal of Quantitative Linguistics was founded – again, with Gabriel Altmann as an associate editor; when, in 1995, the comprehensive Bibliography of Quantitative Linguistics was published, this would not have been possible without Altmann’s help; in 2001, finally, he started another journal on quantitative linguistics, Glot-
Viribus Quantitatis xi
tometrics, which he continues to edit; numerous national and international research projects were launched and conducted either by himself or on his initiative, and with his continuing advice. Gabriel Altmann personally made contacts and helped in establishing contacts with research groups from all over the world, as for example with the group Statistika reˇci in the former Soviet Union, with groups in Europe, Japan and Canada. One can, in fact, conclude that Gabriel Altmann is not only the founder of quantitative linguistics in Germany, but also the nestor of modern quantitative linguistics in general. From the very beginning, Gabriel Altmann’s scientific work aimed at forming and conducting linguistic research on the basis of reflected, sound methodology, in line with the philosophy of science. Also to his merit is the modern demand of quantitative linguistics to overcome the purely descriptive phase in linguistics, and to pave the way for the next step, laying the foundations for the explanative phase of linguistic science. Altmann never faded in his endeavour to explicate fundamental scientific terms such as ‘theory’, ‘law’, ‘hypothesis’ or ‘explanation’ within a linguistic framework, where these concepts have become blurred and misused over decades. The construction of a linguistic theory – in the strict sense of the philosophy of science – as the ultimate aim of the study of text and language has been made understandable only with the help of his continuous effort to teach and disseminate not only quantitative linguistics, but also the philosophical background of science in general. His astonishing methodological creativity can partly be explained by the fact that Gabriel Altmann is also an actively researching mathematician and statistician; this is evident, among others, from his numerous publications in mathematical journals. One of the major completed projects in this field is the comprehensive Thesaurus of univariate discrete probability distributions, published together with Gejza Wimmer, which contains the mathematical description of some 750 (!) discrete distributions and families. A comparison with the most comprehensive list of distributions known so far, which contains ca. 70 distributions, gives an impression of the quantitative progress characterizing this work – moreover since the Thesaurus is not a simple listing, but provides details such as to the interrelations between the distributions, references to directly relevant literature (in many cases correcting their mathematical mistakes), etc. Quite a number of distributions have been derived and created by Gabriel Altmann himself. The need to do so has to be seen in the circumstance that the statistical instruments commonly used in
xii Peter Grzybek and Reinhard Köhler
natural and social sciences have been developed over the years on data from and for the purposes of these disciplines. As a consequence, linguistic studies often cannot apply them to their specific objects. In most respects, linguistic material has specific statistical properties which exclude the application of common methods, based on the ‘law of large numbers’ and the validity of the normal distribution. Hence, in many cases, Altmann had to develop new statistical models for his specific linguistic investigations. Gabriel Altmann is an incredibly all-round creative and productive person. In the present volume, we have tried to reflect and to document part of his multi-faceted activities, viz. the scientific facet, in the form of a bibliography of his scientific publications. But even this was possible only in part, and we did not succeed to our full satisfaction: not being able to ask the honored person himself, for intelligible reasons, we could not gather all relevant information about his translations of scientific works. To give but one example, we refer to Juhan Tuldava’s monograph Problems of Quantitative-Systemic Lexicology, which Gabriel Altmann translated from Russian to German and published in 1998, as volume 59 of the series Quantitative Linguistics. To his closer friends, Gabriel Altmann is known not only as a scientific genius, but also as the author of a huge collection of humorous short stories, which are a proof of his coruscating sense of humor. It is deplorable that we are unable to present a bibliographical documentation of this aspect of his œuvre, the most of which is still unpublished. Only a few friends of Gabriel Altmann’s have been in contact with his facet as a knight of the pen, and only a few of his stories have become known to a larger audience when they were, interestingly enough, published in some Festschrift (cf. the bibliography of Gabriel Altmann’s works at the end of this book); Werner Lehfeldt’s contribution to this volume intriguingly integrates this side of Gabriel Altmann’s work into the overall picture of his personality. Another field Gabriel Altmann made himself familiar with many years ago is computer programming. This activity was not born by a specific interest in, or enthusiasm for computer science, but resulted from two needs: first, to find a way to process large amounts of data, and second, to implement complex statistical procedures whose manual application would be too awkward, time-consuming or even impossible. In this respect, one of his famous accomplishments is the Altmann-Fitter, a world-wide unique software package for the iterative fitting of ca. 200 discrete probability distributions to empirical data, including parameter estimation and goodness-of-fit tests. This program is in use by dozens of researchers in several disciplines.
Viribus Quantitatis xiii
We could continue with the description of further examples of Gabriel Altmann’s eminent competencies, but we should not forget to at least mention his outstanding personal characteristics. Everyone who knows Gabriel Altmann from personal contact, either directly or via internet co-operation, has experienced his exceptional, unselfish helpfulness. This is the moment to thank him most cordially, also in the name of an indeterminable number of students, colleagues and friends, whom he supported by giving advice and practical help, with unbelievable patience and good humor, with encouragement and direct engagement. We wish him many more healthy and productive years in the same good humor. The present book comes as a surprise to Gabriel Altmann: a great thank you therefore goes to all friends and colleagues who have successfully kept the secret to themselves over a long time. Furthermore, we are glad to announce that the present volume is being published by Mouton de Gruyter as the first volume of the now and herewith continued series Quantitative Linguistics. We are sure that Gabriel Altmann will appreciate this fact, and at the same time, we are proud and glad that he will continue to accompany quantitative linguistcs by co-editing the series. This volume would not have seen the light of day without the co-operation of many people, and it is our pleasure and duty to express our gratitude to all of them. First, our thank goes to all authors, who have sent their papers in time, who have helped us in preparing the layout, who have been tolerant and patient with our comments, criticism, and demands. Preparing the layout of this volume ourselves, using TEX / LATEX, we have done our best to put all articles into an attractive shape; our sincere thanks go to Christoph Eyrich (Berlin) for his repeated help; any remaining flaws are our responsibility, of course. Finally, it is our honor to send our thanks to the following institutions from Austria and Germany, for their financial support for this book: Graz University (Vice Rector for Research and Knowledge Transfer), Office for the Government of the Province of Styria (Department for Science), and the Alexander-von-Humboldt Foundation. Finally, our thank goes to Bríd Ní Mhaoileoin for her careful editing of the English texts in this volume. Peter Grzybek (Graz, Austria) Reinhard Köhler (Trier, Germany)
Contents Viribus Quantitatis Peter Grzybek and Reinhard Köhler A diachronic study of the style of Longfellow Sergej N. Andreev Zum Gebrauch des deutschen Identitätspronomens ‘derselbe’ als funktionelles Äquivalent von Demonstrativ- und Personalpronomina aus historischer Sicht John Ole Askedal
vii
1
13
Diversifikation bei Eigennamen Karl-Heinz Best
21
Bemerkungen zu den Formen des Namens Schmidt Hermann Bluhme
33
Statistical parameters of Ivan Franko’s novel Perekhresni stežky (The Cross-Paths) Solomija Buk and Andrij Rovenchak
39
Some remarks on the generalized Hermite and generalized Gegenbauer probability distributions and their applications Mario Cortina-Borja
49
New approaches to cluster analysis of typological indices Michael Cysouw
61
Menzerath’s law for the smallest grammars Łukasz D˛ebowski
77
Romanian online dialect atlas: Data capture and presentation Sheila Embleton, Dorin Uritescu, and Eric Wheeler
87
Die Ausdrucksmittel des Aspekts der tschechischen Verben Jeehyeon Eom
97
xvi Contents
Quantifying the MULTEXT-East morphosyntactic resources Tomaž Erjavec A corpus based quantitative study on the change of TTR, word length and sentence length of the English language Fan Fengxiang On the universality of Zipf’s law for word frequencies Ramon Ferrer i Cancho Die Morrissche und die Bühlersche Triade – Probleme und Lösungsvorschläge Udo L. Figge
111
123
131
141
Die kognitive Semantik der ‘Wahrheit’ Michael Fleischer, Michał Grech, und Agnieszka Ksia˙ ˛zek
153
Kurzvorstellung der Korrelativen Dialektometrie Hans Goebl
165
A note on a systems theoretical model of usage Johannes Gordesch and Peter Kunsmann
181
Itemanalysen und Skalenkonstruktion in der Sprichwortforschung Rüdiger Grotjahn und Peter Grzybek
193
Do we have problems with Arens’ law? A new look at the sentence-word relation Peter Grzybek and Ernst Stadlober A language of thoughts is no longer an utopia Wolfgang Hilberg
205
219
Contents xvii
Language subgrouping Hans J. Holm
225
Contextual word prominence Ludˇek Hˇrebíˇcek
237
Das Menzerath-Gesetz in der Vulgata Marc Hug
245
Toward a theory of syntax and persuasive communication Julian Jamison
259
Grapheme und Laute des Russischen: Zwei Ebenen – ein Häufigkeitsmodell? Re-Analyse einer Untersuchung von A.M. Peškovskij Emmerich Kelih Zur Zeitoptimierung der russischen Verbmorphologie Sebastian Kempgen ¯ asha: between sphere and arrow – on the triple source for Ak¯ everything Walter A. Koch Quantitative analysis of co-reference structures in texts Reinhard Köhler and Sven Naumann Anthroponym – Pseudonym – Kryptonym: Zur Namensgebung in Erpresserschreiben Helle Körner
269
281
287
317
331
Quantitative linguistics within Czech contexts Jan Králík
343
Semantic components and metaphorization Viktor Krupa
353
Wortlängenhäufigkeit in J.W. v. Goethes Gedichten Ina Kühner
361
xviii Contents
A general purpose ranking variable with applications to various ranking laws Daniel Lavalette
371
Wie schreibe ich einen Beitrag zu Gabriels Festschrift? Werner Lehfeldt und [Lösung im Text]
383
Bemerkungen zum Menzerath-Altmannschen Gesetz Edda Leopold
391
Die Stärkemessung des Zusammenhangs zwischen den Komponenten der Phraseologismen Viktor Levickij and Iryna Zadorožna
399
Pairs of corresponding discrete and continuous distributions: Mathematics behind, algorithms and generalizations Ján Maˇcutek
407
Linguistic numerology Grigorij Ja. Martynenko Towards the measurement of nominal phrase grammaticality: contrasting definite-possessive phrases with definite phrases of 13th to 19th century Spanish Alfonso Medina-Urrea
415
427
A network perspective on intertextuality Alexander Mehler
439
Two semi-mathematical asides on Menzerath-Altmann’s law Peter Meyer
449
Stylometric experiments in modern Greek: Investigating authorship in homogeneous newswire texts George K. Mikros On script complexity and the Oriya script Panchanan Mohanty
461
473
Contents xix
Statistical analogs in DNA sequences and Tamil language texts: rank frequency distribution of symbols and their application to evolutionary genetics and historical linguistics Sundaresan Naranan and Vriddhachalam K. Balasubrahmanyan
485
Zur Diversifikation des Bedeutungsfeldes slowakischer verbaler Präfixe Emília Nemcová
499
Ord’s criterion with word length spectra for the discrimination of texts, music and computer programs Michael P. Oakes
509
Indexes of lexical richness can be estimated consistently with knowledge of elasticities: some theoretical and empirical results Epaminondas E. Panas
521
Huffman coding trees and the quantitative structure of lexical fields Adam Pawłowski
533
Linguistic disorders and pathologies: synergetic aspects Rajmund G. Piotrowski and Dmitrij L. Spivak
545
Text ranking by the weight of highly frequent words Ioan-Iovitz Popescu
555
Frequency analysis of grammemes vs. lexemes in Taiwanese Regina Pustet
567
Are word senses reflected in the distribution of words in text? Reinhard Rapp
575
Humanities’ tears Jeff Robbins
587
Wortlänge im Polnischen in diachroner Sicht Otto A. Rottmann
597
xx Contents
The Menzerath-Altmann law in translated texts as compared to the original texts Maria Roukk
605
Different translations of one original text in a qualitative and quantitative perspective Irma Sorvali
611
The effects of diversification and unification on the inflectional paradigms of German nouns Petra Steiner and Claudia Prün
623
Nicht ganz ohne . . . Thomas Stolz, Cornelia Stroh and Aina Urdze
633
Satz: stoisches axíôma oder peripatetischer lógos? Wolf Thümmel
647
Using Altmann-fitter for text analysis: An example from Czech Ludmila Uhlíˇrová
659
Local grammars in word counting Duško Vitas and Cvetana Krstev
665
Fitting the development of periphrastic do in all sentence types Relja Vulanovi´c and Harald Baayen
679
Language change in a communication network Eric S. Wheeler
689
Die Suche nach Invarianten und Harmonien im Bereich symbolischer Formen Wolfgang Wildgen
699
Applying an evenness index in quantitative studies of language and culture: a case study of women’s shoe styles in contemporary Russia Andrew Wilson and Olga Mudraya
709
Contents xxi
The weighted mid-P confidence interval for the difference of independent binomial proportions Viktor Witkovský and Gejza Wimmer Gabriel Altmann: Complete bibliography of scholarly works (1960–2005) Tabula Gratulatoria In Honor of Gabriel Altmann
723
735 755
A diachronic study of the style of Longfellow Sergej N. Andreev
1
Introduction
Quantitative analysis of the distribution of the elements in text on different levels is the basis for numerous multivariate studies looking for algorithms of discrimination between different classes or groups of texts. Quantitative analysis of style has been used in such fields as gender categorization, differentiation of fiction and non-fiction documents, authorship detection, etc. One general assumption which is usually made in most of these studies consists in the basic premise that one and the same author is consistent in his style, using the same grammatical, semantic, etc. patterns in the texts which he generates. According to this premise, a limited list of semantic, syntactic, phonetic etc. patterns and words (especially functional), used by the author consciously or unconsciously, can be revealed by different methods irrespective of the stage of the author’s life. Whether this assumption is correct or has to be modified will depend on the results of diachronic analyses of style. This seems to make investigations that can estimate the degree of the changeability of text properties of the same author at different times an important direction in quantitative analysis of style. 2
Data sources
The works of Henry Wadsworth Longfellow (1807–1882) were chosen for this diachronic analysis due to the following factors. 1. Though the assessment of Longfellow’s role in American and world literature has been rather controversial, from the recognition of his poetry as “the ideals and aspirations of a young nation and genteel tradition”, to complete rejection of his talent (McMichael 1996: 1523) the critics agree that the style of his poetry is highly regular in form, academic, with easy metrical schemes and song-like melody. The smooth learned academic style makes the problem of searching significant differences in it even more interesting.
2 Sergej N. Andreev
2. The period of Longfellow’s creative activity was very long, which would appear to create better opportunities for the diachronic study. Only lyrics by Longfellow written in iambic meter (usually not exceeding 60 lines) were taken for our analysis. Lyrics were chosen because they express in the most vivid way the style characteristics of an author. We introduced meter limitations (iambic cadence) to achieve a common basis for comparison of poetic texts. It should be noted that this meter was used by Longfellow in most of his lyrics. Sonnets were not taken for analysis because of their specific structural organization. The following collections of poems by Longfellow were analyzed: Earlier Poems, Juvenile Poems, Voices of the Night, Poems on Slavery, The Seaside and the Fireside, Ultima Thule, In the Harbour. Other collections like The Belfry of Bruges, The Courtship of Miles Standish, Birds of Passage, Tales of a Wayside Inn, etc. were not included in the list because of meter reasons or length (texts are joined in one long narration). The total list of lyrics analyzed during the research included 53 texts (1670 lines). These texts were divided into four groups, based on the time of their creation and biographical data on the life of Longfellow. The first group includes poems from his collection Earlier Poems and Juvenile Poems written before 1826. The second group includes poems created after two visits to England (collections Voices of the Night, published in 1839, and Poems on Slavery, published in 1842). Group 3 is formed of the poems from The Seaside and the Fireside, published in 1850. Group 4 comprises the works of the last stage of Longfellow’s creative activity (from collections Ultima Thule, published in 1880, and In the Harbour, published in 1882). All the four periods are characterized by a certain number of elements occurring in the texts, which are used as their characteristics.
3
Characteristics
In order to compare texts of different periods, we describe them with a number of characteristics. Our approach to choosing characteristics was to some extent different from traditional studies of style, which tend to focus only on one linguistic level. Unlike such studies, we describe texts at once on many levels with a substantial number of characteristics. These characteristics were previously found relevant for the description of poetical texts in multivariate studies of verse (Baevskij 1993, Andreev 2002).
A diachronic study of the style of Longfellow 3
3.1
Rhythmic characteristics
We understand by rhythm a concrete realization of metric scheme in a verse. Meter is the ordered alteration of strong (predominantly stressed) and weak (predominantly unstressed) syllabic positions, abstracted from the accentual structure of a concrete verse text. The strong position is called the ictus, the weak position is called the non-ictus. For our study the most relevant are the first, the second and the last (final) strong positions in a line. In the actual verse text the metrical scheme is sometimes violated: unstressed syllables may occupy ictuses (omission of an ictus stress). This serves as the basis for the following characteristics (Andreev 2002, Baevskij 1993, Tarlinskaja 1976). All the following examples were taken from the poems by Longfellow. Unstressed first strong position O’er the fair woods the sun looks down Upon the many-twinkling leaves (. . . ) Unstressed second strong position Where darkly the green turf upheaves (. . . ) Unstressed final strong position And sinking silently (. . . )
Two more characteristics are based on whether there are syllables (unstressed or stressed) preceding the first strong position. Number of syllables preceding the first strong position And why do the roaring ocean, And the night-wind, wild and bleak (. . . )
(1 syllable) (2 syllables)
Number of stressed syllables preceding the first strong position Songs flush with purple bloom the rye (. . . ) (1 syllable)
The number of feet in a line and the number of measures (the length of the line in feet) form two more rhythmic characteristics.
3.2
Morphological characteristics
Morphological characteristics are represented in terms of traditional morphological classes (noun, verb, adjective, adverb and pronoun). We counted how many times each of these occurs in the first and the final strong positions.
4 Sergej N. Andreev
3.3
Phonetic characteristics
The number of syllables in the words, occurring in the first and the final strong positions was established.
3.4
Syntactic characteristics
Most syntactic characteristics are based on the use of traditional notions of the members of the sentence (subject, predicate, object, adverbial modifier). We also take into account cases when a word in this position does not belong to any member of the sentence (address, parenthesis). Like on the morphological level we count how many times in a poem each of the members of the sentence is used in the first and the final strong positions. Besides this we take into account whether there is inversion (complete – with the inversion of subject-predicate structure, or partial – with inversion of the secondary parts of the sentence). Two more characteristics are based on the number of clauses in (a) complex and (b) compound sentences. There are also several characteristics which represent what can be called as poetical syntax. They are enjambements and syntactical pauses. Enjambement takes place when a clause does not end at the end of the line and continues on the other line: And Night – sweet Night – serenely wears A smile of peace; her noon is nigh.
Pause is a break in a line, caused by a subordinate clause or another sentence: The very tones in which we spake Had something strange I could but mark (. . . )
We also counted the number of lines ending in exclamation marks or question marks.
A diachronic study of the style of Longfellow 5
3.5
Characteristics of rhyme
Exact rhyme1 , partial rhyme2 , and masculine rhyme are taken for the analysis.
3.6
Characteristics of stanza
The number of stanzas and the number of types of stanzas in a poem are taken into account on this level. Types of stanza in our research are defined depending on the number of lines in them. Thus stanzas with the same amount of lines are considered to be of the same type. The list of all characteristics with abbreviations used in this study is given at the end of the paper.
4
Method
All the characteristics are counted for each poem and divided by the number of lines in the poem. The results are entered into a table of raw data in which rows are poems and columns are 44 characteristics. They include the 43 characteristics which were described above and one classifying characteristic, according to what group the poem belongs due to the time of its creation and publishing. To compare the style of the four periods we used discriminant analysis. Discriminant analysis is a procedure whose purpose is to find characteristics, discriminating between naturally occurring (or a priori formed) classes, or to classify into these classes separate (unique) cases which are often doubtful and “borderline” (Klecka 1989). In our research, discriminant analysis was used to answer the following questions: whether there is any difference between the four groups of texts in style, and in case the difference is found, what characteristics create the difference (possess discriminant force). The table with the data was used for discriminant analysis. Conditions and limitations existing for discriminant analysis were discussed in our paper (Andreev 2003). The following results were obtained as a result of the analysis. 1. Exact is the rhyme in which all the sounds, starting with the stressed vowel are the same (task – ask). 2. Partial rhymes include cases when the stressed syllable is rhymed with unstressed (eyes – Paradise) and the so-called “eye-rhymes” as in vague – Prague; wreath – breath.
6 Sergej N. Andreev
5
Results
It was found that there is a clearly marked difference in style between four groups of texts. The following characteristics were found relevant for the discrimination of these groups: NMS-I, OBJ-F, SUBJ-F, V-F, PN-F, ATTR-I, N-I, PAUSE, ADV-I, ANACR-ST, ENJAMB, SYL-F, ICTUS-2, CL-CX,ADV-F, MEASNUM, SYL-I, ANACR, V-I, ADJ-F, PART-RH, INV-COMP, ICTUS-F, PRED-I, STANZ-T. Other characteristics were irrelevant in this respect.
At the next stage of analysis we use only characteristics possessing discriminant power to classify the texts automatically into four groups, now ignoring their a priori class indications. This gives us a possibility to compare the automatic classification (observed) with the a priori classification (predicted). The results are given in Table 1. In this table, rows are observed classifications and columns predicted classifications. Table 1: Classification matrix of texts (four groups) Percent correct
Group 1
Group 2
Group 3
Group 4
Group 1 Group 2 Group 3 Group 4
100 100 100 100
14 0 0 0
0 11 0 0
0 0 12 0
0 0 0 16
Total
100
14
11
12
16
The degree of correctness, i.e. of coincidence of automatic and predicted classifications, is unexpectedly very high – 100%, whereas after random classification of texts into four groups one could expect only 25% correctness (Klecka 1989: 120). These results prove that, firstly, there is a clear and marked difference in style between 4 stages of Longfellow’s creative activity, and, secondly, that the characteristics for the study were chosen correctly. It is possible to establish the degree of difference between the observed groups. This is achieved with the help of the measure “squared Mahalanobis distance” which shows the distance between the centroids of the groups. A centroid is the “mean point” representing the means for all independent variables in the multidimensional space in which each observation (poem) was plotted. The results obtained are represented in Tables 2, which shows the Mahalanobis distances (d) and statistical significance (p) of the results. From Table 2 we see that the p-values are fully acceptable except for the relationship
A diachronic study of the style of Longfellow 7 Table 2: Squared Mahalanobis distances and statistical significance (p-levels) Group 1 d Group 1 Group 2 Group 3 Group 4
0.00 32.39 26.93 30.26
Group 2 p
– 0.00 0.00 0.00
d 32.39 0.00 15.33 47.49
Group 3 p
0.00 – 0.11 0.00
d 26.93 15.33 0.00 21.88
Group 4 p
0.00 0.11 – 0.01
d 30.26 47.49 21.88 0.00
p 0.00 0.00 0.01 –
of Group 2–Group 3 (p = 0.11); the biggest changes in style took place in Longfellow’s second period of creative activity, when a radical change from the juvenile style is observed. Then followed some movement in the direction of the starting point: period 3 is closer to the first period than the second one is, and period 4 is also closer to the first period than to the second. It is interesting to note that the greater part of his most famous poems were written during the third and the beginning of the fourth periods (Evangeline – in 1847, The Song of Hiawatha – in 1855, etc.) Table 3 shows how discriminant functions differentiate groups of texts. Columns represent functions, rows the means of corresponding functions for each group. The function discriminates groups in which its means differ most. Thus, Function 1 differentiates between the fourth period and all the other periods, especially opposing it to the second. Function 2 differentiates the first period from the others, opposing it most of all from the third period. Function 3 separates the second and the third periods. Table 3: Means of canonical variables
Group 1 Group 2 Group 3 Group 4
Function 1
Function 2
−0.124 −3.478 −0.833 3.124
−3.175 0.948 1.592 0.933
Function 3 −0.203 1.105 −1.496 0.540
The next logical step is to try to formulate the nature of the differentiation made by the discriminant functions. Table 4 contains factor structure matrix, which shows the correlations of the characteristics (variables) and canonical discrimination functions (canonical roots) within four groups. The biggest canonical factor loadings with the first function, which possesses the largest
8 Sergej N. Andreev Table 4: Factor structure matrix
NMS-I OBJ-F SUBJ-F V-F PN-F ATTR-I N-I PAUSE ADV-I ANACR-ST ENJAMB SYL-F CL-CX ICTUS-2 ADV-F MEAS-NUM SYL-I ANACR V-I ADJ-F PART-RH ICTUS-F PRED-I STANZ-T INV-COMP
Function 1
Function 2
Function 3
0.229 −0.159 0.008 0.040 0.093 0.018 0.027 0.158 0.030 0.195 0.111 −0.041 −0.077 −0.057 0.052 0.064 0.072 −0.009 −0.016 −0.054 0.000 0.059 −0.063 0.193 0.093
0.046 −0.151 −0.211 −0.182 0.032 −0.095 0.026 −0.006 −0.009 0.162 −0.056 0.138 −0.128 0.020 −0.038 0.067 0.092 0.062 0.129 0.134 0.010 0.123 0.097 0.082 −0.055
0.303 0.196 0.018 −0.121 −0.013 0.062 0.143 0.170 −0.210 −0.100 0.016 −0.319 0.013 −0.009 0.017 0.268 0.051 0.004 −0.018 −0.059 0.137 0.106 −0.031 0.218 −0.051
discriminant force, have the following characteristics: NMS-I, OBJ-F, PAUSE, ENJAMB, ANACR-ST, STANZ-T. Except for OBJ-F, all the rest reflect a certain deviation from the standard norms of iambic meter, creating an effect of unpredictiveness, syntactic and rhythmic variability, increasing the variation on the level of stanzas. The second function is determined by the following characteristics: OBJ-F, SUBJ-F, V-F, ANACR-ST, SYL-F, CL-CX, V-I, ADJ-F, ICTUS-F. Most of these reflect different aspects of the last strong position in the line. The third function, the weakest of all, demonstrates a complex and mixed nature of the underlying factors. Comparing the means of canonical variables for each function and their factor structure, it is possible to suppose that passing from the
A diachronic study of the style of Longfellow 9
first stage to the second, Longfellow brought serious changes into his style, consisting mainly in morphology and affecting the end of the line – the final strong position. He started to place in the final strong position words which were different from the previous period in their morphological and phonetic (syllabic) shape. The second and the third periods of his creative activity reflect variety of changes of different characteristics. Later some of these changes formed the basis of the pattern of the last (fourth) period where new tendencies became more vivid. The fourth stage revealed certain deviation in style from the other periods in the structure of lines, introducing into the calm, melodic manner of Longfellow’s poems, which were called “sing-song versification”, a somewhat more complex form.
6
Conclusion
Diachronic analysis of Longfellow’s style explicitly showed its variability. Application of the multivariate method of analysis, assessing the variability of over 40 characteristics, which reflect the properties of the texts on different linguistic levels, made it possible to differentiate four main stages in the creative activity of the author.
10 Sergej N. Andreev Table 5: List of characteristics with abbreviations Characteristics
Abbreviations
Rhythmic characteristics Number of unstressed first strong positions Number of unstressed second strong positions Number of unstressed final strong positions Number of syllables preceding the first strong position Number of stressed syllables preceding the first strong position Number of feet in a line Number of measures
ICTUS-1 ICTUS-2 ICTUS-F ANACR ANACR-ST MEASURE MEAS-NUM
Morphological characteristics Number of nouns in the first strong position Number of verbs in the first strong position Number of adjectives in the first strong position Number of adverbs in the first strong position Number of pronouns in the first strong position Number of nouns in the final strong position Number of verbs in the final strong position Number of adjectives in the final strong position Number of adverbs in the final strong position Number of pronouns in the final strong position
N-I V-I ADJ-I ADV-I PN-I N-F V-F ADJ-F ADV-F PN-F
Phonetic characteristics Number of syllables in the word in the first strong position Number of syllables in the word in the final strong position
SYL-I SYL-F
Syntactic characteristics Number of subjects in the first strong position Number of predicates in the first strong position Number of objects in the first strong position Number of attributes in the first strong position Number of adverbial modifiers in the first strong position Number of words – not members of the sentence
SUBJ-I PRED-I OBJ-I ATTR-I MODIF-I NMS-I
(continued on next page)
A diachronic study of the style of Longfellow 11 Table 5 (continued from previous page) Characteristics
Abbreviations
in the first strong position Number of subjects in the final strong position Number of predicates in the final strong position Number of objects in the final strong position Number of attributes in the final strong position Number of adverbial modifiers in the final strong position Number of words – not members of the sentence in the final strong position Number of sentences with complete inversion Number of sentences with partial inversion Number of clauses in complex sentence Number of clauses in a compound sentence Number of lines ending in exclamation marks and question marks Number of enjambements Number of lines with syntactic pauses
ENJAMB PAUSE
Characteristics of rhyme Number of exact rhymes Number of partial rhymes Number of masculine rhymes
EXACT-RH PART-RH MASC-RH
Characteristics of stanza Number of stanzas Number of stanza types
STANZ STANZ-T
SUBJ-F PRED-F OBJ-F ATTR-F MODIF-F NMS-F INV-COMP INV-PART CL-CX CL-CND EMPH-END
12 Sergej N. Andreev
References Altmann, Gabriel 1997 “The art of quantitative linguistics”. In: Journal of Quantitative Linguistics, 4; 13–22. Andreev, Sergej N. 2003 “Estimation of similarity between poetic texts and their translations by means of discriminant analysis”. In: Journal of Quantitative Linguistics, 10; 159–176. Andreev, Vadim 2002 “Classification of Poetic Texts by Means of the Multivariate Analysis”. In: Minsk State Linguistic University Bulletin, 10; 141–146. Baevskij, Vadim S. 1993 Pasternak – lirik: osnovy po˙etiˇceskoj sistemy. [Pasternak the Lyric Poet]. Smolensk: Trast-Imakom. Klecka, William R. 1989 Faktornyj, diskriminantnyj i klasternyj analiz. [Factor, discriminant and cluster analysis]. Moskva: Finansy i statistika. McMichael, George (Ed.) 1997 Anthology of American literature. Vol. 1. 6th edition. Upper Saddle River, NJ: Prentice Hall. Tarlinskaja, Marina 1976 English Verse: Theory and history. The Hague: Mouton.
Zum Gebrauch des deutschen Identitätspronomens ‘derselbe’ als funktionelles Äquivalent von Demonstrativ- und Personalpronomina aus historischer Sicht John Ole Askedal
Im Althochdeutschen wie auch im Altsächsischen kann das Identitätswort selbo usw. an das Demonstrativum ther, der treten. Aus solchen Verbindungen ergibt sich dann das syntagmatisch komplexe Identitätspronomen ahd. der selbo, mhd. der selbe, nhd. derselbe (vgl. Behaghel 1923: 338f.; Dal 1966: 72, 79; Lockwood 1968: 73f.). Dabei kann sich eine Desemantisierung einstellen, durch die das Identitätspronomen funktionell in die Nähe von einfachen Demonstrativ- oder gar Personalpronomina gerät. In diesem Zusammenhang sei daran erinnert, dass im Althochdeutschen und Altsächsischen auch außerhalb der Verbindung mit ther, der Verwendungen von selbo zu beobachten sind, wo dieses Element einem anderen Pronomen als etwa verstärkende “Stütze” beigegeben ist, ohne dass die Identität des Referenzgegenstands dadurch besonders thematisiert wäre (vgl. Behaghel 1923: 334). Insofern als Personal- und Demonstrativpronomina als eine Art grammatischer Lexeme gelten und Desemantisierung ein kennzeichnendes Merkmal von Grammatikalisierungsprozessen ist, liegt es nahe, in derart semantisch abgeschwächten, syntagmatisch komplexen Identitätsausdrücken Grammatikalisierungsansätze zu sehen, die, wenn sie weiter bzw. zu Ende geführt würden, zu neuen Demonstrativ- oder schließlich Personalpronomina führen könnten. Solche Entwicklungen sind historisch nachweisbar. Beispielsweise sind im Sardischen sowohl der Artikel wie auch das sog. ‘disjunkte’ Personalpronomen der 3. Person Weiterentwicklungen des lateinischen Identitätspronomens ipse ‘selbst’. Dadurch unterscheidet sich das Sardische von den anderen romanischen Sprachen, in denen das unmarkierte Distanzdemonstrativum ille den gleichen neueren Funktionen zugrunde liegt (vgl. Jones 1988: 329f.; Greenberg 1991: 313; Schwegler 1990: 81, mit Hinweisen). Als ältere Belege für die fraglichen semantisch abgeschwächten Verwendungen des Identitätspronomens ‘derselbe’ mögen z.B. die in (1)–(2) angeführt werden (nach Behaghel 1923: 338; Lockwood 1968: 73f.):
14 John Ole Askedal
(1) a. Ahd.: zi iru sprah thô ubarlût / ther selbo druhtines drût (Otfrid von Weißenburg) ‘dann sprach der Vertraute des Herrn klar und deutlich zu ihr’ b. Mhd.: er las daz selbe mære (Hartmann von Aue) ‘er las die Geschichte’ c. Frühnhd.: dies Gerücht erscholl in dasselbe ganze Land (Luther) ‘dieser Ruf erscholl in das ganze Land’ (2) a. Ahd.: thie selbun beitotun thar (Otfrid von Weißenburg) ‘sie warteten dort’ b. Mhd.: ich wil der gedagen, die in der helle sint, wann dieselben müezen brinnen in der buoze (Berthold von Regensburg) ‘ich will von denen schweigen, die in der Hölle sind, denn sie müssen in ihrer Strafe brennen’ c. Frühnhd.: die Himmel erzählen die Ehre Gottes . . . er hat der Sonne eine Hütte in denselben [‘darin’] gemacht (Luther) Die Belege in (1) vertreten den historisch ursprünglicheren Typ der attributiven Verwendung (Behaghel 1923: 337f.); durch Abschwächung der Identitätsbedeutung konnte es hier zu einer artikelähnlichen Funktion kommen – vgl. insbesondere (1c). Der nicht-attributive Gebrauch in (2) beruht auf einer syntaktischen Weiterentwicklung. Verwendungen wie die in (1)–(2) waren auf früheren Stufen des Deutschen, vor allem im Frühneuhochdeutschen, üblicher als im gegenwärtigen Deutsch. Damit vergleichbar sind in der heutigen Sprache Beispiele wie die in (3), wo das Identitätspronomen eine Referenz hervorhebende, verdeutlichende oder klärende Bedeutung hat (3a) bzw. für aus irgendwelchen Gründen ungeeignete Formen des Personal- oder Demonstrativpronomens eintritt (3b), d.h. insgesamt eine Art Ersatzfunktion hat (nach Dal 1966: 79, 72): (3) a. Täglich ritt eri aus auf seinem Schimmel j , bis derselbe j (eri/ j ) starb. b. die Zeit zwischen meiner Heimkehr ins Vaterhaus und meinem Verlassen desselben (?∗ seiner/?? dessen) Wenn man in Beispielen wie (1)–(2) Grammatikalisierungsansätze sieht und darüber hinaus annimmt, dass Personal- und Demonstrativpronomina sich auf einer höheren Grammatikalisierungsstufe befinden als Identitätspronomina, stellt sich zuerst die Frage nach deren kommunikativer Motivation. In diesem Zusammenhang ist auf das in Kommunikationssituationen häufig vorkommende Bedürfnis nach Referenzakzentuierung hinzuweisen, wofür auch der in der modernen gesprochenen Umgangssprache – aber nicht
Zum Gebrauch des deutschen Identitätspronomens ‘derselbe’ 15
nur dort – übliche Ersatz von Personal- durch Demonstrativpronomina ein Beispiel liefert (vgl. Delisle 1993). Zum anderen stellt sich die Frage nach dem grammatikalisierungstheoretischen Status der Beispiele in (1)–(3), z.B. in Bezug auf die Grammatikalisierungsskala (‘grammaticalization cline’) von Hopper & Closs Traugott (2003: 7) in (4): (4) lexikalisches Wort > grammatisches Wort > Klitikon > Flexionsaffix [Flexiv] Erschwert wird die Diskussion des grammatischen Status des sog. Identitätspronomens im Rahmen von (4) dadurch, dass es in orthographischer Hinsicht im Alt- und Mittelhochdeutschen noch nicht als ein Wort, sondern meistens als ein Syntagma erscheint und dass im Nhd. zwischen Wort- und Syntagmastatus ein komplementäres Verhältnis besteht; vgl. derselbe Ort vs. am selben Ort. Diese Schwierigkeit beruht auf der empirischen Unzulänglichkeit der Skala in (4), dass sie nur die Möglichkeit grammatischer Elemente in Gestalt von Wörtern explizit berücksichtigt und syntagmatisch komplexe Gebilde (Konstruktionen) mit grammatischer Funktion außer Acht lässt. Geht man davon aus, dass Demonstrativ- und Personalpronomina grammatische Wörter sind, das Identitätspronomen aber ein lexikalisches Wort (bzw. ein entsprechendes syntaktisch komplexes Gebilde) ist, hat man es in Fällen wie (1)–(2) mit einem Grammatikalisierungsprozess – etwa von der ersten Position auf der Skala in (4) zur nächsten, höheren – zu tun. Hält man aber das Identitätspronomen schon im Ausgangspunkt für ein grammatisches Element, ist bei Beispielen wie (1)–(2) Grammatikalisierung im Sinne des Übergangs eines grammatischen Elements von niedrigerem zu höherem grammatischen Status anzunehmen. Der Umstand, dass den Beispielen (1)–(2) analoge Verwendungsweisen im Gegenwartsdeutschen im Großen und Ganzen nicht mehr geläufig oder gar ungebräuchlich sind, bedeutet einen Grammatikalisierungs-‘Rückzug’ (bzw. ‘retraction’ in der Terminologie von Haspelmath 2004: 33f.). Dass insbesondere dem Frühneuhochdeutschen gegenüber ein solcher Rückzug erkennbar ist, bedarf wohl in Anbetracht der gemeinhin angenommenen (Hopper & Traugott 2003: z.B. 7, 99ff.), aber keineswegs unumstrittenen (Newmeyer 1998: 233ff., 260ff.) ‘Unidirektionalität’ von Grammatikalisierungsvorgängen schon einer Erklärung. Andererseits ist angesichts der in (3) veranschaulichten, heute noch aktuellen Ersatzfunktionen des Identitätspronomens, die funktionelle Gründe haben, der Rückzug aus dem Funktionsbereich der Demonstrativ- oder Personalpronomina nicht vollständig erfolgt.
16 John Ole Askedal
Ein eher selbstverständlicher Grund für den Rückzug des Identitätspronomens aus Funktionen des Demonstrativ- und Personalpronomens ist dessen unbestreitbare semantische Funktionalität: Es ist freilich durchaus denkbar, dass ein Identitätspronomen infolge der Sprachentwicklung verloren gehen kann; andererseits kann die Herausbildung eines besonderen Identitätspronomens schon als ein Beweis für einen semiologischen Benennungsbedarf sowie für die funktionelle Tauglichkeit des zu diesem Zweck entwickelten sprachlichen Ausdrucks angesehen werden. Unter einem Prototypikalitätsaspekt ist zusätzlich darauf aufmerksam zu machen, dass der Rückzug sich auch morphosyntaktisch motivieren lässt. Methodologisch schließen wir uns in dieser Hinsicht der natürlichkeitstheoretischen Position von Nübling (2000: 251) an, die im Sinne einzelsprachspezifischer Prototypikalität auslegbar ist: “Bewegt sich eine Sprache via Sprachwandel in Richtung ihrer spezifischen Struktureigenschaften, so ist auch dies als eine Form vermehrter Natürlichkeit zu bewerten, auch wenn dies universeller Natürlichkeit zuwiderläuft [. . . ]”. In diesem Zusammenhang sei aus morphophonologischer Sicht darauf verwiesen, dass Artikel und Personalpronomina im gegenwärtigen Deutsch ein- oder zweisilbig sind. Vgl. (5)–(6): (5) Artikelformen des heutigen Deutsch: a. Einsilbig: der, den, dem, des, die, das; ein. b. Zweisilbig: eine, einen, eines, einem, einer. (6) Personalpronomina des heutigen Deutsch: a. Einsilbig: ich, mich, mir; du, dich, dir; er, ihn, ihm; sie, ihr; es; wir, uns; ihr, euch. b. Zweisilbig: Dativ Plural ihnen; sämtliche Genitivformen im Singular und Plural: meiner, deiner, seiner, ihrer, unser, euer. Der in (5)–(6) veranschaulichte Tatbestand dürfte im Großen und Ganzen im Sinne einer Markiertheitskorrelation zu interpretieren sein, der zufolge vergleichsweise unmarkierte Formen einsilbig, vergleichsweise markierte Formen aber zweisilbig sind. Im Hinblick auf die Artikelformen in (5) bedeutet dies zunächst, dass der definite Artikel im Verhältnis zum indefiniten Artikel insofern unmarkiert ist, als sein Vorkommen kein indefinites Gegenstück voraussetzt (vgl. z.B. das Altgriechische und das heutige Isländisch), während das synchrone Vorkommen eines indefiniten Artikels das Vorhandensein eines definiten Artikels impliziert. Dementsprechend geht diachro-
Zum Gebrauch des deutschen Identitätspronomens ‘derselbe’ 17
nisch die Herausbildung eines definiten Artikels regelmäßig der des indefiniten Artikels voraus. (Im Deutschen fehlen noch manifeste Pluralformen des indefiniten Artikels.) Auch im Bereich der Personalpronomina liegt eine Markiertheitskorrelation vor. Der Genitiv der Personalpronomina ist im gegenwärtigen Kasussystem generell eine markierte Kategorie. Anders als der Genitiv von Substantiven findet er nur ausnahmsweise als Possessivattribut Verwendung, und zwar nur in ‘gemischten’ Personalpronomen-Quantor-Konstruktionen vom Typ unser aller Held (vgl. dazu Askedal 1997). Des weiteren ist der Genitiv im heutigen Deutsch als Objekt gewisser Verben und Adjektive (sie harrten seiner, sie waren seiner eingedenk) überhaupt ein valenzmäßiger Sonderfall (vgl. z.B. Zifonun et al. 1997: 1090ff.; Eroms 2000: 193f.). Was den Kategorienbestand insgesamt betrifft, scheint es angebracht, den Dativ als im Verhältnis zu Nominativ und Akkusativ markierten Kasus, und den Plural als im Verhältnis zum Singular markierten Numerus einzustufen. Daraus folgt, dass der Dativ Plural eine deutlich markierte Kategorienkombination ist, was der Zweisilbigkeit dieser Form des Personalpronomens entspricht. Personalpronomina sind demnach prototypischerweise einsilbig in verhältnismäßig unmarkierten Kategorienkombinationen und zweisilbig in einer geringen Zahl markierterer Kategorien(kombinationen) (Genitiv überhaupt, Dativ Plural). Sie können demnach in eine relativ unmarkierte einsilbige und eine relativ markierte zweisilbige Subgruppe unterteilt werden. Demgegenüber ist das Demonstrativpronomen dieser fast durchgehend zweisilbig. Die einzige einsilbige Form ist Neutr. Sg. Nom./Akk. dies als Alternative zu dieses. Dies erweist sich freilich wegen der schwachen Flexion eines darauf folgenden Adjektivs als ‘verkappt zweisilbig’; vgl. dies alte Haus neben dieses alte Haus vs. *dies altes Haus (im Unterschied zu ein altes Haus; vgl. Bech 1963: 184). Das Identitätspronomen derselbe ist durchgehend dreisilbig. Die hier nachgewiesenen Markiertheits- bzw. Ikonizitätsbeziehungen können wie in Tabelle 1 zusammengefasst werden.1 Die in der Tabelle vorgestellten Zahlen legen eine Markiertheitsskala der beteiligten Artikelwörter und Pronomina im Sinne des ‘Prinzips der Konstruktionsikonizität’ nahe, dem zufolge zwischen einem Mehr an semanti1. Den Zahlenangaben in Tabelle 1 liegt die in traditionellen Darstellungen der deutschen Grammatik angenommenen morphologischen Oppositionsmöglichkeiten – ohne Berücksichtigung von Synkretismen – zugrunde, d.h. es wird mit drei Genera und vier Kasus im Singular und mit vier Kasus im Plural gerechnet.
18 John Ole Askedal Tabelle 1: Prozentuale Verteilung der Silbenzahl in einigen deutschen Artikel- und Pronominalformen Def. Art. 1-s.: 16 100%
Õ > ) $ L K R I, úK 2 B LK ±O 3
K ± ®
4.923 3.966 1.945 1.695 1.490 1.331 1.101 1.090 0.840 0.764 0.749 0.639 0.622 0.619 0.525 0.517 0.483 0.477 0.463 0.440 0.406 0.395 0.383 0.372 0.369 0.366 0.358 0.349 0.335 0.332 0.309 0.301 0.301 0.295 0.290 0.287 0.281 0.275 0.267 0.261 0.258 0.253 0.247 0.230 0.230 0.224 0.221 0.219 0.213 0.210 0.210 0.207 0.202 0.202 0.199
Statistical parameters of Ivan Franko’s novel Perekhresni stežky 47
References Altmann, Gabriel 1980 “Prolegomena to Menzerath’s law”. In: Glottometrika 2. Bochum: Brockmeyer, 1–10. Anthologie 2004 Anthologie de la littérature ukrainienne du XIème au XXème siècle. Paris / Kyiv: Société Scientifique Ševˇcenko en Europe. Buk, Solomija; Rovenchak, Andrij 2004 “Rank–Frequency Analysis for Functional Style Corpora of Ukrainian”. In: Journal of Quantitative Linguistics, 11; 161–171. FDL ˇ n.d. Castotnyj slovar’ jazyka M. Yu. Lermontova. [Frequency dictionary of Lermontov’s language]. [http://feb-web.ru/feb/lermenc/ lre-lfd/lre/lre-7172.htm] Franko, Ivan 1900 Perekhresni stežky. [Cross-paths]. Lviv: Vydanje red. “Lïteraturnonaukovoho vistnyka”. 1956 “Razdorož’e.” [Crossroads]. In: Ivan Franko, Soˇcinenija v 10-ti tomach. T. 5. [Works in 10 volumes]. Vol. 5. Moskva: Goslitizdat, 161– 486. 1976–86 Zibrannja tvoriv u 50-ty tomakh. [Collected works in 50 volumes]. Kyiv: Naukova Dumka. 1979 “Perekhresni stežky.” [Cross-paths]. In: Ivan Franko, Zibrannja tvoriv u 50-ty tomakh. T. 20. [ Collected works in 50 volumes]. Vol. 20. Kyiv: Naukova Dumka, 173–459. 1989 Les Chemins croisés: Roman / Trad. de l’ukrainien par G. Maxymovytch. Kyiv: Dnipro. Grzybek, Peter; Altmann, Gabriel 2002 “Oscillation in the frequency-length relationship”. In: Glottometrics, 5; 97–107. Holovatch, Yurii; Palchykov, Vasyl 2005 “Lys Mykyta and Zipf Law”. In: Statistical Physics 2005: Modern Problems and New Applications, August 28–30, 2005, Lviv, Ukraine: Book of abstracts; 136. [http://www.physics.wups.lviv.ua/Franko/lys.pdf] Köhler, Reinhard 2002 “Power Law Models in Linguistics: Hungarian”. In: Glottometrics, 5; 51–61. Kovalyk, Ivan; Ošˇcypko, Iryna; Poljuha, Levko 1990 Leksyka poetyˇcnych tvoriv Ivana Franka. [= Vocabulary of Ivan Franko’s poetry]. Lviv: Lviv University Press.
48 Solomija Buk and Andrij Rovenchak Luk’janjuk, Kornij M. (Ed.) 2004 Jurij Fedjkovyˇc: Slovopokažˇcyk movy tvoriv pysjmennyka. [Jurij Fedkovyˇc: Word-index of the writer’s language]. Chernivtsi: Misto. PWN 2005 Korpus J˛ezyka Polskiego Wydawnictwa Naukowego PWN. [Polish language corpus of scientific publishing house PWN]. [http://korpus. pwn.pl/stslow_en.php] Ulysses n.d. Ulysses by James Joyce. A Ranked Concordance. [http://www.doc. ic.ac.uk/~rac101/concord/texts/ulysses/ulysses_ranked. html] Vašˇcenko, Vasylj (Ed.) 1964 Slovnyk movy Ševˇcenka. T. 1 & 2. [Vocabulary of Shevchenko’s language. Vols. 1 & 2]. Kyiv: Naukova dumka. Žovtobrjukh, Mykhajlo (Ed.) 1978–79 Slovnyk movy H. Kvitky-Osnov’janenka. [Vocabulary of Kvitka-Osnov’janenko’s language]. Kharkiv: Kharkiv University Press.
Some remarks on the generalized Hermite and generalized Gegenbauer probability distributions and their applications Mario Cortina-Borja
1
Introduction
The generalized Hermite (GHD) and generalized Gegenbauer (GGD) distributions can be constructed as functions of sums of correlated Poisson random variables (rv) and have been used to model epidemiological and linguistic data (Gupta & Jain (1974), Plunkett & Jain (1975), Medhi & Borah (1984), Pustet & Altmann (2005)). Both distributions owe their names to the orthogonal polynomials related to their probability generating functions (pgf) and belong to the class of extended generalized hypergeometric probability distributions (EGHPD) proposed by Kumar (2002). A bibliography for both distributions appears in Wimmer & Altmann (1999). Charalambides (2005) derives GHD and GGD probability mass functions from classic urn models as follows: a) suppose that the number U of urns has a Poisson distribution and the number of balls in each urn follows a binomial distribution with parameters (p, m), then the resulting compounded distribution for the sum of balls extracted follows a GHD; b) suppose that U has a negative binomial distribution and that the number of balls in each urn has a binomial distribution as above, then the compound distribution for the sum of balls is GGD. Rather than exploiting this combinatorial approach we work within the framework of EGHPD. In the next section we discuss GHD and GGD and obtain recursive expressions for the latter’s probability mass functions and expressions for its moments. In sections 3 and 4 we discuss maximum likelihood estimation procedures and a graphical method to assess goodness of fit based on the empirical pgf. In section 5 we model two data sets, and in the final section we briefly discuss possible research directions for formal goodness of fit tests based on the pgf and for regression models for the moments of these discrete probability distributions.
50 Mario Cortina-Borja
2
The generalized Hermite and generalized Gegenbauer distributions
2.1
The class of extended generalized hypergeometric probability distributions (EGHPD)
The generalized hypergeometric function ∞ (α ) · · · (α ) k 1 k p k λ , F ( α ; β ; λ) = q p ∑ →− − → k=0 (β1 )k · · · (βq )k k!
where (α)k = α (α + 1) · · · (α + k − 1) = Γ(α + k) Γ(α) is known as the Pochhammer symbol or ascending factorial, has many applications in mathematical statistics, especially regarding long-tailed, highly skewed, and possibly multimodal discrete distributions. The family of generalized hypergeometric probability distributions (GHPD) was introduced by Kemp (1968) and is based on the pgf q Fp ( α ; β ; θ t) , Q(t) = →− − → q Fp ( α ; β ; θ) →− − → where the αs and βs and θ are appropriate real parameters, and the domain of Q(t) is an open interval containing the region of convergence of q Fp ( α ; β ; θ). →− − → There are many examples of discrete distributions whose pgf can be written as Q (t) including the binomial, Poisson, negative binomial (NB), hyperPoisson, generalized Waring, Yule, and hypergeometric. Kumar (2002) introduced an extended version (EGHPD) of this class of distributions based on the pgf of a random sum of N discrete rv’s {Xn , n ≥ 1}, + each having pgf G(t) = λt + (1 − λ)t m , m ∈ Z , where N is a non-negative integer-valued rv with pgf Q (t) in which θ ∈ Θ. The parameter
space Θ is an open interval of either (−∞, 0) or (0, ∞), θ = θ1 + θ2 , λ = θ1 θ, and θ1 > 0, θ2 ≥ 0, or θ1 < 0, θ2 < 0, depending on Θ. Let U0 ≡ 0,Un ≡ ∑ni=0 Xi , n ≥ 1 and UN = ∑∞ n=0 Un I[N=n] , where I[N=n] is an indicator function of the event [N = n]. Kumar (2002) showed that the pgf of UN is m q Fp ( α ; β ; θ1 t + θ2t ) , P(t) = Q {G(t)} = →− − → q Fp ( α ; β θ) → − − → and that any distribution whose pgf is P (t) is a member of the EGHPD class; note that if m = 1, and/or θ2 = 0 then the distribution is also in the GHPD family.
The generalized Hermite and generalized Gegenbauer probability distributions 51
2.2
The generalized Hermite distribution
This general approach can be applied to obtain the results of Kemp & Kemp (1965) who proved that the Hermite distribution can be seen as either a) the Poisson-Binomial distribution in a contagious model with the number of clusters following a Poisson distribution and the number of individuals in each cluster having a binomial distribution with m = 2, or b) the distribution of the sum of two related Poisson rv’s (X1 + Z, X2 + Z) where X1 , X2 , Z are independent Poisson rv’s. The generalized Hermite distribution (GHD) was developed by Gupta & Jain (1974) and can be obtained as a Poisson-Binomial distribution with general parameter m for the number of individuals in the cluster, or as the sum of m correlated Poisson rv’s (X1 + Z, . . . , Xm + Z); its pgf is R(t) =
0 F0 (; ; θ1 t + θ2t
m)
0 F0 (; ; θ1 + θ2 )
= exp [θ1 (t − 1) + θ2 (t m − 1)] ,
where θ1 ≥ 0, θ2 ≥ 0, m ∈ Z+ , (the case θ2 = 0 corresponds to the Poisson distribution) and probability mass function (pmf ) given by: ⎧ ⎪ ⎨ exp (−θ1 − θ2 ) n/ m P(N = n) = gn (θ1 , θ2 , m) = ⎪ ⎩ exp (−θ1 − θ2 ) ∑ j=0
if n = 0 n−m j
j
θ1 θ2 j! Γ(n−m j+1)
if n > 0 ;
the Hermite distribution corresponds to m = 2. The first four central moments of GHD were obtained by Gupta & Jain (1974) and are: µ1 = θ1 + m θ2 ,
2 µ2 = θ1 + m θ2 , µ3 = θ1 + m3 θ2 , and µ4 = θ1 + m4 θ2 + 3 θ1 + m2 θ2 . Kemp & Kemp (1965) discussed maximum likelihood (ML) estimators for the Hermite distribution.
2.3
The generalized Gegenbauer distribution
The GGD can be defined as a mix-parameter transformation allowing the mean number of clusters in a generalized Hermite set-up (the Poisson part of the Poisson-Binomial law) to vary according to a gamma distribution in the population (Plunkett & Jain, 1975). The Gegenbauer distribution is obtained
52 Mario Cortina-Borja
with m = 2, and corresponds to the parameter-mix of a Hermite distribution with an extra, gamma-distributed, parameter. Medhi & Borah (1984) and Wimmer & Altmann (1995) characterised GGD in terms of the Gegenbauer distribution with an extra parameter in the positive integers. Its pgf can be written as m 1 F0 (ρ; ; θ1 t + θ2 t ) = (1 − θ1 − θ2 )ρ (1 − θ1 t − θ2 t m )−ρ , P(t) = 1 F0 (ρ; ; θ1 + θ2 ) where θ1 ≥ 0, θ2 ≥ 0, θ1 + θ2 < 1, ρ > 0, and m ∈ Z+ . The case m = 2 can be traced back to McKendrick’s (1926) seminal paper on mathematical epidemiology. The case θ2 = 0 corresponds to the NB distribution; GHD with parameters α1 , α2 corresponds to the limit case when ρ → ∞, θ1 → ∞, θ2 → 0 assuming that ρ θ1 = α1 , ρ θ2 = α2 . The GGD and the GHD have a relation analogous to the one between the NB and the Poisson distributions in the sense that GGD and NB are obtained by mixing the original discrete distribution with a gamma distribution. Wimmer & Altmann (1995) provided the correct formula for the GGD pmf: P(N = n) =gn (ρ, θ1 , θ2 , m) ⎧ ρ ⎪ ⎨ (1 − θ1 − θ2 ) n/ j j m (ρ)(n−(m−1) j) θn−m = θ2 1 ρ ⎪ ⎩ (1 − θ1 − θ2 ) ∑ j! Γ(n − m j + 1)
if n = 0 if n > 0
j=0
as well as formulae for the pmf and the pgf for the zero-truncated Gegenbauer distribution. We now apply the results of Kumar (2002) to obtain a recurrent expression for the pmf of the GGD, as well as its first four central moments. Let Di = ρ + i, Ri = 1 F0 (ρ + i; ; θ1 + θ2 ) = (1 − θ1 − θ2 )−(ρ+i) ; then: (n + 1) gn+1 (ρ, θ1 , θ2 , m) = D0 R−1 0 R1 {θ1 gn (ρ + 1, θ1 , θ2 , m)+ m θ2 gn−m+1 (ρ + 1, θ1 , θ2 , m)} Let µr = E (N r ), denote the raw moment of order r and µr = E ((N − µ1 ) ) the central moment of order r of an integer-valued rv N; then a general recursive expression for distributions in EGHPD is: µ r+1 (ρ, θ1 , θ2 , m) = D0 R−1 0 R1 × r
r ∑ j θ1 + m j+1 θ2 µ r− j (ρ + 1, θ1, θ2 , m) j=0
The generalized Hermite and generalized Gegenbauer probability distributions 53
and the expected value and the central moments of orders 2, 3, and 4 of GGD can be written as: µ1 =
µ2 =
µ3 =
ρ {θ1 + m θ2 } (1 − θ1 − θ2 )
ρ (1 − θ1 − θ2 )2
θ1 + m2 θ2 − (m − 1)2 θ1 θ2
ρ
θ1 + θ21 + m3 θ2 (1 − θ2 ) (1 − θ1 − θ2 ) − (m − 2) (m + 1) (2 m − 1) θ1 θ2 3
−(m − 1)3 θ21 θ2 − (m − 1)3 θ2 2 µ4 =
ρ 4
θ1 + θ31 + m4 θ2 (1 + θ2 (4 + 3 ρ + θ2 ) )
(1 − θ1 − θ2 )
θ1 θ2 + −3 + m 4 + m −3 m2 + 4 m + 6 ρ
4 4 3 2 2 − (m − 1) θ1 θ2 + θ1 (4 + 3 ρ) + θ1 θ2 3 m − 8 m31 6 m − 8 + 6 ρ (m − 1)2 + (m − 1)4 (4 + 3 ρ) θ21 θ2
+θ1 θ22 3 − 8 m 1 + (m − 2) m2 − 6 (m − 1)2 m2 ρ − (m − 1)4
The Altmann Fitter software (2002) allows estimating the parameters of GHD and the Gegenbauer distribution using several rapid estimation procedures based on the moment equations. Plunkett & Jain (1975) obtained estimators for the parameters of the Gegenbauer distribution based on the method of moments. Medhi & Borah (1984) provided estimation procedures for the parameters of the GGD based on its first three and two moments.
3
Estimation procedures
It is straightforward to obtain ML estimates using numerical minimization routines. We use the function NMinimize available in MATHEMATICA 5.0 (Wolfram, 2003) which optimizes functions of several parameters subject to linear and/or non linear constraints; we follow the approach introduced by Currie (1995) and take advantage of the MATHSTATICA package (Rose &
54 Mario Cortina-Borja
Smith, 2002). The information matrix is I = −∂2 ∂θ2 , where denotes the loglikelihood function, and θ is the vector of parameters; the variance covariance matrix of the ML estimates is obtained inverting the information matrix
ˆ i.e. Σˆ = I| ˆ −1 . For the GHD and GGD evaluated at the ML estimator θ, θ=θ automatic optimization routines may fail to satisfy the restriction m ∈ Z+ , and it is simpler to estimate this parameter using profile likelihood. It allows us to obtain asymptotic standard errors for all parameters but m. The correlation matrix for the ML estimator indicates the degree of curvature of the likelihood surface: correlations near to 1 in absolute value indicate that I has a high conditional number and yield unstable ML estimators; this may imply the need for reparametrizations closer to being orthogonal in order to improve the properties of the ML estimator. We have fitted GHD and GGD by ML to many real and artificial datasets using MATHEMATICA without any numerical problems for the GHD, though we found evidence that ML estimates of GGD have orthogonality problems, especially for small m. ML estimation also provides likelihood-based ways of comparing goodness-of-fit in models which are not necessarily nested. We used the Akaike information criterion (AIC) defined as minus the maximized loglikelihood plus twice the number of parameters in the model; in general, the smaller the AIC, the better the fit. Note that the AIC penalises the number of parameters of the model by a factor of 2.
4
Graphical assessment of goodness of fit
A graphical exploratory procedure described by Nakamura & Pérez-Abreu (1993) is available using the empirical probability generating function (epgf) defined for count data X1 , . . . , Xn as: φn (t) = 1n ∑ni=1 t Xi . This is a suitable statistical transform to construct methods for inferences about discrete
distributions since φn (t) is a natural estimator of the pgf φ(t) = E t X . Let Y (t) = ln φ(t) and Yn (t) = ln φn (t). For the Poisson distribution Y (t) it is a straight line with slope and intercept equal to λ and −λ thus providing a convenient benchmark for assessing deviations from this simplest model. GHD and GGD give Y (t) = θ1 (t − 1) + θ2 (t m − 1), and Y (t) = ρ ln (1 − θ1 − θ2 ) − ρ ln (1 − θ1 t − θ2 t m ), which are both convex (as are all distributions derived as generalized Poisson distributions). By plotting Yn (t) and Y (t)|θ=θˆ against t in the interval [0,1] we could graphically assess deviations between the fitted model and the data. Note that for t > 1 the existence of Y (t) cannot be
The generalized Hermite and generalized Gegenbauer probability distributions 55
guaranteed; however, Nakamura & Pérez-Abreu (1993) recommend exploring the range t > 1 which should exaggerate differences between observed and expected values. This graphical procedure is also useful for determining whether or not an observation is an outlier comparing the resulting curve for Yn (t) excluding the potential outlier with the original epgf.
5
Examples
5.1
Frequency of bacteria in leucocytes
McKendrick (1926) gives the frequencies of bacteria in leucocytes from a phagocytic experiment. These data were analysed by Kemp & Kemp (1965) who obtained ML estimators for the Hermite distribution, though did not present the standard errors and correlation coefficient. The AIC’s for Poisson, NB, Hermite, and Gegenbauer models are: 179.9, 149.4, 122.3, 124.3; thus we would prefer the GHD model with m = 2. We fitted GHD and GGD with other values for m without improving these results. The ML estimates (and their standard errors) are θˆ 1 = 0.0135 (0.0068), and θˆ 2 = 0.0932 (0.0176); the estimated correlation between both estimators is −0.0052. Table 1 shows the observed ( fi ) and expected frequencies from the Hermite model. Table 1: Observed and expected frequencies – McKendrick’s bacteria data (i = number of bacteria) GHD m=2 m=3
GGD m=2 m=3
i
fi
Poisson
Neg Bin
0 1 2 3 4 5+ AIC
269 4 26 0 1 0
245.619 49.124 4.912 0.327 0.016 0.002 179.8
268.157 18.532 6.704 3.079 1.156 2.372 149.4
269.623 3.644 25.165 0.339 1.174 0.055 124.3
247.119 47.167 4.501 1.038 0.157 0.018 160.3
269.623 3.644 25.165 0.34 1.174 0.054 122.3
263.368 16.67 6.16 4.754 2.894 6.154 182.3
χ2 p
195.055 lg n + 2 appearing > (|γ| + 1)/(|γ| − lg n − 2) times. The final grammar G minimizes locally the length of a naive binary representation of G rather than |G| itself. In Table 1, we resume basic statistics of the texts and grammars. Parameters of (B)LMG clearly distinguish the original novels from the unigram
82 Łukasz D˛ebowski Table 1: Statistics of the texts and their grammars Nτ
plain text Vτ NW VW
Gulliver’s Travels original 561k 30 unigram 561k 30 W pustyni i w puszczy original 616k 39 unigram 616k 39
L>1
LMG |G| Vν
P
BLMG |G| Vν
P
105k 8k 105k 51k
54 11
147k 32k 0.86 272k 54k 0.71
326k 11k 0.550 558k 135 0.005
101k 18k 100k 56k
69 9
176k 38k 0.84 316k 61k 0.69
394k 10k 0.470 615k 99 0.003
Key: 1k = 1000; Nτ (Vτ ) = number of character tokens (types); NW (VW ) = number of word tokens (types) meant as space-to-space strings; L>1 = length of the longest repeated string; |G| = length of the grammar; Vν = number of nonterminal types; P = parsing rate, i.e., P = 1 − N0τ /Nτ , where N0τ = number of terminal tokens in the start rule of the grammar.
model texts. Parsing rate P and nonterminal vocabulary Vν of BLMG are about 100 times smaller for the random texts than for the nonrandom ones. In contrast, LMG nonterminal vocabulary for unigram texts is almost twice as big as for the novels. This is not puzzling in view of (8) since entropy rate for the latter texts is less. In Figures 1 and 2, we present the graphs of functions supposed to satisfy Menzerath’s and Zipf’s laws in the ideal case. In the upper plots, C(B)LMG (n) are computed for (B)LMG as defined in the previous section. The baseline is |γi | ∑ 1 i:γi has n disjoint vowel clusters , Cideal (n) = · n 1 ∑
(9)
i:γi has n disjoint vowel clusters
where γi are consecutive space-to-space strings in the input text. Vowel clusters are defined operationally as clusters of letters ieaouyęąó. The lower plots in Figures 1 and 2 depict rank-frequency distributions. Value fideal (r) is the frequency of r-th ranked space-to-space string appearing in the input text. Value f(B)LMG (r) is the frequency of r-th ranked nonterminal appearing in string γ, where A0 → γ is the start rule of (B)LMG. The respective plots for Gulliver’s Travels and W pustyni i w puszczy are similar. There is, however, a huge difference between the plots for LMG and BLMG. CLMG (n) for the original novels does not decrease. Other functions C. . . (n) decrease for n < 8 – they obey Menzerath’s law in that range.
Menzerath’s law for the smallest grammars 83 5
100000
original, C=Cideal unigram, C=Cideal original, C=CLMG unigram, C=CLMG original, C=CBLMG unigram, C=CBLMG
4.5 4
10000
3.5
1000 f(r)
C(n)
original, f=fideal unigram, f=fideal original, f=fLMG unigram, f=fLMG original, f=fBLMG unigram, f=fBLMG
3
100
2.5 2
10 1.5
1
1 0
5
10
15
20
25
30
1
35
10
100
1000
10000
100000
r
n
(a) Menzerath
(b) Zipf
Figure 1: Menzerath’s and Zipf’s laws for Gulliver’s Travels
As for the rank-frequency distributions, the tail of fideal (r) exhibits ZipfMandelbrot power-law. In this case, random texts do not differ from nonrandom ones, as noticed by Miller (1957). On the other hand, functions fLMG (r) and fBLMG (r) do not exhibit the power-law in the tail. The plot of fLMG (r) in log-log scale is close to a straight line in the middle range for the original novels but it consists of two large humps for the unigram texts. One lesson from the presented data is that even simple statistics of two locally smallest gram5
100000
original, C=Cideal unigram, C=Cideal original, C=CLMG unigram, C=CLMG original, C=CBLMG unigram, C=CBLMG
4.5 4
10000
3.5
1000 f(r)
C(n)
original, f=fideal unigram, f=fideal original, f=fLMG unigram, f=fLMG original, f=fBLMG unigram, f=fBLMG
3
100
2.5 2
10 1.5
1
1 0
5
10
15
20 n
25
(a) Menzerath
30
35
40
1
10
100
1000 r
(b) Zipf
Figure 2: Menzerath’s and Zipf’s laws for W pustyni i w puszczy
10000
100000
84 Łukasz D˛ebowski
mars for the same text can be very different. On the other hand, variation of the statistics across different texts is much smaller. It would be good to check the same statistics for more texts and more kinds of admissible grammars.
References Altmann, Gabriel 1980 “Prolegomena to Menzerath’s law”. In: Glottometrika 2. Bochum: Brockmeyer, 1–10. Altmann, Gabriel; Schwibbe, Michael H. 1989 Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms. D˛ebowski, Łukasz 2005 “On Hilberg’s law and its links with Guiraud’s law”. Preprint. Galton, Francis 1886 “Regression Towards Mediocrity in Hereditary Stature”. In: Journal of the Anthropological Institute, 15; 246–263. Guiraud, Pierre 1954 Les caractères statistiques du vocabulaire. Paris: Presses Universitaires de France. Herdan, Gustav 1964 Quantitative Linguistics. London: Butterworths. Hilberg, Wolfgang 1990 “Der bekannte Grenzwert der redundanzfreien Information in Texten – eine Fehlinterpretation der Shannonschen Experimente?” In: Frequenz, 44; 243–248. Kieffer, John C.; Yang, Enhui 2000 “Grammar-based codes: A new class of universal lossless source codes”. In: IEEE Transactions on Information Theory, 46; 737–754. Köhler, Reinhard 1989 “Das Menzerathsche Gesetz als Resultat des Sprachverarbeitungsechanismus”. In: Altmann, Gabriel; Schwibbe, Michael H. (Hg.), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms, 108–112. Kuraszkiewicz, Władysław; Łukaszewicz, Józef 1951 “Ilo´sc´ ró˙znych wyrazów w zale˙zno´sci od długo´sci tekstu”. In: Pami˛etnik Literacki, 42(1); 168–182. Mandelbrot, Benoit 1953 “An informational theory of the statistical structure of languages”. In: Jackson, Willis (Ed.), Communication Theory. London: Butterworth, 486–502.
Menzerath’s law for the smallest grammars 85 de Marcken, Carl G. 1996 Unsupervised Language Acquisition. Dissertation, Massachusetts Institute of Technology. Menzerath, Paul 1928 “Über einige phonetische Probleme”. In: Actes du premier Congres international de linguistes. Leiden: Sijthoff. Miller, George 1957 “Some effects of intermittent silence”. In: American Journal of Psychology, 70; 311–314. Moses, Charikar; Lehman, Eric; Lehman, April; Liu, Ding; Panigrahy, Rina; Prabhakaran, Manoj; Sahai, Amit; Shelat, Ami 2005 “The Smallest Grammar Problem”. In: IEEE Transactions on Information Theory, 51; 2554–2576. Nevill-Manning, Craig G. 1996 Inferring Sequential Structure. Dissertation, University of Waikato. Shannon, Claude 1950 “Prediction and entropy of printed English”. In: Bell System Technical Journal, 30; 50–64. Simon, Herbert A. 1955 “On a class of skew distribution functions”. In: Biometrika, 42; 425– 440. Wolff, J. Gerard 1980 “Language acquisition and the discovery of phrase structure”. In: Language and Speech, 23; 255–269.
Romanian online dialect atlas: Data capture and presentation Sheila Embleton, Dorin Uritescu, and Eric Wheeler
1
Overview of RODA
The Romanian language is key to the scholarly understanding of the development of Romance languages, which has prompted the detailed study of Romanian dialects, including the critical dialects of the Crisana region in north-west Romania by Stan & Uritescu (1996, 2003, etc.; see also Uritescu 1984a, 1984b). To make the Crisana data more accessible to scholars, and to permit the application of new techniques in dialectology – such as the multidimensional scaling technique of Embleton & Wheeler (1997a,b, 2000), see below –, we have undertaken the task of digitizing the data in the hardcopy atlas. With the support of the Social Sciences and Humanities Research Council of Canada, we have engaged people, mostly graduate students in Canada and Romania, to enter the data from the maps into text files. When the data entry is complete (including the appropriate quality assessment and editing), the data will be posted to the internet for others to access. In this respect, the RODA project is similar to work done on Finnish by Embleton & Wheeler (1997b, 2000, etc.), in which a hardcopy dialect atlas of Finland has been successfully digitized. The two cases are not equivalent because of the differing formats of the hardcopy data, but valuable lessons from the one have been applied to the other. With access to the data, it is hoped that scholars generally will be able to apply information technology to the data, to better present the data and understand its significance. In a hardcopy atlas, all the information is there, in some sense. However, the relevant information for any particular user could be spread over hundreds of maps. The comparison of relationships between one map and another is difficult, and the simultaneous comparison of many maps is very difficult. Hardcopy atlases can and do provide interpretive maps (i.e. maps that pull together sets of data), but only the author/editor gets to select the relationships that are shown (and even that may be constrained by issues of size and cost).
88 Sheila Embleton, Dorin Uritescu, and Eric Wheeler
For a general user to explore freely chosen selections of data, it is essential that the data be digitized and accessible to subsequent processing.
2
Standard vs. custom tools
Bird & Simons (2003) make the point that standard tools (such as databases and presentation software) have advantages over custom-created tools. Standard tools already have been designed, built, tested and distributed, and as a general rule, will be much more cost-effective than custom built tools. Of particular interest is the fact that standard tools also imply a consistency in format and portability of data over all the projects that use the same tools. The point is a good one: data that is only accessible via custom software which is no longer available or supported (the frequent fate of custom software) is even less accessible than the original hardcopy data. However, we found that in practice the situation was not so simple. First, the standard tools do not always remain standard. For example, the easy-to-use database of 1995 (when we were working on English and Finnish dialects) would not be the tool of choice in 2005. But a commitment to any database would have embedded our data in a format that would at least make access difficult by any means other than the database programme. Instead, we adopted the solution of putting our data in “flat files”, i.e. files containing text written in standard characters, with little or no presumed structure. While it may require either a standard tool (such as a spreadsheet programme) or a custom-developed programme (such as the Java applications we use for our own work) to access the data, nonetheless the data is accessible to a wide audience by means of a wide range of tools, and will remain so as tools change. We keep the data format simple and general. Second, and more significant for the Romanian project, was the nonstandard nature of the data we were trying to capture: Most English-language documents can be represented accurately using ASCII characters, (a coding scheme that is now standard on computers and represents 0-9, a-z, A-Z and some punctuation). ASCII will also handle additional accented characters found in (say) French (for example È or é) but not all the characters in Greek or Cyrillic or many other languages, and not the notation of the IPA (International Phonetic Association). Unicode (a newer coding standard, that embeds ASCII, see: www.unicode. org) does give a standard encoding for all these characters and more (includ-
Romanian online dialect atlas 89
ing unassigned codings that we could use for our own purposes). In principle, this was part of what we needed. In practice, however, the fonts that were available to us (including a Unicode-specific font) did not print out the corresponding characters for all the codings that we wanted to use. Even if we had found or made a font that worked on our system, we still had no confidence in what our users would have available to them, or how far they would go to configure their systems to serve our needs. In short, ASCII seems to work in a wide range of contexts but is clearly not “big” enough; Unicode was “big” but did not seem to work (at least not in a simple way for what we wanted). However, our data needs went well beyond what either ASCII or Unicode promised. We are trying to capture a dialectologist’s field notation. It includes: – Symbols that are not in ASCII or Unicode – Accents that come above, below, before or after the main character, including multiple accents per character, and even multiple accents per position around the character – Symbols (characters with accents) that come above other (possible accented) symbols (we call this super-positioning, in contrast to the positioning of accents). In other words, we needed new symbols, and we needed to arrange them in other than a simple left-to-right order.
Figure 1: A sample of the data in the hardcopy atlas
Clearly, we needed some non-standard conventions before we could use standard tools. In the end, we elected to represent each of the 100 basic characters in the hardcopy transcription system with a pair of ASCII characters: the first an alphabetic character (a-z) and the second a digit (0-9) so that, for example, the several varieties of “a” used in the original transcription became a0, a1, a2, etc. . . .
90 Sheila Embleton, Dorin Uritescu, and Eric Wheeler
Figure 2: The transcription “keyboard” with distinguishing features highlighted
Punctuation, accents and other needed symbols were given unused codes (a9, b9, etc.). The data is stored simply in an ordinary text file. By consistently using two characters for each represented character, we make the processing of the data easier than if we had done a mixture of single and double characters. Thus, we also use two character codes to indicate the position of accents, and the super-positioning of one accented symbol over another. Such codes are not very readable, so we also needed a way to display the coded text as it appeared in the hardcopy book. To do this, we made the entire alphabet into an image (a .jpg file; see Figure 2) and displayed parts of the image, on or above the base line, as needed. For the data entry people, we highlighted distinguishing features of each character to lessen the chance of selecting the wrong character. Data entry was done on a custom-made “virtual” keyboard, in which the user mouse-clicked on the “key” to be pressed. We began with a preference for simple representations and standard tools, but were forced by the nature of our undertaking to use a non-standard (but still simple) data representation and a non-standard presentation.
Romanian online dialect atlas 91
Figure 3: The RODA editor keyboard
3
State of the project
As of November 2005, we have done the initial data entry on 397 out of 407 maps, and have twice proof read all these maps. We expect to complete the data entry and proof-reading shortly. We had to make several adjustments in the process. – We realized, for instance, that sometimes the quality of the printed map was not very good and the reading of it was not very easy. Although there are not more than 10 maps of this kind in the two volumes, for these we had to finally compare the hardcopy atlas with the original manuscript used in the preparation of the hardcopy atlas. – Later, it became clear that the manuscript was necessary for other aspects too. The most important of these was assigning the forms to specific points (locations). Although the cartographer followed quite clear rules/constraints in writing the forms at their specific location (for instance, whenever possible, write it at the upper right side of the number symbol of the location, etc.), in some areas the network of localities is so tight that, when dealing with long or multiple forms, assigning them to a certain location by the reader becomes sometimes challenging (although it is never entirely ambiguous). In such cases too, the only way
92 Sheila Embleton, Dorin Uritescu, and Eric Wheeler
we could make sure that our assistants did not make errors was to use the manuscript. Consequently, we decided to use both the hardcopy and the manuscript. The people who entered the data used the hardcopy atlas as the basis, but compared it consistently with the manuscript. This manuscript consists of slips of paper with the original phonetic transcription, on which the forms selected for publication are marked in a specific way by the authors. There is one slip for each location and for each question (see http://cglrr.tibiscus.ro), so assigning the answer to locations is quite straightforward. This decision had another direct consequence on our work. Indeed, the manuscript was available only in Romania (at the Centre for Romanian and Romance Geolinguistics, University ‘Tibiscus’, Timisoara). We then had to scan and send the manuscript to Canada, a time consuming operation, since the slips had to be manipulated by hand for scanning (they are too small for automatic operation). The information from the first volume was entered in Romania, at the above-mentioned centre, and from the second one in Canada. For this, we first scanned the manuscript of the second volume. – For the first volume, our research assistants scanned and sent only the manuscript for the locations where their decision concerning the digitized form was in some way influenced by comparing the hardcopy with the manuscript. – In order to make it easier to compare the hardcopy and the manuscript, we used the following procedure: in Romania, where the manuscript had to be manipulated by hand, entering of the data was done by two teams of two persons each; in Canada, where the scanned data could be seen on the screen, the people who enter the data use two computers (one of which allows him or her to have easy and continuous access to the manuscript). Finally, using the manuscript proved to be helpful for other aspects, not noticed initially. One of the most important aspects was related to identifying the standard form of some symbols or diacritics, which proved to be difficult sometimes. This might make you smile, as specialists, but we can assure you that our assistants did not smile, even with our lengthy training and close supervision. The difficulty of this identification is created by the fact that the hardcopy atlas had several cartographers, whose writing was not identical. Even more, the same cartographer, depending on his or her ‘état d’esprit’, has different ways of representing the same graphic sign. Take for instance the diacritic representing a semivowel in the Romanian phonetic transcrip-
Romanian online dialect atlas 93
tion: a semicircle open downwards underneath the vowel. However, on some maps or at some locations in the hardcopy, this diacritic comes out as a triangle. Since this triangle, a sort of “accent circonflexe”, does exist among the diacritics, but with a different value, it is quite easy for research assistants to confuse the two.
4
Quality control
In order to ensure the unity of the entered data, we had to formulate clear instructions for entering and creating the necessary symbols. Here are two examples related to the phonetic symbols: – First, no basic symbol (i.e., already coded as a unitary symbol) could be recreated by combining other basic symbols with diacritics. – Second, we established a unitary order for the diacritics (upper vs. under, for example) and functions. Quality checks on the work have been done regularly by one of the authors of the atlas (Uritescu), by a process of examining the entered data against the hardcopy source, and, where necessary (see above), against the manuscript, independently of the data entry process. In order to ensure good quality, we have done two proof readings: – One by the persons that entered the data (for each map, but not immediately after entering the data of the map); – A second proof reading, by a different person (just one, very reliable and experienced person, for all the maps). In both cases, the procedure was the same as in the case of the quality check. Before the second proof reading, we have found at the beginning (for the first, say, 5 maps) around 8 errors per map, but later on, not more than an average of 3–4. However, we did not find any errors after the second proof reading. This is probably related to the fact that one of the authors of the atlas (Uritescu) was consulted continually, directly or by e-mail, by both the data entry people and the research assistant in charge of the second (final) proof reading. The analysis in this paper is based on 289 maps that result from the second, final proof reading. Consequently, we consider the data quite reliable. We should however notice here that one of the advantages of an Information Technology (IT) approach to the data is that a method of analysis can be encapsulated in a computer programme (or set of programmes) making it
94 Sheila Embleton, Dorin Uritescu, and Eric Wheeler
relatively easy to repeat as often as necessary, for example, on a subsequent, improved set of data. The repeatability of the IT approach also becomes apparent in the preparation for the data entry. We created not only a specialized image-based font, but also an editor with a virtual keyboard (the data entry person clicks with a mouse on a display of a 270-key “keyboard”) to do the entry. The analysis of what characters were needed was made much easier by the careful editorial work already done in the hardcopy atlas. However, no such analysis is ever perfect. For example, we did not expect to need the character ‘x’ because it was not part of the linguist’s transcription system, and it is not a frequent character in the standard Romanian alphabet – but there was one location that had a name with ’x’ in it. It was relatively easy to add ‘x’ to our font (as a kind of ‘y’ with coding ‘y1’ instead of ‘y0’) and continue with the work. The lesson (learned several times over) is that the scheme for digitizing data needs to have “room” built into it for changes after the work has begun. No one will ever anticipate all the needs in advance. The power of the IT approach is that it allows for such dynamic changes in approach, because all the rules are digital, and can be reprogrammed and re-run as needed.
5
Application of new techniques
The multidimensional scaling (MDS) approach of Embleton and Wheeler (1997a,b, 2000) has been applied to both English and Finnish data to show a single map that expresses the degrees of closeness among a large set of dialect locations – relationships that otherwise might be represented only by a large series of maps. The technique first measures the distance between each pair of towns (i.e. locations where data was gathered) by the number of features (i.e. dialect maps, if each map covers just one feature) on which the towns differ. The resulting distance matrix can be seen as positioning each town in a high-dimensional space (for n + 1 towns, in general the space has n dimensions) in which each town is the right distance from every other town to reflect its dialect difference. Of course, it is difficult to visualize anything more than 2 or 3 dimensions, and so multidimensional scaling is used to project the high-dimensional space down to 2 dimensions in a way that preserves as much of the higher-dimensional relationships as possible (think of the 2dimensional shadow of your higher-dimensional hand; if your hand is held in
Romanian online dialect atlas 95
the right way, the shadow is a fairly good representation of the hand itself). With the English and Finnish data, it was possible to create maps (based solely on dialect information, without any geographic data) that for the most part had a clear geographic component. In the case of England, northern, middle, and southern dialects spread out across the dialect map as expected, with the notable exception that south-western dialects were closer to London dialects than geography alone would suggest (not a surprise to anyone). In the case of Finland, there is a well recognized split between eastern and western dialects, with the northern dialects bridging the gap. The dialect map showed this clearly. What is more, there are clear cases where one geographic area spreads out into neighbouring geographic areas. Not surprisingly, a dialect region centred on Cambridge England had similarities with several more distant areas, so that its representation on the dialect map overlapped several other adjacent regions. Similar situations are seen in Finland. For Romanian, we have been able to run the MDS methods on most of the data. The completeness of the data is not a concern, because we can easily repeat our methods on more complete (or more accurate) data sets when those sets are ready, with little additional effort. However, our current exploration of the data does not have to wait for that perfection of data. We can move in parallel with the data entry part of the project. Figure 4 represents a preliminary map of the Romanian locations, highlighting some subsets of locations (in groups of 25, ranging from the south to the north of Crisana) and showing that geographic locations do group linguistically as well. More analyses will come later.
Figure 4: A sample MDS map applied to preliminary Romanian data
96 Sheila Embleton, Dorin Uritescu, and Eric Wheeler
As we continue our work, we hope to make the Romanian data available interactively, so that users can define the groups they want to see, and then see them in either a geographic or a linguistic map. Further, it should be possible to access individual items of data from the map directly. In this way, we hope that users of our online atlas will be able to define what they want to see of the data. There is still considerable work left before the interactive interface to the data is ready.
References Bird, Steven; Simons, Gary 2003 “Seven Dimensions of Portability for Language Documentation and Description”. In: Language, 79(3); 557–582. Embleton, Sheila; Uritescu, Dorin; Wheeler, Eric 2002 Online Romanian Dialect Atlas. [http://vpacademic.yorku.ca/ romanian] 2004 “Romanian Online Dialect Atlas. An exploration into the management of high volumes of complex knowledge in the social sciences and humanities”. In: Journal of Quantitative Linguistics, 11(3); 183–192. Embleton, Sheila; Wheeler, Eric 1997a “Multidimensional Scaling and the SED Data”. In: Viereck, Wolfgang; Ramisch, Heinrich (Eds.), The Computer Developed Linguistic Atlas of England 2. Tübingen: Niemeyer, 5–11. 1997b “Finnish Dialect Atlas for Quantitative Studies”. In: Journal of Quantitative Linguistics, 4; 99–102. 2000 “Computerized Dialect Atlas of Finnish: Dealing with Ambiguity”. In: Journal of Quantitative Linguistics, 7; 227–231. Stan, Ionel; Uritescu, Dorin 1996 Noul Atlas lingvistic român. Crisana. Vol. I. Bucharest: Academic Press. 2003 Noul Atlas lingvistic român. Crisana. Vol. II. Bucharest: Academic Press. Uritescu, Dorin 1984 “Graiul din Tara Oasului”. In: Rusu, Valeriu (Ed.), Tratat de dialectologie româneasc˘a. Craiova: Scrisul Românesc, 390–399. 1984 “Subdialectul crisean”. In: Rusu, Valeriu (Ed.), Tratat de dialectologie româneasc˘a. Craiova: Scrisul Românesc, 284–320.
Die Ausdrucksmittel des Aspekts der tschechischen Verben Jeehyeon Eom
Es ist durchaus wahr, daß man den Namen Gabriel Altmann in erster Linie mit der quantitativen Linguistik in Zusammenhang bringen mag. Hierfür verantwortlich sind seine zahllosen Errungenschaften in dem genannten Wissenschaftsbereich wie beispielsweise das Menzerath-Altmann-Gesetz u.v.m. Daß er sein Forscherleben als Indonesist und Japanologe begonnen hat, ist nun kein Geheimnis mehr, das bis vor kurzem nur in seinem engsten Kreise bekannt gewesen ist. Es gibt aber immer noch nicht viele, die über seine Tätigkeit als Tschechischlehrer Bescheid wissen. Unter seinen Tschechischschülern, deren genaue Gesamtzahl ein wohl gehütetes Geheimnis bleiben muß, befinden sich zwei Koreaner. Der eine war sein Zimmergenosse in dem Wohnheim in Prag, und der andere ist ein Slavist, der als sein Schüler “zweiter Ordnung”, d.h. als ein Schüler seines Schülers an mehrmaligem “Emailunterricht” des Tschechischen teilnehmen durfte. Der vorliegende Artikel soll unter anderem dazu dienen, dem Autor des Artikels einen hochkonkurrierten Platz in der “Ruhmeshalle der Tschechischschüler Gabriel Altmanns” zu verschaffen und diesen zu festigen.
1
Ausdrucksseite des Aspekts – Markierungsmittel
In der vorliegenden Arbeit wollen wir die Ausdrucksmittel des tschechischen Aspekts zusammenfassend darstellen. Dabei stützen wir uns auf mehrere in deutscher Sprache verfaßte Grammatiken des Tschechischen. Dies sind die Tschechische Grammatik (Fischer 1954), die Grammatik der tschechischen Sprache (Bauernöppel et al. 1960) und die Tschechische Grammatik (Vintr 1994). In unserer Arbeit folgen wir der Vorgehensweise, die in Le verbe russe von Marguerite Guiraud-Weber (2004) für das Russische entwickelt und verwendet worden ist.
98 Jeehyeon Eom
1.1
Einfache Verben
In den genannten Grammatiken, aber auch in anderen Aufsätzen, sind leider keine Aussagen zu finden, die sich explizit über den Zusammenhang zwischen einfachen Verben1 im Tschechischen und dem Aspekt äußern. Daher wäre es eine ziemlich gewagte Vermutung, an dieser Stelle zu sagen, daß, wie wir es im Russischen gewöhnt sind, die meisten einfachen Verben imperfektiv seien, denn weder haben wir eine Aussage, auf die wir uns stützen könnten, noch haben wir alle einfachen Verben im Tschechischen nach ihrem Aspekt untersucht. Der fragliche Zusammenhang läßt sich jedoch aus anderen Aussagen ableiten, ohne daß wir hierfür alle einfachen Verben im Tschechischen selbst untersuchen müssen, was wiederum sowohl praktisch als auch theoretisch nicht möglich ist. Um die Gültigkeit der Aussage zu überprüfen, daß die meisten einfachen tschechischen Verben imperfektiv seien, formulieren wir zuerst die Aussage um. Sie kann zu folgendem logischen Bedingungssatz umformuliert werden: Bis auf wenige Ausnahmen gilt für tschechische Verben die Bedingung “wenn einfaches Verb, dann imperfektiv”.
Diese Bedingung läßt sich symbolisch wie folgt darstellen: E → IPF (E = einfaches Verb, IPF = imperfektiv).
Die Wahrheitswerte dieser Bedingung sehen dann wie folgt aus (W = wahr, F = falsch): Tabelle 1: Wahrheitswerte der Bedingung E → IPF E
IPF
E → IPF
W W F F
W F W F
W F W W
1. Einfache Verben sind nach Guiraud-Webers Definition die Verben vom Typus Wurzel+Suffix oder Wurzel+Themavokal+Suffix (Guiraud-Weber 2004). In unserer Arbeit wird jedoch dieser Terminus für die Bezeichnung von nichtpräfigierten Verben gebraucht. Dies geht auf Vintr (1994) zurück.
Die Ausdrucksmittel des Aspekts der tschechischen Verben 99
Die Bedingung E → IPF gilt für die tschechischen Verben, wenn zwischen den einfachen bzw. den nichteinfachen tschechischen Verben und deren Aspekt der dem Wahrheitswert der genannten Bedingung entsprechende Zusammenhang besteht. Insgesamt sind vier Typen von Verbformen denkbar: einfache imperfektive Verbform, einfache perfektive (nichtimperfektive) Verbform, präfigierte (nichteinfache) imperfektive Verbform und präfigierte perfektive Verbform. Der Zusammenhang zwischen den tschechischen einfachen bzw. den nichteinfachen Verben und deren Aspekt wird dadurch überprüft, daß wir das Vorhandensein bzw. das Nichtvorhandensein der vier genannten denkbaren Verbformtypen im Tschechischen überprüfen. Wenn im Tschechischen nur die einfache perfektive Verbform bis auf wenige Ausnahmen fehlt, dann können wir annehmen, daß für das Tschechische unsere Bedingung “wenn einfaches Verb, dann imperfektiv” gültig ist und folglich auch unsere ursprüngliche Aussage, daß die meisten einfachen tschechischen Verben imperfektiv seien. Das Vorhandensein bzw. das Nichtvorhandensein des jeweiligen Verbformtyps läßt sich mehr oder weniger leicht aus den verschiedenen Aussagen in den Grammatiken erschließen. Alle von uns untersuchten Grammatiken geben an, daß perfektive Verben durch Präfigierung imperfektiver Verben entstehen und daß durch Suffigierung dieser perfektiven Verben deren sekundäres Imperfektivpaar gebildet wird – vgl. Bauernöppel et al. (1960: 168ff.), Comrie (1993: 481f.), Fischer (1954: 64ff.)., Vintr (1994: 57, 2001: 66f.). In den folgenden Abschnitten werden die Perfektivierung und die Imperfektivierung näher in Betracht gezogen. Für unsere Überlegung reicht vorerst die Tatsache aus, daß durch die genannten Methoden der Perfektiv- bzw. der Imperfektivbildung im Tschechischen die Verbformen des Typs nichteinfach-perfektiv und die des Typs nichteinfach-imperfektiv zahlreich vorhanden sein müssen. Bei Vintr findet man die Aussage, daß durch das Anfügen von Präfixen an einfache imperfektive Verben perfektive Verben entstünden (Vintr 1994: 57). Es gibt also die Möglichkeit, perfektive Verben zu bilden, und diese Möglichkeit besteht darin, daß die einfachen imperfektiven Verben den Ausgangspunkt und die Präfigierung die Bildungsmethode darstellen. Das Bestehen dieses Verfahrens setzt also die Existenz einfacher imperfektiver Verben im Tschechischen als Ausgangspunkt voraus. Auf Grund der Aussage von Vintr können wir nun davon ausgehen, daß im Tschechischen einfache imperfektive Verben in beträchtlicher Zahl vorhanden sind. Der letzte Hinweis, der uns unsere Überlegung abschließen läßt, ist bei Comrie zu finden. In dem von ihm herausgegebenen Buch The Slavonic Lan-
100 Jeehyeon Eom
guages, und zwar in dem Kapitel, in dem das Tschechisch beschrieben wird – dieses Kapitel ist von David Short verfaßt –, heißt es, daß einfache Perfektiva wie dát ‚geben‘, koupit ‚kaufen‘ selten seien (Comrie 1993: 481). Durch diese Aussage wird die Existenz von Verbformen des Typs einfach-perfektiv im Tschechischen auf wenige Verben beschränkt. Zu den Verben dieses Typs gehören außer den von Short genannten beiden Verben noch hodit ‚werfen‘, chopit se ‚ergreifen‘, chytit ‚fassen‘, nechat ‚lassen‘, ochoˇcit ‚zähmen‘, pustit ‚lassen‘, rˇíci ‚sagen‘, skoˇcit ‚springen‘, slíbit ‚versprechen‘, stanovit ‚bestimmen‘, stát se ‚werden, geschehen‘, urˇcit ‚bestimmen‘, vrátit ‚zurückgeben‘. Hiermit ist unser Überprüfungsprozess abgeschlossen, und weil im Tschechischen nur der Verbformtyp einfach-perfektiv weitgehend fehlt, läßt sich unsere Bedingung “wenn einfach, dann imperfektiv” für das Tschechische als im wesentlichen gültig erklären. Dies ermöglicht es uns wiederum, zu sagen, daß einfache Verben im Tschechischen in den allermeisten Fällen imperfektiv sind. Als Beispiel nennen wir einige davon: jet ‚fahren‘ loupit ‚rauben‘ vést ‚führen‘ hrát ‚spielen‘ kopat ‚graben‘ platit ‚zahlen‘.
1.2
psát ‚schreiben‘ krýt ‚decken‘ stavit ‚stellen‘ rušit ‚stören‘ nést ‚tragen‘
jít ‚gehen‘ rˇídit ‚leiten‘ pít ‚trinken‘ bít ‚schlagen‘ radit ‚raten‘
Präfigierung als Mittel der Perfektivierung
Vintrs These, daß durch das Anfügen von Präfixen an einfache imperfektive Verben perfektive Verben entstünden, haben wir schon im vorigen Abschnitt erwähnt. Dabei betont Vintr, daß es sich hier nicht um reine Aspektbildung handele, sondern um eine Lexembildung, denn hierbei ändere sich die Wortbedeutung: mýt ‚waschen‘ – u-mýt ‚abwaschen‘, dˇelat ‚tun‘ – vy-dˇelat ‚verdienen‘, znát ‚kennen‘ – po-znat ‚kennenlernen‘ (Vintr 1994: 57, Vintr 2001: 66f.). Wir können und müssen aber hier die Frage der Aspektbedeutung sowie die Frage nach dem Aspektpaar außer Acht lassen, denn wir beschäftigen uns ausschließlich mit der Ausdrucksseite des Aspekts, und die genannten Fragen befinden sich außerhalb unseres Interesses. So bleibt nur die Tatsache, daß von einfachen Verben durch Präfigierung gebildete Verben perfektiv sind:
Die Ausdrucksmittel des Aspekts der tschechischen Verben 101
dojet ‚hinfahren‘ oloupit ‚berauben‘ podˇrídit ‚unterordnen‘ pˇripít ‚zutrinken‘ sbít ‚zusammenschlagen‘ vydat ‚herausgeben‘ zaplatit ‚bezahlen‘.
napsat ‚aufschreiben‘ odejít ‚weggehen‘ pˇrevést ‚überführen‘ prohrat ‚verspielen‘ ukopat ‚abgraben‘ vznést ‚erheben‘
nadejít ‚zuvorkommen‘ pokrýt ‚bedecken‘ pˇredstavit ‚vorstellen‘ rozrušit ‚zerstören‘ vpustit ‚einlassen‘ zradit ‚verraten‘
Wie bei den Verben vpustit und vydat zu sehen ist, werden nicht nur einfache imperfektive Verben präfigiert, sondern auch einfache perfektive. Jedoch verändert sich dadurch das Faktum nicht, daß das Ergebnis der Präfigierung, d. h. das durch Präfigierung entstandene Verb perfektiv ist, weil die beiden genannten Verben immer noch perfektiv sind. Anders gesagt, Präfixe, die an einfache Verben angefügt werden, sind unabhängig vom Aspekt des ursprünglichen Verbs das Kennzeichen dafür, daß die gegebenen Verben perfektiv sind. Short zufolge bilden allerdings Präfixe, die einen langen Vokal enthalten, keinen perfektiven Aspekt: závidˇet ‚beneiden‘, nenávidˇet ‚hassen‘, pˇríslušet ‚gehören‘. Ebenfalls nicht perfektivbildend ist das seltene Präfix pa-: padˇelat ‚fälschen‘ (Comrie 1993: 482).
1.3
Suffix -nou-
Wie im Russischen, so existiert auch im Tschechischen das Suffix -nou- für die Bezeichnung der Semelfaktivität. Verben mit diesem Suffix sind sämtlich perfektiv, daher dient dieses Suffix auch als Kennzeichnung des perfektiven Aspekts: bodnout ‚(einmal) stechen‘ rˇíznout se ‚sich (einmal) schneiden‘
hvízdnout ‚(einmal) pfeifen‘
Selbstverständlich ist auch im Tschechischen das semelfaktive Suffix -nouvom homonymen inchoativen Suffix zu unterscheiden: vgl. schnout ‚trocknen‘. Dieses Verb ist imperfektiv. Mit anderen Worten, nicht das Suffix -nouüberhaupt, sondern nur das semelfaktive Suffix -nou- kennzeichnet den perfektiven Aspekt.
102 Jeehyeon Eom
1.4
Suffigierung als Mittel der Imperfektivierung
Wenn es in Grammatiken heißt, daß durch Suffigierung der perfektiven Verbformen der imperfektive Aspekt gebildet werde, ist dies ein Beleg dafür, daß die dazu verwendeten Suffixe am Verb den imperfektiven Aspekt markieren. Es handelt sich hier vor allem um die sekundäre Imperfektivierung, die Vintr zufolge im Vergleich zu der derivativen, also kein echtes Aspektpaar bildenden Perfektivbildung ein echtes Aspektpaar bildet (Vintr 2001: 66f.). Wie schon erwähnt, ist für unsere Aufgabe die Frage nach dem Aspektpaar nicht wichtig. Uns interessiert nur die Tatsache, daß die Verbformen, die mit bestimmten Suffixen versehen sind, allesamt imperfektiv sind. Ferner ist zu beachten, daß nicht nur die präfigierten Perfektiva, sondern auch die einfachen Perfektiva durch Suffigierung einen imperfektiven Partner bilden: umýt – umývat ‚abwaschen‘ dopsat – dopisovat ‚fertigschreiben‘
vydˇelat – vydˇelávat ‚verdienen‘ pˇrivázat – pˇrivazovat ‚anbinden‘,
aber auch dát – dávat ochoˇcit – ochoˇcovat urˇcit – urˇcovat.
koupit – kupovat slíbit – slibovat
nechat – nechávat stát se – stávat se
Die den imperfektiven Aspekt kennzeichnenden Suffixe sind ´-va-, ívaund -ova-, wobei das Suffix ´-va- an Verben mit vokalischem Stammauslaut gefügt wird: odkrýt – odkrývat ‚auf-, entdecken‘ pˇrispˇet – pˇrispívat ‚beitragen‘ sešít – sešívat ‚zusammennähen‘ umýt – umývat ‚abwaschen‘ užít – užívat ‚benutzen‘ dostat – dostávat ‚erhalten‘ dodat – dodávat ‚hinzufügen, liefern‘ poznat – poznávat ‚erkennen‘ shledat – shledávat ‚feststellen, zusammensuchen‘. Das Suffix ´-va- besitzt, wie an den oben angeführten Beispielen zu sehen ist, offensichtlich die Fähigkeit, den Stammvokal quantitativ zu verändern. Das Zeichen “´-” soll dies anzeigen. Das Suffix -íva- kommt nur bei Verben vor, die in ihrer ursprünglichen Infinitivform den Themavokal -ˇe- bzw. -e- aufweisen: dohoˇret – dohoˇrívat ‚zu Ende brennen‘ zardˇet se – zardívat se ‚erröten‘
prodlet – prodlívat ‚verweilen‘ zaznˇet – zaznívat ‚erklingen‘.
Die Ausdrucksmittel des Aspekts der tschechischen Verben 103
Das Suffix -íva- könnte auch als eine Unterklasse des Suffixes ´-va- klassifiziert werden, die außer der quantitativen Veränderung des Stammvokals auch eine qualitative Veränderung des Themavokals -ˇe- bzw. -e- verursacht. Die Frage der Suffixklassifikation werden wir aber hier nicht aufgreifen. Wenn wir hier behaupten, daß das Suffix -íva- nur bei Verben mit dem Themavokal -ˇe- bzw. -e- vorkommt, bedeutet dies allerdings nicht, daß alle Verben dieser Klasse nur mit dem Suffix -íva- verbunden werden. Es gibt auch Verben dieser Klasse, die mit dem Suffix -ova- zusammengesetzt werden: umlˇcet – umlˇcovat ‚zum Schweigen bringen‘ vyhovˇet – vyhovovat ‚entsprechen, willfahren‘ zadržet – zadržovat ‚anhalten‘. Das Suffix -ova- fungiert außer in den eben genannten Fällen bei vielen weiteren Verben als Kennzeichen des imperfektiven Aspekts: navrhnout – navrhovat ‚vorschlagen‘ obsáhnout – obsahovat ‚umfassen‘ vykˇriknout – vykˇrikovat ‚ausrufen
odhadnout – odhadovat ‚abschätzen‘ rozhodnout – rozhodovat ‚entscheiden‘
doporuˇcit – doporuˇcovat ‚empfehlen‘ obhájit – obhajovat ‚verteidigen‘ ohlási – ohlašovat ‚anmelden‘
nakoupit – nakupovat ‚einkaufen‘ odcizit – odcizovat ‚entfremden‘ pocítit – pocit’ovat ‚empfinden‘
požádat – požadovat ‚ersuchen‘ zakázat – zakazovat ‚verbieten‘
ukázat – ukazovat ‚zeigen‘
Eine Besonderheit stellt im Tschechischen das Suffix ´-va- dar, das Vintr zufolge, an imperfektive Verben angefügt, die “Usualität” bezeichnet (Vintr 2001: 68): prosit ‚bitten‘ – prosívat ‚üblicherweise bitten‘ trpˇet ‚leiden‘ – trpívat ‚üblicherweise leiden‘ dˇelat ‚machen‘ – dˇelávat ‚üblicherweise machen‘ dávat ‚geben‘ – dávávat ‚üblicherweise geben‘ brát ‚nehmen‘ – brávat ‚üblicherweise nehmen‘ mazat ‚schmieren‘ – mazávat ‚üblicherweise schmieren‘ kupovat ‚kaufen‘ – kupovávat ‚üblicherweise kaufen‘.
104 Jeehyeon Eom
Dieses Suffix ist von dem imperfektivierenden Suffix ´-va- zu unterscheiden, denn im Unterschied zu letzterem wird das Usualitätssuffix ´-va- nur an imperfektive Verbformen angefügt, verursacht damit keine Aspektänderung und besitzt die ausgesprochen klare Bedeutung der Usualität. Es ist aber an dieser Stelle leider nicht festzustellen, ob die Bedeutung der Usualität einzig und allein diesem Suffix zuzusprechen ist. Es sei hier nur festgehalten, daß das Tschechische ein Ausdrucksmittel hat, das speziell für die Bedeutung der Usualität zuständig ist.
1.5
Suppletiva
Das Tschechische besitzt auch suppletive Aspektpaare, wie z. B. vzít – brát ‚nehmen‘, položit – klást ‚legen‘. Aber auch hier ist zu beobachten, daß die Imperfektiva einfache Verben und die Perfektiva – zumindest in historischer Hinsicht – präfigiert sind.
1.6
Bi-Aspektualia
Einige tschechische Verben sind bi-aspektual: jmenovat ‚nennen‘, zvˇestovat ‚verkünd(ig)en‘, vˇenovat ‚widmen‘, obˇetovat ‚opfern‘, žluknout ‚ranzig werden‘, pravit ‚sagen‘. Zu den bi-aspektualen Verben gehören außerdem zahlreiche Lehnwörter auf -ovat: absolvovat ‚absolvieren‘, absorbovat ‚absorbieren‘, havarovat ‚eine Havarie od. Panne haben‘, telefonovat ‚telefonieren‘, programovat ‚programmieren‘, organizovat ‚organisieren‘ usw. Die letztere Gruppe wird jedoch heute vermehrt als Imperfektiva eingestuft – wohl wegen der äußeren Ähnlichkeit mit der Imperfektivform durch das imperfektivbildende Suffix -ova- –, und als Perfektiva werden die präfigierte Formen verwendet: zatelefonovat, naprogramovat, zorganizovat usw. (Vintr 2001: 67f.).
2
Aspekterkennungsalgorithmus
Die Beschreibung des Aspekts im Hinblick auf seine Bildung, wie sie in den von uns genutzten Grammatiken zu finden ist, ist eine sehr komplizierte Aufgabe, denn eine mehr oder weniger vollständige Aufzählung der beobachteten Typen der Aspektbildung stellt schließlich nur den Ausgangspunkt zur
Die Ausdrucksmittel des Aspekts der tschechischen Verben 105
umfangreicheren Beschreibung des Phänomens dar. So müssen neben dem Zusammenstellen der verschiedenen Bildungstypen des perfektiven und des imperfektiven Aspekts, wie z.B. der Perfektivierung durch die verschiedenen Präfixe oder die unterschiedlichen Suffixe für die Imperfektivbildung, auch die Fragen systematisch geklärt werden, welche Verben bei der Aspektbildung das eine oder das andere Mittel verwenden und warum. Nähern wir uns dem Aspekt vom Standpunkt des passiven Erkennens und versuchen, wie wir es im vorigen Abschnitt gemacht haben, die Ausdrucksmittel des Aspekts, wie sie im Tschechischen besteht, einfach zusammenzustellen, dann erhalten wir eine relativ schlichte Beschreibung der formalen Ausdrucksmittel des Aspekts. Diese Beschreibung sieht wie folgt aus: 1. Einfache Verben sind imperfektiv; 2. von einfachen Verben durch Präfigierung gebildete Verben sind perfektiv; 3. Verben mit dem semelfaktiven Suffix -nou- sind perfektiv; 4. durch ´-va-, -íva- oder -ova- suffigierte Verben sind imperfektiv. Trotz der schlichten Beschreibung des Ausdrucksmittels des Aspekts ist ein Denkmodell, das die Bildung des Aspekts, d.h. das aktive Verwenden der Aspektformen veranschaulichen mag, nur sehr schwer vorstellbar. Bei den oben in der Beschreibung aufgezählten vier Punkten handelt es sich aber immerhin um die formalen Ausdrucksmittel des Aspekts. Mit anderen Worten, die vier aufgezählten Mittel fungieren als formal explizite Markierungen des Aspekts. Der Aspekt eines Verbs wird also von einem Sprecher bzw. einem Schreiber des Tschechischen durch die genannten Mittel formal markiert, und ein Hörer bzw. Leser erkennt den Aspekt des gegebenen Verbs auf Grund dieser formalen Markierungen. Ein Modell der Aspektbildung ist vor allem deshalb nicht vorstellbar, weil man den Mechanismus nicht kennt, nach dem ein gegebenes Verb gemäß einem gegebenen Typus sein Aspektpaar bildet. Die fraglichen Mittel selbst wurden aber durch vier Kriterien erfaßt, und an den Verben sollen sie folglich bis auf wenige Ausnahmen als formale Markierung existent sein. Es ist daher möglich, ein algorithmisches Modell zu konstruieren, das an einem gegebenen Verb gemäß den genannten formalen Markierungen dessen Aspekt erkennt – selbstverständlich einwandfreie Identifizierungen der jeweils benutzten Mittel vorausgesetzt. Geschieht die Aspekterkennung der Muttersprachler tatsächlich nach formalen Markierungsmitteln, die wir in der vorliegenden Abhandlung gemäß den in Betracht gezogenen Grammatiken in vier Punkten zusammengefaßt haben, so soll das
106 Jeehyeon Eom
Modell den Vorgang der Aspekterkennung der Muttersprachler algorithmisch abbilden können. Abbildung 1 zeigt einen solchen Algorithmus.
Abbildung 1: Aspekterkennungsalgorithmus
Wenn man einem Verb begegnet, überprüft man, ob es präfigiert ist. Wenn es nicht präfigiert ist, überprüft man als nächstes, ob es das Suffix -nou- mit der semelfaktiven Bedeutung hat. Wenn das Verb nicht das Suffix -nou- hat, dann ist es imperfektiv, und man interpretiert es mit einer entsprechenden Bedeutung: nést ‚tragen‘ prosit ‚bitten‘ milovat ‚lieben‘.
bít ‚schlagen‘ kreslit ‚zeichnen‘
umˇet ‚können‘ volat ‚rufen‘
slyšet ‚hören‘ dˇelat ‚machen‘
Wenn aber bei dem zweiten Schritt an dem Verb das semelfaktive Suffix -nougefunden wird, ist das Verb perfektiv, und zwar mit der zusätzlichen, jedoch unterschiedlich stark hervorgehobenen Bedeutung der Semelfaktivität: hnout ‚(einmal) rühren‘ klesnout ‚(einmal) fallen‘ padnout ‚(einmal) fallen‘ sednout si ‚sich (einmal) setzen‘.
chytnout ‚(einmal) fassen‘ lehnout si ‚sich (einmal) legen‘ sáhnout ‚(einmal) greifen‘
Die Ausdrucksmittel des Aspekts der tschechischen Verben 107
Wenn bei dem ersten Schritt das Vorhandensein eines Präfixes festgestellt wird, dann überprüft man als nächstes die Suffixe. Wenn keines von den drei genannten Suffixen vorkommt, ist das Verb perfektiv: nadbˇehnout ‚jemanden überholen‘ oslepnout ‚blind werden‘ podepsat ‚unterschreiben‘ pˇreložit ‚übersetzen‘ spadnout ‚herunterfallen‘
obstát ‚bestehen‘ popsat ‚beschreiben‘ prohrát ‚verspielen‘ rozbít ‚zerschlagen‘ vepsat ‚hineinschreiben‘.
Wenn sich aber eines von den genannten Suffixen an dem Verb befindet, ist das Verb imperfektiv: dopˇrávat ‚gönnen‘ zamotávat ‚verwirren‘ pˇrelívat ‚übergießen‘ prodlívat ‚verweilen‘ obhajovat ‚verteidigen‘ zkracovat ‚verkürzen‘.
poptávat se ‚nachfragen‘ odívat ‚ankleiden‘ pˇrispívat ‚beitragen‘ zardívat se ‚erröten‘ pˇrekraˇcovat ‚überschreiten‘
vyˇckávat ‚abwarten‘ ohnívat ‚abfaulen‘ dotlívat ‚ausglimmen‘ zatmívat ‚verfinstern‘ rozsuzovat ‚urteilen‘
Auch bei den suppletiven Verbpaaren, zumindest bei den oben als Beispiel genannten, läßt sich deren Aspekt – diachron – mit Hilfe unseres Algorithmus identifizieren: brát (ipf.) – vz-ít (pf.)
3
klást (ipf.) – po-ložit (pf.)
Schlußbemerkung
Unser Algorithmus stellt eine extrem vereinfachte Version dar, da in ihm keine Ausnahme und sogar kein Fall berücksichtig worden ist, der irgendwie von unserer schlichten Beschreibung abweicht, wie z.B. die einfachen Perfektiva sowie die bi-aspektualen Verben. Abgesehen von den Ausnahmen, die sowieso keine systematische Erfassung bzw. Beschreibung erlauben, lassen sich auch die hier noch nicht berücksichtigten Fälle, wie wir glauben, durch Ergänzung mit einem zusätzlichen Verfahren in unseren Algorithmus integrieren. So können wir z.B. an einer geeigneten Stelle eine Subroutine einbauen, die die bi-aspektualen Verben behandeln soll, oder eine Subroutine für die Bearbeitung der Aspektmarkierung durch die Stammänderung. Der
108 Jeehyeon Eom
Erweiterungsgrad kann je nach Bedarf variieren, wobei unser Algorithmus als Grundlage weiterhin bestehen bleibt. Die Aspektbeschreibungen in den von uns ausgewerteten deutschsprachigen Grammatiken des Tschechischen richten sich meistens an dem Ziel aus, die Art und Weise der perfektiven bzw. der imperfektiven Aspektbildung und deren Bedeutung zu klären, indem die Bildungstypen je nach dem Präfix und der Deklinationsklasse mit Beispielen aufgezählt werden. Daher wirken die Beschreibungen in den genannten Grammatiken recht unübersichtlich, oder es fehlt gar eine mehr oder weniger ausführliche Beschreibung der Ausdrucksseite des Aspekts, und es wird vielmehr das Hauptgewicht auf die Erklärung der Aspektbedeutung gelegt. In dieser Arbeit haben wir versucht, auf der Basis der Materialien in den Grammatiken die formalen Ausdrucksmittel des Aspekts zusammenzustellen. Dann haben wir versucht, den Aspekterkennungsprozess in einem einfachen Algorithmus darzustellen, dem unsere Beschreibung der Ausdrucksseite des Aspekts zugrundeliegt. Wie schon mehrmals erwähnt, haben wir uns bei unserem Vorgehen nur auf die Ausdrucksseite des untersuchten Phänomens konzentriert und die Aspektbedeutung und die Frage des Aspektpaars völlig unangetastet gelassen. Unser Algorithmus ist aus dem Versuch heraus zustande gekommen, den Aspekt systematisch zu erfassen. Trotz der möglichen Erweiterbarkeit wagen wir allerdings nicht, zu behaupten, daß er alle tschechischen Verben abdeckt. Jedoch glauben wir, daß unser Versuch nicht völlig sinnlos ist, insofern der Algorithmus für die Identifizierung der meisten, vor allem der produktiv gebildeten Verben gut geeignet ist. Weiter bleibt auch die Frage offen, ob überhaupt und wie weit sich dieser Algorithmus auch bei den anderen slavischen Sprachen anwenden läßt.
Literatur Bauernöppel, Josef; Fritsch, Hermann 1960 Grammatik der tschechischen Sprache. Berlin: Volk und Wissen. Comrie, Bernard 1963 The Slavonic Languages. London: Routledge. Fischer, Rudolf 1954 Tschechische Grammatik. Halle/Saale: Niemeyer. Guiraud-Weber, Marguerite 2004 Le verbe russe: temps et aspect. Aix-en-Provence: L’Université de Provence.
Die Ausdrucksmittel des Aspekts der tschechischen Verben 109 Slavíˇcková, Eleonara (Hg.) 1975 Retrográdní morfematický slovník cˇ eštiny. Praha: Academie. Svozilavá, Nada (Hg.) 1997 Slovesa pro praxi. Praha: Academia. Tˇešitelová, Marie (Hg.) 1986 Retrográdní slovník souˇcasné cˇ eštiny. Praha: Academia. Vintr, Josef 1994 Tschechische Grammatik. Wien: ÖBV, Pädagogischer Verlag. 2001 Das Tschechische. München: Sagner.
Quantifying the MULTEXT-East morphosyntactic resources Tomaž Erjavec
1
Introduction
The mid-nineties saw – to a large extent via EU projects – the rapid development of multilingual language resources and standards for human language technologies. However, while the development of resources, tools, and standards was well on its way for EU languages, there were no comparable efforts for the languages of Central and Eastern Europe. The MULTEXT -East project (Multilingual Text Tools and Corpora for Eastern and Central European Languages) was a spin-off of the EU MULTEXT project (Ide & Véronis 1994); MULTEXT -East ran from ’95 to ’97 and developed standardised language resources for six CEE languages (Dimitrova et al. 1998), as well as for English, the ‘hub’ language of the project. The main results of the project were lexical resources and an annotated multilingual corpus, where the most important resource turned out to be the parallel corpus – heavily annotated with structural and linguistic information – which consists of Orwell’s novel 1984 in the English original, and translations, as illustrated in Table 1. Table 1: 1984: The Party slogans in the orignal and MULTEXT-East translations English
War is peace
Freedom is slavery
Ignorance is strength
Bulgarian Croatian Czech Estonian Hungarian Latvian Lithuanian Romanian Russian Serbian Slovene
Войната е мир Rat je mir Válka je mír Sõda on rahu A háború: béke Karš ir miers Karas – tai taika R˘azboiul este pace Война – это мир Rat je mir Vojna je mir
Свободата е робство Sloboda je ropstvo Svoboda je otroctví Vabadus on orjus A szabadság: szolgaság Briviba ir verdziba Laisve – tai vergija Libertatea este sclavie Свобода – это рабство Sloboda je ropstvo Svoboda je suženjstvo
Невежеството е сила Neznanje je moˇc Nevˇedomost je síla Teadmatus on jõud A tudatlanság: er˝o Nezinašana ir speks Nežinomas – tai jega Ignoran¸ta este putere Незнание – сила Neznanje je moˇc Nevednost je moˇc
112 Tomaž Erjavec
In addition to delivering resources per se, one of the focuses of the MUL was also to adopt and promote encoding standardisation. On the one hand, the morpholexical annotations and lexica were developed in the formalism of the EAGLES -based (Eagles 1996) specifications for six Western European languages of the MULTEXT project (Ide & Véronis 1994). On the other hand, all the corpus resources were encoded in XML according to the Text Encoding Initiative Guidelines (Sperberg-McQueen & Burnard 2002). One of the objectives of MULTEXT -East has been to make its resources available to the wider research community. The resources were initially distributed on C D -ROM, but have, for some years now, been available directly via the Web at http://nl.ijs.si/ME/. A portion of the resources is freely available for download or browsing; for the rest, the user has to first fill out a Web-based agreement form restricting the use of resources for research. Apart from the data itself, the distribution also contains extensive documentation, e.g., navigational HTML pages, which serve to structure and link the resources, and which include the list of participants and indexes to the resource by type and language. While the TEI headers give the most precise and up-to-date information on the corpus components, the documentation also contains a bibliography with copies of the MULTEXT -East project reports (giving details of the resources, e.g., the corpus markup process), published papers, a mirror of the TEI documentation and certain related MULTEXT and EAGLES reports. After the completion of the EU MULTEXT -East project in 1997, a number of other projects have helped to keep the MULTEXT -East resources up-to-date (e.g., migrating from SGML to XML) and enabled us to add new languages, e.g. Croatian and Serbian. We are currently at Version 3 (Erjavec 2004), and are at present working on adding Macedonian to the dataset. The MULTEXT -East resources have been instrumental in advancing the state-of-the-art in language technologies in a number of areas, e.g., part-ofspeech tagging (Tufi¸s 1999), inductive learning of lemmatisation rules (Erjavec & Džeroski 2004), word sense disambiguation (Ide et al. 2002), to mention just a few. The project has also provided standards for encoding of language resources; an example is the encoding of the 100 million word Slovene reference corpus FIDA (http://www.fida.net/), where both the encoding of the corpus and the morphosyntactic descriptions were taken from the Slovene part of MULTEXT -East. The resources had a similar role for Romanian, Croatian, Estonian and, partially, Hungarian. The success of the resources is mostly due to the fact that they are available for research and that they include basic building blocks for processing a significant range of TEXT-East
Quantifying the MULTEXT-East morphosyntactic resources 113
“novel” languages. As the linguistic markup has also been manually validated and tested in practice, the resources can serve as a “gold standard” which enables other researchers and students to develop and test their approaches to topics in the processing of language. This paper introduces and quantifies the central part of the MULTEXT East resources, namely those that focus on the word-level morpho-syntactic description of the languages. These multilingual resources consist of three layers: (1) the morphosyntactic specifications; (2) the morphosyntactic lexicons; and (3) the morphosyntactically annotated corpus. It should be noted that not all of these resources exist for all the languages; in the following three sections we therefore explicitly list the languages that the resources are available for. In the tables quantifying the resources we then use – due to space considerations – the two letter ISO 639 codes for the representation of names of the languages.
2
Morphosyntactic specifications
Languages: English, Romanian, Slovene, Czech, Bulgarian, Estonian, Hungarian, Serbian, Russian, Croatian, Resian. The morphosyntactic specifications set out the grammar and vocabulary of valid morphosyntactic descriptions (MSDs) for words. The specifications determine what, for each language, is a valid MSD and what it means, e.g., they specify that Ncms is equivalent to PoS:Noun, Type:common, Gender:masculine, Number:singular. The MULTEXT -East morphosyntactic specifications have been developed in the formalism and on the basis of specifications for six Western European languages of the MULTEXT project (Ide & Véronis 1994) and in cooperation with EAGLES , the Expert Advisory Group on Language Engineering Standards (Eagles 1996). Originally, these specifications were released as a report of the MULTEXT -East project but have been revised for both subsequent releases, and have become, if not a standard, then at least a reference for comparison (Erjavec et al. 2003). The complete specifications are structured as a report, and contain introductory chapters, followed by the list of defined categories (parts-of-speech, all together 12), and then, for each category, a table of attribute-value pairs, and the languages the features are appropriate for. These so called common tables are followed by language particular sections. Each language section is
114 Tomaž Erjavec
further subdivided, and can contain feature co-occurrence restrictions, examples, notes, and full lists of valid MSDs, as well as localisation information. The formal core of the specifications resides in the common tables, as they define the features, their codes for MSD representation, and their appropriateness for each language – an example, giving the start of the common tables for nouns, is given in Figure 1. Noun (N) = ====== P ATT = ====== 1 Type - -----2 Gender
- -----3 Number
========= VAL ========= common proper --------masculine feminine neuter --------singular plural dual ...
= C = c p m f n s p d
EN RO SL CS BG ET HU HR SR SL-ROZAJ x x x x x x x x x x x x
x x
x x
x x
x x
x x x
x x x
x x x
x x x
x x x
x x
x x
x x x
x x x
x x
x x
x x
x x
x x
x x
x x
x x
x x x
x x x
x x x
x x
x x
x x x
Figure 1: Example of MULTEXT-East morphosyntactic specification: start of common table for nouns
We give a quantitative synopsis of the feature complexity by language and part-of-speech in two tables: Table 2 gives the counts for the Slavic languages. Table 3 contains the data for the non-Slavic languages of MULTEXT -East, as well as the totals for Slavic, non-Slavic, and overall. The number on the left of the slash gives the number of defined attributes, and the number on the right the number of all values for all the attributes. So, for example, Czech defines five attributes for nouns, which together distinguish seventeen different values. Where the number is 0, this means that the part-of-speech has no attributes, while a hyphen means that the particular part-of-speech is not relevant for the language. There are a number of interesting points to note about the numbers in the tables, although their interpretation should be taken with a grain of salt. Namely, the different numbers between the languages are not due solely to their different properties, but also arise because of different choices made in their modelling; a good example are abbreviations which
Quantifying the MULTEXT-East morphosyntactic resources 115 Table 2: Numbers of attributes and values in the morphosyntactic specifications for Slavic languages PoS
CS
SL
HR
SR
BG
All Slavic
Noun Verb Adjective Numeral Adverb Abbreviation Pronoun Conjunction Preposition Particle Determiner Article Interjection Residual
5/17 10/29 7/22 7/29 2/4 0 12/39 3/7 3/8 0 – – 0 0
5/16 9/28 7/23 7/23 2/5 0 11/40 2/4 3/8 0 – – 0 0
5/16 8/27 7/21 6/21 2/4 4/13 11/35 2/4 3/8 1/4 – – 1/2 0
5/17 10/32 7/23 6/22 2/9 4/14 10/38 4/8 3/8 1/4 – – 1/2 0
5/14 8/24 3/9 5/16 1/2 0 8/30 2/4 1/1 2/8 – – 1/2 0
6/22 13/43 8/28 8/37 2/9 4/14 13/50 6/13 3/8 2/9 – – 1/2 0
All
49/155
46/147
50/155
53/177
36/110
66/235
some partners have chosen to treat as more or less atomic categories, while others have ascribed to them all the features that apply to their “proper” partof-speech. We here draw attention only to some of the more striking points in the tables. First, the tables define over one hundred attributes with almost five hundred values, illustrating the diversity of languages (from inflectional to agglutinative) and their rich set of morphological features. The non-Slavic languages have a greater complexity, due primarily to the large array of features in Hungarian and Estonian; nevertheless, Slavic languages have more complexity in verbs. Morphosyntactically the most complex part-of-speech is the pronoun, which combines the features of both nouns and adjectives, and also distinguishes a large set of types.
3
Lexicons
Languages: English, Romanian, Slovene, Czech, Serbian, Bulgarian, Estonian, Hungarian. The MULTEXT -East morphosyntactic lexicons have a simple structure, where each lexical entry is composed of three fields: (1) the word-form, which is the
116 Tomaž Erjavec Table 3: Numbers of attributes and values in the morphosyntactic specifications for non-Slavic languages and totals PoS
EN
RO
ET
HU
non-Sl
Slavic
All
Noun Verb Adjective Numeral Adverb Abbreviation Pronoun Conjunction Preposition Particle Determiner Article Interjection Residual
3/7 5/15 2/4 1/2 3/7 0 8/23 2/4 1/2 – 6/16 – 0 0
6/14 7/24 7/16 7/20 3/11 5/15 8/29 5/12 4/8 2/7 8/22 5/13 0 0
3/19 8/28 3/20 4/22 0 3/21 4/29 1/2 1/2 – – – 0 0
7/34 6/16 8/37 7/39 4/13 0 7/42 3/6 1/1 – – 1/2 1/2 0
10/49 11/40 11/52 10/55 6/22 5/30 12/67 5/16 4/9 2/7 10/28 5/13 1/2 0
6/22 13/43 8/28 8/37 2/9 4/14 13/50 6/13 3/8 2/9 – – 1/2 0
10/55 15/55 12/63 12/74 6/24 5/35 17/89 7/21 4/12 3/15 10/28 6/23 2/4 0
All
31/80
67/191
27/143
45/192
92/390
66/235
109/498
inflected form of the word, as it appears in the text, modulo sentence-initial capitalisation; (2) the lemma, which is the base-form of the word; where the entry is itself the base-form, the lemma is given as the equal sign; and (3) the MSD, i.e., the morphosyntactic description. Figure 2 gives an example from the Slovene lexicon which contains the paradigm of the lemma “alibi”.
alibi alibi alibija alibija alibija alibije alibijem alibijem alibijema
= alibi alibi alibi alibi alibi alibi alibi alibi
Ncmsn Ncmsa--n Ncmda Ncmdn Ncmsg Ncmpa Ncmpd Ncmsi Ncmdd
| | | | | | | | |
alibijema alibijev alibijev alibiji alibiji alibijih alibijih alibiju alibiju
alibi alibi alibi alibi alibi alibi alibi alibi alibi
Ncmdi Ncmdg Ncmpg Ncmpi Ncmpn Ncmdl Ncmpl Ncmsd Ncmsl
Figure 2: Example of MULTEXT-East morphosyntactic lexicons: the paradigm for the Slovene masculine nominal lemma “alibi” (3 numbers × 6 cases)
Quantifying the MULTEXT-East morphosyntactic resources 117
The MULTEXT -East lexica, in addition to explicating the inflectional behaviour of the most common (and, typically, morphologically the most complex) words of the languages, also serve to establish the definitive set of valid MSDs for the languages. In Table 4 (p. 120) we give a quantitative synopsis of the lexica for each language. The table gives, for each language, the number of lexical entries and the number of different word-forms, lemmas, and MSDs the lexicon. Furthermore, we give three derived measures. The first is the number of entries divided by the number of distinct word-forms, establishing how ambiguous – on average – a word-form is in terms of morphosyntactic interpretation. Next come the number of word-forms divided by the number of lemmas, followed by the number of word-forms divided by the number of entries. The latter gives us the average paradigm size of a lemma, while the former gives the paradigm size in terms of surface word-form only, i.e., ignoring its morphosyntactic interpretation. Finally, the tables contain not only the counts overall, but also split according to the more interesting parts-ofspeech, i.e., nouns, verbs, adjectives, and pronouns. In interpreting these tables, again, a word of caution: the lexica differ not only in terms of size and proportion of various parts-of-speech but also in the methodology of their production. The most important difference between them is that, for most languages (in particular English, Slovene, Serbian, Bulgarian, and Romanian) the complete inflectional paradigms of the lemmas were included in the lexicon, while for the others, especially Hungarian and Estonian, this was not the case, the reason being that for agglutinative languages this is in practice impossible, as e.g. a Hungarian noun can have potentially millions of different forms. This of course has repercussions on the perceived ambiguity and paradigm sizes. The lexica contain, on average, around 20 thousand lemmas each, with the largest being Estonian and Romanian, with almost 47 and 40 thousand lemmas respectively. This means that they can well serve as medium sized morphological lexica for the languages; they will cover the high and medium frequency words, but not provide a comprehensive lexical coverage of the languages. Morphologically most complex are Slovenian, Czech, and Serbian with over 2 000, 1 400 and 900 different MSDs respectively; this is a reflection of their inflectional complexity. Furthermore, it will be noticed that Slovene has an especially detailed description of pronouns, which contain well over half of all Slovene MSDs. This also explains the otherwise surprising difference between the overall MSD counts of Slovene on the one
118 Tomaž Erjavec
hand, and Serbian and Czech, on the other. These three languages also have the most morphologically ambiguous word-forms, with an average of around three interpretations per word-form. Slovene and Serbian have also the largest paradigm sizes, with adjective paradigms having, on the average, over 67 and 91 entries respectively; the Czech numbers are much lower, as the complete paradigms were not included in the lexicon.
4
Linguistically annotated 1984
Languages: English, Romanian, Slovene, Czech, (Bulgarian), Estonian, Hungarian, Serbian. The morphosyntactically annotated 1984 corpus is the centrepiece of the corpus resources, as it contains validated word level markup, namely context disambiguated lemmas and MSDs. The corpus is thus suitable for MSD tagging and lemmatisation experiments; because it was the first such resource for many of the MULTEXT -East languages the annotation had to proceed mostly manually, so it was also the most difficult to produce. The TEI P4 markup of the linguistically annotated 1984 is exemplified in Figure 3.
Bil je jasen , mrzel aprilski dan ... Figure 3: Example of the annotation of the MULTEXT-East 1984 corpus: the start of the Slovene text “Bil je jasen, mrzel aprilski dan” (It was a bright cold day in April).
In Table 5 (p. 121) we give some counts on the 1984 corpus. The structure
Quantifying the MULTEXT-East morphosyntactic resources 119
of the table is identical to the one in Table 4, with the only difference being that instead of the number of lexical entries we give the number of the word tokens in the corpus. The novel 1984 contains around one hundred thousand word tokens, with the largest number of words in the inflectionally poorer English, closely followed by Romanian. The Slavic, and esp. agglutinative languages have about ten percent less words, although it should be noted that the Estonian corpus does not include the Appendix of the novel (ca. 4 000 words). While it is understandable that the translations with less word tokens contain more different word-forms, it is interesting to note that they also contain more different lemmas. The proportions of different MSDs in the corpus are similar to the ones in the lexica, but the counts are, in general, much smaller, from which we can conclude that a large portion of MSDs in fact describe quite low frequency word-forms. Finally, we can note that, for the Slavic languages, each word-form, on average, appears around five times, and each lemma around ten times. For word-forms this number is similar for all the languages except for English, while for lemmas it is significantly higher for inflectionally poorer English and Romanian, and lower for the agglutinative languages.
5
Conclusions
The paper presented and quantified the morphosyntactic part of the MULTEXT East resources Version 3. As the resources cover a number of inflectionally rich languages, are interlinked, harmonised, have a standardised encoding, and have been manually validated and tested in practice, they can serve as a “gold standard” dataset for language technology research and development, as well as for comparative linguistic studies. The paper concentrated on the quantitative aspects of the three layers of morphosyntactic resources, i.e., the specifications, lexica, and corpus. We presented tables giving a per-language synopsis of the main numeric indicators of these resources and accompanied them by a discussion.
120 Tomaž Erjavec Table 4: MULTEXT-East Lexicon counts per language and part-of-speech PoS
LG
ENT
WFR
LEM
MSDs
E/W
W/L
E/L
EN RO CS SL SR BG ET HU
71 784 428 194 184 628 557 980 412 978 55 200 135 094 64 042
48 460 352 279 57 391 198 517 141 508 40 910 89 591 51 095
27 467 39 359 23 435 16 396 9 577 22 982 46 933 28 090
135 616 1 428 2 085 949 338 642 619
1.5 1.2 3.2 2.8 2.9 1.3 1.5 1.3
1.8 9.0 2.4 12.1 14.8 1.8 1.9 1.8
2.6 10.9 7.9 34.0 43.1 2.4 2.9 2.3
N O U N
EN RO CS SL SR BG ET HU
23 366 122 860 59 313 124 988 51 568 16 885 77496 31 038
23 222 112 779 23 299 60 133 23 894 15 671 63 436 28 447
13 402 20 654 10 193 7 285 3 688 9 917 31 908 12 680
19 54 104 99 139 26 54 233
1.0 1.1 2.5 2.1 2.2 1.1 1.2 1.1
1.7 5.5 2.3 8.3 6.5 1.6 2.0 2.2
1.7 5.9 5.8 17.2 14.0 1.7 2.4 2.4
V E R B
EN RO CS SL SR BG ET HU
33 090 162 047 18 586 110 538 141 386 23 783 24 610 15 780
16 571 134 654 14 818 77 696 73 816 14 856 15 142 13 481
4 254 4 314 4 214 3 689 2 633 4 698 3 338 5 892
30 84 175 128 138 90 183 58
2.0 1.2 1.3 1.4 1.9 1.6 1.6 1.2
3.9 31.2 3.5 21.1 28.0 3.2 4.5 2.3
7.8 37.6 4.4 30.0 53.7 5.1 7.4 2.7
EN RO CS SL SR BG ET HU
11 040 139 096 100 689 306 746 209 311 9 595 27 620 13 875
10 775 125 024 16 953 63 764 43 579 9 273 22 036 13 220
9 149 14 307 5 847 4 550 2 298 3 978 10 669 9 203
4 64 196 279 306 9 74 152
1.0 1.1 5.9 4.8 4.8 1.0 1.3 1.0
1.2 8.7 2.9 14.0 19.0 2.3 2.1 1.4
1.2 9.7 17.2 67.4 91.1 2.4 2.6 1.5
EN RO CS SL SR BG ET HU
96 358 1 678 3 654 3 117 279 1 209 730
83 343 450 732 798 233 814 701
70 79 64 93 69 132 76 107
46 131 635 1 335 264 168 255 94
1.2 1.0 3.7 5.0 3.9 1.2 1.5 1.0
1.2 4.3 7.0 7.9 11.6 1.8 10.7 6.6
1.4 4.5 26.2 39.3 45.2 2.1 15.9 6.8
A L L
A D J
P R O N
Quantifying the MULTEXT-East morphosyntactic resources 121 Table 5: 1984 Corpus counts per language and part-of-speech PoS
LG
TOK
WFR
LEM
MSDs
T/W
W/L
T/L
A L L
EN RO CS SL SR ET HU
104 286 101 772 79 870 90 792 89 829 75 431 80 708
9 181 13 742 17 592 16 399 16 783 16 809 19 180
7 059 7 037 9 103 7 902 8 353 8 717 10 043
128 662 955 1032 906 402 398
11.4 7.4 4.5 5.5 5.4 4.5 4.2
1.3 2.0 1.9 2.1 2.0 1.9 1.9
14.8 14.5 8.8 11.5 10.8 8.7 8.0
EN RO CS SL SR ET HU
21 128 22 673 19 292 19 391 20 311 19 322 20 051
4 233 6 159 6 291 6 276 6 165 8 161 8 898
3 486 3 429 3 486 3 193 3 292 4 388 3 899
16 34 76 74 158 45 153
5.0 3.7 3.1 3.1 3.3 2.4 2.3
1.2 1.8 1.8 2.0 1.9 1.9 2.3
6.1 6.6 5.5 6.1 6.2 4.4 5.1
EN RO CS SL SR ET HU
21 348 18 382 16 814 25 163 22 228 18 193 14 542
2 781 3 895 5 730 4 883 5 180 4 004 5 527
1 613 1 240 2 418 2 003 2 104 1 256 2 674
29 58 148 93 118 98 58
7.7 4.7 2.9 5.2 4.3 4.5 2.6
1.7 3.1 2.4 2.4 2.5 3.2 2.1
13.2 14.8 7.0 12.6 10.6 14.5 5.4
EN RO CS SL SR ET HU
7 426 7 017 7 843 7 717 7 668 5 876 9 539
1 918 3 091 3 943 4 063 4 246 3 111 3 278
1 828 1 878 2 004 1 943 1 907 1 817 2 445
4 29 139 167 231 47 71
3.9 2.3 2.0 1.9 1.8 1.9 2.9
1.0 1.6 2.0 2.1 2.2 1.7 1.3
4.1 3.7 3.9 4.0 4.0 3.2 3.9
EN CS RO SL SR ET HU
11 469 11 177 11 058 10 861 9 578 12 592 6 475
76 333 185 373 314 375 423
70 49 54 64 58 49 78
43 421 93 594 308 165 69
150.9 33.6 59.8 29.1 30.5 33.6 15.3
1.1 6.8 3.4 5.8 5.4 7.7 5.4
163.8 228.1 204.8 169.7 165.1 257.0 83.0
N O U N
V E R B
A D J
P R O N
122 Tomaž Erjavec
References Dimitrova, Ludmila; Erjavec, Tomaž; Ide, Nancy; Kaalep, Heiki-Jan; Petkeviˇc, Vladimír; Tufi¸s, Dan 1998 “Multext-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European Languages” In: COLING-ACL ’98. Montréal: Université de Montréal, 315–319. E AGLES 1996 Expert advisory group on language engineering standards. [http:// www.ilc.pi.cnr.it/EAGLES/home.html] Erjavec, Tomaž 2004 “MULTEXT-East Version 3: Multilingual Morphosyntactic Specifications, Lexicons and Corpora”. In: Fourth International Conference on Language Resources and Evaluation, LREC’04. Paris: ELRA, 1535– 1538. [http://nl.ijs.si/et/Bib/LREC04/] Erjavec, Tomaž; Džeroski, Sašo 2004 “Machine Learning of Language Structure: Lemmatising Unknown Slovene Words”. In: Applied Artificial Intelligence, 18(1); 17–41. Erjavec, Tomaž; Krstev, Cvetana; Petkeviˇc, Vladimír; Simov, Kiril; Tadi´c, Marko; Vitas, Duško 2003 “The MULTEXT-East Morphosyntactic Specifications for Slavic Languages”. In: Proceedings of the EACL 2003 Workshop on Morphological Processing of Slavic Languages. Budapest: ACL, 25–32. Ide, Nancy; Erjavec, Tomaž; Tufi¸s, Dan 2002 “Sense Discrimination with Parallel Corpora”. In: Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. Philadelphia: ACL, 54–60. Ide, Nancy; Véronis, Jean 1994 “Multext (multilingual tools and corpora).” In: Proceedings of the 15th International Conference on Computational Linguistics. Kyoto: ACL, 90–96. Sperberg-McQueen, C. Michael; Burnard, Lou (Eds.) 2002 Guidelines for Electronic Text Encoding and Interchange. The XML Version of the TEI Guidelines. The TEI Consortium. Tufi¸s, Dan 1999 “Tiered Tagging and Combined Language Model Classifiers”. In: Jelinek, Fredrik; North, Elmar Noth (Eds.), Text, Speech and Dialogue. Berlin: Springer, 28–33.
A corpus based quantitative study on the change of TTR, word length and sentence length of the English language Fan Fengxiang
1
Introduction
Nothing in the world stands still; language is no exception. As the historical linguist Brian Joseph says, it does not take a trained specialist to be aware of language change over the years (Joseph 2000). Language change can occur within a relatively short time. A classic example is Monica Baldwin’s linguistic shock after her re-entry into the secular world in 1941 from a 27-year seclusion in a convent. She had some problems talking to people and reading newspapers because she did not understand words and phrases such as jazz, Hollywood, cocktail, striptease, luggage in advance, isolationism, it’s your funeral, believe it or not and so on (Foster 1968). According to Trask (2000), there are five types of language change: lexical, semantic, morphological, phonological and syntactic. The linguistic difficulty Monica Baldwin experienced was caused by the lexical change of English, which is much quicker than the other types of change. During her 27 years of hermetic life at the convent, the other four types of linguistic change must have also taken place, but were much less observable. An interesting question is, apart from these changes, were there changes in the manner of language use within the 27 years, i.e., change in the TTR (type-token ratio), word length and sentence length of the written media? This question is the focus of this study: to examine whether the TTR, word length and sentence length of written English change significantly within 30 years.
1.1
Research procedures
Two corpora were used in this study, the Lancaster-Oslo/Bergen (LOB) Corpus and the British National Corpus (BNC), which are about 30 years apart and both of British English. The entire LOB Corpus was used in this study.
124 Fan Fengxiang
It consists of five hundred 2 000-word written texts, all published in 1961. These texts were randomly drawn from different sections of larger texts since the beginning, the middle and the end sections of a text may have different textual characteristics. The coding of LOB was removed, leaving only the clean texts. The 2 000-word LOB texts actually may have a little more than 2 000 words each since the texts were selected from larger texts and all the selected texts end in a complete sentence, not cut off right at the 2 000 word point. As a result, the size of the LOB Corpus is a fraction more than 1 000 000 words. The BNC has around 100 million words, 90% of which are from written sources. 91.86% of the BNC texts were created between 1984 and 1994. Of the written texts in the BNC, there is a small proportion from unpublished sources, which were not used in this study. Two sets of sample texts were randomly selected from the BNC; the two sets are respectively named BNCA and BNCB. To be comparable with LOB, each set contains five hundred 2 000-word texts. After a sample text was selected, the name of the source text of the BNC was removed from the selection list to prevent it from being selected again so as to ensure that all the sample texts of BNCA and BNCB would be selected from different BNC source texts. As with the LOB Corpus, the size of the randomly selected texts may also be a little more than 2 000 words. Since the size of a majority of the BNC written texts are larger than 10 000 words, the texts of the two sets were randomly selected from different parts of the larger BNC texts because the beginning, the middle and the end sections of a text have different textual characteristics. The part of speech tags and other coding of the sample texts were removed to leave only the clean text. The TTR, average word length and average sentence length of each of the texts of LOB, BNCA and BNCB were obtained with a computer program in Foxpro, then tested for significant difference with the A NOVA test. If the level of significance of the A NOVA test result is equal to or smaller than 0.05, then there is a significant difference among the items tested. The TTR is calculated with the formula T T R = 100 · Types/Tokens (Laufer & Nation, 1995; Biber 2000). In this study, token is defined as any string, character or Arabic numeral within a text, excluding punctuation; while type is a set of lexical forms having the same stem, the same major part-of-speech, and the same word-sense, including distinctive non-word strings, characters and Arabic numerals but excluding punctuation. The assumption of this study is that the LOB Corpus is representative of the general written British English between the late
A corpus based quantitative study 125
1950’s and early 1960s, and the BNC Corpus is representative of the general written British English between 1984 and 1994. The rationale of this study is that, if there is no significant difference between BNCA and BNCB in their TTR, average word length and average sentence length of the individual texts, but such difference exists respectively between BNCA and LOB, and BNCB and LOB, then change in TTR, word length and sentence length of written English has taken place within the 30 years.
2
Results and analysis
2.1
TTR
The total number of types of LOB, BNCA and BNCB is respectively 36 150, 41 268 and 40 964. Figure 1 is their type growth curves. 45000 40000 35000 30000 25000
Types
20000 15000 10000 5000 0 2000
250000
498000
746000
1000000
Tokens
Figure 1: Type growth curves of LOB (the dotted line), BNCA and BNCB
The type growth pattern of LOB is sharply distinctive from those of BNCA and BNCB, which are very similar. The distribution of the TTRs of the individual texts of LOB, BNCA and BNCB is approximately normal, as shown in Figure 2. The basic statistics of the TTRs of the individual texts of LOB, BNCA and BNCB are listed in Table 1. The mean TTRs of LOB is smaller than those
60 50 40 30 20 10 0 16
Frequency
60 50 40 30 20 10 0 17
Frequency
Frequency
126 Fan Fengxiang
24
31
38
(a) TTR LOB
45
24
32
41
49
(b) TTR BNCA
60 50 40 30 20 10 0 20
28
35
42
50
(c) TTR BNCB
Figure 2: TTR distribution of LOB, BNCA and BNCB with a normal distribution curve
of BNCA and BNCB. The mean TTR difference between LOB and BNCA, and LOB and BNCB is respectively −1.0793 and −1.3389. The mean TTR difference between BNCA and BNCB is only −0.2596. Table 1: General statistics of the TTRs
Number of texts Mean TTR Std. deviation Minimum TTR Maximum TTR
LOB
BNCA
BNCB
500 32.7260 4.7297 17.2637 45.4231
500 33.8053 5.4486 15.8263 49.8501
500 34.0649 5.0098 19.9700 51.0035
The A NOVA test was performed on the TTRs of the individual texts of LOB, BNCA and BNCB, and the result is listed in Table 2. As shown in Table 2, the significance level of the mean TTR difference between LOB and Table 2: Result of A NOVA test on TTR Corpora
Mean TTR difference
Std. error
Significance
LOB
BNCA BNCB
−1.0793 −1.3389
0.3207 0.3207
0.002 0.000
BNCA
LOB BNCB
1.0793 −0.2596
0.3207 0.3207
0.002 0.697
BNCB
LOB BNCA
1.3389 0.2596
0.3207 0.3207
0.000 0.697
A corpus based quantitative study 127
BNCA, and LOB and BNCB is respectively 0.002 and 0; while that between BNCA and BNCB is 0.697. Therefore the difference in the mean TTRs between LOB and BNCA, LOB and BNCB is significant; but such a difference does not exist between BNCA and BNCB.
2.2
Word length
The distribution of the average word length of the individual texts of LOB, BNCA and BNCB is approximately normal, as shown in Figure 3.
50
20 10 3.6 3.9 4.3 4.7 5.1
(a) LOB word length
Frequency
30
50
50 Frequency
Frequency
40
40 30 20
40 30 20 10
10
3.7 4.1 4.6 5.0 5.5
3.6 4.0 4.5 4.9 5.3
(b) BNCA word length
(c) BNCB word length
Figure 3: Distribution of average word length with a normal distribution curve
The basic statistics of the average word length of the individual texts of LOB, BNCA and BNCB are listed in Table 3. Table 3: Basic average word length statistics
Number of texts Mean average length Std. deviation Minimum average length Maximum average length
LOB
BNCA
500 4.4052 0.3030 1.5808 5.1432
500 4.5411 0.3475 1.7594 5.3797
BNCB 500 4.5513 0.3537 1.8908 5.5866
The mean average word length difference of the individual texts of LOB is smaller than that of BNCA and BNCB, the difference being −0.1359 and −0.1461. The mean average word length difference of the individual texts of BNCA and BNCB is only 0.0102. Table 4 is the result of the A NOVA test on the average word length of the individual texts of LOB, BNCA and BNCB.
128 Fan Fengxiang Table 4: Result of A NOVA test on average word length Corpora
Mean average word length difference
Std. error
Significance
LOB
BNCA BNCB
−0.1359 −0.1461
0.0212 0.0212
0.000 0.000
BNCA
LOB BNCB
0.1359 −0.0102
0.0212 0.0212
0.000 0.880
BNCB
LOB BNCA
0.1461 0.0102
0.0212 0.0212
0.000 0.880
The significance level of the mean average word length difference between LOB and BNCA, and LOB and BNCB is 0; while that between BNCA and BNCB is 0.88, much larger than 0.05. The result shows that the mean average word length difference between LOB and BNCA, and LOB and BNCB is significant; while that between BNCA and BNCB is not. 2.3
Sentence length
8
25
43
60
78
(a) LOB sentence length
80 70 60 50 40 30 20 10
80 70 60 50 40 30 20 10
Frequency
80 70 60 50 40 30 20 10
Frequency
Frequency
The distribution of the average sentence length of the individual texts of BNCA and BNCB is approximately normal. However, one of the texts of LOB has an average sentence length of 80.62 words. Apart from this, the distribution of the average sentence length of the individual texts of LOB is basically normal.
4
12
20
29
37
(b) BNCA sentence length
4
13
23
33
43
(c) BNCB sentence length
Figure 4: Distribution of average sentence length with a normal distribution curve
The basic statistics of the average sentence length of the individual texts of LOB, BNCA and BNCB are listed in Table 5.
A corpus based quantitative study 129 Table 5: Basic average sentence length statistics
Number of texts Mean average length Std. deviation Minimum average length Maximum average length
LOB
BNCA
BNCB
500 21.1663 7.4482 7.9920 80.6154
500 19.6829 6.2106 4.3617 38.4340
500 19.4486 5.6715 4.7848 44.7111
The mean average sentence length of LOB is larger than that of BNCA and BNCB; the difference is 1.4834 between LOB and BNCA and 1.7177 between LOB and BNCB. The mean average sentence length difference between BNCA and BNCB is 0.2343. Table 6 is the ANOVA test result of the average sentence length of the individual texts of LOB, BNCA and BNCB. Table 6: Result of ANOVA test on average sentence length Corpora
Mean average sentence length difference
Std. error
Significance
LOB
BNCA BNCB
1.4834 1.7177
0.4101 0.4101
0.001 0.000
BNCA
LOB BNCB
−1.4834 0.2343
0.4101 0.4101
0.001 0.835
BNCB
LOB BNCA
−1.7177 −0.2343
0.4101 0.4101
0.000 0.835
The test result shows that the mean average sentence length of LOB is significantly different from that of BNCA and BNCB, the level of significance respectively being 0.001 and 0, while the significance level of the mean average sentence length difference between BNCA and BNCB is 0.835. To check whether this significant difference in average sentence length between LOB and the two sets of BNC texts was caused by the longest average sentence length of LOB, the said sentence was removed, but the result remains the same.
3
Conclusions
The conclusions of this study are as follows:
130 Fan Fengxiang
1. The TTR, word length and sentence length of standard written British English have changed significantly from late 1950s-early 1960s to the mid 1980s-mid 1990s; 2. The TTR and word length of the standard written British English of the late 1950s and early 1960s are smaller than those of standard written British English between the mid 1980s and mid 1990s, but the sentence length is longer; 3. Standard written British English between the mid 1980s and the mid 1990s has a larger information load than that of the standard written British English of the late 1950s and early 1960s, since a high TTR serves to increase information density of written texts (Biber, 2000). According to Butler (1988), word length, sentence length and TTR can be used as stylistic indicators and stylistic features; therefore, the change in TTR, word length and sentence length between the standard written British English of the late 1950s and early 1960s, and standard written British English between the mid 1980s and the mid 1990s can be regarded as a stylistic change.
References Biber, Douglas et al. 2000 Longman Grammar of Spoken and Written English. Beijing: Beijing Foreign Language Teaching and Research Press. Butler, Christopher 1985 Computers in Linguistics. New York: Basil Blackwell Ltd. Foster, Brian 1968 The Changing English Language. London: MacMillan. Joseph, Brian D. 2000 “Historical Linguistics”. In: Aronof, Mark; Rees-Miller, Janie (Eds.), The Handbook of Linguistics. Malden, Mass.: Blackwell, 105–129. Laufer, Batia; Nation, Paul 1995 “Vocabulary Size and Lexical Richness in L2 written Production”. In: Applied Linguistcs, 16(4); 307–322. Trask, Robert L. 2000 Historical linguistics. Beijing: Beijing Foreign Language Teaching and Research Press.
On the universality of Zipf’s law for word frequencies Ramon Ferrer i Cancho
“The occurrence of Zipf’s law does not constitute evidence of some powerful and universal psychological force that shapes all human communication in a single mould” (Miller & Chomsky 1963).
1
Introduction
It is hard to imagine how the development of quantitative linguistics would have been after G.K. Zipf’s untimely death without the work of G. Altmann. This article aims to honour a living giant of the Zipfian school of linguistics, and presents some findings that contradict the opening statement of Miller & Chomsky that has undermined Altmann’s scientific tradition for decades. But first, what is Zipf’s law for word frequencies? Word frequencies arrange themselves according to Zipf’s law (Zipf 1949), that the frequency of the i-th most frequent word in a text obeys approximately P(i) ∼ i−α .
(1)
The mathematical form of equation (1) is often called a power law (Newman 2005). As far as we know, Zipf’s law holds in all languages where it has been tested. Given the apparent universality of Zipf’s law and also the enormous differences between all languages on Earth, it is tempting to think that its explanation has nothing to do with language. The dominant view has been that Zipf’s law originates from a trivial process (Rapoport 1982, Miller & Chomsky 1963) and this view continues to dominate the scientific culture (Suzuki et al. 2005, Wolfram 2002). Since it is known that a random sequence of letters including blanks behaving as word delimiters, reproduce Zipf’s law for word frequencies (Miller 1957, Mandelbrot 1966), this argument of intermittent silence has been often used for questioning the relevance of Zipf’s law. Intermittent silence has recurrently been used to argue against the relevance, meaningfulness and utility of Zipf’s
132 Ramon Ferrer i Cancho
law in human language and other communication systems (Rapoport 1982, Suzuki et al. 2005, Wolfram 2002). Indeed, the fact that intermittent silence reproduces Zipf’s law cannot be questioned1 but as will be discussed its suitability for real human language is questionable. Intermittent silence assumes that sequences of words are uncorrelated (i.e. a word appears independently of other words). In contrast, syntax is responsible to a great extent for the existence of correlations between words within real word sequences (Ferrer i Cancho & Elvevåg 2005). Thus, it is striking that those who have largely defended syntax as the crux of human language (Hauser et al. 2002) argue that intermittent silence can explain Zipf’s law in real human language. Simon’s (1955) model has a similar problem because it generates uncorrelated sequences of words. Either syntax is not the crux of human language or intermittent silence is not a good model. Wisdom suggests the latter option. A further weakness of intermittent silence as an explanation is that it covers only α > 1, while α < 1 is often found in real language (Ferrer i Cancho & Servedio, Ferrer i Cancho 2005b). For many other inconsistent predictions made by intermittent silence see, for example (Newman 2005, Ferrer i Cancho & Elvevåg 2005, Ferrer i Cancho 2005c). Since trivial explanations for Zipf’s law fail, what kind of explanation should we expect? The fact that languages on Earth exhibit enormous differences is still very important. The explanation should contain ingredients that have to do with language specifically but at the same time be shared by all world languages. First, all languages have in common the fact that they serve communication and it is hard to imagine a reliable communication system that does not maximize information transfer. Second, all languages are produced by brains that need to save energy when communicating. One possible way of defining the cost of word use is the availability of words for psychological processes such as finding the appropriate word for a certain meaning (Brown & McNeil 1966) or recognizing a word (Connine et al. 1990). It is well-known that word availability is subject to the so-called word frequency effect, that states that the higher the frequency of a word, the higher its availability (Akmajian et al. 1995). The entropy of words has been proposed as a measure of the cost of word use (Ferrer i Cancho 2005c). When all words are equally likely, all words have the lowest frequency. This is the worst case for word availability and the signal entropy is maximum. When one word is 1. Although there are some technical problems such as the way intermittent silence fills the frequency spectrum (Ferrer i Cancho & Solé 2002).
On the universality of Zipf’s law for word frequencies 133
used for everything, this is the best case for word availability and the word entropy takes its minimum value2 . In sum, the key ingredients we propose are maximizing the information transfer and minimizing the cost of word use. In the present article, we review a family of models where the interplay between these two leads to Zipf’s law for word frequencies. We will emphasise the assumptions and implications.
2
The family of models
The family of models assumes we have a set of n words S = {s1 , . . . , si , . . . , sn } that communicate about a set of m meanings R = {r1 , . . . , r j , . . . , rm }. A is a binary matrix indicating which word-meaning pairs are connected. A word si and a meaning r j are connected if ai j = 1 (otherwise ai j = 0). A defines the structure of the communication system3 . We define I(S, R) as the information transfer between words and meanings and H(S) as the entropy of words, which as mentioned above, is a measure of the cost of words use. We define Ω as the function that a communication system has to minimize. A possible definition of Ω is4 Ω(λ) = −λI(S, R) + (1 − λ)H(S),
(2)
where λ is a parameter controlling the balance between maximizing the information transfer and minimizing the cost of word use. λ ranges from 0 to 1. When λ = 0, all the weight is put on minimizing the cost of word use. When λ = 1, all the weight is put on maximizing the information transfer. 2. The entropy of words is not only a measure of the speaker effort (as argued in Ferrer i Cancho & Solé (2003) from a narrow interpretation of G.K. Zipf’s hypothesis) but also a measure of the hearer’s effort. This is because the word-frequency effect not only concerns word production (Brown & McNeil 1966) but also word recognition (Connine et al. 1990). 3. We choose the term meaning because it is the easiest to understand by a general audience. The framework can be made more general by defining S as a set of signals and R as a set of states. States could be meanings, objects/events, stimuli or mental internal states. What words actually communicate about is an open question (Elman 2005). The current framework is abstract enough to allow the unsatisfied reader to replace S and R by his/her preferences. 4. Equation (2) is apparently the most general communication function that leads to Zipf’s law. Other Eqs. such as Ω(λ) = λH(R|S) − (1 − λ)H(S) work for the model in Ferrer i Cancho & Solé (2003) but not for that in Ferrer i Cancho (2005c).
134 Ramon Ferrer i Cancho 0
6
10
5
-1
10
P(i)
-2
P(i)
I(S,R)
4 3
10
-3
10
2 -4
10
1 0 0.0
-5
0.2
0.4
λ
0.6
0.8
10
1.0
0
10
1
2
10
10
3
10
i
(a) I(S, R), the information transfer between words and meanings, versus λ, the parameter regulating the balance between maximizing I(S, R) and minimizing the entropy of words.
(b) P(i), the probability of the i-th most likely word in the system for λ = 0.49 (circles), λ = 0.498 (squares) and λ = 0.5 (diamonds). The dashed line contains the theoretical curve for λ = 0.498. See Ferrer i Cancho (2005c) for further details on this figure.
Figure 1: Some computational results on the model where meaning probabilities are governed by the internal structure of the communication system. The size of the system is n = m = 400 (i.e. 400 words and meanings).
In order to complete the description of the framework, we need to define the probabilities that are used for calculating Ω(λ) from equation (2)5 . We define p(si ) and p(r j ) as the probability of si and r j , respectively. We define µi and ω j , as the number of connections of si and r j , respectively. More precisely, we have m
µi =
∑ ai j
(3)
j=1
and n
ω j = ∑ ai j .
(4)
i=1
5. Space precludes a full explanation of how Ω(λ) is calculated in depth. We just provide the essential probabilities that allow one to calculate Ω(λ) using standard probability and information theory. Further details can be found in Ferrer i Cancho (2005c) and Ferrer i Cancho & Solé (2003).
On the universality of Zipf’s law for word frequencies 135
The total amount of connections of the communication system is defined as n
M = ∑ µi .
(5)
i=1
We define p(si |r j ) as the probability of producing si for r j . Various recent models about Zipf’s law (Ferrer i Cancho 2005a,c, Ferrer i Cancho & Solé 2003) share the fundamental assumption that p(si |r j ) =
ai j . ωj
(6)
We define p(si , r j ) as the joint probability of si and r j . Bayes theorem gives p(si , r j ) = p(si |r j )p(r j ),
(7)
which can be written as p(si , r j ) =
ai j p(r j ) ωj
(8)
using equation (6). Equation (8) is the point at which the different models diverge. p(r j ) can be determined a priori (Ferrer i Cancho & Solé 2003) or from the structure of the communication system (Ferrer i Cancho 2005a,c). As for the first option, p(r j ) is fixed. Ferrer i Cancho & Solé (2003) study the particular case p(r j ) = 1/m. As for the second option, it is assumed that p(r j ) = ω j /M, which leads to µi M
(9)
∑ p(si , r j )
(10)
p(si ) = using m
p(si ) =
j=1
in equation (8). The two branches of models are very interesting from the philosopher’s perspective in that one assumes that the frequency of what we talk about is dictated by the ’outside’ world while the other leaves the frequency to the internal organization of the communication system itself. Tentatively, the first branch may seem more reasonable, but in fact, communication in human language is often detached from the here and now (Hockett 1958).
136 Ramon Ferrer i Cancho
When speaker and hearer are near to each other, humans adults do not tend to talk about things that are near the hearer or happening right now, maybe because communicating is not very useful when the speaker and hearer are having similar sensory experiences. Therefore, the models assuming that p(r j ) is not fixed suggest a possible way to study displaced reference, although it is hard to establish from the state of the art of cognitive science whether displaced speech acts are entirely controlled by the internal structure of the communication system or not. Ω(λ) can be minimized using a simple Monte Carlo algorithm.6 The general outcome of Ω(λ) minimization in the family of models will be illustrated using the model where meaning probabilities are not determined a priori. Figure 1 A shows that a sudden jump in information transfer takes place at a critical value of λ such that λ = λ∗ = 1/2 − ε, where ε is a small positive value (ε ≈ 0.002 in Figure 1). The behavior of Ω(λ) in the model where meaning probabilities are determined a priori is qualitatively similar 7 . The radical differences between frequency versus rank distribution of near values of λ can be seen in Figure 1a. Zipf’s law is found at the sharp increase in I(S, R) at λ ≈ 1/2.
3
Discussion
Our model is not only interesting for philosophers but also for physicists. This is because the presence of Zipf’s law near the transition point suggests that a continuous phase transition is taking place between a “no communication phase” (I(S, R) ≈ 0 when λ < λ∗ ) and a “perfect communication phase” (I(S, R) ≈ log min(n, m) when λ > λ∗ ). Phase transitions are common phenomena in nature. The transformation of boiling water into gas is maybe one of the most popular examples. The family of models visited here sheds new light on the complexity of language: language could be a system selforganizing itself between order and disorder as many other complex systems (Langton 1990, Kauffman 1993). A fully ordered configuration is one where one word is used for everything (λ < λ∗ ). A fully disordered configuration is 6. Details about the minimization algorithm can be found in (Ferrer i Cancho 2005c, Ferrer i Cancho & Solé 2003). 7. The are some differences. In the model reviewed here (Ferrer i Cancho 2005c): (a) the growth of I(S, R) does not show an intermediate plateau near λ ≈ 1/2 and (b) the transition point seems to be located closer to λ = 1/2.
On the universality of Zipf’s law for word frequencies 137
one where all words are equally likely (λ > λ∗ ). Zipf’s law is something in between. Indeed, our models suggest that language may operate on the edge of complete disorder: a small increase in λ in a communication system at the transition point could radically throw the system into a fully disordered domain where the maximum cost of word use is expended. It can be argued that Zipf’s law is recovered in a domain where the tendency for regularity is actually a driving force. We have seen that Zipf’s law is recovered when λ < 1/2. Equation (2) minimizes H(S) only when λ < 1/28 . If the assumptions of our models are correct, that means that human languages minimize H(S), which has implications for alternative models. For instance, Mandelbrot devised an explanation for word frequencies based on maximizing H(S) and constraining the mean word length (Mandelbrot 1966). However, it is hard to imagine how a real communication system whose brain maximized the entropy of words, since that would imply that the cost of word use is being maximized. Therefore, our framework questions the realism of other models and narrows down further the set of realistic explanations for Zipf’s law for word frequencies. Figure 1b shows that the effective vocabulary size (the number of words with non-zero probability) is much smaller than the potential vocabulary size. Although the potential lexicon size is n = 400, less than 100 words have nonzero probability at the point where Zipf’s law is found. A reduced effective vocabulary size is a side-effect of the entropy minimization at the transition point. Interestingly, it has been shown that replacing H(S) by the effective lexicon size (i.e. the amount of words with at least one connection) precludes the emergence of Zipf’s law in the models reviewed here (Ferrer i Cancho 2005c, Ferrer i Cancho & Solé 2003). This is a key point in the understanding of the fundamental communication principles behind Zipf’s law. Standard information theory (where the goal of a communication system is only maximizing I(S, R)) – cf. Ash (1965) – has been very successful in engineering problems but needs to be extended to apply to natural communication systems. Notice that maximizing I(S, R) alone would lead to a flat probability distribution (i.e. α ≈ 0) 9 . 8. H(S|R) is the conditional entropy of words when meanings are known. Knowing that I(S, R) = H(S) − H(S|R) (Ash 1965), equation (2) can be transformed into Ω(λ) = (1 − 2λ)H(S) + λH(S|R). Thus, H(S) is minimized when λ < 1/2 and maximized when λ > 1/2. 9. Similar to P(i) for λ = 1/2 in Figure 1b
(11)
138 Ramon Ferrer i Cancho
Briefly, our models suggest that – The entropy of words is minimized. – Vocabulary size reduction is a side-effect of minimizing the cost of word use. – Zipf’s law for word frequencies could be the manifestation of a complex system operating between order and disorder. – Natural communication systems require the use of extended information theory. Contrary to Miller & Chomsky (1963), there might be in fact a single mould for all languages on Earth. The interplay between maximizing the information transfer and saving the cost of communication may constrain the possible communication systems to the subset of communication systems following Zipf’s law for word frequencies. The weakness of simple explanations of Zipf’s law and the family of models examined here suggest that G.K. Zipf’s hypotheses about the nature of the law that bears his name (Zipf 1949) were pointing in the right direction. Acknowledgments. Discussions with S. Savage-Rumbaugh, W.S.-Y. Wang, and E. Vallduví have been a source of inspiration for this article. We are very grateful to Brita Elvevåg for helping to improve the English of this contribution. This work was funded by the ECAgents project, funded by the Future and Emerging Technologies program (IST-FET) of the European Commission under the EU RD contract IST-1940. The information provided is the sole responsibility of the authors and does not reflect the Commission’s opinion. The Commission is not responsible for any use that may be made of the data appearing in this publication.
References Akmajian, Adrian; Demers, Richard A.; Farmer, Ann K.; Harnish, Robert M. 1995 Linguistics. An Introduction to Language and Communication. Cambridge, Mass.: MIT Press. Ash, Robert B. 1965 Information Theory. New York: John Wiley & Sons. Brown, Roger; McNeill, David 1966 “The ‘tip of the tongue’ phenomenon”. In: Journal of Verbal Learning and Verbal Behaviour, 5; 325–337.
On the universality of Zipf’s law for word frequencies 139 Connine, Connine M.; Mullennix, John; Shernoff, Eve; Yelen, Jennifer 1990 “Word familiarity and frequency in visual and auditory word recognition”. In: Journal of Experimental Psychology: Learning, Memory and Cognition, 16; 1084–1096. Elman, Jeffrey L. 2005 “An alternative view of the mental lexicon”. In: Trends in Cognitive Sciences, 8; 301–306. Ferrer i Cancho, Ramon 2005a “Decoding least effort and scaling in signal frequency distributions”. In: Physica A, 345; 275–284. 2005b “The variation of Zipf’s law in human language”. In: European Physical Journal B, 44; 249–257. 2005c “Zipf’s law from a communicative phase transition”. In: European Physical Journal B, 47; 449–457. Ferrer i Cancho, Ramon; Elvevåg, Brita 2005 “Can intermittent silence explain Zipf’s law for word frequencies?” [Submitted]. Ferrer i Cancho, Ramon; Servedilo, Vito D.P. 2005 “Can simple models explain Zipf’s law for all exponents?” In: Glottometrics, 11; 1–8. Ferrer i Cancho, Ramon; Solé, Ricard V. 2002 “Zipf’s law and random texts”. In: Advances in Complex Systems, 5; 1–6. 2003 “Least effort and the origins of scaling in human language”. In: Proceedings of the National Academy of Sciences USA, 100; 788–791. Hauser, Marc D.; Chomsky, Noam; Fitch, W. Tecumseh 2002 “The faculty of language: what is it, who has it and how did it evolve?” In: Science, 298; 1569–1579. Hockett, Charles F. 1958 A course in modern linguistics. New York: McMillan. Kauffman, Stuart A. 1993 The Origins of Order: Self-Organization. New York: Oxford University Press. Langton, Chris G. 1990 “Computation at the edge of chaos: phase transitions and emergent computation”. In: Physica D, 42; 12–37. Mandelbrot, Benoit 1966 “Information theory and psycholinguistics: a theory of word frequencies”. In: Lazarsfield, Paul F.; Henry, Neil W. (Eds.), Readings in mathematical social sciences. Cambridge, Mass.: MIT Press, 151– 168.
140 Ramon Ferrer i Cancho Miller, George A. 1957 “Some effects of intermittent silence”. In: American Journal of Psychology, 70; 311–314. Miller, George A.; Chomsky, Noam 1963 “Finitary models of language users”. In: Luce, Robert D.; Bush, Robert R.; Galanter, Eugene (Eds.), Handbook of Mathematical Psychology, vol. 2. New York: Wiley, 419–491. Newman, Mark E.J. 2005 “Power laws, Pareto distributions and Zipf’s law”. In: Contemporary Physics, 46; 323–351. Rapoport, Anatol 1982 “Zipf’s law re-visited”. In: Quantitative Linguistics, 16; 1–28. Simon, Herbert A. 1955 “On a class of skew distribution functions”. In: Biometrika, 42; 425– 440. Suzuki, Ryuji; Tyack, Peter L.; Buck, John 2005 “The use of Zipf’s law in animal communication analysis”. In: Animal Behaviour, 69; 9–17. Wolfram, Stephen 2002 A new kind of science. Champaign: Wolfram Media. Zipf, George Kingsley 1935 The psycho-biology of language. Boston: Houghton Mifflin. 1949 Human behaviour and the principle of least effort. An introduction to human ecology. Cambridge, Mass.: Addison-Wesley.
Die Morrissche und die Bühlersche Triade – Probleme und Lösungsvorschläge Udo L. Figge
1
Einleitung
In diesem Beitrag möchte ich mich mit zwei triadischen Konzeptionen auseinandersetzen, die in Linguistik und Semiotik eine weitreichende Akzeptanz erfahren haben, obwohl sie sich bei näherem Hinsehen als recht problematisch erweisen. Es handelt sich um um Charles W. Morris’ Trias “Syntax – Semantik – Pragmatik” und um Karl Bühlers Organon-Modell1 . 2
Morris
Das einflußreichste Werk unter den vielen, die aus der Feder von Charles W. Morris stammen, ist wohl Foundations of the Theory of Signs (Morris 1938, deutsch 1972). Zu Beginn dieses Buchs (1938: 4ff., 1972: 20ff.) legte er in einem expliziten Rückgriff auf eine semiotische Tradition, die er bis auf die Griechen zurückführt, und vor einem behavioristischen Hintergrund dar, daß ein Zeichenprozeß, eine Semiose, aus vier Komponenten2 bestehe, nämlich dem Zeichen, dem Designat, dem Interpretanten und dem Interpreten3 . Diese vier Komponenten bilden nach Morris eine vierstellige Relation, die er Zeichenrelation nennt und aus der nach seiner Auffassung eine Semiose besteht4 . 1. Ich habe ein ähnliches Thema früher schon einmal bearbeitet, allerdings unter einem anderen Aspekt, nämlich dem der Funktionen von Sprache (Figge 1997). 2. Morris spricht auch von Faktoren. 3. Morris unterscheidet genauer zwischen Zeichen und Zeichenträger sowie zwischen Designat und Denotat, doch tut das hier nichts zur Sache. In nicht-behavioristischer Sicht kann man sich unter dem Interpretanten so etwas wie die Bedeutung des Zeichens und unter dem Interpreten ein Individuum vorstellen, dessen Inneres den Interpretanten beherbergt. 4. Morris konnte sich allerdings nicht recht entscheiden, ob der Interpret tatsächlich eine der Komponenten der Semiose ist oder nicht, so daß in den Foundations meist von einer dreistelligen Relation die Rede ist. Später hat er überdies eine fünfstellige Relation angenommen, weil ihm auch der Kontext eine Komponente des Zeichenprozesses zu sein schien (1964: 2f., deutsch 1975: 200ff.).
142 Udo L. Figge
In seinen Foundations nahm Morris weiterhin drei Dimensionen an, die er als zweistellige Teilrelationen seiner Zeichenrelation darstellte, nämlich als die Relation zwischen Zeichen und Zeichen, die zwischen Zeichen und Designat und die zwischen Zeichen und Interpret (1938: 6f., 1972: 23ff.). Diese drei Teilrelationen nannte er “syntaktisch”, “semantisch” bzw. “pragmatisch” und die semiotischen Unterdisziplinen, die sie untersuchen sollen, “Syntaktik”, “Semantik” bzw. “Pragmatik”. Hier liegt der Ursprung für die bis heute weit verbreitete Auffassung, daß sich die Semiotik als wissenschaftliche Disziplin in die drei Unterdisziplinen Syntax, Semantik und Pragmatik gliedere. Morris’ Ableitung der zweistelligen Relationen aus einer Zeichenrelation ist nicht unproblematisch. Die von ihm bevorzugte dreistellige Zeichenrelation schließt lediglich die semantische Dimension ein. Die Annahme einer pragmatischen Dimension setzt die der vierstelligen Zeichenrelation (mit dem Interpreten als vierter Komponente) voraus. Die syntaktische Dimension läßt sich weder aus der dreistelligen noch aus der vierstelligen Zeichenrelation ableiten; sie hat Morris “ad hoc” eingeführt (Bentele & Bystˇrina 1978: 41). Aus den Erörterungen, die er in diesem Zusammenhang führt, läßt sich erschließen, daß er sich nicht sicher war, ob diese Dimension notwendigerweise zur Semiose gehört, weil er nicht ausschließen konnte, daß es auch isolierte Zeichen gibt, Zeichen, die nicht zu einem Zeichensystem gehören und insofern keine syntaktischen Beziehungen eingehen können5 . So wie sie sich in den Foundations darstellt, ist Morris’ Zeichenkonzeption “monologisch” (Bentele & Bystˇrina 1978: 47), abstrahiert sie von den Verwendungszusammenhängen, in denen Zeichen auftreten. Dem hat Morris jedoch später abgeholfen (deutsch 1981: 179f.). Dort heißt es: Man kann von einem Zeichen S sagen, daß es zum Zweck y vom Organismus z gebraucht6 wird7 , wenn y ein bestimmtes Ziel von z ist und wenn z ein Zeichen herstellt, das als Mittel zur Erreichung von y dient.
Nach dem, was Morris in demselben Werk zur Pragmatik sagt (1946: 219, 1981: 326), ist diese Aussage eine pragmatische und damit eine semiotische im Morris’schen Sinne. Man tut sich jedoch schwer, Begriffe wie “Zweck”, 5. Auch die oben erwähnte fünfstellige Zeichenrelation enthält explizit keine syntaktische Dimension, doch kann in ihr die Kontextbeziehung syntaktische Beziehungen einschließen (Morris 1964: 3, 1975: 202). 6. Hervorhebung von Morris. 7. Das englische Original lautet ein wenig anders: “[. . . ] used with respect to purpose y of an organism z [. . . ]” (1946: 92).
Die Morrissche und die Bühlersche Triade
143
“Ziel”, “Mittel”, “Erreichung” als zeichensemiotische zu verstehen. Nach meiner Auffassung gehören diese Begriffe in einen anderen Zusammenhang, auf den ich weiter unten, nach den nun folgenden Erörterungen zu Bühlers Organon-Modell, zu sprechen komme.
3
Bühler
Bühler veranschaulicht in seinem Organon-Modell seine Auffassung, daß das sprachliche Zeichen insofern “komplex” sei, als es drei verschiedene “semantische Funktionen” habe:
Abbildung 1: Organon-Modell der Sprache
Dazu schreibt er (1934: 28): Der Kreis in der Mitte symbolisiert das konkrete Schallphänomen. Drei variable Momente an ihm sind berufen, es dreimal verschieden zum Rang eines Zeichens zu erheben. Die Seiten des eingezeichneten Dreiecks symbolisieren diese drei Momente [. . . ]. Die Linienscharen symbolisieren die semantischen Funktionen des (komplexen) Sprachzeichens. Es ist Symbol kraft seiner Zuordnung zu Gegenständen und Sachverhalten, Symptom (Anzeichen, Indicium) kraft seiner Abhängigkeit vom Sender, dessen Innerlichkeit es ausdrückt, und Signal kraft seines Appells an den Hörer, dessen äußeres oder inneres Verhalten es steuert wie andere Verkehrszeichen.
144 Udo L. Figge
Nach Bühler hat das Sprachzeichen als Symbol eine “Darstellungsfunktion”, als Symptom eine “Ausdrucksfunktion” und als Signal eine “Appellfunktion”. Sein Organonmodell hat Bühler offenbar im Hinblick auf eine Einteilung der Sprachwissenschaft entwickelt (ähnlich wie Morris seine Ableitung von Teilrelationen aus der Zeichenrelation im Hinblick auf eine Einteilung der Semiotik). Es handelt sich um eine Einteilung in drei Unterdisziplinen (1934: 29ff.), von denen die erste die Darstellungsfunktion des komplexen Sprachzeichens – also die Beziehung zwischen dem Sprachzeichen und der Welt der Gegenstände und Sachverhalte – untersucht, die zweite dessen Ausdrucksfunktion – also die Beziehung zwischen dem Sprachzeichen und seinem Sender – und die dritte dessen Appellfunktion – also die Beziehung zwischen dem Sprachzeichen und seinem Empfänger. Man wird sich jedoch fragen dürfen, wie sich nun die Gegenstände und Sachverhalte zu Sender und Empfänger, die Innerlichkeit des Senders zum Empfänger und die Steuerung des Empfängers zum Sender verhalten. Dabei entsteht insofern ein Problem, als nicht recht klar wird, was Bühler unter “Ausdrucksfunktion” versteht, und zwar einerseits, weil er nicht sagt, was er mit “Innerlichkeit” meint, und andererseits, weil der Begriff “Symptom”, den er in diesem Zusammenhang verwendet, mit Vorstellungen von pathologischen Zuständen assoziiert ist, an die Bühler aber wohl nicht denkt. An anderer Stelle vergleicht er das Zeichen als Symptom mit Mimik und Gestik (1934: 13), doch trägt dieser Vergleich wenig zum Verständnis bei, weil Mimik und Gestik sicherlich mehr als eine Funktion haben. Nur einmal läßt er sozusagen die Katze aus dem Sack, indem er von “Affektlagen” spricht, die im Sprachzeichen zum Ausdruck kommen können (1934: 288). Demnach scheint das Sprachzeichen als “Symptom” zu emotiven Zuständen des Zeichenproduzenten in Beziehung zu stehen8 .
4
Diskussion
Ich werde nun versuchen, die Ansätze von Morris und von Bühler unter Berücksichtigung dessen, was ich an ihnen als problematisch gekennzeichnet habe, zurechtzurücken. Dabei gehe ich davon aus, daß es semiotisch sinnvoll 8. Auch Bühlers Ausdruckstheorie (1933) gibt keine Aufschlüsse über das hinaus, was in der Sprachtheorie steht, zumal dieses Werk auch im wesentlichen historisch ausgerichtet ist.
Die Morrissche und die Bühlersche Triade
145
ist, zwischen verschiedenen inneren Systemen eines Individuums zu unterscheiden, nämlich zwischen kognitiven, emotiven, motivationalen und physischen. Weiterhin nehme ich verschiedene Arten semiotisch relevanter Gegenstände an, nämlich Zeichen, Merkmale und Formen9 . Schließlich beschränke ich mich, wie Bühler, auf das akustische Medium. Was Bühler konkretes Schallphänomen nennt, ist eine Portion akustischer Energie in der Umwelt, die in der Tat unterschiedliche Quellen und insofern auch unterschiedliche Komponenten hat. Eine dieser Komponenten geht auf eine Aktivität des sprachlichen, also eines semiotischen Systems10 des Individuums zurück, das die akustische Energie ausgeschieden hat, des Senders nach Bühler, des Interpreten nach Morris, sofern man ihn sich als Zeichenproduzenten vorstellen kann. Diese Komponente ist in der Tat eine Manifestation, wenn auch nicht unmittelbar von Gegenständen und Sachverhalten, wie Bühler formuliert, so doch von Konzepten von Gegenständen und Sachverhalten oder, allgemeiner, von Wissen, das das Individuum in einem seiner kognitiven Systeme gespeichert hat. Sie wurde also als Zeichen (nach Bühler als “Symbol”) ausgeschieden, und ihre Wahrnehmung kann vom Rezipienten als Zeichen von Konzepten verarbeitet werden. Das kognitive System, in dem solche Konzepte gespeichert sind, ist sowohl beim Produzenten als auch beim Rezipienten eine Komponente des Gedächtnisses11 . Die Bühlerschen Gegenstände und Sachverhalte stehen also sehr wohl mit Sender und Empfänger in Beziehung, und zwar insofern, als es die in deren Gedächtnis gespeicherten bzw. entstehenden Konzepte von diesen Gegenständen und Sachverhalten sind, auf die sich die Sprachzeichen unmittelbar beziehen. Morris hat das wohl ähnlich gesehen. Interpretiert man nämlich seine Designate kognitiv, dann stellen sie sich als eine Art Konzepte dar. An emotive Systeme schließen sich eigene semiotische Systeme an, die auf keinen Fall als sprachlich gelten können. Es besteht ein fundamentaler Unterschied zwischen dem Erröten eines Gesichts und der Formulierung eines Satzes wie Ich schäme mich. Die Formulierung eines solchen Satzes setzt nämlich voraus, daß der Sprecher sich seiner Scham bewußt geworden ist, anders formuliert, daß er sich ein Konzept von ihr gebildet hat. Errötet ein Individuum, dann hat die Scham selber ein emotionenspezifisches semiotisches 9. Näheres unter http://homepage.rub.de/Udo.L.Figge, Seite “Semiotik”. 10. Zum Begriff des semiotischen System s. Figge (1998). 11. Die Psychologie kennt unterschiedliche Einteilungen des Gedächtnisses (vgl. Markowitsch 2002: 88f.). Ich nenne die Gedächtniskomponente, an die das sprachlichsemiotische System anschließt, konzeptuelles Gedächtnis.
146 Udo L. Figge
System angeregt. Ein solches semiotisches System kann sich zur Manifestation (zum “Ausdruck” nach Bühler) unterschiedlicher Körperteile bedienen. Zu diesen Körperteilen gehören auch bestimmte Organe im Mund-RachenRaum. Es kann sich daher Angst durch ein Zittern der Stimme manifestieren. Auch das ist keineswegs dasselbe wie die Formulierung des Satzes Ich habe Angst, sondern eben das Produkt eines emotionenspezifischen semiotischen Systems oder, anders formuliert, ein “paraverbales” und kein verbales Zeichen. Emotionen manifestieren sich nicht nur stimmlich, sondern auch lexikalisch. Manifestationen dieser Art sind bestimmte Interjektionen wie ih! als Ausdruck von Ekel oder juchhu! als Ausdruck von Freude12 . Auch hier ist wieder zu unterscheiden zwischen einem Satz wie Ich freue mich, in dem das Konzept von einer Freude zum Ausdruck kommt, und der Interjektion juchhu!, die das Produkt eines emotionenspezifischen semiotischen Systems ist. Ein physisch begründetes emotives System ist das der Schmerzempfindungen, die ebenfalls semiotisch in die Artikulation von Interjektionen umgeformt werden können. Beispiele sind aua! bei der Wahrnehmung eines Schmerzes oder brr! bei der einer empfindlichen Kälte. Auf die Wahrnehmung von Zeichen emotiven Ursprungs kann der Rezipient auf zweierlei Weise reagieren, einerseits kognitiv und andererseits ebenfalls emotiv. Im ersteren Fall bildet er sich semiotisch ein Konzept von einer bestimmten Gemütslage seines Gegenübers. Im zweiten Fall läßt sich unterscheiden zwischen einer Art von emotiver Ansteckung, so daß etwa die Wahrnehmung eines ängstlichen Zitterns in der Stimme seines Gegenübers ein emotionenspezifisches semiotisches System im Wahrnehmenden in Gang setzt, das ebenfalls ein Gefühl der Angst auslöst, und der semiotischen Erzeugung eines Gefühls, das nicht dem des Produzenten entspricht, so daß etwa die Wahrnehmung einer weinerlichen Stimme als Manifestation eines Gefühls der Trauer semiotisch in ein Gefühl des Mitleids umgeformt wird. Dem Bühlerschen Ausdruck einer Innerlichkeit des Senders kann also sehr wohl ein entsprechender “Eindruck” beim Empfänger gegenüberstehen. Bühler würde angesichts eines angstgetriebenen Zitterns der Stimme von einem “Symptom” sprechen. Das entspräche aber nur dann der gängigen Bedeutung dieses Terminus, wenn es sich bei der Angst um eine Phobie, also um einen pathologischen Zustand handelte, denn Symptome werden, wie erwähnt, durch pathologische Zustände verursacht. Ein eindeutigeres Beispiel 12. Zur Klassifikation von Interjektionen vgl. Nübling (2004).
Die Morrissche und die Bühlersche Triade
147
ist Heiserkeit als Folge einer Erkältung oder eines Kehlkopfleidens. Es kann allerdings nicht die Rede davon sein, daß ein solches Leiden einen semiotischen Prozeß in Gang setzte. Die Auswirkung des Leidens auf die Stimme ist ein rein kausaler Prozeß. Jedoch kann der Rezipient die Wahrnehmung der entsprechenden Komponenten einer Portion akustischer Energie als Zeichen für ein solches Leiden verarbeiten, vorausgesetzt er verfügt, etwa als Arzt, über ein spezifisches semiotisches System, das ihm solche Wahrnehmungen zu verarbeiten gestattet. Zu den physischen Eigenschaften eines Individuums gehören etwa auch sein Alter, sein Geschlecht und vor allem die spezifische Anatomie seines Mund-Rachen-Raums, Eigenschaften, die sich stimmlich bemerkbar machen. Wenn Rezipienten ihre Wahrnehmung der entsprechenden Komponenten des Schallphänomens verarbeiten, dann gewinnen sie Merkmale, die dazu beitragen können, daß sie ihr Gegenüber erkennen oder sich doch ein, wenn auch unvollständiges inneres Bild von ihm machen können, etwa im Dunkeln oder am Telefon. Bühler geht auch auf solche Merkmale ein, allerdings nicht im Zusammenhang mit der Darstellung seines Organon-Modells, sondern im Rahmen seiner Erörterungen über das “Zeigfeld der Sprache” und den “Aufbau der menschlichen Rede” (1934: 91, 94, 113f., 286). Es muß also nicht nur zwischen kognitiven, emotiven und physischen Systemen unterschieden werden, sondern auch – wie es ja auch Bühler mit seiner Einteilung des konkreten Schallphänomens in drei variable Momente tut – zwischen den verschiedenen Komponenten einer Portion akustischer Energie, die ein Individuum ausscheidet. Ich unterscheide zwischen solchen, die auf einen semiotischen Prozeß zurückgehen und deren Wahrnehmung einen semiotischen Prozeß im Rezipienten auslösen kann, solchen, die auf einen rein kausalen Prozeß zurückgehen, deren Wahrnehmung aber ebenfalls einen semiotischen Prozeß im Rezipienten auslösen kann, und solchen, die einzelne Eigenschaften des ausscheidenden Individuums für den Rezipienten erkennbar machen. Semiotisch bedeutet das eine Unterscheidung zwischen Zeichen, die als solche sowohl produziert als auch rezipiert werden, Zeichen, die nur rezeptiv in Erscheinung treten (etwa Symptomen), und Merkmalen. In seiner Appellfunktion hat das Bühlersche Zeichen die Aufgabe, das Verhalten eines Individuums zu “steuern”. Verhaltenssteuerung ist eine Art von Einwirkung auf die Umwelt, und Einwirkung auf die Umwelt ist im allgemeinen eine von einem motivationalen System geformte Aktivität, die sich durch Abgabe von Energie oder durch Einsatz von Materie vollzieht und durch Werkzeuge unterstützt werden kann. Eine besondere Art solcher Ak-
148 Udo L. Figge
tivität ist sprachlich-kommunikatives Handeln. Sprachlich-kommunikatives Handeln macht stets von einem Werkzeug Gebrauch, nämlich von einem sprachlich-semiotischen System. Dadurch kommt es zu einer Manifestation von Wissen, die dann zu einer Einwirkung führt, wenn sie bei einem anderen Individuum Wahrnehmungen auslöst, die seinem sprachlich-semiotischen System übergeben werden, das wiederum die Bildung einer Art von Replik des manifestierten Wissens in dessen Gedächtnis bewirkt. Eine solche Einwirkung ist aber noch keine Verhaltenssteuerung (es sei denn in Morris’ behavioristischem Sinne). Verhaltenssteuerung kommt vielmehr dadurch zustande, daß das motivationale System selber eine Abgabe akustischer Energie auslöst, deren Wahrnehmung dann direkt, also ohne eine Vermittlung durch ein semiotisches System, auf das motivationale System des Rezipienten einwirkt. Dabei handelt es sich vorwiegend um akustische Komponenten, die dem Sprachsignal hinzugefügt werden, vor allem um solche, die als Intonationen wahrgenommen werden. Intonationen haben die Besonderheit, daß Kinder sie bereits vor Beginn ihrer Zwei-Wort-Phase, möglicherweise sogar schon vor Beginn ihrer Ein-Wort-Phase produzieren (Trevarthen 1994: 235, Snow & Balog 2002) und wahrscheinlich noch wesentlich früher rezipieren können (Figge 2000: 514). Das spricht dafür, daß sie nicht mittels eines sprachlichsemiotischen Systems produziert und rezipiert werden. Vielmehr werden sie von einem motivationalen System produziert und dienen, völlig unsemiotisch, der unmittelbaren Einwirkung auf andere Individuen; sie sind akustische Zugriffe auf deren Aufmerksamkeit, eine Art akustischen Ärmelzupfens. Folgt man Bühler, der seine Appellfunktion als “speech appeal” mit “sex appeal” vergleicht (1934: 29), dann kann man ihnen eine Art an- oder aufreizender Funktion zuschreiben. In der Tat kann sich das motivationale System anderer Individuen ihrer Wirkung auch nur mühevoll entziehen. Manifestation von Wissen wird also sozusagen in Intonationen verpackt, die die Bereitschaft des Gegenübers wecken oder doch fördern, dieses Wissen nicht lediglich als eine Replik fremden Wissens in seinem Gedächtnis abzulegen, sondern mit ihm aktiv umzugehen. Die Aussage-Intonation soll den Rezipienten veranlassen, sich das semiotisch erworbene Wissen zu eigen zu machen. Der Produzent hat nämlich normalerweise ein vitales Interesse daran, daß seine Gegenüber sein Weltbild übernehmen; seine Umwelt wird einfacher, wenn alle anderen dasselbe denken wie er13 . Die Befehls-Intonation dient dazu, 13. Wenn ich mir hier eine patzige Bemerkung erlauben darf: Ein solches Interesse verfolge
Die Morrissche und die Bühlersche Triade
149
im Rezipienten unmittelbar die Motivation zu einem bestimmten Handeln zu erregen, und zwar auf Grund des von ihm semiotisch erarbeiteten Wissens, daß der Produzent will, daß er in einer bestimmten Weise handeln soll. Das gilt auch für die Frage-Intonation, allerdings mit der Einschränkung, daß das Handeln, zu der sie motivieren will, ein sprachliches sein soll. Die Steuerungsfunktion wird bei der Produktion von Frage- und Befehls-Intonationen deutlicher als bei der von Aussage-Intonationen. Der Verhaltenssteuerung dienen nicht nur stimmliche – suprasegmentale –, sondern auch lexikalische Mittel. Zu ihnen zählen die von der Sprechakttheorie so genannten performativen Verben. Die Äußerung eines Satzes wie Ich verbiete dir, mein Telefon zu benutzen ist einerseits eine sprachlich-semiotische Manifestation meines Wissens, daß ich nicht will, daß mein Gegenüber mein Telefon benutzt: Das Wort verbieten macht diesen Satz zu einer semiotischen Manifestation eines Wissens von einem Nicht-Wollen. Andererseits ist aber die Äußerung des Worts verbieten auch ein Akt einer von meinem motivationalen System eingeleiteten direkten Verursachung einer Motivation im Gegenüber: Es soll sich vornehmen, die Benutzung meines Telefons auch tatsächlich zu unterlassen. Insofern handelt es sich um direkte Verhaltenssteuerung. In ähnlicher Weise dienen auch bestimmte Interjektionen der Verhaltenssteuerung, etwa psst! oder he!. Sie werden allerdings unabhängig von einem Sprachsignal produziert. Was Morris “Zweck” oder “Ziel” nennt, ist ein im motivationalen System eines Individuums konzipierter Plan für das zukünftige Verhalten eines anderen Individuums. Man kann sich einen solchen Plan als Bild dieses zukünftigen Verhaltens vorstellen. Während jedoch ein typisches Bild die Existenz dessen voraussetzt, was es abbildet, existiert ein Plan stets vor dem, was er abbildet. Ich nenne daher eine Beziehung, wie sie zwischen einem Plan und dessen Realisierung besteht, “invers”. In einer solchen inversen Beziehung zu stehen, ist die charakteristische Eigenschaft von Formen. Freilich ist ein Plan keine besonders typische Art von Form. Typisch ist etwa die innere Gestalt einer Kuchenform, die in einer inversen Beziehung zu der äußeren Gestalt des Kuchens steht, der in ihr gebacken wurde; die innere Gestalt der Kuchenform ist ein inverses Bild der äußeren Gestalt des Kuchens. Ich habe Ansätze zu einer Semiotik der Form entwickelt, die hier darzustellen viel zu weit führen würde (s. Anm. 9). Worauf es hier ankommt, ist, daß das, was Morris “Erich auch mit diesem Text.
150 Udo L. Figge
reichung” und was Bühler “Verhaltenssteuerung” nennen, ein Handeln ist, das einem inneren Bild, einem Plan, ein Objekt, eine Verhaltensdisposition, zuordnet, durch das dieses Bild überhaupt erst zu einem Bild wird, ähnlich wie ein Bild im engeren Sinne erst dadurch entsteht, daß es einem Abgebildeten zugeordnet, also gemalt wird. Das was Morris “Mittel” nennt, sind die Werkzeuge, deren sich das Individuum dabei bedient, nämlich sprachliche Zeichen und direkte Veräußerlichungen seines motivationalen Zustands wie Intonationen, performative Verben oder Interjektionen. Die Pragmatik, so wie Morris und Bühler sie vorstellen, hat also unmittelbar mit Semiotik, auch sprachlicher Semiotik, nichts zu tun. Ihr Gegenstand ist ein Handeln wie jedes andere Handeln auch. Was sie mittelbar mit der Semiotik in Beziehung setzt, ist zweierlei. Zum einen, daß bei diesem Handeln ein semiotisches System, das sprachliche Zeichen produziert, als Werkzeug eingesetzt werden kann, und zum anderen, daß dieses Handeln planvolles Handeln ist und Pläne sich als semiotische Gegenstände spezifischer Natur, also als Formen, beschreiben lassen. Pragmatik nur vom Standpunkt des Handelnden, nicht aber auch von dem des Beeinflußten zu betreiben, wie Bühler es tut, geht nicht an. Aus Morris’ Einteilung der Semiotik in Syntax, Semantik und Pragmatik, auch aus seiner Bezeichnung der syntaktischen Relation als formal folgt, daß er die Syntax für eine – in der Terminologie der generativen Grammatik – autonome Komponente hält. Dem stehen andere Auffassungen gegenüber, vor allem die, daß auch syntaktische Phänomene eine semantische Funktion haben. Diese Auffassung vertritt etwa Bühler, wenn er von einem “Zweiklassensystem” der symbolischen Darstellung spricht, das den Gegenständen und Sachverhalten sowohl lexikalische als auch syntaktische “Konventionen” zuordnet (1934: 30, 73ff.). Meine Auffassung ist die, daß ein Zeichen sich nicht aus Zeichen zusammensetzen kann, sondern aus Teilen und Teilen von Teilen, die zur Zeichenfunktion des Zeichens beitragen14 .
5
Schluß
Semiotisch relevante Gegenstände sind nach meiner Einsicht dadurch gekennzeichnet, daß es ihre wesentliche Eigenschaft ist, in einer Beziehung zu 14. Das gilt etwa für Texte und Teile von Texten wie Absätze, Sätze, Satzglieder und Wörter, wenn man dem Diktum von Peter Hartmann folgt, daß der Text das originäre sprachliche Zeichen sei; vgl. etwa Hartmann (1968: 213ff.).
Die Morrissche und die Bühlersche Triade
151
anderen Gegenständen zu stehen. Soweit ich sehe, gibt es fünf Arten einer solchen Beziehung, nämlich – die Ähnlichkeitsbeziehung, wie sie zwischen einem Bild und dem, was es abbildet, besteht, die hier allerdings nicht thematisiert wurde, – die inverse Ähnlichkeitsbeziehung, wie sie zwischen einer Form und dem, was sie formt, besteht, also auch zwischen einem Plan zur Steuerung fremden Verhaltens und einer Verhaltensdisposition, die sie formt, und die insofern zur semiotischen Basis der Pragmatik wird, – die Teil-Ganzes-Beziehung, wie sie zwischen einem Merkmal und einem Ganzen besteht, das dieses Merkmal als Eigenschaft einschließt, – die produktive Umformungsbeziehung, durch die mittels semiotischer Systeme inneren Zuständen periphere Zustände zugeordnet werden, die dann Zeichen für die inneren Zustände sind, etwa Texte als Zeichen für aktivierte Konzeptzusammenhänge, und – die rezeptive Umformungsbeziehung, durch die mittels semiotischer Systeme peripheren Zuständen innere Zustände zugeordnet werden, so daß die peripheren Zustände zu Zeichen für die inneren Zustände werden, also etwa Texte als Zeichen für entstehende Konzeptzusammenhänge. Die beiden Arten von Umformungsbeziehungen sind deshalb auseinanderzuhalten, weil sie nicht notwendigerweise gepaart auftreten, wie die Symptome zeigen, die lediglich rezeptiv in Erscheinung treten.
Literatur Bentele, Günter; Bystˇrina, Ivan 1978 Semiotik. Grundlagen und Probleme. Stuttgart: Kohlhammer. Bühler, Karl 1933 Ausdruckstheorie. Jena: Fischer. 1934 Sprachtheorie. Die Darstellungsfunktion der Sprache. Jena: Fischer. Figge, Udo L. 1997 “Funktionen von Sprache”. In: Rupp, Gerhard (Hg.), Wozu Kultur? Zur Funktion von Sprache, Literatur und Unterricht. Frankfurt/Main: Lang, 213–219. 1998 “Inquiries into semiotic principles and systems”. In: Altmann, Gabriel; Koch, Walter A. (Eds.), Systems. New Paradigms for the Human Sciences. Berlin /New York: de Gruyter, 350–355. 2000 “Muttersprachenerwerb als ontogenetisches Hindernis für den Fremdsprachenerwerb”. In: Helbig, Beate; Kleppin, Karin; Königs, Frank G.
152 Udo L. Figge (Hg.), Sprachlehrforschung im Wandel. Beiträge zur Erforschung des Lehrens und Lernens von Fremdsprachen. Festschrift für Karl-Richard Bausch zum 60. Geburtstag. Tübingen: Stauffenburg, 511–520. Hartmann, Peter 1968 “Zum Begriff des sprachlichen Zeichens”. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung, 21; 205–222. Markowitsch, Hans-Joachim 2002 Dem Gedächtnis auf der Spur. Vom Erinnern und Vergessen. Darmstadt: Wissenschaftliche Buchgesellschaft. Morris, Charles W. 1938 Foundations of the Theory of Signs (International Encyclopedia of Unified Science. Volumes I & II: Foundations of the Unity of Science. Volume I. 2). Chicago, IL: The University of Chicago Press. 1946 Signs, Language, and Behavior. Englewood Cliffs: Prentice Hall. 1964 Signification and Significance. A Study of the Relations of Signs and Values. Cambridge, Mass.: The MIT Press. 1972 “Grundlagen der Zeichentheorie”. In: Grundlagen der Zeichentheorie. Ästhetik und Zeichentheorie. München: Hanser, 15–88. 1975 “Bezeichnung und Bedeutung. Eine Untersuchung der Relationen von Zeichen und Werten”. In: Zeichen, Wert, Ästhetik (Theorie). Frankfurt/M.: Suhrkamp, 195–319. 1981 Zeichen, Sprache und Verhalten. Frankfurt/M. etc.: Ullstein. Nübling, Damaris 2004 “Die prototypische Interjektion: Ein Definitionsvorschlag”. In: Zeitschrift für Semiotik, 26; 11–45. Snow, David; Balog, Heather L. 2002 “Do children produce the melody before words? A review of developmental intonation research”. In: Lingua, 112; 1025–1058. Trevarthen, Colwyn 1994 “Infant semiosis”. In: Nöth, Winfried (Ed.), Origins of Semiosis. Sign Evolution in Nature and Culture. Berlin / New York: Mouton de Gruyter, 219–252.
Die kognitive Semantik der ‘Wahrheit’ Michael Fleischer, Michał Grech, und Agnieszka Ksia˙ ˛zek
Das Problem So wie alle anderen Konzepte ist auch die ‘Wahrheit’ ein kulturelles Konstrukt, mit dessen Hilfe wir Kommunikationen organisieren. Darüber hinaus ist ‘Wahrheit’ aber auch noch ein ausrichtender Faktor, etwas wie ein kultureller Wegweiser, der den Kulturteilnehmern erlaubt, an ihm viele der übrigen Konzepte auszurichten, sie vor einem stabilen Hintergrund zu positionieren. Ebenso besitzt dieses Konstrukt einen Einfluß auf Handlungen im Rahmen des sozialen Systems, indem es, in bestimmten Kontexten, auch sie zu differenzieren erlaubt, und zwar in solche, die der jeweiligen Semantisierung der ‘Wahrheit’ entsprechen oder nicht entsprechen. Unter anderem zu diesem Zweck ist das Konstrukt in diversen kulturellen Funktionssystemen verankert, zum einen im System Wissenschaft, in dem es zwar lediglich als unideologisierbares Entscheidungskriterium für das Zutreffen oder Nicht-Zutreffen, für die Verifizierung oder Falsifizierung von Etwas fungiert, dadurch aber, daß es in diesem Subsystem angesiedelt ist, das seinerseits wiederum ein bestimmtes (mit Exaktheit, Präzision, Objektivität u. dgl. konnotiertes) Image besitzt, kann es auf die übrigen Funktionssysteme mit eben dieser Funktion ausstrahlen. Zum anderen im Funktionssystem ‘Religion’, in dem es zwar anders, nämlich intendiert unnachvollziehbar, jedoch ebenfalls verankert ist, und auch von hier aus auf das gesamte Kultursystem übergreift und sich auswirkt. Nicht unbedeutend ist in diesem Zusammenhang auch seine Verankerung im Funktionssystem des Alltags, der Umgangssprachlichkeit, in dem es als einfaches, kaum reflektiertes Entscheidungskriterium angewandt wird. Hier interessanterweise meist in seiner negativierten Form (z.B. in Aussagen vom Typus ‘Das ist nicht wahr’, ‘Das darf doch nicht wahr sein’ usf.). Das Konstrukt besitzt also einerseits motivierende, indem es bestimmte Kommunikate zuläßt, legitimierende, indem es Kommunikationen oder gar Handlungen als dem System entsprechend und andere als dem System widersprechend definiert, ausrichtende, indem es die Produktion von Kommunikaten steuert, über das für eine Aussage Zulässige oder Nicht-Zulässige entscheidet, zusammenhangsherstellende, indem es ein System von zusammenhän-
154 Michael Fleischer, Michał Grech, und Agnieszka Ksia˙ ˛zek
genden Äußerungen produziert, ausgrenzende und konsolidierende, indem es nicht dazugehörige von dazugehörigen Kommunikationen, Handlungen u. dgl. zu unterscheiden erlaubt, und das Wir-Gefühl erzeugende Funktionen, indem es durch eine bestimmte Art zu kommunizieren Gruppen konstituiert, und kann andererseits hinsichtlich der jeweiligen Subkultur, d.h. von der Kulturstratifikation abhängig angewandt werden. Jede Subkultur besitzt ihre eigene, für sie spezifische Semantisierung des Konstrukts und wendet dieses entsprechend an. Folglich gibt es systembedingt viele gleichwertige und gleich funktionierende, jedoch ausprägungsbedingt unterschiedlich semantisierte Varianten des Konstrukts. Der systemische Zweck und Sinn sind gleich, die Ausprägung mag verschieden sein. Zu berücksichtigen ist auch, daß es sich um ein spezifisches Konstrukt des mediterranen Kulturkreises bzw. der sog. westlichen Welt handelt. In vielen anderen Kultursystemen ist dieses Konzept nicht zu finden (z.B. in der chinesischen Kultur).
1
Das Untersuchungsdesign
Nun stellt sich die Frage nach der konkreten Semantisierung von ‘Wahrheit’ und ihren grundlegenden kulturellen Eigenschaften. Um sie zu beantworten, nutzten wir die Ergebnisse der Fleischerschen kollektivsymbolischen Untersuchungen, in denen die Semantisierung des Wortes in drei Kulturen geprüft worden ist, und führten zusätzlich eine Umfrage durch, um zusätzliche, über die Semantik selbst hinausgehende Informationen über die Funktionsweise des Konstrukts im polnischen Kultursystem zu gewinnen. Da es sich bei der Arbeit um eine Pilotuntersuchung handelt, die zunächst einmal das Funktionieren der Umfrage prüfen soll, beschränken wir uns lediglich auf eine 50 Versuchspersonen umfassende Gruppe, der wir insgesamt 10 Fragen stellten. Zum einen geht es dabei um die Semantisierung des Konstrukts selbst – den Versuchspersonen wurde eine möglichst breite Frage (Wahrheit ist . . . ), und eine auf Konnotationen hin zielende Frage (Woran denken Sie bei Wahrheit?) gestellt. Zum anderen enthält das Umfrageformular noch acht zusätzliche Fragen, mit deren Hilfe spezifische Aspekte des Objekts in Erfahrung gebracht werden sollten; hierbei handelte es sich um die folgenden Fragen: – Aus welchem Bereich des Wissens / menschlicher Aktivitäten stammt Wahrheit? Hier geht es darum, zu erfahren, welche der oben genannten Funktionskreise die Kulturteilnehmer für die Heimat des Konstrukts
Die kognitive Semantik der ‘Wahrheit’ 155
–
–
–
–
halten, womit dann auch die motivierende und die legitimisierende Funktion des Konstrukts weiter untersucht werden könnten. Wer kennt die Wahrheit? Hier soll nachgeprüft werden, ob die Vpn eine bestimmte soziale oder kulturelle Instanz sozusagen als Wächter der Wahrheit sehen und ob diese Instanz mit dem durch die vorhergegangene Frage eruierten Funktionskreis in Korrelation steht. In der folgenden Frage sollte geprüft werden, ob die Kulturteilnehmer ‘Wahrheit’ als eine relative Größe ansehen, oder eher für einen Absolutheitscharakter plädieren – Ist Wahrheit relativ? Die beiden nächsten Fragen erlauben festzustellen, ob die Wahrheit als eine objektive oder eine subjektive Größe funktioniert (Ist Wahrheit objektiv?, Ist Wahrheit subjektiv?), das heißt, motivieren die Vpn das Konstrukt mit Hilfe eines kognitiv und kulturell als objektiv angesehenen Zusammenhangs, Funktionskreises, oder plädieren sie eher für eine subjektive Entität. Damit zusammenhängend wurden zwei weitere Frage angeschlossen, und zwar danach, ob Wahrheit existiert und ob es viele Wahrheiten gibt und wenn ja welche. Auf die direkte Frage nach ‘der Existenz einer Wahrheit’ (eine Einstellung, die in der polnischen Kultur funktioniert) ist verzichtet worden, statt dessen wurde indirekt gefragt (Gibt es viele Wahrheiten?), wobei uns der Grad der Verneinungen relativ sicher anzeigt, wie stark die entgegengesetzte Einstellung repräsentiert sein könnte.
Hier die Fragen nochmals in Übersicht: 1. Wahrheit – das ist. . . / Prawda to. . . 2. Woran denken Sie bei Wahrheit? / Z czym kojarzy si˛e Pa´nstwu prawda? 3. Aus welchem Bereich des Wissens/der menschlichen Aktivitäten stammt Wahrheit? / Z jakiego obszaru wiedzy/działalno´sci ludzkiej pochodzi prawda? 4. Wer kennt die Wahrheit? / Kto zna prawd˛e? 5. Ist Wahrheit relativ? / Czy prawda jest relatywna/wzgl˛edna? 6. Ist Wahrheit objektiv? / Czy prawda jest obiektywna? 7. Ist Wahrheit subjektiv? / Czy prawda jest subiektywna? 8. Gibt es Wahrheit? / Czy prawda istnieje? 9. Gibt es viele Wahrheiten? / Czy istnieje wiele prawd? 10. Wenn ja, welche? / Je´sli tak, jakie?
156 Michael Fleischer, Michał Grech, und Agnieszka Ksia˙ ˛zek
2
Das semantische Profil der ‘Wahrheit’
Die nun präsentierten Umfragedaten erlauben, das kollektivsymbolische semantische Profil des Konstrukts breiter zu interpretieren. Sie stammen aus den von Fleischer 1993 in Polen, Rußland und Deutschland sowie 2000 erneute in Polen durchgeführten Erhebungen über Kollektivsymbole, wobei hier lediglich die Daten über die Semantisierung des Wortes herangezogen werden. Die Frage der Erhebung lautete: Was bedeuten die folgenden Worte für die Menschen in Polen/Deutschland/Rußland? In der kurzen Besprechung der Daten gehen wir zunächst auf das semantische Profil von ‘Wahrheit’ ein und konfrontieren sie dann mit den Ergebnissen der nun von uns durchgeführten Umfrage. Anschließend stellen wir die Antworten auf die spezifischeren Fragen über Charakter, Herkunft und Beschaffenheit des untersuchten Konstrukts dar. Die Ausprägung des semantischen Profils von Wahrheit zeigt die prozentuale Zusammenstellung in Tabelle 1. Tabelle 1: Das semantische Profil von Wahrheit prawda
2000 1993 Wahrheit
szczero´sc´ / Ehrlichkeit uczciwo´sc´ / Redlichkeit warto´sc´ / Wert dobro / Gut jasno´sc´ / Klarheit wiara / Glaube honor / Ehre odwaga / Mut szacunek / Achtung obiektywizm / Objektivismus otwarto´sc´ / Aufgeschlossenheit zaufanie / Vertrauen rzetelno´sc´ / Aufrichtigkeit zgodno´sc´ / Übereinstimmung
16.0 16.0 13.3 6.0 3.3 3.3 2.7 2.7 2.7
25.5 13.0 6.3 16.8 – – – – – 5.3 5.3 5.3 4.8 4.8
Ehrlichkeit Lüge Vertrauen Gerechtigkeit Glaube Offenheit Aufrichtigkeit Mut
1993 pravda 25 13 13 11 7 7 5 5
cˇ estnost’ gazeta istina gor’kaja spravedlivost’ iskrennost’ drug svoboda lož’ dobrota prjamota vera cˇ est’ otkrytost’
1993 30 22 15 9 9 8 8 8 7 6 6 6 5 5
Wahrheit wird überwiegend von drei Komponenten semantisiert, und zwar Aufrichtigkeit/Ehrlichkeit, Redlichkeit (uczciwo´sc´ ) und Wert bzw. Gut, die übrigen Komponenten dürften akzidentiellen Charakter besitzen. An erster Stelle steht also der individuumbezogene Aspekt des Konzepts, die Vpn charakterisieren es hauptsächlich im Hinblick auf private Kommunikationen. Fragt man sie nach der Bedeutung des Wortes (für die Menschen in Polen),
Die kognitive Semantik der ‘Wahrheit’ 157
beziehen sich zwei semantische Komponenten auf die zwischenmenschliche Dimension und nur eine (Wert/Gut) betrifft den interdiskurshaften Zusammenhang. Das gleiche betrifft im Prinzip die beiden anderen Kultursysteme, wobei in Rußland eine, wie es scheint, wesentliche Komponente auch mit der gleichnamigen russischen Zeitung verbunden ist. Stellt man die Frage an die Vpn breiter und offener, wie in unserer Umfrage geschehen, überläßt also den Vpn selbst die Entscheidung, ob es sich um ein Wort (worauf in der kollektivsymbolischen Umfragen hingewiesen wurde) oder um eine breitere kulturelle Entität handelt – was ja die Frage ‘Wahrheit, das ist . . . ’ suggeriert – so kommen einige Verschiebungen im semantischen Profil zutage. 1. Prawda to . . . / Wahrheit – das ist . . . szczero´sc´ (rzetelno´sc´ , uczciwo´sc´ , lojalno´sc´ , prawdomówno´sc´ , szacunek) poj˛ecie wzgl˛edne (poj˛ecie encyklo pedyczne, wiarygodne poj˛ecie) rzeczywisto´sc´ fakt brak fałszu/kłamstwa godno´sc´ prawda warto´sc´ najwy˙zsza punkt widzenia jasno´sc´ wiedza wyznanie/wiara zgodno´sc´ z. . . (my´sleniem, normami moralnymi)
% Aufrichtigkeit/Ehrlichkeit (Redlichkeit, Loyalität, Wahrhaftigkeit, Achtung) relativer Begriff (enzyklopädischer Begriff, glaubwürdiger Begriff) Wirklichkeit Tatsache Fehlen von Heuchelei/Lüge Würde Wahrheit höchster Wert Gesichtspunkt Klarheit Wissen Glaube/Konfession Übereinstimmung mit. . . (Denken, Normen der Moral)
43.1 19.6 11.8 9.8 7.8 3.9 3.9 3.9 3.9 3.9 3.9 3.9 3.9
Auch hier dominiert eindeutig die individuumbezogene Komponente ‘Ehrlichkeit’, die nun als semantischer Hauptbestandteil des Konzepts angesehen werden kann. An zweiter Stelle erscheint die Einstufung des Konzepts in eine allgemeinere Kategorie (relativer Begriff) und also eine eher interdiskurshafte bzw. aus einem Spezialdiskurs (Wissenschaft) stammende Ausrichtung, die das Konzept kategorisiert. In diesen Bereich fallen auch die Antworten ‘Tatsache’, ‘Wirklichkeit’, ‘Wissen’. Eine religiös ausgerichtete Komponente ist – bei dieser Fragestellung wohlgemerkt – kaum vorhanden (nur 3.9% der Vpn nennen den Glauben). Stellt man eine offene und breit interpretierbare Frage, dann besteht die Semantik von ‘Wahrheit’ aus zwei wesentlichen Komponenten, einer individuellen (Ehrlichkeit) und einer kategorisierenden
158 Michael Fleischer, Michał Grech, und Agnieszka Ksia˙ ˛zek
‘wissenschaftlichen’ Komponente. Das Konzept dürfte daher in Alltagskommunikationen auf diese Art funktionieren. 2. Z czym kojarzy sie Panstwu prawda? / Woran denken Sie bei Wahrheit?
%
szczero´sc´ (uczciwo´sc´ ) wiara (Bóg, Biblia, religia, słowo Bo˙ze, wiedza o Bogu i jego zamierzeniach) klamstwo (zaprzeczenie falszu, absurd, nieporozumienie) prawdomówno´sc´ , prawda miło´sc´ , przyjazn moralno´sc´ , czyste sumienie, sumienie prawo, sprawiedliwo´sc´ szcz˛escie dobro lojalno´sc´ wiedza spokój, spokój wewn˛etrzny
25.5
Ehrlichkeit (Redlichkeit) Glaube (Gott, Bibel, Religion, das Wort Gottes, das Wissen über Gott und seine Absichten) Lüge (Gegenteil von Lüge, absurd, Mißverständnis) Wahrhaftigkeit, Wahrheit Liebe, Freundschaft Moral, sauberes Gewissen, Gewissen Recht, Gerechtigkeit Glück Gut Loyalität Wissen Ruhe, innere Ruhe
17.6 13.7 11.8 7.8 7.8 7.8 5.9 3.9 3.9 3.9 3.9
Fragt man die Vpn jedoch nach den Konnotationen (Frage 2), die sie bei dem Begriff besitzen, wodurch der Aspekt seiner Herkunft offengelegt werden kann, verändern sich die Dominanzverhältnisse relativ deutlich. ‘Ehrlichkeit’ bleibt zwar die wichtigste Komponente, an zweite Stelle tritt jedoch ‘Glaube’. Hinzu kommt eine Komponente, die das Konzept in negativer Hinsicht definiert (Lüge, Gegenteil von Lüge). Auf der konnotativen Ebene ist das Konzept also weiterhin individuumbezogen und aber auch religiös charakterisiert. Die Vpn scheinen also zu wissen, aus welchem Bereich der Begriff stammt, wofür die Konnotationen sprechen, gleichzeitig scheinen sie das Konzept als kommunikatives Konstrukt anzuwenden, wovon die Antworten auf die erste Frage zeugen, als Konstrukt, das für Alltagszwecke benutzt wird, jedoch den argumentativen Vorteil besitzt, das es wissenschaftlich und religiös motiviert ist, was wiederum seine Wirkungskraft verstärken kann. Begründe ich also eine Aussage mit dem Konstrukt, ist dies, was die intendierte Wirkung betrifft, effizienter, als wenn ich es mit einem weniger markierten Wort anzustellen versuche. 3
Die Charakteristik der ‘Wahrheit’
Der zweite Teil der Umfrage betrifft zwei weitere Aspekte des Konstrukts, die sozusagen über oder außerhalb der Semantik liegen, zum einen seine
Die kognitive Semantik der ‘Wahrheit’ 159
Herkunft, zum anderen seine Beschaffenheit im Hinblick auf das Merkmal der Relativität bzw. Objektivität. Zunächst fragten wir (Frage 3) nach einem 3. Z jakiego obszaru wiedzy/dzialalnosci ludzkiej pochodzi prawda? Aus welchem Bereich des Wissens/der menschlichen Aktivitäten stammt Wahrheit? religia (wiara, Biblia, Watykan, z nizin spolecznych bardzo religijnych, słowo Bo˙ze, niebo) nauka (psychologia, historia, socjologia, biologia, chemia, fizyka) moralno´sc´ (etyka, z uczciwego z˙ ycia) filozofia z z˙ ycia doswiadczenie prawo z serca sumienie
Religion (Glaube, Bibel, Vatikan, aus sehr religiösen gesellschaftlichen Niederungen, Gottes Wort, Himmel) Wissenschaft (Psychologie, Geschichte, Soziologie, Biologie, Chemie, Physik) Moral (Ethik, anständiges Leben) Philosophie aus dem Leben Erfahrung Recht aus dem Herzen Gewissen
%
33.3 25.5 23.5 15.6 11.8 7.8 3.9 3.9 3.9
breiteren Feld, in dem das Konstrukt anzusiedeln ist, aus welchem Bereich der menschlichen Aktivitäten es der Einschätzung der Vpn nach stammt, nach seiner traditionsbezogenen Dimension also. Hier verstärkt sich die oben bereits besprochene Tendenz, nach der das Konzept zwei traditionsbezogene Herkunftsfelder aufweist, nämlich ein religiöses und ein wissenschaftliches. Aus Gründen der Übersichtlichkeit werden die Bereiche ‘Wissenschaft’, ‘Moral’ und ‘Philosophie’ getrennt angegeben, auch um ihre Mächtigkeit im Einzelnen zu dokumentieren. Subsumiert man sie im Bereich ‘Wissenschaft’, bilden sie eine eindeutig dominierende Dimension (64.6%). ‘Wahrheit’ entstammt dominant dem philosophisch-wissenschaftlichen Bereich. Mit 27.4% der Antworten kommt ein Bereich hinzu, den man alltagsorientierte Lebenswelt nennen könnte (Leben, Erfahrung, Herz, Gewissen). Die rechtliche Komponente ist dabei kaum ausgeprägt. Wahrheit hat also – der Einschätzung der Vpn nach – kaum etwas mit Recht zu tun. Die wesentlichsten wissenschaftlichen Subkomponenten sind Philosophie und Ethik/Moral. Wahrheit wird also hauptsächlich als ein philosophischer Begriff gesehen und besitzt gleichzeitig eine religiös ausgerichtete Komponente. Die folgende Frage betrifft die wahrheitsstiftende bzw. -bewahrende Instanz. Sofern bei der vorhergegangenen Frage nach dem kulturellen Funktionsfeld, in dem sich das Konstrukt ansiedelt, gefragt worden ist, so geht es nun um die Eruierung der sozialen bzw. kulturellen Instanzen, die für die Bewahrung, die Stiftung oder die Legitimierung der Wahrheit zuständig sind,
160 Michael Fleischer, Michał Grech, und Agnieszka Ksia˙ ˛zek
sie mit ihrer Wirkungskraft ausstatten, ihr die Legitimation für Handlungen oder Kommunikationen verleihen. 4. Kto zna prawde? / Wer kennt die Wahrheit? ka˙zdy (wszyscy, człowiek, człowiek, który z˙ yje pelnia˛ z˙ ycia, ludzie, ka˙zdy ma swoja) ˛ Bóg (ludzie wierzacy) ˛ nikt (chyba nikt) ten, kogo dotyczy człowiek madry, ˛ wi˛ekszo´sc´ ludzi
%
jeder (alle, der Mensch, ein Mensch, der in Lebensfülle lebt, Menschen, jeder hat seine) 31.4 Gott (Gläubige) 25.5 niemand (vermutlich niemand) 23.5 der, den es betrifft 7.8 ein kluger Mensch, die Mehrheit der Menschen 3.9
Die Antworten ergeben ein interessantes, von den übrigen Daten abweichendes Bild, insofern, als nun die wissenschaftliche Komponente gänzlich verschwindet, die religiöse beibehalten wird und eine dritte, individuumbezogene, wie auch eine vierte, relativistische, hinzukommen. Im Besitz der Wahrheit sei, nach Meinung der Vpn, jeder. Es handelt sich also um eine internalisierte Größe, von der die Vpn meinen, sie sei eine Angelegenheit eines jeden Kulturteilnehmers. Die Wahrheit kenne man bzw. habe sie zu kennen und dies sei gleichzeitig ein Zugehörigkeitsmerkmal. Insofern ist Wahrheit eine jener Entitäten, die das Kultursystem und seine Ausprägung konstituieren und über die Zugehörigkeit der Kulturteilnehmer mit entscheidet. An zweiter Stelle wird die religiöse Komponente aktualisiert, wonach Gott die Legitimierungsinstanz bildet, und es zu einer Verschiebung bzw. Verdoppelung der Instanzen kommt. Die Religion als einer der Funktionsbereiche des Kultursystems sichert die Ausprägung der ‘Wahrheit’ vermittels seiner eigenen Ausrichtung. Insofern “braucht” das Kultursystem nur den religiösen Funktionsbereich zu sichern, dieser selbst sorgt dann seinerseits für die entsprechende und also dem Kultursystem entsprechende Sicherung des Konstrukts. Ein ausgesprochen effizienter bzw. die Effizienz erhöhender Mechanismus, wie er in Kultursystemen ansonsten auch üblich ist – über doppelte Sicherungsmechanismen s. Fleischer (1989). Aufschlußreich ist darüber hinaus auch die dritthäufigste Komponente – niemand. Immerhin sehen 23.5 der Vpn das Konstrukt als ein gegebenes Objekt, das keiner Legitimierung bedarf, da es offensichtlich relativistischer Natur ist; was sich übrigens auch in den Antworten auf die folgenden Fragen manifestiert. Weiter ist nach der Relativität der Wahrheit gefragt worden. Hier sprechen sich 56.9% der Vpn für diese Eigenschaft aus, wobei ein relativ großer Anteil an Vpn, die keine Meinung dazu besitzen bzw. äußern wollen, zu beobachten
Die kognitive Semantik der ‘Wahrheit’ 161
ist. Die Kulturteilnehmer sind sich zwar insgesamt sehr sicher, daß Wahrheit relativ bzw. nicht absolut ist, dennoch wollen 33.3% der Vpn im Hinblick auf diese Frage keine Stellung beziehen. Dies könnte von einem bestimmten und vorhandenen Druck des Diskurses zeugen, demnach – so kann spekuliert werden – sie zwar nicht der Meinung sind, Wahrheit sei etwas Absolutes, jedoch sich nicht für die entgegengesetzte Meinung entscheiden wollen, da sie daran offensichtlich etwas – eine kulturelle Kraft – hindert. Welche es sein könnte, ist schwer zu entscheiden. Frage 5. 6. 7. 8. 9.
ja
Czy prawda jest relatywna/wzgledna? / Ist Wahrheit relativ? Czy prawda jest obiektywna? / Ist Wahrheit objektiv? Czy prawda jest subiektywna? / Ist Wahrheit subjektiv? Czy prawda istnieje? / Gibt es Wahrheit? Czy istnieje wiele prawd? / Gibt es viele Wahrheiten?
56.9 43.1 37.3 80.4 49.0
nein keine Meinung 9.8 41.2 37.3 11.8 47.1
33.3 14.7 25.4 7.8 3.9
Insofern ist die Antwort auf die sechste Frage – Ist Wahrheit objektiv? – relativ überraschend, denn wenn Wahrheit als relativ gesehen wird, überrascht es, daß die Vpn sich nun fast gleichermaßen für eine sowohl-als-auchAntwort entscheiden. In etwa gleich viele Vpn beantworten die Frage mit ja und mit nein. 10. (Czy istnieje wiele prawd?) Jesli tak, jakie? / (Gibt es viele Wahrheiten?) Wenn ja, welche? o chorobie, o człowieku, o ludziach, o uczuciach, o z˙ yciu Boska, prawda najwy˙zsza, religijne, jedyna prawda dla ka˙zdego inne faktyczna, rzeczowa, naturalna, prawda s´wiata filozoficzna, nauka ludzka, ludzkie s´wiadome, pod´swiadome
über Krankheit, über (den) Menschen, über Gefühle, über das Leben Göttliche, die höchste Wahrheit, die religiöse, die einzige für jeden andere die tatsächliche, die faktische, die natürliche, die Wahrheit der Welt die philosophische, Wissenschaft die menschliche, die menschlichen die bewußten, die unterbewußten
% 9.8 7.8 7.8 7.8 3.9 3.9 3.9
Das gleiche betrifft Frage sieben, auch hier finden wir dieses Verhältnis wieder. Objektivität bzw. Subjektivität scheinen also im Hinblick auf Wahrheit irrelevante Kategorien zu sein. Wahrheit ist etwas relatives, sie ist aber weder objektiv noch subjektiv. Darüber jedoch, daß Wahrheit existiert, also eine wirkende Kategorie ist, sind sich die Vpn, wie die Antworten auf Frage
162 Michael Fleischer, Michał Grech, und Agnieszka Ksia˙ ˛zek
acht zeigen, einig; nur 11.8 bzw. 7.8% der Vpn verneinen die Frage bzw. haben keine Meinung. Im Hinblick darauf, ob es viele Wahrheiten gibt, herrscht ebenfalls ein ausgeglichenes Verhältnis. Fast ebenso viele Vpn antworten mit ja wie mit nein. Wahrheit – so das Ergebnis – existiert daher zweifellos und ist ebenso relativ, Wahrheit ist aber weder objektiv noch subjektiv, und es gibt ebenso viele wie eine Wahrheit; diese eine aber oder die vielen, die existieren, sind jedoch relativ und weder objektiv noch subjektiv. Oder anders ausgedrückt: Ein Teil der Kulturteilnehmer ist der Meinung, Wahrheit sei eine objektive Entität, und ein ebenso großer Teil meint, sie sei subjektiv, und weiter, ein Teil sieht viele und ein Teil sieht eine Wahrheit als existent. Sowohl die subjektive als auch die objektive und sowohl die eine als auch die vielen existieren und sind relativ. Ein binäres oder bipolares Verhältnis ist also in der polnischen Kultur zu beobachten, das Kultursystem scheint im Hinblick auf das Wahrheits-Konstrukt zwei entgegengesetzte Einstellungen – aus welchen Gründen auch immer – zuzulassen bzw. zu vertreten erlauben. Einigkeit herrscht demgegenüber darüber, daß Wahrheit hauptsächlich etwas mit Ehrlichkeit zu tun hat, individuumspezifisch und religiös konnotiert, religiös und wissenschaftlich motiviert und legitimiert, von den Kulturteilnehmern selbst und vom religiösen Subsystem des Kultursystems als Instanzen gesichert und ausgerichtet wird. Überraschend hoch ist auch bei den Fragen 5 bis 7 der Anteil jener Vpn, die keine Meinung haben. Der Größe der Gruppe nach zu urteilen, handelt es sich ohne weiteres um eine Art dritte Meinung, um Kulturteilnehmer, für die es sich hierbei um keine entscheidungswürdige und also um eine irrelevante Angelegenheit handelt, eine Gruppe, für die dieses Konzept keine Bedeutung zu haben scheint. Auf jeden Fall bei Handlungen oder Kommunikationen offensichtlich keine wesentliche Rolle spielt, sollte ein derart weitreichender Schluß zulässig sein, naturgemäß.
Literatur Ackerman, Charles; Parsons, Talcott 1966/76 “Der Begriff ‘Sozialsystem’ als theoretisches Instrument”. In: Parsons, Talcott (Hg.), Zur Theorie sozialer Systeme. Opladen: Westdeutscher Verlag, 69–84. Bartmi´nski, Jerzy (Hg.) 1990 J˛ezykowy obraz s´ wiata. Lublin: Wydawnictwo UMSC.
Die kognitive Semantik der ‘Wahrheit’ 163 Fleischer, Michael 1995 Das System der polnischen Kollektivsymbolik. München: Sagner. 1996 Das System der deutschen Kollektivsymbolik. Bochum: Brockmeyer. 1997 Das System der russischen Kollektivsymbolik. München: Sagner. 2001 Kulturtheorie – systemtheoretische und evolutionäre Grundlagen. Oberhausen: Athena. 2003 Wirklichkeitskonstruktion. Beiträge zur systemtheoretischen Konstruktivismusforschung. Dresden: Thelem. Glasersfeld, Ernst von 1985 “Siegener Gespräche über Radikalen Konstruktivismus.” In: Schmidt, Siegfried J. (Hg.), Der Diskurs des Radikalen Konstruktivismus. Frankfurt/M.: Suhrkamp, 401–440. Link, Jürgen 1996 Versuch über den Normalismus. Wie Normalität produziert wird. Opladen: Westdeutscher Verlag. Maturana, Humberto R. 1982 Erkennen. Die Organisation und Verkörperung von Wirklichkeit. Braunschweig / Wiesbaden: Vieweg. 1987 “Kognition”. In: Schmidt, Siegfried J. (Hg.), Der Diskurs des Radikalen Konstruktivismus. Frankfurt/M.: Suhrkamp, 89–118. Parsons, Talcott 1968/76 “Sozialsysteme”. In: Parsons, Talcott (Hg.), Zur Theorie sozialer Systeme. Opladen: Westdeutscher Verlag, 275–318.
Kurzvorstellung der Korrelativen Dialektometrie Hans Goebl
Lieber Gabi! Ewig unvergessen wird mir jener Moment bleiben, als wir uns kennengelernt haben: am Abend eines spätsommerlichen Septembertags des Jahres 1977, im Speisesaal des (heute nicht mehr existierenden) Hotels Ortenberg in Marburg an der Lahn. Es war ein strukturell affirmativer, inhaltlich aber fragender Satz, den Du zu einem vereinsamt dasitzenden, spät, zu spät angereisten Gast gesagt hast, und noch dazu in jenem sympathisch berührenden k. u. k.-Deutsch, das eines Deiner Markenzeichen ist: “Sie müssen Herr G. sein!”. Damit wurde nicht nur eine nunmehr mehr als fünf Lustren andauernde Freundschaft begründet, sondern auch die Basis zu einem tirocinium scientificum gelegt, das für mich zu einer wunderbaren Studienreise, stets an Deiner Hand, durch das Zauberland der Quantitativen Linguistik wurde. Und für beides – Deine Freundschaft und Deine inspirierende Unterweisung – bin ich Dir unendlich dankbar, wohl wissend, daß ich diesen Dank auch an die Adresse jener “unsichtbaren Hand” richten muß, die unsere Wege sich damals kreuzen ließ, 1977, im Hotel Ortenberg, bei einer von den Marburger Dialektologen organisierten Tagung über “Automatische Sprachgeographie”. Als donum natalicium präsentiere ich Dir zu Deinem Ehrentag in geraffter Kürze das jüngste Kapitel einer mich seit langem beschäftigenden Fortsetzungsgeschichte namens “Dialektometrie”, das dem Problem der räumlichen Korrelation gewidmet ist. Mathematisch ist dabei sicher alles in Ordnung, statistisch schon weniger und in genuin epistemologischer Hinsicht ist das alles höchstwahrscheinlich ein Husaren- oder Piratenstück der verwegenen Art. Das aber durchaus auf den Gabentisch eines Polyhistors paßt, dem nicht nur immer der Schalk aus allen Poren gelacht hat, sondern auch eine unstillbare Lust an verzwickten Fragestellungen aller Art in die Wiege gelegt worden war. Ad multos, permultos annos – felices, faustos iucundosque!
1
In aller Kürze: was ist und zu welchem Zweck betreibt man Dialektometrie (DM)?
Die DM ist zunächst die Neugier nach prima vista unsichtbaren bzw. verborgenen Dingen, die ihre Adepten unweigerlich in die Situation des Voyeurs
166 Hans Goebl
manövriert. Und zwar dadurch, daß diese einen Blick auf die in der Gesamtheit aller Daten eines Sprachatlasses verborgenen Tiefenstrukturen werfen wollen. Und das ist – um im Bild zu bleiben – weit mehr als nur ein keckes Schielen unter einen der zahlreichen Unterröcke einer zwiebelschalenartig gewandeten Muse. Um dieses verwegene Entdeckungsabenteuer gut bestehen zu können, muß ein Dialektometer doppelt gläubig sein: zunächst muß er an die Existenz solcher Tiefenstrukturen glauben und dann dem nur quantitativ beschreitbaren Weg der Datensynthese und -analyse vertrauen. Leute dieses Schlags sind im allgemeinen gute Christenmenschen und glauben auch an die Existenz weniger tief sitzender Muster, Strukturen und Ordnungen, ganz abgesehen davon, daß sie auch das Bibelwort von der Vielfalt der (methodischen) Häuser des Herren (mansiones sunt multae: Johannes 14,2) kennen und sich darnach richten. Daß ihnen das von anderen Christenmenschen bisweilen nicht mit gleicher Münze zurückgezahlt wird, steht auf anderem Blatt, soll uns aber an dieser Stelle nicht weiter anfechten. Wenn also die DM theoretisch und methodisch durch global data crunching mit quantitativen Mitteln charakterisiert werden kann, so ist in heuristischer Hinsicht ihre notorische Kartenverliebtheit hervorzuheben. Diese ist natürlich nicht eine fehlgeleitete Spielart des eingangs erwähnten Voyeurismus, sondern nur das Resultat einer konsequenten Beobachtung der vielfältigen Facetten eines zweidimensionalen Relativs, mit dem prima vista unschuldigen Namen “Raum”.1 Seit ein paar Jahren kann sich diese Kartomanie im Rahmen eines genial gestrickten Computerprogramms namens “Visual DialectoMetry” (VDM) entfalten, das von einem hochbegabten Kopf namens Edgar Haimerl erstellt wurde, der zuvor bereits dem Salzburger Ladinienatlas ALD die komputativen Flügel – besser: Schwingen – verliehen hatte und den ich dem Festeggiando als Gesprächspartner warm empfehlen darf. Ganz eigentlich besteht also der heuristische Succus der zutiefst explorativ ausgerichteten Methode der DM in einer unabsehbar großen Menge an Musterstrukturen, worunter primär quantitative Themakarten aller Art, aber auch differenzierte Linienund Baumgraph(ik)en zu verstehen sind. Alle diese Musterstrukturen werden nun durchaus nach anerkannten Regeln der quantitativen Kunst generiert, emanzipieren sich aber in jenem Moment von dieser, in dem sie gebrauchsfertig (bzw. betrachtungsbereit) auf dem Bildschirm oder dem Papier erscheinen. Damit wird aber ein ontolo1. Eigentlich sollte es “Fläche” heißen.
Kurzvorstellung der Korrelativen Dialektometrie 167
gischer Transfer vom Quantitativen zum im Grunde Qualitativen schlagend, über den – wie mir scheint – noch viel zu wenig nachgedacht worden ist, Ganz eigentlich kehrt also der mit DM operierende Sprachgeograph am Ende seines langen quantitativen Weges wieder an jenen Punkt zurück, von dem aus der gestartet ist: nämlich zum primär qualitativ ausgerichteten Studium von Sprachkarten,2 die – wie in der Romanistik seit alters her üblich – aus “ein paar hundert Bildpunkten” bestehen. Daher ist und bleibt er im methodisch wohl geordneten, zwischen Nullhypothesen, Signifikanzniveaus und Häufigkeitsverteilungen aufgespannten Raum der (genuinen) quantitativen Linguistik in der Tat eine Art Freibeuter oder überhaupt ein schräger Vogel, um nur zwei der vielen Metaphern zu bemühen, die in diesem Kontext verwendet werden können.
2
Was ist und was will die Korrelative DM?
Erstaunlicherweise hat den frühen Sprachgeographen die Frage wenig Kopfzerbrechen bereitet, in welcher Weise sich eine abstrakte (quantitative) Eigenschaft wie die “sprachliche Ähnlichkeit” im nach Kilometern bezifferbaren Naturraum (nota bene: eine Fläche!) entfaltet. Kopfzerbrechen hat ihnen vielmehr die geringe Lust statusgleicher oder statusähnlicher Isoglossen bereitet, punktgenau zusammenzufallen, und auch die Frage, ob wohl phonetisch, lexikalisch oder morphosyntaktisch relevante Isoglossen eher verschiedene oder ähnliche Wege gehen. Nun konnte nicht ausbleiben, daß auch die Sprachgeographen nach einigen Jahrzehnten davon Wind bekommen haben, daß andere raumbezogene Wissenschaften mit durchaus ähnlichen Fragestellungen konfrontiert sind und sich ebenso schwer tun, diese empirisch umfassend, theoretisch sauber und heuristisch klar zu handhaben. Vor dem Hintergrund dieses inner- und außerhalb der (Geo)Linguistik relevanten Dilemmas ist nun unter maßgeblicher Beteiligung des VDM-Schöpfers Edgar Haimerl im Jahr 2004 die Idee geboren worden, nach Wegen und Möglichkeiten zu suchen, das Problem der räumlichen Korrelation zweier Variablen – ob nun linguistisch relevant oder nicht – mit den Mitteln der quantitativ gestützten Themakartographie zu lösen. Dabei wurde ein (überaus praktikabler) Weg gefunden, der über die 2. Welche inhaltlich freilich quantitativ strukturiert sind und beim Betrachten/r zunächst quantitative Vorstellungen bzw. Begriffe provozieren.
168 Hans Goebl
paarweise Korrelation der jeweils N Spalten (bzw. Zeilen) der Ähnlichkeitsmatrizen der zu vergleichenden Variablen führt. In diesem kurzen Beitrag werden Anwendungsbeispiele aus unserem bislang größten DM-Projekt gezeigt, das der Dialektometrisierung des französischen Sprachatlasses ALF (Atlas linguistique de la France) gewidmet ist.3 Leider kann das nur auf Papier (statt auf dem Bildschirm) und da wiederum nur in Schwarz-Weiß (statt in Farbe) erfolgen: eine klassische bottle-neckSituation, die deshalb doppelt lästig ist, weil – wie schon erwähnt – die DM eine dominant muster- und damit augen-bezogene Disziplin (mit allen sich daraus ergebenden epistemologischen, aber auch genuin kognitiven Konsequenzen) ist. 3
Von den Rohdaten (ALF) zur Datenmatrix
Der Atlas linguistique de la France (ALF) von Jules Gilliéron und Edmond Edmont hat bei 638 Meßpunkten 1 421 Atlaskarten. Diese informieren zu phonetischen, morphologischen und lexikalischen Themen in relativ ausgewogener (und außerdem ziemlich lückenarmer) Form. Die fraglichen 638 Meßpunkte liegen nicht zur Gänze in Frankreich, sondern auch in Wallonien (Belgien), der Welschschweiz, Piemont (Italien), im Elsaß (damals [1897– 1901] Deutschland) und sogar in Großbritannien (Kanalinseln). Das Baskenland, die keltische Bretagne und das niederländischsprachige Westhoek um Dünkirchen (Dunkerque) wurden einsichtigerweise in diesem romanischen Sprachatlas nicht erfaßt. Der empirische Wert der Daten des ALF ist überaus hoch, ganz abgesehen davon, daß der ALF bis heute der größte Sprachatlas der Romanistik geblieben ist. So konnte es nicht ausbleiben, daß die für einen Dialektometer wie mich elementare Frage nach den prima vista unsichtbaren Tiefenstrukturen auch an ihn gestellt wurde. Dies geschah in den Jahren 1997–2000, wobei mir fünf meiner Salzburger Studentinnen hilfreich4 zur Seite standen. Parallel dazu entwickelte Edgar Haimerl das vorhin schon mehrfach zitierte Programm VDM, das in numerischer und graphischer Hinsicht die Quintessenz meiner 1984 publizierten Habilitationsschrift umsetzte. 3. Siehe dazu unsere mit zahlreichen EDV-generierten Farbgraphiken versehenen Arbeitsberichte und Analysen, die zwischen 2000 und 2005 erschienen sind. 4. Es waren dies: Barbara Aigner, Irmgard Dautermann, Hildegund Eder, Susanne Oleinek und Annette Ida Schatzmann. Ihnen allen sage ich an dieser Stelle – nicht zum ersten Mal – meinen herzlichen Dank.
Kurzvorstellung der Korrelativen Dialektometrie 169
Im Zuge des salopperweise “Dialektometrisierung” genannten Vorgangs der Erstellung einer zur taxometrischen Weiterbehandlung geeigneten Datenmatrix wurde – das sei nur so nebenbei bemerkt – ein zehn Bände umfassendes Exemplar des Neudrucks des ALF von sachkundiger Hand in seine (1 421) Einzelblätter zerlegt. Darauf applizierte ein geduldiger Buchdrucker in verschiedenen Pastellfarben gehaltene Prüfpfade, entlang derer die vorhin lobend erwähnten Salzburger “Arbeitsbienen” ihre sprachgeographischphilologisch Transfer-Arbeit (“Taxierung”) entfalteten, an deren Ende eine nominal strukturierte Datenmatrix aus 641 Meßpunkten und 1687 Arbeitskarten stand. Warum 641 und nicht 638 Meßpunkte? Weil wir zu Vergleichszwecken drei Hochsprachen (Französisch, Italienisch und Katalanisch) als künstliche Meßpunkte (bzw. als Kunstdialekte) in das Gesamtnetz des ALF eingesteuert haben. Warum 1 687 und nicht 1 421 Arbeitskarten? Weil zwischen “Arbeits”und (originalen) Atlas-Karten unterschieden werden muß. Einer Originalkarte des ALF können – vor allem, wenn sie auf nur einem lexikalischen Typ beruht, der naturgemäß in vielerlei phonetischen Varianten vorkommt – im Wege einer Mehrfachtaxierung mehrere Arbeitskarten entnommen werden. So beruhen die zitierten 1 687 Arbeitskarten auf “nur” 626 originalen ALFKarten. Daß wir von 1 421 ALF-Karten nur 626 (und damit rund 44% der Gesamtdaten) analysieren bzw. taxieren konnten, hat rein arbeitspraktische Gründe: mehr war im Rahmen der in Anspruch genommenen Förderungen5 “einfach nicht drin”. Dafür ist der aleatorische Status der schlußendlich “im Netz verbliebenen” Stichprobe relativ gut. Dasselbe betrifft den kategoriellen Mix der 1687 Arbeitskarten (AK): Lexikon: 471 AK, Konsonantismus: 505 AK, Vokalismus: 612 AK, Morphosyntax: 99 AK.6 4
Von der Daten- zur Ähnlichkeitsmatrix
Die hier präsentierten Korrelationenkarten beruhen – sofern sie rein linguistischer Natur sind – auf Ähnlichkeitsmatrizen, die mit Hilfe unseres StandardÄhnlichkeitsmaßes RIW jk (“Relativer Identitätswert”)7 errechnet wurden; die 5. Es waren das die Forschungsprojekte Nr. 12 414 und 13 349 des “Fonds zur Förderung der wissenschaftlichen Forschung in Österreich” (FWF), Wien. Auch dem FWF war und bin ich sehr dankbar. 6. Die schwache Stellung der Morphosyntax ist quellenbedingt und betrifft praktisch alle Sprachatlanten aller Disziplinen. 7. Zu Details cf. Goebl (1984, I: 74ff.)
170 Hans Goebl
geographischen Proximitäten (prox) wurden mit Hilfe der bekannten Formel des Pythagoras (a2 + b2 = c2 ) zunächst als Distanzen (dist) errechnet, darnach normiert (größte Distanz = 100) und abschließend in der üblichen Weise (prox + dist = 100) in Proximitäten verwandelt. Grund: die beiden zu untersuchenden Phänomene – d.h. die sprachliche und die euklidische Relation im Raum – können nur bei gleichsinniger Orientierung der mehr oder weniger parallel erfolgenden numerischen Variation nutzbringend miteinander verglichen werden.
5
Von den beiden Ähnlichkeitsmatrizen zur Korrelationenkarte
Die beiden zur Verfügung stehenden Ähnlichkeitsmatrizen müssen einsichtigerweise die gleichen formalen Dimensionen (hier: N = 641 Vektoren) haben. Da – wie die Abbildungen 2 und 3 (Seite 172f.) deutlich zeigen – jeder der 641 Vektoren der beiden Ähnlichkeitsmatrizen je einer Ähnlichkeitskarte entspricht – auf der wiederum die variabel ausgeprägte Bewirtschaftung der Gesamtfläche des ALF durch die Dialektsprecher zum einen (Abbildung 2) und durch die euklidische Geometrie zum anderen (Abbildung 3) aufscheint –, lag die Idee auf der Hand, die den beiden Ähnlichkeitsmatrizen entnehmbaren 641 Verteilungspaare mit Hilfe eines dafür geeignet scheinenden Korrelationsmaßes numerisch zu vergleichen. In der einschlägigen geographischen Literatur waren viele Argumente für und nur wenige gegen die Anwendung des Produktmoment-KorrelationsKoeffizienten nach Bravais und Pearson [r(BP)] zu finden.8 Evidenterweise mußten die sich dabei ergebenden 641 r(BP)-Werte anschließend in eine der üblichen kartographischen Synopsen gebracht werden (siehe dazu die Abbildung 1), von der wir uns neue Einsichten in das komplexe Mit- und Gegeneinander von Sprache bzw. Sprechen und Raum (eigentlich: Fläche) erhofften. Und in der Tat: wir wurden wirklich nicht enttäuscht. Siehe dazu die Abbildungen 4 und 5 (Seite 176f.), die – das soll hier nochmals betont werden – als Schwarz-Weiß-Graphiken9 nur ein wahrhaft klägliches Abbild dessen zu liefern imstande sind, was eine 6-, 8- oder gar 10-färbig gestaltete Choroplethenkarte bieten könnte. Daß hier die moderne Drucktechnik mit 8. Cf. dazu Bahrenberg et al. (1990: 144ff.) sowie Legendre & Legendre (1998: 139ff.). 9. Für die wie immer überaus sorgfältige Erstellung der Abbildungen 1–5 bin ich meinem langjährigen Projektmitarbeiter Slawomir Sobota zu großem Dank verpflichtet.
Kurzvorstellung der Korrelativen Dialektometrie 171 Ähnlichkeitsmatrix s(a)jk A (symmetrisch) Datenmatrix A (nominale, mehrstufige Merkmale)
i
f
1
a
a
a
g
g
c
d
i
1
s(a)jk
[
1
b
1
2 3 4 5 6 Meßpunkte (Elemente)
1[
. . . j . k . . . N]
h
66
4
66
100
50
33
33
33
50
100
33
33
33
3 2
25
33
33
100
75
75
25
33
33
75
100 100
1
25
33
33
75
100 100
6 ]
5
100
5
100
4
100 100 100
N
k
3 2
1
s(b)jk
5
]
h
e
i
25
4
. .
h
e
k
25
3
i
2
. .
h
2
j
25
p
6 fehlende Daten [ N
. . .
j
. . .
1
100 1
5 4 3 2 1 Meßpunkte (Elemente) 1]
[1
h h h h h h
1 2 3 4 5 6
2
3
. . .
4
j
5
. . .
6 N]
h
6 5 4 fehlende Daten N[
3
2
1
1
. . .j . k . . .
[
3
j
66
. .
j
66
. .
j
. .
j
. .
j
100
[
]
h [ .. .. ] Karten (Merkmale)
N
4
Meßpunkte (Elemente)
Datenmatrix B 6
h
p
Ähnlichkeitsmatrix s(b)jk B (symmetrisch)
1 1]
h h h h h h
Korrelationenkarte
Abbildung 1: Berechnung des “Relativen Identitätswerts” (RIW jk ) sowie der Korrelationenkarte anhand von Daten- und Ähnlichkeitsmatrix im Rahmen der Dialektometrie
den Fortschritten der EDV-gestützten Bildgenerierung überhaupt nicht mithalten kann (oder will?!), sei hier einmal mehr mit der allergrößten Verwunderung vermerkt. 6
Interpretation der Abbildungen 2 und 3
Die Abbildungen 2 und 3 sollen – sozusagen in der Form einer ikonischen Minimalkostprobe – den epistemologischen Einstieg in die anstehende Problematik ermöglichen. Bildtechnisch beruhen sie beide auf sechs Graurasterbzw. Schraffurstufen, die den jeweils 64010 zu visualisierenden Meßwerten durch einen mittelwertzentrierten Intervallalgorithmus (MINMWMAX11 ) zugewiesen wurden. Die jeweiligen Prüfbezugspunkte sind aus Gründen der Vergleichbarkeit einsichtigerweise identisch: ALF-Meßpunkt 1: Marcigny, Département Nièvre. Auf den ersten Blick erkennt man, daß das Bildtypen- oder Choroplethenprofil der beiden Karten sehr verschieden ist. Die Abbildung2 zeigt die Stellung des Dialekts (bzw. der Dialektizität) des ALF-Punkts 1 inmitten des 10. Der 641. Wert der Ähnlichkeitsverteilung bezieht sich auf den Prüfbezugspunkt selber und beträgt immer 100. 11. Zu Details cf. Goebl (1984, I: 93f.)
172 Hans Goebl
ALF
Série A: cartes 1-1421 Wallonie (Belgique)
(1902-1908) Pic ardie N N N N N N N
ALLEMAGNE
MANCHE Normandie
LUXEMBOURG
I les anglonormandes (Anglet erre)
Lorraine Bret agne romane
Als ac e (Allemagne)
Suis se romande Poitou Vallée d´Aos t e (Italie)
Saint onge
ATLANTIQUE
Vallées v audois es (It alie)
Gas cogne
Prov ence Languedoc
Pay s basque
Rouss illon 0
100
MEDITERRANEE
200
ESPAGNE
Visualisierung MINMWMAX 6-fach
1 2 3 4 5 6
34.61 -
45.76 56.92 68.07 75.46 82.84 90.22
Ähnlichkeitsverteilung MINMWMAX 12-fach
(8) (169) (115) (115) (141) (92) 6 = 640
72 90
59
69
71
56
79 68 47
21
6
2
35
39
43
47
51
55
59
63
67
71
75
79
83
87
RIW1,k(TOT)
Abbildung 2: Linguistische Ähnlichkeiten zum ALF-Meßpunkt 1 (Marcigny, Département Nièvre). Ähnlichkeitsmaß: Relativer Identitätswert (RIW jk ), Intervallalgorithmus: MINMWMAX mit 6 Wertstufen, Korpus: Totalkorpus (1687 Arbeitskarten), Korrelationsmaß zu Figur 3 nach r(BP) jk: + 0.433
Kurzvorstellung der Korrelativen Dialektometrie 173
ALF
Série A: cartes 1-1421 Wallonie (Belgique)
(1902-1908) Pic ardie N N N N N N N
ALLEMAGNE
MANCHE Normandie
LUXEMBOURG
I les anglonormandes (Anglet erre)
Lorraine Bret agne romane
Als ac e (Allemagne)
Suis se romande Poitou Vallée d´Aos t e (Italie)
Saint onge
ATLANTIQUE
Vallées v audois es (It alie)
Gas cogne
Prov ence Languedoc
Pay s basque
Rouss illon 0
100
MEDITERRANEE
200
ESPAGNE
Visualisierung MINMWMAX 6-fach
1 2 3 4 5 6
47.85 -
55.15 62.46 69.76 78.80 87.84 96.88
Ähnlichkeitsverteilung MINMWMAX 12-fach
(58) (110) (175) (164) (91) (42) 6 = 640
91 84 91 61 44
73
49 52 39 26
14
48
51
16
54
57
60
63
66
69
72
75
78
81
84
87
90
93
96
GeoProx1,k(TOT)
Abbildung 3: Geographische Proximitäten zum ALF-Meßpunkt 1 (Marcigny, Département Nièvre). Proximitätsmaß: euklidische Distanz (Formel von Pythagoras), Intervallalgorithmus: MINMWMAX mit 6 Wertstufen. Korrelationsmaß zu Figur 2 nach r(BP) jk : +0.433
174 Hans Goebl
ALF-Gesamtnetzes an und vermittelt damit eine präzise Vorstellung davon, in welcher Weise der Relationenraum des ALF von den Sprechern des ALFDialekts Nr. 1 bewirtschaftet wird. Deutlich erkennt man, daß die an die Distanz (vom Prüfbezugspunkt 1, Marcigny) gebundene Abnahme der linguistischen Ähnlichkeit nach Norden viel langsamer als nach Süden hin erfolgt. Dazu ließe sich aus genuin romanistischer Sicht natürlich ein langer Kommentar abgeben, der hier aber entfallen muß. Doch soll an dieser Stelle wenigstens soviel festgehalten werden, daß über das Heuristikum der Ähnlichkeitskarte (geo)linguistisch relevante Regularitäten sichtbar gemacht werden, die – da sie anhand zahlreicher anderer Daten völlig analog nachgewiesen werden konnten – mit vollem Fug und Recht als universell gültige “RaumGesetze” bezeichnet werden können. Sie stellen somit das Pendant zu den vor weit mehr als einem Jahrhundert im Bereich der Indogermanistik entdeckten Lautgesetzen dar, die – da sie Regularitäten entlang der Zeitachse aufzeigen – , eigentlich “Zeit-Gesetze” heißen sollten. Der einzige Unterschied zwischen den hier angesprochenen Raum-Gesetzen und den “Zeit-Gesetzen” der Indogermanistik besteht darin, daß sich letztere in der Dimension der Zeit und erstere in der Dimension des (geographischen) Naturraumes entfalten, der ja more geometrico eigentlich eine Fläche ist. Daß die auf der Visualisierung linearer Sachverhalte beruhende Abbildung 3 kreisringartige Strukturen zeigt, ist dagegen völlig einsichtig und somit banal. Absolut unvorhersehbar und somit keineswegs banal ist dagegen aber die Tatsache, daß die prima vista (und damit okular) “so” (bzw. “ziemlich”) verschieden erscheinenden Abbildungen 2 und 3 auf jeweils 640 + 1 Meßwerten beruhen, die, sofern man sie im Wege einer Applikation des r(BP) miteinander quantitativ vergleicht, ziemlich hoch miteinander korrelieren: r(BP)1 = +0.433, wobei dieser Einzelwert zu einer Meßwertemenge gehört, die zwischen −0.15 und +0.93 pendelt: siehe dazu die (numerische) Legende der Abbildung 4. Mit welchen statistischen Mitteln immer man nun den isolierten Meßwert +0.433 behandelt, so wird doch dadurch nie und nimmer vorausgesagt werden können, welchen Platz er im Gesamtmuster der Korrelationenkarte einnehmen wird, das bekanntlich auf 641 r(BP)-Werten beruht. Hier liegt also – wie eingangs schon angedeutet – eine hochinteressante Fuge bzw. eine Transformations- oder Bruchstelle in der Kette der Informationsverarbeitung vor.
Kurzvorstellung der Korrelativen Dialektometrie 175
7
Interpretation der Abbildungen 4 und 5
Die beiden Abbildungen visualisieren Korrelationenverhältnisse: die Abbildung 4 zwischen der allgemein-sprachlichen Ähnlichkeit und der euklidischen Proximität, die Abbildung 5 zwischen der phonetischen und der lexikalischen Ähnlichkeit (bzw. Proximität). Beide Abbildungen verfügen über ein ungemein harmonisch aufgebautes Bildprofil und lösen beim romanischen Sprachgeographen – für den sie ja letztendlich bestimmt sind – geradezu Kaskaden von Aha-Erlebnissen aus. Zur Visualisierung der jeweils 641 r(BP)-Werte wurde der (das allgemeine Bildprofil straffende) Intervallalgorithmus MEDMW12 verwendet. 7.1
Interpretation der Abbildung 4
Auf dieser Abbildung geht es darum, ob und in welcher Weise sich sprachliche Ähnlichkeiten im Raum “natürlich” – d. h. nach den rigiden Imperativen des euklidischen Raumes – oder “sozial” – d.h. in Abhängigkeit von historisch oder politisch relevanten Faktoren – entfalten. Der erstere Fall betrifft die dünkleren Teile der Choroplethenkarte (in den Wertklassen 5 und 6), der zweite Fall die helleren Teile der Karte (in den Wertklassen 1 und 2). Deutlich erkennt man – und hätte das bei einem Blick auf eine 6- oder 8-färbige Visualisierung noch viel besser getan – den überaus harmonischen Aufbau der Karte, die im Norden (Pikardie, Wallonie, Normandie, Ile-de-France) und im Süden (Languedoc, Roussillon) jeweils kompakte Zonen mit einer hoch ausgeprägten “natürlichen” Konvergenz zwischen der sprachlichen und der euklidischen Bewirtschaftung des Raumes zeigt. Dazwischen liegt eine ebenso sehr klar und stetig strukturierte Übergangszone, die die Fläche der Galloromania von West nach Ost in der Form eines Doppeltrichters durchzieht. Da Raum und Zeit bekanntlich phänomenologisch eng miteinander verzahnt sind und somit jede anthropisch relevante Kartierung zu einer Lektion über die Geschichte des betreffenden Raumes werden kann, ist auch hier eine sprachhistorisch ausgerichtete Gesamtinterpretation der Abbildung 4 für den Sprachgeographen eine vorrangige Option. Er wird dabei darauf zurückgreifen, was in der Romanistik zur sprachlichen Ausgliederung der Galloromania schon bekannt ist. 12. Zu Details cf. Goebl (1984, I: 95)
176 Hans Goebl
ALF
Série A: cartes 1-1421 Wallonie (Belgique)
(1902-1908) Pic ardie N N N N N N N
ALLEMAGNE
MANCHE Normandie
LUXEMBOURG
I les anglonormandes (Anglet erre)
Lorraine Bret agne romane
Als ac e (Allemagne)
Suis se romande Poitou Vallée d´Aos t e (Italie)
Saint onge
ATLANTIQUE
Vallées v audois es (It alie)
Gas cogne
Prov ence Languedoc
Pay s basque
Rouss illon 0
100
MEDITERRANEE
200
ESPAGNE
Visualisierung MEDMW 6-fach
1 2 3 4 5 6
-0.15 -
0.37 0.52 0.64 0.75 0.83 0.93
Ähnlichkeitsverteilung MEDMW 12-fach
(88) (87) (87) (126) (127) (126) 6 = 641
63 64 63
44 43
44
63
63 63
43
44 44 0
r(BP)RIW-TOT,GeoProx
Abbildung 4: Korrelationenkarte (“Linguistik-Geographie”). Korpus A: Totalkorpus (1687 Arbeitskarten), Ähnlichkeitsmaß: Relativer Identitätswert (RIW jk ), Korpus B: geographische Proximitäten, Proximitätsmaß: euklidische Distanz (Formel von Pythagoras), Intervallalgorithmus: MEDMW mit 6 Wertstufen
Kurzvorstellung der Korrelativen Dialektometrie 177
ALF
Série A: cartes 1-1421 Wallonie (Belgique)
(1902-1908) Pic ardie N N N N N N N
ALLEMAGNE
MANCHE Normandie
LUXEMBOURG
I les anglonormandes (Anglet erre)
Lorraine Bret agne romane
Als ac e (Allemagne)
Suis se romande Poitou Vallée d´Aos t e (Italie)
Saint onge
ATLANTIQUE
Vallées v audois es (It alie)
Gas cogne
Prov ence Languedoc
Pay s basque
Rouss illon 0
100
200
ESPAGNE
Visualisierung MEDMW 6-fach
1 2 3 4 5 6
0.40 -
0.75 0.80 0.84 0.89 0.91 0.93
MEDITERRANEE
Ähnlichkeitsverteilung MEDMW 12-fach
(79) (78) (78) (135) (136) (135) 6 = 641
68
68 68 68
39 40
67
39 39 39 67
39
r(BP)PHON-TOT,LEX-TOT
Abbildung 5: Korrelationenkarte (“Linguistik-Linguistik”). Korpus A: 1117 phonetisch relevante Arbeitskarten, Korpus B: 471 lexikalisch relevante Arbeitskarten, Ähnlichkeitsmaß: immer: Relativer Identitätswert (RIW jk ), Intervallalgorithmus: MEDMW mit 6 Wertstufen
178 Hans Goebl
Diesbezüglich wissen wir, daß die Romanisierung Galliens zu zwei (leicht versetzten) Zeitpunkten eingesetzt hat: Süden: ca. 120 v. Chr., Norden: ca. 50 v. Chr. Ferner steht fest, daß die sicherlich bereits ab ovo bipolar organisierte Latinität Galliens (Süden: Zentrum: um Narbonne, Norden: Zentrum um Lyon) ab dem 5.–6. Jahrhundert im Zuge der Völkerwanderung und der dieser nachfolgenden schrittweisen Expansion der fränkischen Herrschaft (ausgehend von der Ile-de-France) dergestalt restrukturiert wurde, daß es auf breiter Front zu einer kapillaren Festigung (mit nachfolgender Expansion) des nordzentrierten Sprachtyps (langue d’Oïl) und einer damit verbundenen Schwächung des südzentrierten Sprachtyps (langue d’Oc) kam. Diesen im wahrsten Wortsinn tausendjährigen Prozeß reflektiert die Abbildung 4 sehr anschaulich: die hell gerasterten Zonen (in den Wertklassen 1 und 2) verweisen dabei auf jene Gebiete, wo dieser von politischen bzw. sozialen, auf jeden Fall aber von historischen Faktoren gesteuerte Prozeß die größten Konsequenzen hatte und wo somit eine in der Frühzeit der Romanisierung zunächst eher euklidisch bestimmte (hohe, positive) Relation zwischen räumlicher und sprachlicher Affinität kräftig aus den Angeln gehoben wurde. Daß diese Interpretation einiges für sich hat, kann am Polygon des im Umfeld von Bordeaux liegenden ALF-Meßpunkts 635 (Andraut, Département Gironde, einsortiert in Wertklasse 1) veranschaulicht werden. Dieser Meßpunkt gehört zu einer (nord)französischen Sprachinsel13 , die in der Mitte des 15. Jahrhunderts im gaskognischen Sprachgebiet durch die Ansiedlung von aus der Saintonge stammenden Siedlern entstanden ist. An dieser Stelle befindet sich außerdem das Minimum der r(BP)-Gesamtverteilung [r(BP)635 = −0.15]. Daß beim Vorgang der Gründung von Sprachkolonien präetablierte, regelhafte Relationen zwischen sprachlicher und räumlicher Affinität bzw. Proximität völlig durcheinander gebracht werden, liegt auf der Hand. Interessanterweise ergeben sich bei der Korrelation zwischen dem geographischen Naturraum und den diversen, in unserer ALF-Datenmatrix befindlichen linguistischen Teilkategorien (Phonetik: 1117 Arbeitskarten, Lexikon: 471 Arbeitskarten etc.) erneut sehr affine Raumstrukturen, so daß die Vermutung nahe liegt, daß im Zuge dieser historischen Expansions- bzw. Kon13. Diese Sprachinsel heißt traditionsgemäß Petite Gavacherie oder – nach ihrem Hauptort – Gavacherie de Montségur. Die Südfranzosen (oder Okzitanen) verstehen unter den gavaches im allgemeinen Leute aus dem Norden Frankreichs.
Kurzvorstellung der Korrelativen Dialektometrie 179
frontationsprozesse die Sprache letztendlich gesamthaft (d.h. über alle ihre Kategorien, und somit redundant) und nicht partikulär (etwa nur über das Lexikon – z.B. durch die Übernahme fremder Wörter – und nicht über die Phonetik) reagiert hat.
7.2
Interpretation der Abbildung 5
Einsichtigerweise haben wir nach Vorliegen des Korrelationsmoduls des Programms VDM alle nur erdenklichen Subkorpora miteinander verglichen und dabei eine in dieser Klarheit nie und nimmer vorausahn- oder gar -sagbare Regularität entdeckt, nämlich daß bei einer Korrelierung – stets mittels r(BP) – linguistischer Subkorpora (Phonetik vs. Lexikon, Vokalismus vs. Konsonantismus, Vorton vs. Nachton, Hauptton vs. Nebenton etc.) immer wieder Choroplethenprofile entstehen, die eine deutliche Zweiteilung der Galloromania bzw. des ALF-Netzes zeigen, allerdings mit einem etwas anderen Verlauf der Übergangszone, als dies auf der Abbildung 4 der Fall war. Auf der Abbildnung 5 sieht man, daß die phonetische und die lexikalische Bewirtschaftung der ALF-Fläche durch die Sprecher jeweils im Norden (siehe die Polygone in den Wertklassen 4–6) und im Süden (Languedoc, Roussillon) sozusagen “phasengleich” bzw. “im Gleichschritt” erfolgt, während sich dazwischen eine fein abgestufte (und räumlich sehr kompakt bzw. klar strukturierte Aus- und daran anschließende (Wieder)Einphasung feststellen läßt. Damit sind aber innerlinguistisch relevante Sachverhalte angesprochen, die die Variationsgrammatik betreffen. Aus der Perspektive der Korrelativen DM erwächst somit der Eindruck, daß in gewissen Kernzonen die diversen Teilsysteme der örtlichen Grammatiken miteinander enger verzahnt sind bzw. zueinander kongruenter sind, als dies in Übergangs-, Misch- oder Hybridgebieten der Fall ist.
8
Nachbemerkung
Mit der Korrelativen DM wurde methodisch eine Tür aufgestoßen, die in völliges Neuland führt. Was hier stattfindet, ist Exploration bzw. Entdeckung im eigentlichen Wortsinn. Mir persönlich erscheint hic et nunc vorrangig, durch vergleichende Erfahrungen hinsichtlich der taxometrischen Methode
180 Hans Goebl
(betreffend andere Korrelationsmaße als r(BP)) und hinsichtlich der sprachgeographischen Daten (betreffend andere romanische und auch außerromanische Atlasdaten) die heuristische Tragfähigkeit und damit die Grenzen der neuen Methode auszuloten. Damit sind interdisziplinäre Kooperationen (z.B. mit der Populationsgenetik etc.) nicht nur sehr willkommen, sondern sogar höchst notwendig bzw. angebracht.
Literatur Bahrenberg, Gerhard; Giese, Ernst; Nipper, Josef 1990–92 Statistische Methoden in der Geographie. Stuttgart: Teubner. Gilliéron, Jules; Edmont, Edmond (Eds.) 1902–10 Atlas linguistique de la France. Paris: Champion. Goebl, Hans 1984 Dialektometrische Studien. Anhand italoromanischer, rätoromanischer und galloromanischer Sprachmaterialien aus AIS und ALF. Tübingen: Niemeyer. 2000 “La dialectométrisation de l’ALF: présentation des premiers résultats”. In: Linguistica, 40; 209–236. 2002 “Analyse dialectométrique des structures de profondeur de l’ALF”. In: Revue de linguistique romane, 66; 5–63. 2003 “Regards dialectométriques sur les données de l’Atlas linguistique de la France (ALF): Relations quantitatives et structures de profondeur”. In: Estudis Romànics, 25; 59–96. 2004 “Sprache, Sprecher und Raum. Eine kurze Darstellung der Dialektometrie. Das Fallbeispiel Frankreich”. In: Mitteilungen der österreichischen geographischen Gesellschaft, 146; 247–286. 2005 “La dialectométrie corrélative. Un nouvel outil pour l’étude de l’aménagement dialectal de l’espace par l’homme”. In: Revue de linguistique romane, 69; 321–367. Legendre, Pierre; Legendre, Louis 1998 Numerical Ecology. Amsterdam etc.: Elsevier.
A note on a systems theoretical model of usage Johannes Gordesch and Peter Kunsmann
1
Factors determining the complexity of utterances
Measuring linguistic complexity is still a difficult task. There are quite a number of qualitatively divergent factors that need to be considered. Length and number of syllables in a text or number of words in a sentence may provide one measure of complexity. In addition, determining complexity concerns the number and specific type of morpheme contained in a text. Is the information provided by lexical or grammatical morphemes different or the same? The importance of the concept of informativeness is shown in the attempt by Juola (1998) to develop a measure of linguistic complexity in a crosslinguistic study based on the morphology of languages. The present paper takes the acceptability of an utterance as a dependent variable and compares such utterances within a single language. The utterances in question may have two or more manifestations, one of which may be conventionalized in a speech community and, thus, be specified as grammatically correct, while the other or others may be stigmatized – cf. (1-a). (1)
a. b.
I normally take two spoonfuls (grammatically correct) I normally take two spoonsful (stigmatized)
The term divided usage is employed for such a set of utterances. As must be emphasized here, grammatical correctness is often determined by so-called educated native speakers for whom correctness, and less so appropriateness, is the criterion for language usage – for a discussion see Kunsmann et al. (1998). A questionnaire containing mainly the stigmatized forms of 48 such items of divided usage was presented to a cross-section of native speakers in the United States in two successive years. The relative acceptance was based on the return of more than 300 of these questionnaires. What motivates a speaker to choose utterances deviating from the norms set by the speech community? Linguistic, social, situational, psychological and cognitive factors determine the relative acceptability. Speakers often choose a stigmatized item for rea-
182 Johannes Gordesch and Peter Kunsmann
sons of covert prestige, for peer group acceptance and solidarity. These factors mitigate the severity of the “error”. Gordesch & Kunsmann (2001) used game theoretic models of text construction to provide additional explanation of speakers’ motivation for particular choices. In order to analyse the linguistic factors, Kunsmann et al. (1998) presented a simple model of acceptance where the complexity of the item and the type of grammatical construction figured as the main influential variables. Complexity was defined by a weighted set of criteria and a complexity index was computed. The relationship between the complexity index and the grammatical types was found to be such that a high complexity index increased the acceptability for some categories while it decreased for others. Because of their internal variability, the total set of items was divided into 15 categories depending on the items’ grammatical structure. In this paper types I, II, III and V are investigated further with a slightly revised set of criteria. The grammatical category types are listed in Table 1 and the set of criteria in Table 2. Table 1: Types Types I II III V
Label case assignment to object deletion of -ly for adverb split infinitive agreement (singular/plural)
Generally, the complexity index is based on the assumption that focus on form, i.e. highly marked strings or contextually unexpected constructions will decrease the acceptability of a stigmatized item. For example in (2) (2)
There is only one man between he and the goal line
the pronoun precedes the lexical noun phrase, a highly marked construction. In the survey only 42 of the more than 300 respondents accepted this utterance. Unmarked strings, on the other hand, will increase the acceptability. (3) is such an item. (3)
They refused to even think of it
Two-thirds of the respondents accepted this stigmatized utterance of a split infinitive. In addition, the complexity of the utterance as a whole as well as the complexity of the grammatical category type will have to be considered.
A note on a systems theoretical model of usage 183 Table 2: Set of criteria for assigning numerical values No.
Criterion
1 2 3 4 5
at least 1 point for each sentence disruption of sentence intonation (1 pt) syllable length of the divided usage form (1pt for each syllable) phonological distribution (C-clusters) (1 pt) morphological complexity of the divided usage form (1 pt for each morpheme in a complex word form) syntactic complexity of entire sentence (1 pt for each syntactic clause) complexity of the divided usage form (1 pt for each morphological or syntactic unit) complexity of modification of the divided usage form (1 pt for each modifier) application of some movement rule in the sentence (1 pt for each) type of case assigner (preposition = 2 pts, verb = 1 pt) in coordinate structures: inclusion of a lexical noun phrase (1 pt) semantic complexity of matrix sentence (1 pt. for weak semantic content) reduction of 1 pt when the divided usage form is a “marker” in the speech community
6 7 8 9 10 11 12 13
As can be seen from the preceding remarks, non-linguistic as well as linguistic factors determine the acceptability of the items. Nevertheless, the nonlinguistic factors manifest themselves in linguistic forms. These, in turn, determine the relative complexity of the item. Not every criterion in Table 2 is applicable for the present investigation. Thus, criterion 4 – the phonological distribution of consonant clusters – will only figure in the determination of items of divided usage on pronunciation. Also, criterion 10 – the lack of assigning proper case to a following noun phrase – increases the complexity of the stigmatized items only in cases of grammatical category type I. Thus the acceptability of the stigmatized form (4-a) is lowered with respect to the grammatically correct form (4-b). (4)
a. b.
He came after Alan and I He came after Alan and me
184 Johannes Gordesch and Peter Kunsmann
2
Statistical results
A number of statistical analyses (Section 2.2–2.3 ) were performed on the data. In all, four types of grammatical structure with a total of 22 utterances were investigated (cf. Table 3); their respective complexity indices are listed in Table 4. Table 3: Utterances Item
Q
Utterance
1 2 3 4
7 19 23 27
5 6 7 8 9 10 11 12 13 14
32 37 44 46 10 12 26 47 15 30
15
3
16 17 18 19
6 8 13 22
Between you and I, our neighbors drink heavily It’s about time for John and I to buy a new house She told Charles and I the whole story Something must have happened to him. He came after Alan and I, and he shot him I think it’s up to you and I to decide where we are going Is that the kind of world God intended you and I to live in There is only one man between he and the goal line John invited Bill and I to dinner She spoke loud and clear He drove too quick They now drive slower Don’t take it too serious They refused to even think of it He wanted to quickly return the book when he realised that he hadn’t read it himself The criteria for distinguishing between good and bad films is complex Mother-in-laws are sometimes unpopular Those kind of parties are dangerous I normally take two spoonsful His criteria were quite subjective
2.1
Regression models involving complexity
Cross-sectional studies (equilibrium models) serve for the description of the present state of languages. The relationship between the elements of the system may be described by multiplicative models. However, two alternative models have been most commonly used. One of them is the additive linear
A note on a systems theoretical model of usage 185 Table 4: Items Item
Q
Accepted
Mean Scores
Complexity
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
7 19 23 27 32 37 44 46 10 12 26 47 15 30 3 6 8 13 22
73 103 82 46 97 101 42 91 160 38 171 59 199 151 157 120 140 150 77
2.593 2.372 2.474 2.760 2.404 2.369 2.756 2.404 2.038 2.824 2.038 2.635 1.891 2.208 2.071 2.321 2.189 2.167 2.538
6 4 7 7 6 6 10 7 3 8 3 6 3 6 6 12 14 10 9
Type I I I I I I I I II II II II III III V V V V V
model, comprising the variables A – acceptance, C – complexity, T – type index (continuous weighting) or type (determining the type of regression equation), and ε – error term: A = b0 + b1C + b2 T + ε E(ε) = 0 E(εε ) = σ2 I C, T ∈ ℜ . The other model is the dummy regression model (where T takes its values in the set of natural numbers). Longitudinal studies show the development of language and also explain the mechanisms of evolution. The timeindependent variables of the equilibrium model now become functions of time. Relations between them are given by difference equations as the independent variables will not exert their influence on the dependent variable(s) at the same time point t. They may be ‘lagged’, i.e. have their influence at previous time points.
186 Johannes Gordesch and Peter Kunsmann
2.2
Complexity and Hausdorff dimension
The Hausdorff dimension of a self-similar structure (a fractal) F is defined by the equation N = sD . N is the number of self-similar elements that are obtained by setting the scaling factor to s, and D is the Hausdorff dimension. For a comprehensive survey of alternative concepts of dimension cf. Bronstein et al. (2005), whereas material concerning the box counting algorithm and related topics can be found in Peitgen et al. (1992). The box-counting algorithm defines the Hausdorff dimension operationally by a counting process. N = δ−D , δ > 0 δ is the width of a mesh, N the number of cells that contain at least one point of the geometric structure (self-similar or at least statistically, i.e. approximately self-similar). N is determined for various values of δ and a regression model is used to estimate the parameter D. Complexity, then, is defined by the Hausdorff dimension. In the case of the cross-sectional power function each power term may be used to define a partial (or ceteris paribus) complexity, and the total complexity may be defined as the sum of the partial complexities. The linear models yield the pertaining Hausdorff dimensions (in this case the marginal properties, i.e., the regression coefficients b1 ) immediately. Similar considerations hold for the longitudinal models.
2.3
Reliability tests for respondents
Applying Cronbach’s α resulted in a value of 0.897, showing a high internal consistency of the 48 items. Selecting different test persons, therefore, does not affect the results significantly. For further reliability testing, the split-half method (slightly lower values) and the odd-even method (better values) were employed. Both show a high reliability with respect to the test persons. In order to increase the sample size, therefore, the respondents of both surveys were combined for analysis. It must be emphasized here that in both surveys a cross-section of all social groups responded to the questionnaire, not just
A note on a systems theoretical model of usage 187
a select group of ‘educated native speakers’. While it may turn out that acceptability patterns may vary across social class, the overall patterns of both surveys are significantly similar.
2.4
Factor and regression analyses
Performing factorial and regression analyses on the 48 items, we find that the items are quite different in their structure. Neither does the factor analysis yield a simple factor pattern, nor do we get a simple regression function for the data (complexity as a function of mean scores). This difference seems to reflect the fact that the relative acceptance of an item depends on its grammatical structure. On the one hand, Kunsmann et al. (1998) found that a high complexity index facilitates acceptance in structures such as type I, while it reduces acceptance in structures such as type II. On the other hand, it should be recognized that certain structures represent surface phenomena (i.e. pronunciation) while others (i.e., coordination) are of a universal type. The relative position on such a hierarchy (from universal to particular) results in relatively more marked structures toward the position of the hierarchy labeled particular, increasing focus on form and in turn increasing rejection of the stigmatized item. The internal variability noted cannot easily be measured by a simple mathematical model. Therefore, as mentioned above, depending on the different grammatical structures the total of 48 items in the survey were grouped in 15 grammatical types. Four of these grammatical types were analysed further. Correlation analysis shows that for these separate categories the relationship between the mean scores and the complexity index is significantly higher than for the overall correlation (cf. Table 5). Table 5: Complexity Type No.
Type
Correlation
Complexity
I II III V
Case assignment to object Deletion of -ly for adverb Split infinitive Agreement (singular/plural)
0.68 0.99 1.00 0.15
0.07 0.16 0.11 0.01
All
Type I, II, III, V
0.30
0.03
188 Johannes Gordesch and Peter Kunsmann
In addition, the complexity of these categories on the basis of the Hausdorff dimension is given here. Both analyses arrive at the same results. As can be seen on the rank ordering of the categories, both provide a measure of complexity. When interpreting the statistical results, a few points must be noted. First, grammatical structure type V (agreement of singular and plural items) seems to represent an exception. The correlation coefficient and the Hausdorff dimension are lower than the overall coefficients. The values suggest quite a heterogeneous set of items. Upon inspection of these items we can recognize two different structures. First of all, items [15] and [19] in (4) form a set that shows variation in the classic type of agreement. The noun criteria determine the subject-verb agreement. (5)
[15] [19]
the criteria is . . . (stigmatized) the criteria were . . . (grammatically correct)
Although [15] is a stigmatized item, more than half of the respondents (i.e., 157) chose this, while the grammatically correct form [19] was chosen by only 77. For those choosing [15] and not choosing [19] criteria is considered singular in number. Similar to other nouns which entered the English language from Greek (i.e., phenomena) or Latin (i.e., media, data) a number of factors cause insecurities for the user. First, the original singular forms (phenomenon, criterion, datum, medium) are longer phonetically than the ones chosen. Second, the words originally borrowed from Greek acquired two plural forms in English (i.e., criterions and criteria), and, finally, the singular form medium acquired a different meaning (i.e. an intervening agency). Speakers who use the stigmatized form of nouns of this type, therefore, no longer consider these nouns as having been borrowed from the classical languages and, thus, have lexicalised them as a new morphological class in English: singular collective nouns ending in [-a]. Finding the grammatically correct alternative to all these forms would be the more complex alternative, requiring additional linguistic effort. Nevertheless, the fact that about a quarter of the respondents (77) accepted item [19] as grammatically correct shows that the lexicalisation process has not been concluded in English. A second structure in this group can be observed in items [16], [17] and [18]. (6)
[16] [16]
Mother-in-laws are sometimes unpopular (stigmatized) Mothers-in-law are . . . (grammatically correct)
A note on a systems theoretical model of usage 189
[17] [17] [18] [18]
Those kind of parties are dangerous (stigmatized) Those kinds of parties are . . . (grammatically correct) I normally take two spoonsful (stigmatized) I normally take two spoonfuls (grammatically correct)
All three sets of items are accepted in their stigmatized form by about half of the respondents. Similar to the set in (5) we can define an uncertainty on the part of the speakers about their choice of number. In this set, however, the uncertainty is one of identifying the items as simple or complex nouns or as noun phrases. In other words, mother-in-laws is considered a simple noun and the plural [-s] is attached at the end. Pluralizing the de-adjectival spoonful, on the other hand, requires the speaker to recognize the fact that it is not an adjective but a noun despite the obvious adjectival suffix -ful. The downtoner kind of in [17], finally, can be considered as weak in semantic content. It is not necessary for the information value of the sentence, it does not receive focus, and the agreement with the determiner (those) is marked on the more meaningful part of the sentence (parties). Returning to the interpretation of the statistical analyses it must be noted that category I (case assignment to object) also shows some internal differentiation. As for category III (split infinitive), the high correlation coefficient may be related to the fact that this group includes just two items both of which are structurally fairly similar. Clearly, the strongest internal consistency of the categories can be seen in category II (deletion of -ly for adverb). The correlation coefficient is very high and the value on the Hausdorff dimension is the highest for the four categories. The criteria for computing the complexity index explain the separation lines of the acceptability of the four items in question. First of all, the items show a basic division between higher and lower structural complexity – items [9] and [11] vs. items [10] and [12]). [10] and [12], for instance, are structurally similar and simple. The difference in the mean scores of acceptance can be explained by the different number of syllables (quick vs. serious). [9] and [11], on the other hand, differ in that they show coordination and comparison as additional structural markers, rendering them more complex and, thus, showing higher mean scores of acceptance. The difference in the raw scores of acceptance can be traced to two sources. On the one hand, the grammatically correct alternative to item [11] – They now drive slower – involves a higher mental cost than using the stigmatized form. In addition,
190 Johannes Gordesch and Peter Kunsmann
slowerly, as an alternative is not available, while more slowly cannot be accessed readily. On the other hand, comparison may be a behavioural universal that is more deeply seated than coordination, thus adding to the acceptance potential.1
2.5
Cluster analysis
On the basis of the statistical analyses described above we demonstrated that grouping the 48 items in grammatical category types produces a certain structural homogeneity. However, some category types must be recognized as structurally heterogeneous. A third type of analysis, therefore, was performed analysing the items not on the basis of similar grammatical structure, but using acceptance (mean scores) and complexity (index) as determining factors. Several competing clustering methods were applied, ranging from k-means clustering to various hierarchical techniques. They all led to essentially the same results. Consequently, the dendrogram (Fig. 1) shows that five clusters can be recognized (cf. Table 6).
Figure 1: Dendogram: Item mean scores and complexity index
1. For a discussion of behavioural universals see Gordesch & Kunsmann (2001).
A note on a systems theoretical model of usage 191 Table 6: Classification of items Cluster
Items
1 2 3 4 5
9, 11, 13, 2 3, 8, 4, 14, 15, 5, 6, 1, 12 7, 18 10, 19 16, 17
Generally, the five clusters show sufficient internal consistency. Cluster 3, however, seems to present an interesting case. Both items – cf. (7) – are assigned the same complexity index of 10. However, they differ widely in their rate of acceptance. Item [7] is accepted by 44 respondents and item [18] by 150. (7)
[7] [18]
There is only one man between he and the goal line I normally take two spoonsful
Which features do these two items have in common so that they appear in the same cluster? Upon inspection one finds that both items are not only highly marked. They also appear mainly in specialized contexts. [18] occurs in the context of drinking coffee or tea, and [7] can be heard by reporters of American football matches. It was pointed out above that speakers are quite insecure about the correct form of item [18]. Acceptance would be considerably lower if the sentence were to be offered together with its grammatically correct form.
3
Summary
Utterances of divided usages will continue to be discussed controversially in the literature. As we have seen, a complex array of factors determines the choice between the grammatically correct forms and the stigmatized ones. Applying mathematical models and statistical methods to raw data will result in a better understanding of these choices.
192 Johannes Gordesch and Peter Kunsmann
References Bronstein, Ilja N.; Semendjajew, Konstantin A.; Musiol, Gerhard; Mühlig, Heiner 2005 Taschenbuch der Mathematik. 6. Aufl. Frankfurt/M.: Harri Deutsch. Gordesch, Johannes; Kunsmann, Peter 2001 “Game Theoretic Models of Text Construction”. In: Uhlíˇrová, Ludmila; Wimmer, Gejza; Altmann, Gabriel; Köhler, Reinhard (Eds.), Text as Linguistic Paradigm: Levels, Constituents, Constructs. Festschrift in Honour of Ludˇek Hˇrebíˇcek. Trier: Wissenschaftlicher Verlag, 50– 63. Juola, Patrick 1998 “Measuring Linguistic Complexity: The Morphological Tier”. In: Journal of Quantitative Linguistics, 5; 206–213. Kunsmann, Peter; Gordesch, Johannes; Dretzke, Burkhard 1998 “Native Speakers’ Reactions to Modern English Usage”. In: Journal of Quantitative Linguistics, 5; 214–223. Peitgen, Heinz-Otto; Jürgens, Hartmut; Saupe, Dietmar 1992 Fractals for the Classroom. New York: Springer.
Itemanalysen und Skalenkonstruktion in der Sprichwortforschung Rüdiger Grotjahn und Peter Grzybek
In dem breiten Spektrum parömiologischer Fragestellungen hat sich in den letzten Jahren als eigenständiger Forschungsbereich die empirische und experimentelle Sprichwortforschung herausgebildet (vgl. Grzybek & Chlosta 1993, Baur et al. 1994, Chlosta & Grzybek 1995, Grzybek et al. 2006). Die wesentlichen Fragen, um die es dabei geht, lassen sich in maximal komprimierter Form im Grunde genommen wie folgt zusammenfassen: Wer innerhalb einer gegebenen Kultur kennt welche Sprichwörter in welcher Form und wovon hängt die Sprichwortkenntnis ab?
Natürlich hat es auch schon in der Vergangenheit eine ganze Reihe von Ansätzen und Untersuchungen gegeben, die einzelne Aspekte dieser komplexen Fragestellung die eine oder andere Art und Weise fokussiert haben. So sind zum Beispiel schon in den 30er und 40er Jahren des 20. Jahrhunderts Untersuchungen durchgeführt worden, in denen Informanten aufgefordert wurden, ihnen spontan einfallende Sprichwörter zu notieren; zeitgleich wurden auch schon in der Soziologie Untersuchungen zur Einstellung zu Sprichwörtern durchgeführt, aus denen Aussagen zur Bekanntheit der Sprichwörter abgeleitet wurden. Solche direkten Verfahren der Befragung von Informanten haben allerdings, wie wir heute wissen, den entscheidenden Nachteil, dass die dem Sprichwort genuin eigene Situationsbezogenheit unberücksichtigt bleibt, was dazu führt, dass nur ein geringer Teil des einer Person bekannten Sprichwortschatzes erhoben wird. In der Tat wurde in Untersuchungen dieser Art nicht mehr als ein paar Dutzend Sprichwörter erhoben, die subjektiven Selbsteinschätzungen zufolge den individuellen Sprichwortschatz ausmachen; de facto kann man allerdings mittlerweile davon ausgehen, dass eine erwachsene Person im Durchschnitt nicht weniger als etwa 1 000 Sprichwörter kennt, die sich freilich nicht ohne weiteres abrufen lassen. Aus diesem Grunde werden heute noch soziologische Untersuchungen der 50er Jahre als
194 Rüdiger Grotjahn und Peter Grzybek
beispielhaft angeführt, in denen sich FeldforscherInnen über längere Zeit in Dorfgemeinschaften integrierten, um so als teilnehmende BeobachterInnen Aufschluss über Verwendung und damit auch Bekanntheit von Sprichwörtern zu erhalten. Derartige Projekte lassen sich heutzutage natürlich kaum noch realisieren; statt dessen hat man – nicht zuletzt aufgrund der Entwicklungen im technischen Bereich – versucht, über die Untersuchung der Frequenz von Sprichwörtern und deren Varianten – sei es auf der Basis von Sprichwortsammlungen oder in jüngerer Zeit auch in Medien- und Korpusanalysen – Aufschluss über die Bekanntheit von Sprichwörtern zu erhalten. Doch auch diese “indirekten” Verfahren sind problematisch: Denn einerseits haben die Kompilatoren von Sprichwörtersammlungen, wie man weiß, seit jeher nicht selten schlicht und einfach voneinander abgeschrieben oder aus anderen Sprachen übersetzte Sprichwörter in ihre Sammlungen aufgenommen, ohne jeweils nach deren Authentizität (geschweige denn tatsächlicher Bekanntheit) zu fragen; andererseits lässt sich zeigen, dass die frequente Verwendung von Sprichwörtern nicht nur auf der individuellen, sondern ebenso auch auf der gesamt-gesellschaftlichen Ebene stark situationsabhängig (und so z.B. vom “tagespolitischen” Geschehen abhängig) ist. Mit der Entwicklung der empirischen Parömiologie etwa ab den 70er Jahren des 20. Jahrhunderts, ausgehend von den Arbeiten des russischen Folkloristen G.L. Permjakov, wurden die methodologischen Schwächen von Verfahren wie die oben angeführten erkannt. Um die Schwächen zu vermeiden, wurden statt dessen verschiedene Methoden entwickelt, die Bekanntheit von Sprichwörtern zu erheben; in erster Linie ist in dieser Hinsicht das Verfahren der Teiltext-Präsentation zu nennen. Hierbei wird den befragten Personen nur ein Teil (in der Regel der Anfang) eines Sprichworts vorlegt, mit der Aufforderung, den dargebotenen Teil zu vervollständigen. Auch dieses Verfahren ist also in gewissem Sinne als dekontextualisiert zu bezeichnen; allerdings sind im Gegensatz zu der oben dargestellten Methode der freien Erinnerung die Voraussetzungen insofern grundlegend anders, als das Verfahren auf der Grundannahme basiert, dass ein Sprichwort ein vollständig klischierter Text ist, der mental als Einheit repräsentiert ist, die durch die Präsentation des Anfangsteils als Ganzes abrufbar wird. Deswegen lässt sich der dargebotene Anfangsteil auch nur dann vervollständigen, wenn das Sprichwort insgesamt bekannt ist, wohingegen Raten nichts nützt und bestenfalls zu idiosynkratischen Ergänzungen führt. Da es der empirischen Parömiologie zumindest anfangs primär darum ging, alle in einer gegebenen Kultur “allgemein bekannten” Sprichwörter zu
Itemanalysen und Skalenkonstruktion in der Sprichwortforschung 195
bestimmen, war eines der wesentlichen Probleme, als erstes eine Auflistung aller möglicherweise bekannten Sprichwörter als Basis für die Befragung von Personen vorzunehmen. In dieser Richtung hat es in verschiedenen Sprachen eine Reihe einschlägiger Bemühungen (unterschiedlichen Umfangs und Anspruchs) gegeben, auf die hier nicht im einzelnen einzugehen ist (vgl. Grzybek et al. 2006). Statt dessen knüpft die vorliegende Untersuchung an eine Entwicklungslinie innerhalb der empirischen Sprichwortforschung an, in der es nicht primär um die Frage geht, welche Sprichwörter in einer gegebenen Kultur “allgemein” bekannt sind (wobei das Kriterium der ‘Bekanntheit’ sich – zumindest im Hinblick auf interkulturelle Vergleichbarkeit – im Grunde genommen nur autoritativ festlegen lässt), sondern vielmehr darum, welche Faktoren die Sprichwortkenntnis (möglicherweise) beeinflussen. Die einzelnen Teilfragen der obigen komplexen Fragestellung hängen zwar eng miteinander zusammen; sie können aber dennoch im Prinzip voneinander getrennt werden, insofern als es im Hinblick auf die Untersuchung von Faktoren, die (möglicherweise) die Sprichwortkenntnis beeinflussen, nicht nötig ist, alle Sprichwörter, die in einer bestimmten Kultur bekannt sind, zu erheben bzw. zu wissen, um welche es sich dabei handelt. Mit anderen Worten: Wenn es “nur” um die Frage geht, wovon Sprichwortkenntnis abhängt (und nicht darum, welche Sprichwörter zum Bestand einer Kultur gehören), muss man die entsprechenden Untersuchungen nicht an so großen Korpora wie etwa dem gesamten Experimental-Korpus einer Sprache durchführen, welches all diejenigen Sprichwörter enthält, die einer gegeben Kultur “allgemein bekannt” sind (zum Begriff des ExperimentalKorpus s. Baur et al. 1994, Grzybek et al. 2006). Vielmehr reicht zur Analyse der Abhängigkeit der Sprichwortkenntnis von potentiellen Einflussfaktoren eine Teilmenge von Sprichwörtern aus, die dann die Skala zur Messung der Sprichwortkenntnis bilden. Allerdings ist es dann notwendig zu wissen, welche Sprichwörter sich am besten zur Skalenkonstruktion eignen. Man muss also Voruntersuchungen durchführen, die Aussagen über die Differenzierungsfähigkeit der einzelnen Items erlauben, damit dann in die eigentliche Untersuchung diejenigen Sprichwörter übernommen werden, deren Trennschärfe am größten ist. Im Hinblick auf ein solches Set deutscher Sprichwörter bietet es sich an, auf die Ergebnisse einer Pilotstudie zur Bekanntheit deutscher Sprichwörter zurückzugreifen, die von Grzybek (1991) durchgeführt wurde, und die später in Kooperation mit Rupprecht S. Baur und Christoph Chlosta in das Bochumer/Essener Projekt mündete. An dieser Stelle kann eine eingehende Darstel-
196 Rüdiger Grotjahn und Peter Grzybek
lung der 91er Pilotstudie und der damit verbundenen Resultate unterbleiben, zumal die entsprechenden Daten unlängst einer umfassenden Re-Analyse unterzogen wurden, die in methodologischer Hinsicht über die damaligen Auswertungen hinausgeht (s. Grzybek et al. 2006). In der erwähnten Pilotstudie wurden die 275 Sprichwörter der Sammlung Deutsche Sprichwörter für Ausländer von Frey et al. (1970) auf den von den Autoren selbst erhobenen Anspruch hin überprüft, dass die enthaltenen Sprichwörter “in der deutschen Sprache der Gegenwart noch lebendig sind” (Frey et al. 1970: 5). Ohne hier auf die Ergebnisse im einzelnen einzugehen, sei erwähnt, dass die Antworten der 125 befragten Personen im Durchschnitt 70.07% “richtiger” Lösungen1 aufwiesen; ausnahmslos allen befragten Personen waren lediglich 18 der 275 präsentierten Sprichwörter (d.h. nur 6.54%) zu 100% bekannt. Abgesehen von der Frage nach der allgemeinen Bekanntheit2 der 275 Sprichwörter in der Gesamtgruppe der Befragten wurde in der 91er Pilotstudie auch bereits ein Versuch unternommen, den Einfluss von Faktoren zu untersuchen, die (möglicherweise) auf die Sprichwortkenntnis Einfluss haben. Analysiert wurden die zu diesem Zweck erhobenen Faktoren ‘Alter’, ‘Bildung’, ‘Geschlecht’ sowie ‘Wohnort’ (zum Zeitpunkt der Befragung und bis zum 18. Lebensjahr). Auch auf diese Fragen, die in der ausführlichen ReAnalyse von Grzybek et al. (2006) ausführlich behandelt werden, muss hier nicht im Detail eingegangen werden. Doch genau an dieser Stelle knüpfen die folgenden Überlegungen an, in denen es darum geht, aus den Untersuchungsergebnissen zur Bekanntheit der 275 Sprichwörter ein solches Sprichwort-Set abzuleiten, welches trotz reduzierten Umfangs geeignet ist, Einflussfaktoren der Sprichwortkenntnis zu untersuchen. Bevor wir uns dem konkreten Material zuwenden, scheint es sinnvoll, die Grundprinzipien der Itemanalyse zu erläutern. Verfahren der Itemanaly1. Die Bezeichnung “richtige Lösung” muss natürlich mit einer gewissen Vorsicht betrachtet werden; sie ist in dem Sinne zu verstehen, dass die Vervollständigung des Sprichworts ungeachtet möglicher sprachlicher Variationen insgesamt auf dessen Bekanntheit hinweist. In späteren Untersuchungen wurde den Auswertungen bereits ein differenziertes Klassifikationsschema zugrunde gelegt (vgl. Grzybek et al. 1994). 2. Schon in der 91er Pilotstudie wies Grzybek (1991: 251) darauf hin, dass es einerseits nicht angemessen wäre, nur diese zu 100% bekannten Sprichwörter als “allgemein bekannt” zu klassifizieren, dass es andererseits aber in Bezug auf die Frage, wo genau die Grenze von ‘allgemein bekannten’, ‘weniger bekannten’ und ‘allgemein (eher) nicht bekannten’ Sprichwörtern anzusetzen ist, keine objektive, vorgegebene Festlegung geben könne.
Itemanalysen und Skalenkonstruktion in der Sprichwortforschung 197
se basieren bisher zumeist allein auf der klassischen Testtheorie. Zuweilen firmieren sie auch unter der Bezeichnung ‘Reliabilitätsanalysen’. Statistisch gesprochen, ist die Itemanalyse ein Verfahren zur Überprüfung und Optimierung der Qualität einer Skala. Letztendlich geht es darum, die Brauchbarkeit der einzelnen Items einer Skala zu bewerten, und zwar in dem Sinne, dass durch die Auswahl der Items sowohl die Reliabilität als auch die Differenzierungsfähigkeit und Ökonomie der Skala optimiert wird. Es liegt z.B. auf der Hand, dass ein Sprichwort, das (fast) allen Befragten bekannt oder aber (fast) niemandem bekannt ist, keine differenzierenden Aussagen über Faktoren der Sprichwortkenntnis erlauben kann. Im Rahmen der Itemanalyse sind vor allem die folgenden Kriterien von besonderer Bedeutung, die Aussagen über die Gebräuchlichkeit von Items erlauben: 1. der Schwierigkeitsindex (IS ): Im (einfachsten) Fall dichotomer Items – d.h. wenn man es z.B. mit Ja-Nein- oder Richtig-Falsch-Aufgaben zu tun hat – ist der Schwierigkeitsindex ganz einfach der relative Anteil richtiger Lösungen (oder ja-Antworten); eigentlich ist der Schwierigkeitsindex eher ein “Leichtigkeitsindex”, denn er wird 0, wenn niemand die Lösung findet, und 1, wenn alle die Lösung finden. Bei unseren Sprichwortanalysen haben wir es aufgrund der Gegenüberstellung ‘bekannter’ und ‘unbekannter’ Sprichwörter genau mit diesem Fall zu tun, weswegen komplexere Sachverhalte (Antworten mit Mehrfachwahl oder Mehr-Stufen-Antworten) hier nicht zur Sprache kommen müssen. 2. Einen zweiten wichtigen (eigentlich den wichtigsten) Kennwert stellt die sog. (korrigierte) Trennschärfe bzw. der diese charakterisierende Trennschärfekoeffizient (KT ) dar; dieser dient als ein Index für die Übereinstimmung des Items mit allen anderen Items, d.h. dafür, wie gut das Gesamttestergebnis aufgrund des betreffenden einzelnen Items vorhersagbar ist. Generell gilt: Je höher die Trennschärfe ist, desto besser misst das Item das, was auch die gesamte Skala misst, und desto besser erlaubt das Item, zwischen Befragten mit hoher und Befragten mit niedriger Sprichwortkenntnis zu differenzieren. Ein negativer Trennschärfekoeffizient besagt, dass das betreffende Item den Befragten mit einer ingesamt hohen Sprichwortkenntnis tendenziell eher nicht bekannt ist (vgl. Lienert & Raatz 1994: 78ff.). Die Trennschärfe eines Items entspricht der über alle Befragten berechneten Pearson
198 Rüdiger Grotjahn und Peter Grzybek
Produkt-Moment-Korrelation des Item-Scores mit dem Skalen-Score (Test-Score), d.h. dem Summen-Score aus den übrigen Items. Da bei dichotomen Aufgaben eine dichotome Variable mit einer intervallskalierten korreliert wird, kann die Trennschärfe im vorliegenden Fall auch mit Hilfe des punkt-biserialen Korrelationskoeffizienten ermittelt werden. 3. Während Schwierigkeitsindex und Trennschärfekoeffizient sich auf die einzelnen Items beziehen – weswegen weniger geeignete oder ungeeignete Items nach diesen beiden Kriterien seligiert werden –, ist der Reliabilitätskoeffizient ein wichtiger Kennwert zur Beurteilung der aus den Items gebildeten Gesamtskala. Häufig benutzt man zur Schätzung der Reliabilität den sog. α-Koeffizienten (nach Cronbach). Mathematisch gesehen beruht α auf der Korrelation der Werte aller Items über alle Personen, so dass α sich als Maß der internen Konsistenz und damit der Zuverlässigkeit der Skala verstehen lässt. Der α-Koeffizient kann Werte zwischen 0 und 1 annehmen und stellt eine Schätzung der unteren Grenze der wahren Reliabilität dar; je höher der α-Wert wird, desto ‘besser’ ist die interne Konsistenz der Skala, wobei zumeist Werte ab 0.90 als gut gelten. Da jedoch der Wert von α auch von der inhaltlichen Homogenität der Skala (Eindimensionalität) und von der Varianz des gemessenen Merkmals in der Personengruppe abhängt, sind absolute Aussagen zur ‘Güte’ der Reliabilität nicht unproblematisch. Zusammenfassend lässt sich sagen, dass bei Itemanalysen Mittelwerte, Varianzen sowie die Korrelationen zwischen den Items auf spezifische Art und Weise so analysiert werden, dass im Ergebnis ein von Voruntersuchungen ausgehendes und im Hinblick auf den diesen Voruntersuchungen zugrunde liegenden Itempool quantitativ reduziertes und qualitativ optimiertes Set von Items resultiert. Die Itemauswahl ist dabei nicht willkürlich, sondern wird nach bestimmten statistischen Kriterien getroffen, die alle drei oben vorgestellten Indizes betreffen – vgl. auch die wesentlich weiter gehenden Ausführungen zur (statistischen) Itemselektion bei Lienert & Raatz (1994, Kap. 6 und 7). Daneben sollten bei der Itemselektion natürlich auch spezifische Kriterien berücksichtigt werden, wie z.B. begründete Annahmen zur Sprichwortkenntnis in unterschiedlichen Altersgruppen; die systematische Verfolgung dieser Fragestellung mündet letztendlich in differentielle Itemanalysen (Analysen zum sogenannten ‘differential item functioning’, DIF). In diesem Zusammenhang werden u.a. folgende Empfehlungen genannt:
Itemanalysen und Skalenkonstruktion in der Sprichwortforschung 199
(a) In der Regel wird empfohlen, als erstes Items mit einem Schwierigkeitsindex von ≥ 0.80 oder ≤ 0.20 zu eliminieren – der Grund dafür ist darin zu sehen, dass Items, die von fast allen Befragten ‘richtig’ oder ‘falsch’ beantwortet werden (bzw. gekannt oder nicht gekannt werden) keine gute Diskrimination erlauben; die Schwierigkeitsindizes der verbleibenden Items sollten sich in etwa normal verteilen mit einem Gipfel bei IS = 0.50, sofern eine gleichmäßige Differenzierung das Ziel ist. (b) Im Hinblick auf die Trennschärfe gilt als Faustregel, dass ein Item dann als ungeeignet anzusehen ist, wenn die Itemwerte und die Summenwerte weniger als 10% gemeinsame Varianz haben – wobei die gemeinsame Varianz durch die Quadrierung der Korrelation (hier also der Trennschärfe) berechnet wird. Wenn man also z.B. einen Trennschärfewert von 0.32 quadriert, erhält man den Wert 0.1024 (der 10.24% gemeinsamer Varianz entspricht); das Quadrat von 0.31 liegt damit bereits unter der 10%Grenze). Also ist konventionsgemäß in der Regel 0.32 als Untergrenze einer akzeptablen Trennschärfe anzusehen. Abgesehen davon, dass die einzelnen verbleibenden Items also allgemein möglichst trennscharf sein sollten, wird in der Praxis häufig ein Trennschärfekoeffizient von KT > 0.50 gefordert. Hierbei ist allerdings zu beachten, dass die Trennschärfe auch von der Schwierigkeit der Items abhängt und nur Items mit einer mittleren Schwierigkeit eine maximale Trennschärfe erreichen können. Dies bedeutet u.a., dass man bei gleicher Trennschärfe eher Aufgaben von extremer als von mittlerer Schwierigkeit zurückbehalten sollte. (c) der Reliabilitätskoeffizient α sollte im Endergebnis besser oder zumindest nicht wesentlich schlechter sein als derjenige der Voruntersuchung. Im Folgenden soll das Verfahren der Itemanalyse auf die 275 Sprichwörter der 91er Pilotstudie angewendet werden. Die 275 Sprichwörter stellen folglich unseren Itempool dar, aus welchem eine bestimmte Anzahl von Sprichwörtern ausgewählt werden soll, welche trotz der angestrebten quantitativen Reduktion in ähnlich zuverlässiger Weise qualitative Aussagen über mögliche Faktoren, die die Sprichwortkenntnis beeinflussen, erlauben. Dabei gilt es allerdings – und das muss an dieser Stelle nochmals ausdrücklich betont werden – zu berücksichtigen, dass dieses Material zwar sorgfältigen Tests unterzogen wurde, allerdings – wie oben wiederholt deutlich betont – ohne Detailanalyse der sprachlichen Variationen und deren spezifischer Frequenz. Das bedeutet in der Konsequenz, dass unsere Untersuchung eher methodologischen Charakters ist, und dass die Sprichwörter unse-
200 Rüdiger Grotjahn und Peter Grzybek
res Itempools nicht im Hinblick auf die jeweilige konkrete sprachliche Form als bekannt gewertet werden dürfen, was sich nur durch zusätzliche TeiltextPräsentationen bzw. detailliertere Auswertungen erreichen ließe. Wenden wir uns mit diesen einschränkenden caveats der avisierten Itemanalyse zu. Berechnet man mit Hilfe des Statistikprogramms SPSS den Reliabilitätskoeffizienten zunächst für alle 275 Sprichwörter, so ergibt sich ein überaus hoher Wert von α = 0.97. Das bedeutet zunächst einmal, dass der Itempool insgesamt bestens geeignetes und in sich weitgehend konsistentes Material für die Verfolgung unserer Fragestellung darstellt. Weitere Berechnungen zeigen, dass sich der Wert des Realiablilitätskoeffizienten bei keinem einzigen der Items verändert, wenn dieses eliminiert würde. Andererseits weisen nicht wenige Items nicht oder nur eingeschränkt zufrieden stellende Schwierigkeitsindizes und Trennschärfekoeffizienten auf. Insgesamt gesehen deuten diese Befunde darauf hin, dass eine Reduktion der Liste von 275 Items auf eine deutlich kleinere Liste vermutlich ohne eine merkliche Reduktion der Gesamtreliabilität der Skala möglich ist. Im Gegensatz zu anderen Untersuchungen gibt es im gegebenen Fall keine konkreten Vorstellungen darüber, wie viele Items aus dem Pool in den Testbogen eingehen sollten. Allerdings wäre es sicherlich wünschenswert, den Fragebogen insgesamt eher klein zu halten, solange die Ergebnisse dieselbe Qualität erwarten lassen. In einem ersten Schritt haben wir deshalb die Liste der 275 Items auf der Grundlage des Schwierigkeitsindex reduziert, und zwar der Empfehlung folgend, Items mit einer Bekanntheit von weniger als 20% bzw. mehr als 80% zu elimieren. Es verblieben 92 Items, die wir im nächsten Schritt einer detaillierten Itemanalyse unterzogen. Schauen wir uns die Ergebnisse des ersten Durchlaufs der Itemanalyse über diese 92 Sprichwörter an: Der Reliabilitätskoeffizient für diese 92 Items ist extrem hoch und liegt bei einem Wert von α = .96 nur unwesentlich unter dem der Ausgangsliste (α = .97); insofern ist nicht unbedingt zu erwarten, dass er durch weitere quantitative Reduktionen des Pools der verbliebenen Items wesentlich verbessert werden kann. Die Trennschärfekoeffizienten der 92 Items liegen im Intervall von .05 < KT < .70 auf. Aus diesem Grunde werden im nächsten Schritt all diejenigen Items aus der Liste eliminiert, deren Trennschärfekoeffizient KT < .3162 ist, was der oben erläuterten 10%-Grenze gemeinsamer Varianz entspricht. Schließt man diese 14 Sprichwörter aus, verbleiben 78 Items, die alle im Intervall von .3162 < KT < .70 liegen; dabei hat sich der Reliabilitätskoeffizient mit α = .965 nur geringfügig erhöht.
Itemanalysen und Skalenkonstruktion in der Sprichwortforschung 201
Natürlich lässt sich der Itempool nicht beliebig weiter reduzieren, ohne dass es zu einer Beeinträchtigung (d.h. Verringerung) des Reliabilitätskoeffizienten kommt. Strebt man etwa einen Trennschärfekoeffizienten von KT > .50 an, so würde das in unserem Fall dazu führen, dass bei 48 verbliebenen Items der Reliabilitätskoeffizient mit α = .967 nochmals geringfügig ansteigt, wobei die Trennschärfekoeffizienten der Items nun im Intervall von .503 < KT < .741 liegen. Auf diese Art und Weise lässt sich nun eine Fragebogenliste mit einer bestimmten Anzahl von Sprichwörtern erarbeiten. Würde man die Anzahl der Sprichwörter dieses Fragebogen etwa auf 30 Items absenken, so ergäbe sich eine Liste, wie sie in der Tabelle 1 repräsentiert ist. Hier liegt der Reliabilitätskoeffizient mit α = .958 nur äußerst geringfügig unter dem der Voruntersuchung, und die Trennschärfe aller Items liegt im Intervall zwischen .5633 < KT < .7352. Wie ein entsprechender Kolmogorov-SmirnovTest nach Lilliefors-Korrektur zeigt (.094, p = 0.20), ist bei diesen 30 Items die erwünschte Normalverteilung der Schwierigkeitsindices gegeben; dieses Ergebnis wird auch durch den Shapiro-Wilk-Test bestätigt, der sich bei kleineren Stichproben als geeigneter erweist (.97, p = 0.59). Mit den 30 in Tabelle 1 aufgeführten Sprichwörtern läge damit eine Liste vor, die mit einem deutlichen Gewinn an Forschungsökonomie in weiteren Untersuchungen zum Zusammenhang von Sprichwortkenntnissen und diversen Einflussfaktoren eingesetzt werden könnte. Die Ergebnisse sollten sich nicht wesentlich von denen unterscheiden, die man erhalten hätte, wenn die Untersuchung auf der Basis aller 275 Sprichwörter durchgeführt worden wäre. Dies wäre in einem abschließenden Schritt zu prüfen, der hier nicht geleistet werden kann (vgl. Grzybek et al. 2006). Weiterhin wäre es interessant, für die Skalenkonstruktion neben der klassischen Testtheorie auch auf die immer wichtiger werdende probabilistische Testtheorie zurückzugreifen (vgl. z.B. Rost 2004; Wilson 2005). Die mathematisch weit anspruchsvollere probabilistische Testheorie, die auch als ItemResponse-Theorie bezeichnet wird, erlaubt wesentlich differenzierte Formen der Skalen- und Itemanalysen, wie z.B. die Überprüfung der Dimensionalität der Skala, die Berechnung von Maßen für die Güte der Modellanpassung, die Berechnung der Reliabilität für unterschiedliche Bereiche der Skala oder auch die Analyse des Einflusses von unterschiedlichen Personenmerkmalen auf die Itemkennwerte. Die probabilistische Testtheorie eröffnet damit Möglichkeiten, die auch die empirische Sprichwortforschung verstärkt nutzen sollte.
202 Rüdiger Grotjahn und Peter Grzybek Tabelle 1: Fragebogen mit 30 Items # Sprichwort 1 Allen Leuten recht getan ist | eine Kunst die niemand kann. 10 Am Abend werden die / wird der | Faule(n) fleißig. 11 Am vielen Lachen erkennt man | den Narren. 13 Andere Städtchen, | andere Mädchen. 17 Auf einen groben Klotz gehört | ein grober Keil. 23 Bescheidenheit ist eine Zier, | doch weiter kommt man ohne ihr. 29 Böse Beispiele verderben | gute Sitten. 42 Der Hehler ist | schlimmer als der Stehler. 51 Des Menschen | Wille ist sein | Himmelreich. 53 Die Dummen werden | nicht alle. 59 Dummheit und Stolz | wachsen auf einem Holz. 97 Geduldige Schafe gehen | viele in einen Stall. 99 Gegen Dummheit kämpfen | Götter selbst vergebens. 108 Glück und Glas | wie leicht bricht das. 124 Jede Arbeit ist ihres | Lohnes wert. 127 Jeder Krämer lobt | seine Ware. 132 Jung gefreit | hat nie gereut. 133 Jung gewohnt, | alt getan. 169 Nach getaner Arbeit ist | gut ruhn. 172 Nichts ist schwerer zu ertragen | als eine Reihe von guten Tagen. 173 Nichts ist so fein gesponnen | es kommt doch (alles) an die Sonnen. 174 Niemand kann zwei | Herren dienen. 200 Unrecht Gut | gedeiht nicht. 216 Was dem einen sien Uhl, is | dem andern sein Nachtigall. 227 Wem das Herz voll ist | dem geht der Mund über. 229 Wem nicht zu raten ist | dem ist nicht zu helfen. 236 Wenn’s am besten schmeckt, | soll man aufhören. 237 Wenn’s dem Esel zu wohl ist | geht er aufs Eis tanzen. 246 Wer nicht arbeitet | soll auch nicht essen. 253 Wer sich entschuldigt | klagt sich an.
Bekanntheit Trennschärfe 26.40
0.6451
57.60
0.7352
44.00 53.60 60.80 67.20
0.6371 0.6045 0.6388 0.6026
32.80 38.40 78.40 42.40 39.20 27.20 45.60
0.6167 0.5966 0.5654 0.6570 0.6545 0.6369 0.7003
58.40 44.00 42.40 71.20 24.80 44.80 36.00
0.5758 0.7143 0.7347 0.6380 0.6425 0.7243 0.7259
24.80
0.7121
60.80 48.00 60.80
0.6788 0.6215 0.6752
51.20 58.40 70.40 65.60
0.6079 0.5955 0.6256 0.5633
49.60 36.80
0.5833 0.5938
Itemanalysen und Skalenkonstruktion in der Sprichwortforschung 203
Literatur Baur, Rupprecht S.; Chlosta, Christoph; Grzybek, Peter 1994 “Perspektiven einer empirischen Parömiologie (Sprichwortforschung).” In: zet – Zeitschrift für Empirische Textforschung, 1; 94–98. Chlosta, Christoph; Grzybek, Peter 1995 “Empirical and Folkloristic Paremiology: Two to Quarrel or to Tango?” In: Proverbium. Yearbook of International Proverb Scholarship, Vol. 12. Burlington, VT: The University of Vermont, 67–85. Frey, Christa; Herzog, Annlies; Michel, Arthur; Schütze, Ruth 1970 Deutsche Sprichwörter für Ausländer. Eine Auswahl mit Beispielen. Leipzig: VEB Verlag Enzyklopädie, 9 1988. Grzybek, Peter 1991 “Sinkendes Kulturgut? Eine empirische Pilotstudie zur Bekanntheit deutscher Sprichwörter.” In: Wirkendes Wort, 2; 239–264. Grzybek, Peter; Chlosta, Christoph 1993 “Grundlagen der empirischen Sprichwortforschung”. In: Proverbium. Yearbook of International Proverb Scholarship, Vol. 10. Burlington, VT: The University of Vermont, 89–128. Grzybek, Peter; Chlosta, Christoph; Roos, Undine 1994 “Ein Vorschlag zur Klassifikation von Sprichwortvarianten in der empirischen Sprichwortforschung”. In: Sandig, Barbara (Hg.), E URO PHRAS 1992. Tendenzen der Phraseologieforschung. Bochum: Brockmeyer, 221–256. Grzybek, Peter; Grotjahn, Rüdiger, Chlosta, Christoph 2006 Sprichwortforschung: Empirisch. Analysen – Methoden – Resultate. Hohengehren: Schneider. [In print] Lienert, Gustav A.; Raatz, Ulrich 1994 Testaufbau und Testanalyse. 5., völlig neubearbeitete und erweiterte Auflage. Weinheim: Beltz, Psychologie-Verlags-Union. Rost, Jürgen 2004 Lehrbuch Testtheorie, Testkonstruktion. 2. Auflage. Bern: Huber. Wilson, Mark 2005 Constructing measures: An item response modeling approach. Mahwah, NJ: Erlbaum.
Do we have problems with Arens’ law? A new look at the sentence-word relation Peter Grzybek and Ernst Stadlober
Arens’ Law owes its name to Gabriel Altmann who, in 1983, discussed the results of a book entitled Verborgene Ordnung, written by Hans Arens in 1965. In his book, Arens analyzed the specific relation between word length and sentence length; in detail, 117 samples of German literary prose texts were analyzed, written by 52 different authors. As a result, Arens arrived at the conclusion that an increase in sentence length goes along with an increase in word length. The raw data supporting this assumption can be reconstructed on the basis of the information given in Arens’ book and are represented in Table 1. Calculating arithmetical means of word and sentence length (y¯ and x), ¯ Arens presented his results in a graphical form, which implied a linear increase – cf. Figure 1a, p. 208. Two decades later, Altmann (1983) went a different way: in his discussion of Arens’ findings, Altmann interpreted the observed relation in more general terms according to which the length of a particular (linguistic) component is a function of the length of the (linguistic) construct which it constitutes. This specific relation, which is well-known as Menzerath’s Law today, was discussed by Altmann only a few years prior to his research on Arens’ data. In his seminal “Prolegemona on Menzerath’s Law”, Altmann (1980) had suggested formula (1a) to be the most general form of what has hence been accepted to be the Menzerath-Altmann Law: y = Axb e−cx .
(1a)
In this context, Altmann had also presented two special cases of equation (1a), namely, equation (1b) for c = 0, and equation (1c) for b = 0. y = Axb
(1b)
y = Ae−cx
(1c)
Whereas equation (1a) is the most general form, equation (1b) has turned out to be the most commonly used “standard form” for linguistic purposes.
206 Peter Grzybek and Ernst Stadlober Table 1: Mean values for sentence length (x) ¯ and word length (y) ¯ for Arens’ (1965) data, n denoting sample size in the number of words per sample n
x¯
y¯
n
x¯
y¯
n
x¯
y¯
350 286 357 312 306 263 245 131 249 478 388 223 290 575 213 276 302 397 205 256 389 451 200 363 257 254 181 200 202 210 191 407 223 158 243 230 200 200 229
8.72 8.93 9.47 11.16 11.40 11.42 12.96 13.36 13.50 13.65 13.66 13.84 13.92 14.07 14.13 14.53 14.70 15.13 15.40 15.60 15.85 16.23 16.37 16.53 16.57 16.73 16.91 17.22 17.23 17.65 18.37 19.68 19.69 19.70 19.98 20.00 20.02 20.05 20.14
1.471 1.482 1.543 1.579 1.582 1.573 1.705 1.596 1.591 1.662 1.603 1.602 1.613 1.683 1.649 1.670 1.617 1.593 1.651 1.668 1.733 1.628 1.628 1.631 1.777 1.676 1.764 1.639 1.635 1.664 1.660 1.683 1.711 1.661 1.682 1.678 1.678 1.670 1.782
245 150 152 166 171 107 169 205 133 210 132 479 160 399 247 129 124 200 124 123 218 200 272 166 154 211 166 119 118 110 125 135 334 200 160 212 255 176 150
20.51 20.63 20.89 21.08 21.73 21.99 22.18 22.44 22.62 22.66 22.74 23.14 23.48 23.52 24.15 24.22 24.27 24.31 24.33 24.48 24.50 24.70 24.90 25.00 25.07 25.10 25.13 25.27 25.42 25.53 26.00 26.02 26.07 26.35 26.40 27.00 27.19 27.19 27.30
1.754 1.655 1.677 1.708 1.800 1.692 1.689 1.717 1.829 1.716 1.691 1.658 1.692 1.723 1.739 1.737 1.759 1.709 1.727 1.729 1.714 1.711 1.580 1.698 1.717 1.673 1.814 1.725 1.721 1.724 1.727 1.755 1.600 1.784 1.827 1.752 1.739 1.713 1.699
191 202 129 67 214 265 103 105 131 116 137 140 204 120 139 145 97 93 88 95 122 206 87 141 100 225 82 148 301 122 78 81 82 84 124 100 148 70 73
27.32 28.13 28.20 28.45 28.80 28.90 29.39 29.50 29.81 30.65 30.70 30.80 30.93 31.03 31.34 31.14 32.67 32.84 34.06 34.11 34.84 35.32 35.41 35.95 36.02 36.52 37.52 37.61 37.94 38.17 39.23 39.67 40.29 41.20 42.65 42.74 45.41 60.76 92.40
1.736 1.751 1.746 1.733 1.838 1.777 1.789 1.737 1.813 1.774 1.775 1.771 1.806 1.777 1.820 1.780 1.752 1.794 1.799 1.801 1.763 1.762 1.727 1.945 1.779 1.722 1.761 1.777 1.842 1.851 1.863 1.847 1.830 1.871 1.805 1.895 1.819 1.817 1.935
Do we have problems with Arens’ law?
207
With regard to the relation between sentence length and word length, Altmann (1983: 31) pointed out that Menzerath’s Law as described above is likely to hold true only when one is concerned with the direct constituents of a given construct. Therefore, in its direct form, Menzerath’s Law might fail to grasp the relation between sentence length and word length, as soon as we are not concerned with the word as the direct constituent of the sentence. In fact, an intermediate level is likely to come into play – such as for example phrases or clauses as the direct constituents of the sentence. In this case, words might well be the direct constituents of clauses or phrases, but they would only be indirect constituents of a sentence. Consequently, an increase in sentence length should result in an increase in word length, too — as in fact observed by Arens. Corresponding observations must therefore not be misinterpreted in terms of a counterproof to Menzerath’s Law; rather, they should be understood as an indirect proof of it in the form of Arens’ Law. Yet, according to Arens’s Law, as described by Altmann, the increase in word length with increasing sentence length should not be linear; rather it should follow Menzerath’s Law. Strictly speaking, with y symbolizing word length, z symbolizing phrase (or clause) length, and x symbolizing sentence length, we were thus concerned with two relations simultaneously: y = Azb ecz and z = A xb ec x . Inserting the latter equation into the first, one obtains y as a function of x:
x+A xb ec x
y = A xb ec
.
(2)
Given that the “standard case” of Menzerath’s Law (1b) has often been sufficient to describe the relation between sentence length and clause length (i.e., z = Axb ), as well as the one between clause length and word length (i.e., y = A zb ), Altmann (1983: 32) argued in favor of using this special case, consequently obtaining y = A xb , corresponding to equation (1b). The only difference to be expected for the relation between directly and indirectly related units of different levels is that, in case of directly neighboring units, parameters b and b should be negative (due to the prognosed decline); in case of indirectly related units, with intermediate levels, b = b · b will become positive. In addition to the linear regression, Figure 1b represents the results for fitting equations (1a) and (1b) to Arens’ data. Testing the goodness of fit of the non-linear Menzerathian model (1b) with yˆ = 1.2183x0.1089 , Altmann calculated an F-test which, with Fˆ1,115 = 241.40, he interpreted to be a highly significant result, corroborating his assumptions on the Menzerathian relation between sentence length and word length. This
208 Peter Grzybek and Ernst Stadlober
(a) Arens (1965)
(b) Altmann (1983)
Figure 1: Sentence length and word length: linear and non-linear regression
regularity describing the dependence of units from two indirectly related linguistic levels has henceforth become well-known by the name of Arens’ Law (or Arens-Altmann Law). Yet, taking a second look at Altmann’s (1983) modeling of Arens’ data, doubt may arise with regard to two points, and they even give rise to the fundamental question whether we have problems with Altmann-Arens’ Law: 1. First, a decade after Altmann’s (1983) study, Grotjahn (1992) discussed some methodological weaknesses of the F-test for testing linguistic data; as a result, Grotjahn argued in favor of calculating the determination coefficient R2 , instead of F-tests, favorably in form of equation (3). 2
∑ (yi − yˆi ) . R = 1− ¯2 ∑ (yi − y) 2
(3)
Now, re-analyzing Arens’ data according to equation (3), results in a rather poor value of R2 = 0.70 (a value of R2 ≥ 0.85 usually being assumed to indicate a satisfying fit). Thus, notwithstanding the fact that the result for the non-linear regression model is definitely better than the one for the linear model (with R2 = 0.58), it is far from being convincing, consequently shedding doubt on the adequacy of the Menzerathian interpretation. 2. Second, the scope of Menzerath’s Law initially has been to describe the relation between the constituting components of a given construct; consequently, Menzerath’s Law must be understood as having been designed in terms of an intra-textual law, relevant for the internal struc-
Do we have problems with Arens’ law?
209
ture of a given text sample.1 Arens’ data, however, are of a different kind, implying inter-textual relations, based on the calculation of the mean lengths of words (x¯i ) and sentences (y¯i ) for each of the 117 text samples, resulting in two vectors of arithmetic means (xi and yi ). Altmann (1983: 32), who based his analyses on these vectors, was of course well aware of the difference between intra- and inter-textal dependences (though not explicitly using these words), and he emphasized that Arens’ data cannot be taken as a direct proof of the Menzerathian relation on an intra-textual level. Still, he interpreted Arens’ (inter-textual) data to be even more reliable, likely to rule out possibly intervening (intra-textual) individual variances. Yet, principally speaking, it must be noted that we are concerned with two different applications, or interpretations, of what has been discussed as Arens’ Law: – in an intra-textual perspective, Arens’ Law may be interpreted to be a logical derivation of Menzerath’s Law, due to the intervention of intermediate levels (cf. Altmann & Schwibbe 1989: 12f., Cramer 2005); – in an inter-textual perspective, Arens’ Law is not necessarily a logical consequence of Menzerath’s Law; rather, it has the very same status of a strong hypothesis as has Menzerath’s Law itself.2 In summary, we are thus faced with two possibly interrelated problems which ask for clarification: 1. interpreting the relation between sentence length and word length along the Altmann-Arens line, one must separate the intra-textual and intertextual implications more clearly than this has been done hitherto; 2. the poor empirical evidence in support of the Altmann-Arens Law outlined above gives rise to the question of possible reasons for this circumstance. 1. We need not discuss the notion of ‘text’ here; for the sake of simplification we tolerate that a ‘text’ may be represented by homogeneous material, as well as by a mixed corpus, or by dictionary material, etc. 2. Given Arens’ Law is relevant on the intra-textual level, this is no indication of a general increase in word length with an increase in sentence length, on the inter-textual level: With regard to the intra-textual level, Arens’ Law means that the mean word length is an increasing function of sentence length. In comparing texts on an inter-textual level, we take only mean word length and mean sentence length of each text and study the relationship between these means across different texts; we cannot suspect the same rule applies as on the intra-textual level.
210 Peter Grzybek and Ernst Stadlober
The present text concentrates on the inter-textual perspective, and it focusses on possible explanations for the obviously poor results in the context of Arens’ data. It seems reasonable to start from this inter-textual end, tentatively maintaining Altmann’s (1983: 32) assumption as to less variance across samples than for individual texts, consequently predicting even worse results for individual texts (i.e., for the intra-textual situation). A clarification of the inter-textual level might therefore provide important insight into the mechanism of Arens’ Law, in general, and should thus yield valuable results for future intra-textual studies (cf. Grzybek et al. 2006). As to the observed poverty of the results, it seems important to take into account the circumstance that Arens’ Law, as well as Menzerath’s Law, has been designed as what one might term a ‘law of averages’. This is to say that the application of these laws to linguistic data has been guided by the interest to express overall tendencies within larger linguistic samples: to this end, arithmetical means have been calculated for particular data points, and the means of particular independent variables (x) ¯ have been related to the means of the relevant dependent variables (y). ¯ In case of the relation between sentence length and word length, we are concerned with two arithmetical means: x¯i as the independent variable denoting average sentence length, and y¯i as the dependent variable denoting the corresponding word length. As was mentioned above, in case of inter-textual studies, we thus obtain two vectors of arithmetic means, xi and yi ; in this case, for i = 1 . . . N texts, each individual average value x¯i and y¯i is based on a particular number of observations within the text. Yet, due to the large variance of sentence length and the resulting great amount of classes3 , we tend to have only one single y¯i value for each data point4 of 3. This is the reason why “simple” sentence length studies, focusing on mere frequency distributions of sentence length, tend to form particular intervals (usually of five classes), rather than take into consideration each individual sentence length class. 4. The situation may be less complicated when applying Arens’ Law to other linguistic levels, on which the number of linguistic classes is limited, in practice. This is particularly evident in case of Menzerathian studies of word length (in terms of the number of syllables, or of morphemes, per word); but also for level-transgressing studies (implying Arens’ Law), when word length is measured by the number of letters or phonemes per word, the number of classes still is small. As opposed to this, in case of sentence length, the variation is much larger; this is less relevant for Menzerathian studies (measuring sentence length by the number of clauses per sentence) than it is for Arens studies (based on the number of words per sentence): as a consequence, it is a mere fact of coincidence that two texts (albeit only two) have an identical average sentence length. In fact, as an inspection of the 117 texts represented in Table 1 shows, this occurs only once in Arens’ data (namely, for x¯ = 27.19).
Do we have problems with Arens’ law?
211
the independent variable x¯i . The interpretation of data in terms of Arens’ Law may therefore be deluded by the fact that, although the averages are based on a rather large number of observations, for each independent data point x¯i being introduced into the regression model, there is only a single dependent value (y¯i ). It seems to be reasonable therefore to test in how far some kind of data pooling, providing some kind of “second-order” averages, will lead to more satisfying results. However, pooling itself is not unproblematic, the more since there are different pooling procedures: 1. either one defines a particular (minimal) number of observations for calculating the mean value. 2. or one considers all data points within a given interval and calculates the corresponding arithmetical mean; Both procedures imply a certain degree of subjective arbitrariness, since neither the concrete number of observations nor the interval size can be theoretically defined a priori. And even having made a decision for a particular interval size, the next problem which arises concerns the lower limit of the first interval: given a desired interval of five, for example: should the first interval start with 1 (a theoretical mimimum), with 2 (one possibility to linguistically justify a sentence length minimum), or with 8 (the observed minimum in the given sample)? Obviously, there can only be an authoritative decision – favoring an empirically based optimum would cause variations from one sample to another (and, consequently complicate between-text comparisons). Additionally, results are likely to be influenced by the decision to calculate either ‘simple’ arithmetical means or weighted means (thus taking into consideration the number of sentences on which the observation is based). In the context of these factors asking for a decision, a number of logical consequences must not be ignored which are of utmost importance. Thus, if we decide to have rather large classes or intervals (in order to have more observations within a given class), one must be aware of the fact that this will result in fewer data points making the interpretation more difficult (unless one has an abundant mass of data). Smaller groups or intervals, however, will lead to the fact that many data points may be represented on the basis of a relatively narrow segment of the whole data spectrum. Thus, not only is there no pooling procedure which may be favored for theoretical reasons; additionally, none of these procedures is unproblematic in practice. In fact, any decision made is likely to be a secondary factor influencing the result, which may be highly dependent on the specific data structure under study.
212 Peter Grzybek and Ernst Stadlober
The aim of the present study is not so much to offer solutions to all open questions, as to point out general problems in dealing with Arens’ Law, which are, among others, related to the problem of pooling. Let us therefore, by way of an example, re-analyse Arens’ original data (cf. Table 1, p. 206). Table 2 represents the pooled data, each data class based on five observations, the original data sorted in ascending order of sentence length (x). ¯ 5 Table 2: Mean values for sentence length (x) ¯ and word length (y) ¯ for Arens’ (1965) data, in classes of five observations i
f
x¯
y¯
yˆ¯
i
f
x¯
y¯
yˆ¯
1 2 3 4 5 6 7 8 9 10 11 12
1–5 6–10 11–15 16–20 21–25 26–30 31–35 26–40 41–45 46–50 51–55 56–60
9.936 12.978 13.924 15.072 16.310 17.148 19.484 20.144 21.264 22.528 23.702 24.378
1.531 1.625 1.630 1.640 1.679 1.676 1.679 1.712 1.706 1.728 1.710 1.728
1.568 1.614 1.626 1.640 1.654 1.663 1.685 1.691 1.701 1.712 1.721 1.726
13 14 15 16 17 18 19 20 21 22 23
60–65 66–70 71–75 76–80 81–85 86–90 91–95 96–100 101–105 106–110 111–117
24.954 25.470 26.368 27.426 28.748 30.292 31.422 34.234 36.284 38.524 52.207
1.676 1.742 1.744 1.728 1.777 1.774 1.787 1.784 1.787 1.836 1.853
1.731 1.734 1.741 1.748 1.757 1.767 1.774 1.790 1.801 1.813 1.873
Figure 2a illustrates the convincing result, characterized by a determination coefficient of R2 = 0.93 for parameter values a = 1.2268 and b = 0.1070.
word length
word length
1,900
2,00
2,000
1,90
1,900
1,80
1,800
1,70
1,700
1,60
1,600
1,50
1,500
word length
1,800
1,700
1,600
1,500
1,40 0,000
10,000
20,000
30,000
40,000
50,000
60,000
sentence length
(a) Classes of 5
1,400 0,00
10,00
20,00
30,00
40,00
50,00
60,00
0,000
sentence length
(b) Interval size 3
10,000
20,000
30,000
40,000
50,000
60,000
sentence length
(c) Interval size 5
Figure 2: Arens’ (1965) data, with different kinds of pooling 5. Given a sample size of 117 texts, the last class includes seven observations.
Do we have problems with Arens’ law?
213
By way of a comparison, Table 3 gives the results of fitting equation (1b) to the data, pooled according to intervals, with two interval sizes: five and three; the number of observations the calculated mean is based on is indicated ˆ¯ As can be seen from Figures 2b by n, the theoretical values are indicated by y. Table 3: Mean values for sentence length (x) ¯ and word length (y) ¯ for Arens’ (1965) data, in intervals of length 3 vs. 5 i
n
Interv.
x¯
y¯
yˆ¯
i
n
Interv.
x¯
y¯
yˆ¯
1 2 3 4 5 6 7 8 9 10 11 12
3 10 14 8 15 19 15 10 5 8 4 6
[8,11) [11,14) [14,17) [17,20) [20,23) [23,26) [26,29) [29,32) [32,35) [35,38) [38,41) 41+
9.040 12.887 15.625 18.690 21.312 24.554 27.288 30.529 33.704 36.536 40.098 54.193
1.499 1.611 1.669 1.667 1.716 1.713 1.745 1.784 1.782 1.789 1.853 1.857
1.535 1.600 1.636 1.670 1.696 1.724 1.745 1.768 1.789 1.805 1.825 1.890
1 2 3 4 5 6 7
3 14 28 27 25 13 7
[5,10) [10,15) [15,20) [20,25) [25,30) [30,35) 35+
9.040 13.307 17.269 22.581 26.982 34.542 52.207
1.499 1.623 1.671 1.712 1.744 1.795 1.853
1.532 1.602 1.651 1.704 1.739 1.790 1.878
and 2c, the results for fitting equation (1b) to Arens’ data are very convincing, irrespective of interval size: 1. For intervals of three, the determination coefficient is R2 = 0.95 with parameter values a = 1.1887 and b = 0.1161 – cf. 2b. 2. The result is equally fine, when the means are based on intervals of five: in this case, the determination coefficient is R2 = 0.97, with parameter values a = 1.1856 and b = 0.1163 – cf. Figure 2c.6 Data pooling thus in fact turns out to be a crucial matter in dealing with Arens’ data and, consequently, with Arens’ Law. If the first conclusion therefore is that proving Arens’ Law demands some kind of data pooling in order for the overall tendency to become transparent, then the second conclusion implies the availability of sufficient data material when studying Arens’ Law (at least on an inter-textual level). 6. A regression analysis which is not based on the a priori defined intervals given in Table 3, but – given a minimal sentence length of 8.72 –, starts with a lower interval border of 8 – thus including intervals of [8,13), [13,18), [18,23), . . . –, leads to an almost identical result of R2 = 0.98.
214 Peter Grzybek and Ernst Stadlober
Yet, a large amount of data is a necessary, but not a sufficient condition. Rather, in dealing with Arens’ Law, due attention must be paid to the factor of data homogeneity. This shall be demonstrated here by enlarging our data base of Arens’ texts with relevant data presented by Wilhelm Fucks (1955, 1956) a decade before Arens’ work. In his pioneering studies on the mathematics of literary style, Fucks studied the relation between sentence length and word length, though not concentrating on a mathematical model of this relation. Still, he provided relevant data of 54 German text samples;7 half of them were literary prose, the other half scholarly prose. Combining Fucks’ and Arens’ data into one common corpus of 171 text samples, one might expect the result to improve as compared to Arens’ data alone; yet, re-analyzing the relation between sentence length and word length of the joint corpus according to equation (1b), results in a very poor value of R2 = 0.22, which is not only far from being satisfying, but, more importantly, significantly worse as compared to the result obtained above for Arens’ data alone (with R2 = 0.70). Searching for a reason of this deterioration, it seems reasonable to follow Fucks’ initial ideas assuming that the two groups of texts belong to two different writing styles, characterized by differences in sentence length and word length (cf. Table 4). Table 4: Comparison of literary and scholarly prose (Fucks 1955 and Arens 1965) N Arens Fucks Fucks
Literature Literature Prose
117 27 27
Word Length y¯ s 1.72 1.68 1.98
0.09 0.09 0.13
Sentence Length x¯ s 25.37 19.28 24.39
10.92 5.61 6.56
This can clearly be seen from Figure 3a (taken from Fucks 1955: 239), which shows that the two text groups are separated mainly along the vertical axis, the differences thus being related to differences in word length rather than sentence length. A re-analysis of Fucks’ data by way of a discriminant analysis confirms this impression: only 61.10% of the texts are correctly classified with sentence length as the relevant discriminant variable, as compared 7. There is an important difference between Fucks’ and Arens’ data: whereas Arens’ analyzed coherent text segments of at least 3 000 words, Fucks combined five randomly chosen segments of 500 words each (cf. Arens 1965: 16).
Do we have problems with Arens’ law? 2,40
215
A_ L itera tur F_L iter atu r F_P ro sa
Word Length
2,20
2,00
1 ,80
1 ,60
1 ,40
0,0 00
20 ,00 0
40 ,00 0
6 0,0 00
8 0 ,0 00
1 0 0,00 0
Sentence Length
(a) Fucks
(b) Fucks and Arens
Figure 3: Sentence length and word length (Fucks 1955 and Arens 1965)
to 92.60% correct classifications on the basis of word length. This tendency is also reflected in the graphical representation of the combined corpus; as can be seen from Figure 3b, Fucks’ literary prose texts neatly fit with the group of Arens’s data, whereas the scholarly prose texts clearly fall into a different area. As can easily be seen (and, in fact, statistically proven by way of post-hoc tests), the two literature samples fall into one category as to word length, but they differ significantly in sentence length (both as to x¯ and s); on the other hand, Arens’ literary texts and Fucks’ scholarly prose texts fall into one category as to sentence length (though with enormously differing s), but clearly differ in word length. Details as to possible reasons for this rather unexpected result need not be discussed here. It is well possible that the observed differences are partly related to the randomness of Fucks’s data samples, or to diverging definitions of ‘word’ and/or ‘sentence’. Yet, such (additional) factors are not likely to explain the whole complexity of the matter: and even if they should explain differences between the two samples of literary texts, the specifics of the scholarly prose texts make it most obvious that we are concerned with a specific group of texts. It seems unlikely, therefore, that all texts follow one common tendency. This conclusion is of utmost importance for the relevance of Arens’ Law, with regard to which we have to conclude that, on an inter-textual level, it is likely to be operative only within homogeneous text groups, if at all. In fact, it may well turn out that, as soon as we concen-
216 Peter Grzybek and Ernst Stadlober
trate on homogeneous groups of texts only, the latter do not display enough variance of either word or sentence length, due to genre specific structures. If this were true, Arens’ Law were not likely to become transparent within a given text group and, on the inter-textual level, would at best turn out by way of a text type related law. In fact, of our three samples, only Arens’ literary texts vary sufficiently with regard to both sentence and word length; here, pooling turns out to be a necessary and efficient procedure. As compared to this, analyzing the two Fucks samples (literary vs. scholarly prose) separately, not only results in extremely poor values of (R2 = 0.07) and (R2 = 0.10), respectively; additionally, in this case, pooling makes no sense due to the small sample sizes of N = 27. The question must remain open for further research (cf. Grzybek et al. 2006), therefore, what will happen to the assumptions suggested by Arens’ Law as soon as one analyzes sufficient homogeneous data. In summary, possible problems with Arens’s Law may be related to different factors: 1. Attention must be paid to the distinction of intra-textual and intertextual perspectives when dealing with Arens’ Law. 2. It seems reasonable that Arens’ Law is valid only within the framework of particular text sorts, or discourse types; 3. Arens’s Law seems to express specific tendencies which can be submitted to observation only in case of large data material, or by way of specific pooling procedures; pooling, in turn, may lead to partly diverging results, depending on the concrete procedure chosen.
References Altmann, Gabriel 1980 “Prolegomena to Menzerath’s law”. In: Glottometrika 2. Bochum: Brockmeyer, 1–10. 1983
“H. Arens’ «Verborgene Ordnung» und das Menzerathsche Gesetz”. In: Faust, Manfred; Harweg, Roland; Lehfeldt, Werner; Wienold, Götz (Hg.), Allgemeine Sprachwissenschaft, Sprachtypologie und Textlinguistik. Tübingen: Narr, 31–39.
Altmann, Gabriel; Schwibbe, Michael H. 1989 Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms.
Do we have problems with Arens’ law?
217
Arens, Hans 1965 Verborgene Ordnung. Die Beziehungen zwischen Satzlänge und Wortlänge in deutscher Erzählprosa vom Barock bis heute. Düsseldorf: Pädagogischer Verlag Schwann. Cramer, Irene M. 2005 “Das Menzerathsche Gesetz”. In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Raimund G. (Eds.), Quantitative Linguistik. Ein internationales Handbuch. Berlin / New York: de Gruyter, 659–688. Fucks, Wilhelm 1955 “Unterschied des Prosastils von Dichtern und Schriftstellern. Ein Beispiel mathematischer Stilanalyse.” In: Sprachforum, 1; 234–241. Grotjahn, Rüdiger 1993 “Evaluating the adequacy of regression models: some potential pitfalls”. In: Glottometrika 13. Bochum: Brockmeyer, 121–172. Grzybek, Peter; Kelih, Emmerich; Stadlober, Ernst 2006 “The relationship of word length and sentence length: the inter-textual perspective” In: Advances in Data Analysis. Heidelberg /New York: Springer. [In print]
A language of thoughts is no longer an utopia Wolfgang Hilberg
Thoughts are not tied firmly to spoken or written language; they do not depend on words or grammar, thoughts are at the bottom of any language, they are universal. The question arises whether thoughts and a universal language of thoughts, valid to all mankind, could be created. New perceptions on the functional structure of the human brain show a technological way towards a solution to the problem. A corresponding language machine, operating on a completely different structure than a computer, was developed and tested successfully. New and simple methods of translating any text into any natural language may be seen as an application in the future. Gottfried Wilhelm Leibniz was as we all know a genius, but he was even more brilliant than we have supposed until now. Indeed we know that more than 300 years ago he invented the binary number system, which is nowadays present in all digital computers. Furthermore it is commonly known that he invented the infinitesimal calculus for physics and mathematics (separately from his contemporary Isaac Newton), but what hardly anyone knows is that he also proposed the creation of a universal language consisting only of thoughts instead of words: “It should be possible, to invent a kind of alphabet of human thoughts”. Later on this idea still fascinated several profound thinkers, but unfortunately nobody succeeded in the creation of such a language. Only courage was lacking for a last radical step. The crucial venture was to envisage thoughts as a phenomenon connected to matter that can be seized physically. In the common view, thoughts are of course wholly spiritual, similar to ether or air – in any case thoughts cannot be caught, as a well known old German song tells us. And yet there were vague hints in the scientific world many years ago which could have led to the discovery that thoughts are somehow connected with matter. Therefore it is hardly surprising that a group of engineers from the University of Technology, Germany, who are accustomed to working with physical objects like electronic circuits, digital machines etc., found a solution of the problem. Not burdened by common popular and philosophical prejudices, their technical view of thoughts was rather naive and simple. Handling the materialized thoughts in a network,
220 Wolfgang Hilberg
like components of a game, yielded thinking processes which were very similar to those existing in human brains (in order to avoid misunderstanding it should be noted that computers are able to accomplish marvellous work but they are not able to think like a human being). Of course, whenever a new idea emerges, everybody is the wiser for it. It is just the same in this case. When we refer to earlier geniuses and collect some of their statements, taken all together these seem to point to a possible physical realization of genuine human thinking. We could first point to the philosopher Ludwig Wittgenstein, who dwelled some decades ago on how we could get an idea of the term thought “I suppose a thought is essentially what is expressed in a sentence”. Nowadays we would surely say “A thought is the essential information contained in a sentence“. Of course it is undisputed that a thought exists first in the head. But if it is a special form of information, it cannot be conceived as an immaterial ether. In this respect we could furthermore recall the scientist Dennis Gabor, who is predominantly known as the inventor of holography (Nobel prize 1971), but who was also creative in other fields. As early as 1946 he was convinced that all information requires a carrier consisting of energy or matter. In particular, he determined that a unit of information (Bit) has a minimum energy pulse which has the shape of a bell, the so-called Gaussean pulse. (The model for this calculation was Heisenberg’s uncertainty relation). The next prophetic step can be attributed to Claude E. Shannon, who determined in a famous and often cited paper, 1951, the quantity of information which is contained in a sentence, after the redundancy has been removed. He found a value of about 1 Bit per letter for short sentences. (For comparison: the German alphabet consisting of 29 letters requires coding with about 5 Bits per letter, which is regularly rounded in practice to 8 Bit, called 1 Byte). Multiplying the minimum value of 1 Bit by the number of letters in a sentence, one might call the result a thought. But this would be entirely false both in the numbers and in the meaning, because Shannon had made only a statistical estimation on the average information content (entropy) covering many different sentences. When we wish to derive a specific thought, we have to consider that it is the essential information contained in an apparently individual sentence. Furthermore we have to take into account that such an information can only be called an essential thought, (1) if it exists physically, and (2) if it can be expressed in various ways by a sequence of words. Exactly this task of deriving the essential thought was mastered by a group of researchers who worked for several years in the institute “Digital Electron-
A language of thoughts is no longer an utopia 221
ics” at the University of Technology in Darmstadt, Germany. They started from the idea that a given thought is an information entity, placed locally in the brain. Then they regarded the brain as a system of networks consisting of neural cells which are connected by nervous lines. (Strictly speaking the assumption of a network of thoughts is not quite that new, when we remember the findings of the almost forgotten American linguist Benjamin Lee Whorf “Thinking follows a network of rails”. Whorf additionally postulated even some network levels “each of them defined by structural patterns”). We could add to this that the brain should have the ability to initiate processes, which can extract the essential thought out of the words of a sentence, as well as to reverse these processes again to generate sentences from the thought. Obviously this is what human language communication consists of. In the current research for a technical system therefore the following important questions arose: – If there are specific network structures in the brain, how can they be discovered? – When word sequences in sentences come from the outside world, how can they be transformed by networks (either natural or artificial) in such a way that “essential thoughts” are obtained? – When processes in an artificial network system are developed which can understand thoughts contained in sentences like the human brain can, how can these processes be reversed so that thoughts may also be re-transformed into corresponding sentences consisting of words, etc.? All these questions and the technological realization are described in “Denken wie ein Mensch” (Hilberg 2005). This publication was possible only after the scientific work of several years was concluded, because firstly, all the assistants involved had to complete their part of the project (7 doctoral theses have been written in the meantime), secondly, the project could only be presented and appreciated as a whole, and thirdly, the author had to become an emeritus in order to find the time to write a book. To be more presice, the starting point of all the considerations was the actual discovery of the functional structure of the language network (Hilberg 2002). In its nodes all words of vocabulary are stored and the connections between them determine which words of the language are allowed to succeed directly one after another. Written or spoken text therefore runs along a path in the network. In reality, far less possibilities for word successions are allowed than one could think of theoretically. It is very astonishing that in special measurements a rather simple type of network could be found (even with
222 Wolfgang Hilberg
hundreds of thousands of words, necessary for a modern language, a clearly arranged presentation of the structure can be gained in a specific diagram). This network is yet unknown in mathematics. It has the unique property, when generating text, of delivering a maximum of information (entropy) on average. Apparently over many centuries evolution has unconsciously let natural languages everywhere in the world approach this optimum. Now, knowing what the optimum structure of a language network looks like, the researchers set about to devise a system of optimum networks arranged in a hierarchy which contain metawords of growing abstraction from level to level. Then, on the highest level, a very compact code for any individual sentence arises, the so-called thought-code. Sentences which are fed into the system and which have to be understood, are structurally processed, i.e. they are abstracted, bundled and compressed without using any explicit grammar rule. In the other direction, for generating text, thought codes can be retransformed into ordinary sentences by using reversed processes together with a special network prediction. The language of thoughts contained in the highest level of the hierarchical network system can be chosen in such a way that it will be equal for all natural languages in the world. Then, for example, the difficulties of making good translations will be eased considerably. Finally there may be another effect that could be even more important than the opening of a door for a new direction in information technology. Because the language system was built after the human model, i.e. because the human brain had to be copied very precisely in its network functions, it is also possible to draw conclusions from the model to the system structure of the brain. A first surprising result was the explanation of an old problem in linguistics. For almost half a century it could not be explained why a definite mathematical relation (Zipf’s law) dominated all texts in all natural languages. The solution of the enigma follows simply from the structure and the function of the language network. The result was published recently in two parts in Glottometrics (Hilberg 2002, 2004), and can also be found in the book mentioned above for anyone who has a general interest in science. No preparatory literature exists on this new field of artificial language systems. Hence the considerations had to be fundamental in nature and thus most intellegible and simple. Surely contrary to expectations, experts in computer programming or computer linguistics may have greater difficulties in accepting the hardware technology, because their concepts usually rely on abstract grammar rules. On the other hand engineers of information technology had an early focus on associative memories and conventional artificial neural nets. Just these nets
A language of thoughts is no longer an utopia 223
are obviously the forerunners of the new “neural nets in higher abstraction levels” (Hilberg 2005), because they do not depend on software rules. They depend on structure alone.
References Hilberg, Wolfgang 2002 “The Unexpected Fundamental Influence of Mathematics upon Language”. In: Glottometrics, 5; 29–50. 2004 “Some Results of Quantitative Linguistics Derived from a Structural Language Model”. In: Glottometrics, 7; 1–24. 2005 Denken wie ein Mensch. [To think like man.] Groß-Bieberau: Sprache und Technik.
Language subgrouping Hans J. Holm
1
Introduction
When, in 1997, Gabriel Altmann encouraged me to publish the beginnings of the Separation Level Recovery (henceforth SLR), he concluded that “. . . andere sollen dann schrittweise Verbesserungen anbringen.” However, up to now, there have been no others. Recently, a study group of the Max-PlanckInstitute for Evolutional Anthropology at Leipzig, following a short introduction this author gave there, published an employment of SLR in the Internet (Cysouw et al. 2005 ). The authors compared the results of the SLR method with some others and concluded that SLR could not achieve the correct subgrouping of the Mixe-Zoque language group used as a test case. The aim of this study is to update former work by deeper understanding of the environmental conditions for the underlying hypergeometric estimator. This should be useful for further attempts in language subgrouping by statistical data with the SLR method. Formulae of spread and variation1 are banned into the glossary. In the text, however, we shall work with illustrating models of stepwise increasing complexity. This model-testing procedure is intersubjectively verifiable through welldefined repeatable inputs and computations. Examples of natural languages depend too much on the data employed and their interpretation as to serve as scientifically reliable tests.
2
Notation, terminology, formulae N Nˆ
the universe of data (linguistic features) under examination or E(N) the amount of linguistic features estimated by the hypergeometric estimator – for details see Altmann & Hammerl (1989: 140ff.): E(N) =
kx · ky axy
(1)
1. These can be obtained in the rich capture-recapture literature, e.g. Seber (1982), or Thompson (1992). I owe Gabriel Altmann for hinting at this parallel.
226 Hans J. Holm
k
a d D
residues of original features/cognates left in any daughter language after different replacements by ‘innovations’. The letter ‘r’, sometimes used for this quantity, may be mnemotechnically misinterpreted as the term ‘replacements’ – which would be the contrary the sum of agreements of original features/cognates between the ‘k’s of any two languages the sum of disagreements, or distance d = N − a of effective (“observable”) common replacements between any two languages. the amount of actual (“evolutional”) replacements. Because some of these end in multiple replacements, this number is only known in model experiments The confidence interval for 95% is assumed2 to lie between E(N) ± 1.96 Var(N) , where Var(N) =
kx · ky · (kx − a) (ky − a) a3
3
Implementations
3.1
Basic model of two daughter languages by one split
(2) (3)
This case was the basic idea not only for the beginnings3 of the SLR, but also for the many so-called capture-recapture studies (see footnote 1) designed to infer on wild-life abundance. I recommend anyone not familiar with stochastics to play through the basic procedure: Design a list (using any spreadsheet program or paper), with e.g. N = 100 running numbers and three columns filled by zeroes. Choose a random percentage of replacements and mark their fields in the first column e.g. ‘1’, where the remaining zeroes then are the original unchanged places called ‘k’. Do the same with the second column, 2. These mathematically derived variance estimators have shown to be very rough in many test runs. The author is working on a much better one, but its implementation would go beyond the frame of this article. 3. The SLR-algorithm has already been applied to Indo-European by the well-known statistician D.G. Kendall in a discussion at the Research Section of the Royal Statistical Society, November 25th, 1949, and published 1950, but never since cited. This is the reason that I myself did not know this approach when I detected the relation by working on Indo-European material.
Language subgrouping 227
preferably with another percentage of new random replacements. In the third column, mark the agreeing zeroes between column one and two. The sum ‘a’ of these agreements shows a striking relationship: The product of the zeroes k1 times k2 in the first two columns, divided by the sum ‘a’ of their agreeing unchanged zeroes (= residues), always comes close to the starting N, in this case, 100. This is the ‘hypergeometric estimator’. The astonishingly exact results lead to a generalization upon the following cases, which regrettably do not always display such pleasant fits as in this simple basic model.
3.2
Model of three daughter languages by two splits
We start by designing an appropriate model, e.g. as in Figure 1a.
(a) Random input
(b) ‘a’-output
Figure 1: Three daughter languages by two splits
We choose the second split at a separation level of 90 features and the amount of residues ‘k’ intended to be left over at the time of study. This demands for more according replacements. As next steps, as described in the previous chapter, we apply the random replacements and count the agreements ‘a’, which we then enter into the upper left-hand boxes of Figure 1b. As a final step, we estimate the knots / splits / separation levels E(N) between each language by formula (1) and enter these into the lower righthand boxes of the same matrix. Results: The test run resulted in a very good estimate of 90.5 for the knot/split between language A and B, close to the original 90. The primary split or root of the tree is only reached with 96.6 and 98.4 instead of the original 100. This is normal scatter. We now improve our abilities on the next, more complicated model.
228 Hans J. Holm
3.3
Model of four daughter languages by three splits – one-sided
Again we start by designing our inputs, (after the root) by two splits in only one of the primary branches: language ‘C’ at a level of 90 original features, languages ‘A’ and ‘B’ at a rest of 80 features.
(a) Random input
(b) ‘a’-output
Figure 2: Four daughter languages by three splits (one-sided)
All four are assumed to lose more features by individual replacements down to the ‘k’s of Figure 2a. After practically applying these random replacements, we arrive at the agreements in Figure 2b and compute again the estimated levels of split. For this run, we again enter these estimates in the right-hand corner of the matrix. We need no graphic to see that in the ‘D’-column we find the primary split or root with numbers around 100 (with a good mean of 99.9), the next clear split can be detected in the ‘C’-column with 87.5 and 89.7 – giving a mean of 88.6, which is pretty close to the original 90. The last split, too, is easily detectible with 79.8 between languages ‘A’ and ‘B’.
3.4
Model of four daughter languages by three splits in both branches
By distributing the same split levels on both primary branchings (Figure 3a), we will now test if we can distinguish the results from the former ones. After the due procedures, we get the five agreements between our four languages in the left-hand corner of Figure 3b. Pretending not to know the model, it becomes somewhat more difficult, since the split AD does not fit into the picture. In fact, after over a hundred test
Language subgrouping 229
(a) Random input
(b) ‘a’-output
Figure 3: Four daughter languages by three splits in both branches
runs, I can say that this is an extreme case of scatter. We thus – by chance – were faced with exactly the problem for which we designed our model. Solution: The primary branching (100) is very clearly formed by ‘B’ against ‘C’, ‘D’. ‘C’ and ‘D’ themselves then split off at ≈ 78.4. Finally we have to decide whether candidate ‘A’ has split off at 90.5 from ‘B’ or at a mean of ≈ 91 from ‘CD’. In such cases, the decision goes with the higher sum of ‘k’, i.e. from ‘B’, because we here can expect lower scatter.
3.5
Model of five daughter languages by four splits (both branches)
We enlarge the model by one language more to improve our ability to solve the difficulties in a clear test case.
(a) Random input
(b) ‘a’-output
Figure 4: Five daughter languages by four splits (both branches)
230 Hans J. Holm
After the due procedures, we again enter our now six agreements into the left-hand corner of the matrix, Figure 4b. Solution: ‘B’ and ‘C’ with their high amount of residues ‘k’ are the best candidates to begin with. Thus, we find the primary split or root between ‘C’ against ‘A’ and ‘B’, and at 79.8 the split of ‘B’ from ‘A’. We turn to the very low amount of 70.7, indicating the split between ‘D’ and ‘E’. This subgroup cannot belong to the ‘A’-branch, because the results in the ‘A’-row for ‘D’ and ‘E’ are – beyond any scatter – far too high. Thus, we arrive at the correct subgrouping, despite some bad data.
3.6
Simulation of the Wichmann tree by three splits (one triple)
This model is exactly designed to demonstrate how an output should look, if the data in Cysouw 2005, taken as a test for the SLR method upon the MixeZoquean languages, would fit to the view of Wichmann (1995).4 The tree in Figure 5a represents a simplified model of the Mixe-Zoque tree by Wichmann (1995).
(a) Random input
(b) ‘a’-output
Figure 5: Simulation of the Wichmann tree (three splits, one triple)
In Figure 5a, the letters represent the mean values A B C D E
The Oaxaca group of Mixean The Popoluca group of Mixean The Gulf Zoquean group Chimalapa Zoque Chiapas Zoque.
4. Only as cited and described in Cysouw et al. (2005)
Language subgrouping 231
Following the appropriate procedures, (here 10 runs of random replacements) we arrive at the split estimations Nˆ in Figure 5b. This time we are lucky that by chance we can at once detect the root between AB as one branch against the other one of CDE. The split of ‘A’ from ’B’ at 85.7 instead of the ideal 80 shows a relatively high scatter. The splits between ‘D’, ‘E’ against ‘C’ center around 83, and should be more reliable (due to their high amount of ‘k’) than the ‘E’, vice versa. Here we have only a probability decision that the value of 77.3 seems to be too low.
3.7
‘Natural’ data from five mixe-Zoque language groups by unknown splits
Naturally, we have no model here and start by evaluating the data of Cysouw et al. (2005: Table 1), which we combine as arithmetic mean according to the groups5 already described. For easier comparability to our test models above, the values have been transposed to our standard frame of 100 and entered into the same form of matrix, now Figure 6.
Figure 6: ‘Natural data’
Interpretation: Starting with the highest values, we find the two ’root-detectors’ (=100) at the split between E (Chiapas Zoque) and the two Mixe groups A and B, which part from each other at around estimated 93.1. The values with ‘E’ offer the highest confidence levels because of the very high ‘k’. The lowest ‘k’s, however, belong to the two Zoque language groups C and D, which part at an estimated level of 66.1 from each other, but at around 94 from the Chiapas Zoque branch E. Here we encounter the first difference to the original Wichmann tree, which demands an early tripartite split of C, D, and E from Proto-Zoquean. 5. Texistepec Zoque and South-Highland Mixe are left out because of doubtful data
232 Hans J. Holm
Figure 7: Graphical result
The puzzling results are the low estimations between the two Mixe groups A (at ≈ 89) as well as B (≈ 78) against the CD-branch. Because of the low amount of residues ‘k’ in C and D, these values could be due to extreme scatter. The values with the South-Highland part of Oaxaca would be even lower. Because of repeated bad values, this must be suspected to be not only scatter, but also so-called ‘systematic’ deficiencies discussed in the following chapter.
4
Discussion 1. Some critics assume that few data from e.g. relic or extinct languages are not usable for lexicostatistics. This must be disputed. The graphic in Figure 8 is representative for over a hundred test runs. We can clearly perceive that by decreasing sums of residues kx +ky , in particular below 120% of the data list, the stochastic scatter becomes too great, as to allow for single decisions. However, note that although the validity of the mean remains extremely consistent, in this case at 99.9 instead of 100, it follows that we can reach a valid estimate, if we have results from many more languages in a family. 2. A real shortcoming of reconstruction-ordered etymological dictionaries6 , which up to now seemed to be a sufficient prerequisite for this method, can be if data were ‘systematically’ biased. Often the reader 6. Reconstruction-ordered is the well-known Pokorny (1959) for Indo-European. There are others, as e.g. the Kluge & Seebold (2002), ordered according to German lexemes. Most other researchers work with onomasiologically-ordered lists like that of Dyen (1997) or dictionaries like that of Buck (1949).
Language subgrouping 233
Figure 8: SLR results under 9 different combinations of residues ‘k’
remains uninformed about the extent and homogeneity of the entries. Biased here means that they were reduced not by chance but by alphabet or semantic fields, allowing too few agreements. This would result in a premature split. On the other hand, too many agreements would arise, if a small set contains mainly data of highest frequency. According to expectations, the few 155 Anatolian entries of 2 044 total in Pokorny (1959), gave extremely low splits. Additionally could Pokorny have overestimated Anatolian data as Indo-European heritage. We may assume that the low amount alone could be overcome by comparison of all 13 runs for the Pokorny data, the mistake is rather to set ‘not available’ data equal to replacements. Further research is needed to test whether and how this shortcoming could be compensated for. For these reasons, complete etymological dictionaries are not valid per se. It must therefore be a desideratum, to construct lists with around 200 etyma as characters, thoroughly studied for perfect knowledge of the existence or non-existence of residues thereof in the languages under study.
234 Hans J. Holm
3. Though most other researchers start with onomasiological lists, some of them simply transpose these into ‘pseudo-etymological’ ones. This is a methodological fault: They take e.g. the list-entry in Celtic for hand, “lam-”. Turning this into a binomial etymological list, the entry there would be “lam-”, with – to their knowledge – only one positive residue, namely in Celtic; this would give wrong results, because in the ‘Pokorny’ alone, we find p805 under “pelE” residues in 10 further languages, e.g. OHG7 folma ‘hand’. In principle, the SLR algorithm would also work with onomasiologicalordered lists in bivariate form, if reliable decisions were made between the original residues ‘yes’ or ‘no’. Simply counting majorities certainly would not do.
5
Results 1. In any case, the SLR is a good tool to define the root for otherwise unrooted tree graphs, as soon as the sum of retentions exceeds the underlying universe of the list. 2. As has been amply demonstrated, all attempts relying simply on agreements ‘a’ alone (or the complementary distances), must be phenetic by definition, as ‘a’ is only a measure of similarity. This does not exclude that in many cases of small individual replacements, these attempts come close to reality, i.e. similarity may and often does come close to genealogy, since children more or less resemble their parents. This way, such results can too easily deceive researchers. 3. In SLR, agreements ‘a’ below 10% result in growing spread/scatter and can lead to considerable difficulties for interpretations. This has consequences for the often discussed question as to how many items should be employed for quantitative analyses of languages: We need lists that contain retentions summing up to at least 120% for any pair, which additionally should yield at least 20 agreements for the farthest related pairs. This is by far more essential than the total of observations. Further, it seems possible8 to develop a far better estimator of variation than is to be found in the literature up to now. 7. Usual abbreviation for Old High-German/Althochdeutsch 8. The author is working on this problem
Language subgrouping 235
References Altmann, Gabriel; Hammerl, Rolf 1989 Diskrete Wahrscheinlichkeitsverteilungen I. Bochum: Brockmeyer. Buck, Carl D. 1949 A dictionary of selected synonyms in the principal Indo-European languages. Chicago: University of Chicago Press. Cysouw, Michael; Wichmann, Soren; Kamholz, David 2005 “A critique of the separation base method for genealogical subgrouping, with data from Mixe-Zoquean”. [http://email.eva.mpg.de/ ~wichmann/CWK_on_holm-text-Submit1.pdf] Holm, Hans J. 2000 “Genealogy of the Main Indo-European Branches Applying the Separation Base Method”. In: Journal of Quantitative Linguistics, 7(2); 73–92. 2003 “The proportionality trap, or: what is wrong with lexicostatistical subgrouping?” In: Indogermanische Forschungen, 108; 39–47. 2005 “Genealogische Verwandtschaft”. In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Raimund G. (Eds.), Handbook of Quantitative Linguistics. An International Handbook. Berlin / New York: de Gruyter, 633–645. Kendall, David G. 1950 “Discussion following Ross, A.S.C., Philological Probability Problems”. In: Journal of the Royal Statistical Society, B-12; 49. Kluge, Friedrich; Seebold, Elmar 2002 Etymologisches Wörterbuch der deutschen Sprache. 24th ed. Berlin: de Gruyter. Pokorny, Julius 1959 Indogermanisches etymologisches Wörterbuch. Bern: Franke. Seber, George A.F. 1982 The estimation of animal abundance and related parameters. 2d ed. London: Griffin. Thompson, Steven K. 1992 Sampling. New York: Wiley.
Contextual word prominence Ludˇek Hˇrebíˇcek
1
Semantic specification
Each text is a complex phenomenon in which many kinds of structures are combined. Its analysis requires some simplification or reduction of the sought image. In linguistics, text has often been understood as a sequence or collection of sentences. When, however, text is comprehended as a whole, as a kind of a language unit carrying an amount of information, the expression “text structure” cannot be understood other than as a kind of semantic structure. At the same time, text represents sequences of units at different language levels. One of them is the level of words. Words, originally having the form of lexical units, enter the text structures. The lexical unit is a quite indistinct form for a semantic entity. More actual meaning is obtained by words due to their mutual collocation with the other words of a text. With respect to syntactic, metric or some other way of text segmentation, their semantic specification has two contextual consequences: Words enter not only individual text segments but also the whole text. The process of semantic specification can be described as a consequence of Menzerath-Altmann’s law. For the characterization and derivation of the law see, e.g., Altmann (1980) and Altmann, Schwibbe et al. (1989). It is suitable to stress that the discovery and formulation of laws has been proposed by Gabriel Altmann as a research program for quantitative linguistics since 1960’s as a way to the real scientific knowledge of languages. This approach obtained its larger theoretical base in connection with the theory of synergetic systems, see at least Köhler (1986) and other works of this author. MenzerathAltmann’s law operates with the general concepts of language constructs and their constituents. The mutual relation of these concepts is defined as a certain inverse relationship of the respective variables. Its basic mathematical expression was derived by Altmann in the form of power law (1): y = Ax−b
(1)
where x is the size of a construct and y is the mean size of its constituents; A and b are coefficients. With increasing x, the mean size of y decreases,
238 Ludˇek Hˇrebíˇcek
forming thus a typical falling curve. This relationship obtained the parallel designation as the principle of compositeness. The law was corroborated for the language units at all levels from phones up to sentences. Subsequently, the law was also applied to the highest text level in which constructs are represented by certain semantic complexes based on lexical units and their constituents having the form of text segments, see especially Ziegler & Altmann (2002) and Wimmer et al. (2003). It has been confirmed that the higher the word frequency (observed as occurrences of word units in different segments) the lower the mean segment size. From the sensibility of the word units to the size of segments and their functional appearance forming a characteristic distribution, both defined by MenzerathAltmann’s law, the following conjecture can be deduced: Different word units occurring in a given text and in its segments mutually specify their meanings. The collocations of the word units make their meanings more specific. Let us add that the denotative meanings of words turn into the basis for the qualification of segments as constituents of the supra-segmental (for example, supra-sentence) semantic constructs. The words of each analyzed text are interpreted units. This, for example, means that synonyms are united under one word unit and referential means of an analyzed text (e.g., relative or demonstrative nouns and suffixes) are substituted by the respective denotative counterparts. 2
Contextual weight
In order to obtain a reliable picture of the semantic structure of a text that is based on Menzerath-Altmann’s law, we introduce a variable characterizing the contextual ability of each (denotatively interpreted) word unit. Let us assume that an arbitrary word unit i = {1, 2, . . . , n} of a text is characterized by frequency fi and contextual weight wi , where n represents the extent of the vocabulary of a text. Text length is defined as n
N = ∑ fi i=1
Consequently, each word unit i with frequency fi occurs in fi different text segments. A segment j comprises s j word units occurring in it. Variable Si is the sum of those s j , in which the i-th word unit occurs. Then wi = Si / fi
(2)
Contextual word prominence 239
Consequently, wi represents the average value of segment lengths in which a given word unit i occurs in a text. Formula (2) can be understood as an expression of contextual weight or contextual ability which word units obtain in a text. This statement is based on the following facts: – Any unit occurring in a segment of size s j shows its effect through the semantic specification of s j words; this argument is valid for each word unit occurring in segment j even for i. Quantity si reflects the narrower contexts of i. – The larger context of the whole text is reflected by Si and fi . Variable wi connects both contextual indications reflected by MenzerathAltmann’s law.
3
The Maxima of weights
Two variables characterize the structural features of the word units of a text: fi and wi . The question arises which are their empirical features observed in texts. From the results obtained from different texts, three texts are presented here: a Turkish text (T), an English text (E) and a Czech text (C).1 Each of these texts was analyzed and a word list thus obtained has a similar arrangement as the example taken from text (E), see Table 1. From this list it is evident that the vocabulary extent of the text (E) is n = 222. Individual word units are substituted by code numbers. These numbers, in general, can be chosen accidentally, but here they are arranged in accordance with a Zipfian sequence, i.e. according to the decreasing values of the frequencies. Inside each frequency value also wi ’s are arranged in a decreasing manner. The complicated mutual dependence of fi and wi is clearly observable from the graphic representation concerning the three texts in Figure 1. Inside each subset of equal frequencies, the values of wi decrease with a characteristic similarity. Note that the curves depicted by the values of fi describe the distribution of the semantic constructs contained in each of the three texts. 1. (T): Refik Halit Karay: Anadoluyu Gördüm. Türk Nesir Antolojisi. Istanbul: Varlik, 1969; 77–81. (E): Jane Austen: Pride and Prejudice. [Chapter I]. London: Penguin Books, 1938; 11– 13. (C): Lukáš Pecha: “Úvod.” In: L. Pecha, Starobabylonský stát. Praha: Orientální ústav ˇ 2003; 5–6. AV CR,
240 Ludˇek Hˇrebíˇcek Table 1: Word list Rank (i) 1 2 3 4 5 6 7
Word unit
fi
Si
wi
Bennet lady man Bingley girl have dear
50 36 14 12 11 8 8
226 178 82 65 60 44 36
4.52 4.94 5.86 5.42 5.45 5.50 4.50
Rank (i)
Word unit
fi
Si
wi
8 9 10 ... 220 221 222
visit must know ... nonsense only return
8 7 7 ... 1 1 1
30 40 35 ... 2 2 2
3.75 5.71 5.00 ... 2.00 2.00 2.00
Remarkable are the maximal values of wi ascribed to each frequency subset. Let us label them max wi ( fi ), or simply max wi . These maxima depict a characteristic increasing tendency forming a typical curve. Similar figures were obtained from the other analyzed texts. In advance it is obvious that fi and wi are uncorrelated; the following correlation coefficients were obtained from the observed data: −0.0696 for (E), −0.0506 for (T), and 0.0263 for (C). The question arises whether the values of wi are randomly distributed around their means inside the subsets corresponding to a given value of fi . The mean values < wi > are, in fact, identical with variable y of formula (1), i.e. of Menzerath-Altmann’s law. We tested the frequencies fi = 1 and fi = 4 of (E). After the application of the standard statistic approach it can be concluded that the values corresponding to fi = 1 are normally distributed around their mean y = 5.83 with standard deviation s = 2.49; analogical result was obtained for fi = 4. (The obtained little differences between < wi > and y are instigated by differences in the computation of averages from averages.)
4
Semantic attractor
While Menzerath-Altmann’s law operates with the means of segment lengths y, the arrangement of wi accentuates the maxima belonging to individual frequency values. The prominence of the maxima is evident from Figure 1, their points form a curve ascending with Zipfian ranks and, on the other hand, dropping down with increasing frequency. Let us supplement variables max wi and ‹wi › by min wi ( fi ), or simply min wi . Their observed values are presented in Table 2 corresponding to the interval of fi = [1; 8].
Contextual word prominence 241
Figure 1: The two types of curves characterizing the contextual features of the word units in texts (E), (C) and (T): steadily decreasing L-formed curves fi and curves wi with characteristic maxima for individual values of frequencies; the horizontal axis comprises the Zipfian sequence of the word units i.
242 Ludˇek Hˇrebíˇcek Table 2: The values of max wi , < wi > and min wi in the three texts (E) fi
max wi
‹wi ›
min wi
(T) fi
max wi
‹wi ›
min wi
(C) fi
max wi
‹wi ›
min wi
1 2 3 4 5 6 7 8
13.00 10.00 8.67 8.50 7.00 6.00 5.71 5.50
5.95 5.43 5.58 5.58 5.86 5.28 4.95 4.58
2.00 1.00 2.33 4.25 4.8 4.83 4.13 3.75
1 2 3 4 5 6 7 8
57.00 57.00 33.67 32.25 17.80 12.83 22.43 8.50
18.73 18.11 17.21 19.69 13.77 11.28 20.86 8.50
2.00 7.50 6.33 14.5 8.20 9.67 19.29 8.50
1 2 3 4 5 6 7 8
13.00 12.00 11.33 10.25 10.40 6.50 8.71 9.00
7.67 7.67 7.69 8.13 9.60 6.50 8.71 7.71
3.00 5.00 5.33 6.50 8.80 6.50 8.71 6.38
The graphic presentation of these three observed variables demonstrates that min wi has a quite weak dependence on fi . The whole space between max wi and min wi seems to be gradually drawn up by the maxima of wi , the means less than the maxima but more strongly than the minima. The task of formulating a sufficiently transparent conjecture explaining this interesting phenomenon goes beyond the scope of the present paper. This phenomenon, however, was observed in texts of different languages and it deserves a more detailed analysis. Perhaps the word units indicated by the values of max wi form a set of prominent lexical units of the respective text. They may appear important for content analysis of a text. With respect to the characteristic according to which “An attractor is a dynamical system’s set of stable conditions”, see Williams (1997: 150), it can be tentatively concluded that the curve max wi is a representation of the semantic text attractor.
References Altmann, Gabriel 1980 “Prolegomena to Menzerath’s law”. In: Glottometrika 2. Bochum: Brockmeyer, 1–10. Altmann, Gabriel; Schwibbe, Michael H. 1989 Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms. Williams, Garnett P. 1997 Chaos Theory Tamed. Washington, DC: Joseph Henry Press.
Contextual word prominence 243 Wimmer, Gejza; Altmann, Gabriel; Hˇrebíˇcek, Ludˇek; Ondrejoviˇc, Slavomír; Wimmerová, Soˇna 2003 Úvod do analýzy textov. Bratislava: Vydatel’stvo Slovenskej Akadémie vied. Ziegler, Arne; Altmann, Gabriel 2002 Denotative Textanalyse. Wien: Edition Praesens.
Das Menzerath-Gesetz in der Vulgata Marc Hug
1
Allgemeines
1.1
Das Menzerath-Altmann-Gesetz überhaupt
Das Menzerath-Gesetz, das oft auch – vor allem aufgrund seiner späten Wiederentdeckung und Verallgemeinerung – als Menzerath-Altmann-Gesetz1 bezeichnet wird, besagt, dass in einer sprachlichen Produktion die Einheiten einer bestimmten Ebene umso länger oder komplexer sind, als ihre Komponenten kürzer oder einfacher sind, oder vice-versa. Dieses Gesetz hat mit dem Zipfschen Gesetz (oder den Zipfschen Gesetzen) zwei gemeinsame Eigenschaften: 1. Sie wurden beide zuerst geahnt und unscharf beschrieben, bevor sie als “Gesetz” oder “Regel” genauer enunziert und ihre wirkliche Tragweite festgestellt wurde. Darum ist ihnen auch ein doppelter Name gegeben worden. Das “Zipfsche Gesetz”, wonach zwischen der Frequenz F eines Wortes in einem Text und seiner Rangordnung R inmitten der Frequenzen der Wörter dieses Textes eine Beziehung vom Typ R × F = k (Konstante) besteht, wurde zuerst vom französischen Stenographen Jean-Baptiste Estoup ungefähr angedeutet, aber erst Zipf gab ihm eine mathematische Formulierung. Wenn also manchmal von einer “loi d’Estoup-Zipf” gesprochen wird (dies kommt naturgemäß vor allem in französischen Publikationen vor), muss unter diesem doppelten Namen die allmähliche Eruierung einer Regelmäßigkeit verstanden werden,die übrigens später durch weitere Parameter ergänzt und auch weniger verständlich gemacht wurde. Menzerath war seinerseits näher daran, ein wirkliches “Gesetz” auszudrücken, aber er war weit entfernt davon, dessen Tragweite zu bestimmen. Dies wurde später von Gabriel Altmann unternommen, und z.T. von anderen (R. Köhler, P. Grzybek, L. Hˇrebíˇcek u.a.) weitergeführt. 1. Die Bezeichnung “Menzerath- oder Menzerath-Altmann-Regel” scheint mir im Grunde richtiger zu sein. Ich halte mich aber hier an die gebräuchlichste Bezeichnung.
246 Marc Hug
2. In beiden Fällen handelt es sich auch um Gesetzmäßigkeiten, die immer wieder angefochten werden können, auf die man aber dennoch immer wieder stoßen muss. Im Fall des Menzerath-Gesetzes wurde z.B. Folgendes bemerkt.
1.2
Was bei einer Reihe von Zeitungsartikeln beobachtet wurde
In einem Beitrag bei einem Trierer Kolloquium 2003 sprach Maria Roukk2 vom Vergleich zwischen russischen Texten, in denen eine dem Menzerathschen Gesetz entgegengesetzte Tendenz beobachtet wurde. Von mir selbst wurde daraufhin in einer anderen Untersuchung (Hug 2004) festgestellt, dass das Menzerath-Gesetz zwar innerhalb einzelner Zeitungsartikel aus der französischen Tageszeitung Le Monde bestätigt wird, dass aber auch eine entgegengesetzte Tendenz zutage tritt, wenn man die Daten aller dieser Artikel in ein Ganzes zusammenfügt: Dann sieht man, wie meistens die Artikel, in denen die im Durchschnitt längsten Wörter verwendet werden, auch diejenigen sind, die die größte Wörterzahl pro Satz aufweisen. Dies erklärt sich dadurch, dass in einem bestimmten Sprachgebrauch das Menzerath-Gesetz zum normalen Funktionieren der sprachlichen Einheiten gehört, dass aber die dabei zur Anwendung kommenden Parameter nicht bei allen Texten die gleichen sind, und es manche Texte mit kurzen Wörtern und kurzen Sätzen einerseits, andererseits auch Texte mit längeren Wörtern und längeren Sätzen geben kann, wobei diese “Stilsorten” vielleicht auf einer Skala der “Intellektualität” einzustufen sind.
2
Ein besonderer Fall
2.1
Allgemeine Problematik
Die Vulgata ist eine vom Hl. Hieronymus verfertigte lateinische Übersetzung der Bibel, wobei der verwendete Ausgangstext beim alten Testament ein hebräischer, beim Neuen Testament ein griechischer war. Hieronymus griff nämlich auf die hebräischen Originaltexte zurück; statt sich, wie vor ihm andere Übersetzer, zu begnügen, die griechische Septuaginta-Bibel zu 2. Roukk, Maria, “The Menzerath-Altmann Law in Russian Texts (Sentence Level)”, IV. Trierer Kolloquium zur Quantitativen Linguistik, 16.–18. Oktober 2003.
Das Menzerath-Gesetz in der Vulgata 247
verwenden. Nun können im Fall dieses Textes folgende Annahmen gemacht werden: Die verschiedenen Bücher der Bibel sind von sehr unterschiedlicher Herkunft, aus sehr verschiedenen Zeiten, von vielen verschiedenen Autoren. Allein beim Buch des Propheten Jesaja werden zwei oder drei verschiedene Autoren angenommen. So darf angenommen werden, dass diese verschiedenen Texte nicht alle die gleichen Textparameter besitzen, sodass dadurch das Menzerath-Gesetz verwischt wird und eventuell eine entgegengesetzte Tendenz zutage treten könnte. Auf der anderen Seite jedoch ist der ganze Text eine von einem einzigen Autoren geschriebene Übersetzung, und dadurch könnte wiederum der “Stil” der verschiedenen Bücher wenigstens teilweise vereinheitlicht worden sein. Dazu kommen noch andere Schwierigkeiten, die durch das Altertum der betroffenen Schriften bedingt werden: um die Sätze oder Satzteile zu begrenzen, bedient man sich in modernen Texten der Interpunktion, wenn man nicht darauf angewiesen sein will, manuell und intuitiv jede syntaktische Einheit abzugrenzen. Eine manuelle und intuitive Abgrenzung ist überhaupt für eine statistische Untersuchung nicht verwendbar, weil sie den Verdacht erlauben würde, speziell für die erwünschten Resultate zugeschnitten worden zu sein. Die Interpunktion fehlt aber in den alten Manuskripten, und sogar die Verteilung in Kapitel und Verse ist erst nach und nach eingeführt worden. Jedenfalls ist aber letztere älter, als die in modernen Ausgaben vorhandene Interpunktion. Deshalb wurde hier diese Einteilung in Verse benutzt.
2.2
Die Internet-Versionen der Vulgata
Auf dem Internet sind mehrere Versionen der Vulgata zugänglich, wobei der vorhandene Bestand an Textdateien sich ständig verändert. Heute (gemeint ist der 6. September 2005) finde ich sofort, wenn ich bei Google “Vulgata” suche: 1. Nova Vulgata, Bibliorum sacrorum editio, SACROSANTI OECUMENICI CONCILII VATICANI II RATIONE HABITA, IUSSU PAULI PP. VI RECOGNITA, AUCTORITATE IOANNIS PAULI PP. II PROMULGATA, EDITIO TYPICA ALTERA. http://www.vatican.va/archive/bible/nova_vulgata/documents/nova-vulgata_index_lt.html
248 Marc Hug
Diese Ausgabe kann sich also auf die Autorität der römisch-katholischen Hierarchie stützen; darum habe ich sie auch verwendet.3 2. Hieronymi Vulgata, Hyeronimiana versio, I IntraText Edition CT, http://www.intratext.com/X/LAT0001.htm Von irgend einem Text der Bibel aus ist hier die Konkordanz fast aller darin vorkommenden Wörter zugänglich (der Orthographiefehler im Titel ist auch hier nicht von mir). 3. “Die Bibel”, Programmierung und Entwicklung: Ulrich Hacke, http://www.die-bibel.de/frames.html 4. Die Bibeltexte der Universität Freiburg im Breisgau. http://www.ub.uni-freiburg.de/referate/04/bibelinh.htm Hier ist jedes Buch der Bibel im gesamten Text zugänglich, und nicht, wie meistens anderswo, nur die einzelnen Kapitel.
2.3
Die verwendeten Daten
Die zu beantwortende Frage ist folgende: sind in den Bibelversen, die am meisten Wörter enthalten, die Wörter im Durchschnitt kürzer als in denjenigen, die weniger Wörter enthalten? Diese Form der Fragestellung setzt voraus, dass der Bibelvers als die linguistische Einheit angesehen werden kann, die sich direkt in Wörter gliedert. Das kann bestritten werden, aber der Bibelvers ist nun einmal die kleinste linguistische Einheit, die in einer Jahrhunderte alten Tradition die Wörter der Vulgata zu größeren Einheiten zusammenfügt. Diese Frage wird so gestellt, dass in jeder untersuchten Texteinheit der Bibel folgende Totalisierungen benötigt werden: B Gesamtzahl der Buchstaben W Gesamtzahl der Wörter V Gesamtzahl der Verse Diese Zahlen erlaubten es, Mittelwerte auszurechnen: 3. Allerdings kann ich nicht mit Sicherheit behaupten, dass dies die beste Wahl war, denn die so heruntergeladeten Dateien waren z.T. fehlerhaft. Insbesondere musste ich an vielen Kapitelanfängen irrtümliche Leerzeichen inmitten von Wörtern entfernen, und auch einige andere Fehler verbessern. Schon gleich beim Titel findet man “SACROSANTI” statt “SACROSANCTI”. . . Ich kann selbstverständlich nicht garantieren, dass der daraufhin verwendete Text vollkommen fehlerlos ist. Die statistischen Resultate sollten aber dennoch gültig sein. Dazu kommt, dass auch Unterschiede zwischen den Texten der verschiedenen Websites beobachtet werden können. Auf eine textkritische Untersuchung konnte ich mich hier nicht einlassen.
Das Menzerath-Gesetz in der Vulgata 249
b = B/W Zahl der Buchstaben pro Wort (Länge der Wörter) w = W /V Zahl der Wörter pro Vers Diese beiden Mittelwerte wurden dann in jedem Kapitel jedes Buches ausgerechnet, und dann auch global für jedes Buch als ein Ganzes.4 In jedem Buch wurde der Pearsonsche Korrelationskoeffizient r ausgerechnet zwischen der Zahl der Buchstaben pro Wort (b) und der Zahl der Wörter pro Vers (w) in den verschiedenen Kapiteln. Nach dem Menzerath-Gesetz muss man erwarten, dass diese Korrelation negativ ist. Später wurde dann auch die gleiche Korrelation ausgerechnet zwischen den verschiedenen Büchern. Wenn die linguistischen Parameter der verschiedenen Bücher verschieden sind, jedes Buch aber als linguistisch homogen angesehen werden kann, ist denkbar, dass das Menzerath-Gesetz innerhalb der Bücher zur Anwendung kommt, zwischen den verschiedenen Büchern aber überhaupt keine Korrelation, oder gar eine entgegengesetzte Tendenz (positive Korrelation) beobachtet werden kann. Die Tabellen 1–3 zeigen die Resultate dieser Rechnungen.
2.4
Letzte Überprüfungen
2.4.1 Korrelationen innerhalb der Kapitel In den vorherigen Tests wurden aus jedem Kapitel Mittelwerte verwendet: 1. die mittlere Zahl w der Wörter pro Vers in einem Kapitel 2. die mittlere Zahl b der Buchstaben pro Wort in diesem Kapitel Es kann aber auch anders vorgegangen werden: um zu sehen, ob die Verse mit vielen Wörtern im Durchschnitt kürzere Wörter enthalten als die mit nur wenigen Wörtern, kann in jedem Vers das folgende Datenpaar beobachtet werden: – die mittlere Zahl b der Buchstaben pro Wort in diesem Vers – die absolute Zahl W der darin vorkommenden Wörter. Von da aus kann dann ein Korrelationskoeffizient am Ende jedes Kapitels errechnet werden. Dies wurde ausschließlich in den elf Büchern (oder 4. In Wirklichkeit wurden manche Bücher zu größeren Einheiten zusammengeschlossen, wenn sie, wie z.B. das Buch des Propheten Zephania oder die Epistel des Paulus an Philemon, nur aus einem einzigen Kapitel bestehen, oder nur zwei oder drei Kapitel haben.
250 Marc Hug Tabelle 1: Altes Testament, Geschichtliche Bücher Buch Genesis Exodus Leviticus Numeri Deuteronomium Josua Richter Ruth 1. Samuel 2. Samuel 1. Könige 2. Könige 1. Chronik 2. Chronik Esdras Nehemia Tobias Judith Esther 1. Makkabäer 2. Makkabäer Alle geschichtl. Bücher
Kapitelanzahl
r
z
p
50 40 27 36 34 24 21 4 31 24 22 25 29 36 10 13 14 16 10 16 15
−0.124 −0.513 −0.081 −0.197 0.097 0.194 −0.496 −0.549 −0.151 −0.363 −0.529 −0.235 0.015 0.032 −0.106 −0.780 −0.524 −0.156 0.261 −0.467 0.164
−0.85211 −3.45074 −0.39591 −1.14565 0.54238 0.90104 −2.31005
>0.10 0.10 >0.10 >0.10 >0.10 0.10 >0.10 0.10 >0.10 >0.10 0.10 0.10
21 Bücher
−0.403
−0.80659 −1.74219 −2.56805 −1.12087 0.07412 0.18111
−0.56766 −1.82334 −1.81284
0.10 0.10 0.10 >0.10 >0.10 >0.10 >0.10 >0.10 >0.10 0.10 >0.10 0.10 >0.10 0.10 >0.10 0.10
21 Bücher
−0.442
−2.01427
0, or b < 1/4, which makes perfect sense: if the bias (gap) is too great between the agents, there is no possibility for communication at all. Only if they have some common interests can they profitably interact, though without perfect coordination (unless b = 0, when it is possible to convey all the information via m = s and then a = m = s, and everyone is happy). Before leaving the original paper of Crawford & Sobel (1982), we make one final observation: for any finite number of messages to be sent (achieving thereby a finer and finer partition of the truth, and thus more and more information reliably conveyed), there is an equilibrium provided only that b is small enough. For example, if we wish to use four messages, then there will be three cutoffs 0 < s < s∗ < s < 1 utilized by S and four possible actions taken by R. We may find these values by setting s such that S is indifferent between the two lowest actions, and so on, and then solving the resultant system of three equations in three unknowns. The calculations are left to the curious reader, but two conclusions are noteworthy: first, that s∗ = 1/2 − 2b exactly as before (so that the four-message construction is a subdivision of the two-message construction above); and second, that s > 0 if and only if b < 1/12 (so that the bias must be consequently reduced for this increased level of cooperation). As stated earlier, we now wish in this note to pursue an inquiry into the possibility of multi-part messages; it will simplify our lives (and serve our purposes in terms of conclusions drawn) to focus only on two-part messages. We maintain our basic assumptions that only one action is taken, after the entire message is received, and that there is still a single bias b ≥ 0. These are pertinent for the majority of situations (e.g. actions are rarely taken in the midst of, say, reading a sentence), but one can easily imagine extending the theory in other directions as desired. Given this, the thoughtful reader may wonder how order could possibly matter: if nothing is done until the full message is internalized, the same information ought to be conveyed either way.
Toward a theory of syntax and persuasive communication 263
To continue our example, how is highest opinion (as one would say in English or German) any different from opinion highest (the order that would be used in French or Spanish)? We add an additional assumption at this point, based more on psychology and behavioral economics. Specifically, it is posited that the receiver (listening or reading) begins to internalize information as soon as it is received. This in no way means that an action is taken; it speaks only to the interpretation assigned to a given sequence of words. If there are two possible nouns (opinion and flower) and two possible adjectives (highest and spreading) to modify them, then there are four possible combinations: highest opinion; highest flower; spreading opinion; and spreading flower. The adjectives take on different flavors depending on the nouns they modify, but listening to the adjective first might lead one to start jumping to conclusions prematurely about the direction the phrase is heading. How shall we formalize this idea within our basic framework? We assume that the noun is the more vital piece of information and that the adjective (as usual) tells one ‘what type’ of noun is being referred to. Therefore, within the interval [0, 1], partitioned into four subsections by cutoffs s < s∗ < s , the noun may be interpreted as the gross level (Large or Small), and the adjective as larger or smaller within subintervals. Mathematically, the noun conveys either [0, s∗ ] (e.g. opinion) or [s∗ , 1] (e.g. flower), while the adjective conveys either [0, s ] ∪ [s∗ , s ] (e.g. highest) or [s , s∗ ] ∪ [s , 1] (e.g. spreading). In this way the adjective tells you where you are within the noun, so to speak. We are now well equipped to analyze the two possible word orders in turn. We begin with the more natural order, which starts with the largest intervals (e.g. the nouns, or most basic information) and continues by providing more details (e.g. the adjectives); this is the syntax of the Romance (or New Latin) languages. In this case it is easy to prove that the equilibrium simply replicates the four-message version of the construction above (which is also the same, it transpires, as the version in which a new action is taken after each portion of the message is sent – namely twice in our example). For instance, if b = 1/20 (recall that it must be less than 1/12 for this to work at all), we find that s = 1/10, s∗ = 2/5 ( = 1/2 − 2b as claimed), and s = 3/5. Note, however, that because of the asymmetry introduced in the size of the two subintervals by the bias b (causing s∗ < 1/2), the two ‘adjectival’ cutoff points s and s fall at different relative positions within their respective subintervals. Specifically, s = 1/10 is one-fourth of the way to s∗ = 2/5, and s = 3/5 is one-third of the way from s∗ to 1. So the natural version of a two-stage message (think noun followed by adjective) involves first deter-
264 Julian Jamison
mining the high-level subinterval and then, conditional on that, determining where the truth falls within that small domain. Importantly, the relative position specified by the same secondary message (e.g. highest or spreading) may yet differ depending on which primary message (e.g. opinion or flower) was received. It is precisely this that will not be possible when the order of words is reversed. We turn to the Germanic syntax of adjective followed by noun. Clearly, in the context of this paper, we will somehow have to constrain the choice of action by R upon hearing the adjective (first half of the message m). The natural way to do so, given the structure utilized above, is to force R to pick proportions α1 and α2 prior to learning what subinterval he is dealing with. That is, he must choose where he will act within either [0, s∗ ] or [s∗ , 1] immediately after receiving the first portion of the message – before knowing which of the coarser eventualities in fact obtains. Recall that in the previous version he learns the subinterval and then the sub-subinterval and then chooses an action. To put it differently, he may vary how his final action will depend on the ‘adjective’ after learning what the ‘noun’ is, and in general he will wish to do so. This is what it meant for s and s (and hence R’s resultant actions, which are always the the midpoint of the updated range of possible signals s) to be located at different proportions of the corresponding subintervals. In the current version, his choice of action will certainly continue to depend on both portions of the message, but the way it does so must be the same in both cases. More colloquially, the receiver [as a behavioral assumption] will ‘jump to conclusions’ after hearing the beginning of the message only, and will not be able to fine-tune his perception to the same extent afterward. Naturally, the sender will take this into account when choosing what message to send. To formalize slightly, using cutoffs (for S) s , s∗ , s , we have that S first reports either [0, s ] ∪ [s∗ , s ] or [s , s∗ ] ∪ [s , 1]; R then uses this information to choose a proportion α1 (in the former case) or α2 > α1 (in the latter case); S then reports either [0, s∗ ] or [s∗ , 1]; and finally R takes an action. For instance, if the final message is [s∗ , s ] (i.e. highest and then flower), R would choose an action a = s∗ + α1 (1 − s∗ ). Given that R would like to choose the respective midpoints, he will in fact choose α1 so as to minimize his ultimate distance (in action space) from those values; viz. |α1 s∗ − s /2| = |[s∗ + α1 (1 − s∗ )] − [s∗ + (s − s∗ )/2]|. Predicting (from our example in the first version) that α1 will be slightly too large on [0, s ] and slightly too small on [s∗ , s ], this simplifies to α1 s∗ − s /2 = (s − s∗ )/2 − α1 (1 − s∗ ) and thus
Toward a theory of syntax and persuasive communication 265
α1 = (s + s − s∗ )/2. Similarly for α2 , we get α2 s∗ − (s∗ + s )/2 = (s − s∗ )+ (1 − s )/2 − α2 (1 − s∗ ), implying α2 = (1 + s + s − s∗ )/2 = α1 + 1/2. We can now work backward and figure out what cutoffs will be used by S, foreseeing the above actions by R. In particular, if he sees a signal of s = s , he should be indifferent between sending either of the first two messages (after which he will certainly report [0, s∗ ]). Hence it must be that s + b − α1 s∗ = α2 s∗ − (s + b) and so 2s + 2b = (α1 + α2 )s∗ = s∗ /2 + (s + s − s∗ )s∗ (where the latter equation uses the identities for α1 and α2 as derived above). Similarly for the indifference at s , 2s + 2b = 2s∗ + (α1 + α2 )(1 − s∗ ) = (3s∗ + 1)/2 + (s + s − s∗ )(1 − s∗ ). Meanwhile, upon observing s = s∗ , S should be indifferent between sending [0, s ] ∪ [s∗ , s ] followed by [s∗ , 1], or vice versa. That is, s∗ + b − α2 s∗ = s∗ + α1 (1 − s∗ ) − (s∗ + b) and therefore 2s∗ + 4b = s + s . Solving these three equations in three unknowns yields (with calculations skipped for brevity) s = s∗ = s =
1 − 6b + 16b2 ; 4 1 − 8b; 2 3 − 6b − 16b2 . 4
Plugging back into our formulas: α1 = 1/4 − 2b and α2 = 3/4 − 2b. The maximum value of b for which these are valid and thus an equilibrium √ exists is determined by the requirement that s > 0. This gives b < (3 − 5)/16 ≈ 0.0477. Recalling that 1/12 was the cutoff (maximum) value for b in the original (French syntax) model, we can already conclude that – perhaps unexpectedly – the French system allows for the possibility of communication with a greater divergence in views than does the English syntax. In order to fix some numbers and compare efficiencies and welfare effects for the various agents, suppose that b = 1/48. Then in the original model, we find sFr = 3/16; s∗Fr = 11/24; and sFr = 11/16. In the revised model, on the other hand, sEng = 19/144; s∗Eng = 1/3; and sEng = 79/144, all of which are strictly greater than their French counterparts. For completeness, in the [Nash] equilibrium of the revised model we also have α1 = 5/24 and α2 = 17/24. Looking more closely at the cutoffs, it is clear that there is more variance in the sizes of the four subintervals in the revised model than there is for the original model (although both, of course, sum to the same total of 1). This means that, on average, the losses for the receiver R are larger in the
266 Julian Jamison
revised model (due to the concavity of the utility function). In fact, it is even more extreme than this: because of the α’s, R does not even quite achieve the midpoint of these subintervals in the revised model (whereas he does in the original), worsening his expected outcome further. We may thus unequivocally state that there is more confusion on the part of the listener in English (and similar tongues) than on the part of the listener in French (and similar tongues). The fault for this lies in the inability to avoid partial processing of less essential information (namely, modifiers) before one can grasp their context (the modificant). It does not, however, necessarily follow that the speaker S achieves more fully his objective of persuasion in the Germanic languages (i.e. revised model). In fact, the same tendency for more variance in the precision of the information (that is, width of the subintervals) is detrimental to S; everything is simply shifted by b for him. Note further that an increase in b (divergence of views) will exacerbate all of these effects and diminish the utility for both participants in the exchange. In sum, word order (and more specifically, whether a modifier should precede its subject) can limit the flow of information when one side is attempting to persuade or even deceive the other. Naturally, one cannot expect to take a formal model such as this one entirely literally. For one thing, there are far more than four total possibilites for messages, although that could easily be captured by a more elaborate framework (without greatly impacting the qualitative features of the results). More interestingly, one can imagine incorporating more than one dimension in the signal/action space, with potentially differing levels of bias b across the dimensions. For instance, what do we make of the German structuring that puts past participles at the ends of clauses? Does this confuse the issue in a similar way, or does it serve the purpose of the speaker to delay what appears to be vital knowledge? To return to the general discussion of mathematical linguistic systems with which we began, we find that a formal (indeed, game-theoretic) analysis can shed some light on imbedded syntactical constructions. Without demanding a fully injective relationship between the formal model and the natural language analogue, we can yet use the model to aid in explaining the implications of extant differentiation in word orders. It seems in the end that the Romance languages allow more scope for information transmission and less confusion, even when one party is attempting to mislead another. It is thus appropriate to conclude with another quotation: Le génie de notre langue est la clarté. Voltaire
Toward a theory of syntax and persuasive communication 267
References Altmann, Gabriel; Koch, Walter A. (Eds.) 1998 Systems. New paradigms for the human sciences. Berlin: de Gruyter. Crawford, Vincent; Sobel, Joel 1982 “Strategic information transmission”. In: Econometrica, 50(6); 1431– 1451. Hörner, Johannes; Jamison, Julian 2006 “What’s in the dictionary (or is it?)”. In: Journal of Quantitative Linguistics. [Forthcoming]. Rubinstein, Ariel 1996 “Why are certain properties of binary relations relatively more common in natural language?” In: Econometrica, 64(2); 343–355.
Grapheme und Laute des Russischen: Zwei Ebenen – ein Häufigkeitsmodell? Re-Analyse einer Untersuchung von A.M. Peškovskij1 Emmerich Kelih
1
Einleitung
Die vorliegende Untersuchung ist ein Beitrag zur statistischen Modellierung russischer Graphem- und Lauthäufigkeiten. Als Untersuchungsbasis werden Daten zur Lautfrequenz im Russischen von Peškovskij (1925) herangezogen und zu den entsprechenden Graphemhäufigkeiten in Bezug gesetzt. Damit sollen diese in dieser Form bislang nicht analysierten Daten in die aktuelle Erforschung von theoretischen Rangverteilungen für Graphem- und Lauthäufigkeiten integriert werden. Vor der eigentlichen Untersuchung ist jedoch ein kurzer Überblick über aktuelle Arbeiten zur statistischen Modellierung slawischer Graphemhäufigkeiten geboten. In einer methodologisch und wissenschaftsgeschichtlich ausgerichteten Studie zu russischen Graphemhäufigkeiten konnte gezeigt werden, dass technische, informationstheoretische u.ä. Aspekte im Zentrum des Interesses standen und nur zum Teil linguistische und systemtheoretische Fragestellungen behandelt wurden (vgl. Grzybek & Kelih 2003a). Eine eingehende Diskussion der Problematik der Modellierung von Graphemhäufigkeiten in Grzybek, Kelih & Altmann (2004) führte sodann zu einer Verallgemeinerung von Rangverteilungen im Sinne des synergetischen Ansatzes von Wimmer & Altmann (2005, 2006). In Anbetracht einer zuvor nicht systematisch durchgeführten Modellierung russischer Graphemhäufigkeiten wurden sodann folgende Modelle einer empirischen Untersuchung unterzogen:2 a. Zipf (zeta)-Verteilung b. Zipf-Mandelbrot-Verteilung c. geometrische Verteilung d. Good-Verteilung e. neg. hypergeometrische Verteilung f. Whitworth-Verteilung 1. Diese Studie entstand im Rahmen des DOC-Programms der Österreichischen Akademie der Wissenschaften (ÖAW). 2. In weiteren noch nicht publizierten Untersuchungen wurden der Systematik halber dann auch noch die Waring- und Estoup-Verteilung in Betracht gezogen.
270 Emmerich Kelih
Die Adäquatheit dieser Modelle wurde in Grzybek, Kelih & Altmann (2004) für das Russische in 38 Texten unterschiedlicher Länge überprüft; um den Faktor ‘Texthomogenität’ angemessen zu berücksichtigen, wurden Texte aus unterschiedlichen Funktionalstilen, Textausschnitte, Textkumulierungen und ein (sich aus diesen Texten zusammensetzendes) Gesamtkorpus als Datenbasis gewählt. Dabei wird von einem Inventarumfang von 32 russischen Graphemen3 ausgegangen. Im Ergebnis zeigte sich u.a., dass in der quantitativen Linguistik “bekannte” Rangverteilungen – wie etwa die ZetaVerteilung, die Zipf-Mandelbrot-Verteilung, die geometrische Verteilung und die Good-Verteilung – die russischen Graphemhäufigkeiten nicht zufriedenstellend modellieren. Als zwei geeignete Modelle erwiesen sich hingegen die negative hypergeometrische Verteilung (NHG) und die Whitworth-Verteilung (ein Spezialfall der partial summierten negativen hypergeometrischen Verteilung – vgl. dazu Grzybek, Kelih & Altmann (2004: 37). Im Anschluss an diese Befunde wurden weitere slawische Sprachen untersucht, und zwar jeweils 30 unterschiedlich lange Texte aus je sechs Textsorten. In Grzybek, Kelih & Altmann (2005a,b) stellte sich für slowakische Graphemhäufigkeiten als einziges Modell die NHG als geeignet heraus; dieser Befund ist vor allem deshalb bemerkenswert, da dieses Modell sowohl bei Annahme eines Inventarsystems von 43 als auch von 46 Graphemen (wobei die Graphemkombinationen ‘dz’, ‘dž’ und ‘ch’ als selbstständige Grapheme gezählt werden) Gültigkeit hat. In weiteren Untersuchungen zum Ukrainischen und Slowenischen (vgl. Grzybek & Kelih 2003b, 2005a) stellte sich ebenfalls die NHG als einzig valides Modell heraus. Damit können bislang die Graphemhäufigkeiten in vier slawischen Sprachen durch ein gemeinsames Modell erfasst werden.4 Gegenwärtig wird – neben der Ausweitung auf weitere slawische Sprachen – vor allem die Frage diskutiert, inwiefern die Parameter der NHG einer Interpretation zugeführt werden können: In einer explorativen Studie (vgl. Grzybek & Kelih 2006) konnte für die Parameter K und M für den Parameter K eine direkte Abhängigkeit vom Inventarumfang N festgestellt werden, und für den Parameter K eine indirekte Abhängigkeit (gegeben durch eine direkte Abhängigkeit des Parameters K von M). 3. Dieses Grapheminventar ergibt sich, wenn das Graphem ‘ё’ – wie in der derzeitigen Praxis nicht unüblich – nicht als eigenständige Einheit aufgefasst, sondern als ‘e’ notiert wird. Zu systematischen Untersuchungen dieser Frage s. Grzybek & Kelih (2005c). 4. Für die slawischen Sprachen ist mit dem Slowenischen (N = 25) und Slowakischen (N = 43 bzw. N = 46) minimales und maximales Grapheminventar abgedeckt.
Grapheme und Laute des Russischen 271
In der vorliegenden Untersuchung werden weitere russische Daten untersucht. Über die oben angesprochenen Fragen hinausgehend sollen dabei allerdings neben den Graphem- auch die Lauthäufigkeiten aus ein und denselben Text-Stichproben analysiert werden. Eine Leitfrage ist es dabei, ob und inwiefern sich im Russischen bei der Modellierung von Lauthäufigkeiten Konvergenzen und Divergenzen im Vergleich zu den Graphemen ergeben. Anlass zu der Vermutung von modelltheoretischen Konvergenzen gibt eine ReAnalyse von Graphem- und Phonem-Daten aus Altmann & Lehfeldt (1980), die Grzybek & Kelih (2005b) durchgeführt haben. Dort konnte gezeigt werden, dass die für 63 Sprachen berechneten Entropien und Wiederholungsraten von Graphem- und Phonemhäufigkeiten in Abhängigkeit vom Inventarumfang stehen. Dieser Zusammenhang kann mit einer nichtlinearen Funktion beschrieben werden, wobei die Regressionskoeffizienten für Graphem- und Phonemhäufigkeiten keine statistisch signifikanten Unterschiede aufwiesen.
2
Re-Analyse der Daten von A.M. Peškovskij
Ausgangspunkt der vorliegenden Studie bildet die Arbeit des russischen Linguisten A.M. Peškovskij (1878–1933) mit dem Titel “Десять тысяч звуков” [= Zehntausend Laute] (Peškovskij 1925). Hintergrund dieser Studie ist die Fragestellung, inwiefern auf der Lautebene ein linguistisch nachweisbarer Unterschied zwischen Vers- und Prosatexten5 festzustellen ist. Möglicherweise vorhandene Unterschiede versuchte Peškovskij auf eine “objektive Basis” zu stellen, wobei er zu diesem Zwecke die Häufigkeit von Lauten in der russischen mündlichen Umgangssprache bestimmte. Für die Auswertung wurden phonetisch transkribierte Phrasen von “öffentlichen Gesprächen” (Unterhaltungen in Bahnhöfen, Zügen u.ä.) und einzelne Übungsbeispiele aus einem Lehrbuch zur russischen Syntax herangezogen. Dabei ging er von einem Inventar von 28 Lauten aus, dessen geringer Umfang sich wohl durch das von Peškovskij verfolgte Prinzip der absichtlichen Annäherung bzw. Einfachheit der phonetischen Transkription erklären lässt. Der Stichprobenumfang dieser Phrasen beträgt insgesamt 10 000 Laute, wobei Peškovskij diese Gesamtstichprobe für die weitere Untersuchung in Teilstichproben von je 1000 Lau5. A.M. Peškovskij selbst war ein Vertreter der Moskauer Fortunatov-Schule und stand später in einem Nahverhältnis zum Russischen Formalismus. Im Zusammenhang mit der Vers-Prosa-Diskussion der zwanziger Jahre (vgl. Peškovskij 1924) verweist dieser auf die Notwendigkeit einer phonetischen und syntaktischen Untersuchung dieses Problems.
272 Emmerich Kelih
ten untergegliederte, die somit im Grunde genommen als Zufallsstichproben aufgefasst werden können. Die Häufigkeiten der Laute wurden von Peškovskij dahingehend interpretiert, dass sich bei Gruppierung der Laute nach Vokalen und Konsonanten ein relativ stabiler Anteil ergibt. In diesem Befund sah er nicht nur den Nachweis der Gültigkeit des Gesetzes der Großen Zahlen, sondern auch die Bestätigung für einen zufriedenstellenden Stichprobenumfang. Abgesehen von einer detaillierten linguistischen Kommentierung der Ergebnisse – höhere Frequenz von Vokalen im Vergleich zu Konsonanten, Unterschiede bei betonten und betonten Vokalen u.ä. – verwies Peškovskij (1925: 177) in einer Randbemerkung darauf, dass die ihrer Häufigkeit nach geordneten Vorkommnisse eine konstant abfallende Reihe darstellten, in der jede Häufigkeit von der jeweils vorangehenden nur geringfügig unterscheidet. Damit erkannte Peškovskij – der allerdings diese Frage nicht weiter verfolgte – die Bedeutung von Rangverteilungen für linguistische Untersuchungen. An dieser Stelle setzt die vorliegende “Re-Analyse” der Studie von Peškovskij ein: Zum einen sind die Daten zur Lauthäufigkeit (prozentueller Anteil) für die zehn Teilstichproben angeführt, zum anderen finden sich die jeweiligen Texte in der für das Russische üblichen Orthographie. Damit lassen sich für diese Texte nachträglich auch die Graphemhäufigkeiten bestimmen. Die von Peškovskij selbst erhobenen Lauthäufigkeiten und die von uns nachträglich berechneten Graphem-Häufigkeiten sind Ausgangspunkt für die Diskussion folgender Fragen: 1. Eignen sich die Gesamtstichprobe und Teilstichproben gleichermaßen für die statistische Modellierung? 2. Gelten für Zufallsstichproben die gleichen Gesetzmäßigkeiten (Rangverteilungs-Modelle) wie für abgeschlossene Texte und Textmischungen größeren Umfangs? (a) Gelten für Laute die gleichen Häufigkeitsregularitäten wie für Grapheme? (b) Welche Bedeutung hat der Inventarumfang von 32 Graphemen vs. 28 Lauten?
2.1
Empirische Überprüfung von Graphemhäufigkeiten
In einem ersten Schritt sollen die Graphemhäufigkeiten untersucht werden, für die bereits konkrete Modelle in Betracht gezogen werden können: Aus-
Grapheme und Laute des Russischen 273
gehend von einem Inventar von 32 Buchstaben, wird in den bei Peškovskij (1925: 185ff.) abgedruckten 10 “Texten” die Graphemhäufigkeiten bestimmt. Des weiteren wird ein Gesamtkorpus aus allen 10 “Texten” gebildet (vgl. in den Tabellen 1– 4 jeweils die Stichprobe #11), dessen Umfang 10 005 Grapheme beträgt (für die einzelnen Stichproben liegt er zwischen 943 und 1 020; vgl. Tabelle 3, S. 279). Nach einer Transformation der Rohdaten in eine Ranghäufigkeit werden die in der Einleitung angeführten Verteilungsmodelle darauf hin überprüft, ob sie für die hier untersuchten Graphemhäufigkeiten in Frage kommen. Als Grad der Güte der Übereinstimmung von empirischen mit den theoretischen Werten wird der Diskrepanz-Koeffizient C = χ2 /N verwendet, wie dies bei größeren Stichproben6 üblich ist. Werte von C ≤ 0.02 werden als gute Übereinstimmung zwischen Modell und empirischer Verteilung interpretiert. Erstes Ergebnis ist, dass sowohl die Zeta-Verteilung als auch die GoodVerteilung für die hier untersuchten Daten gänzlich ungeeignet ist. In keiner einzigen Stichprobe kann ein C ≤ 0.02 festgestellt werden.7 Demgegenüber ergibt sich für die Zipf-Mandelbrot-Verteilung – die ja über 3 Parameter verfügt – zumindest partiell eine annähernd akzeptable Anpassung: die Ergebnisse bewegen sich im Intervall von 0.0776 ≥ C ≥ 0.02420, wobei in genau fünf Stichproben der C-Wert knapp etwas über C = 0.02 liegt. Ein ähnliches Ergebnis stellt sich für die geometrische Verteilung ein: bei einer Stichprobe (# 7) ist C ≤ 0.02, für alle anderen Stichproben liegt C knapp an der Signifikanzschwelle. Insgesamt ergibt sich damit für diese Verteilungen kein überzeugendes Resultat. Im Vergleich dazu zeigen die letzten beiden überprüften Modelle ein recht eindeutiges Ergebnis: für die NHG bewegt sich C im Intervall von 0.0258 ≥ C ≥ 0.0078; hier ergibt sich für acht Stichproben ein C ≤ 0.02, in den restlichen 3 Fällen liegt C knapp oberhalb dieser Grenze (vgl. Tabelle 2). Ebenfalls geeignet ist die Whitworth-Verteilung, die in neun Stichproben (vgl. Tabelle 1) passend ist (C ≤ 0.02) und bei zwei Stichproben ebenfalls knapp an der Signifikanzschwelle ist. Damit sind beide Modelle als gleichermaßen gut für die Modellierung der untersuchten Stichproben anzusehen, wobei – wie bereits erwähnt – die Whitworth-Verteilung einen Spezi6. Die Frage ab welchem Stichprobenumfang die Überschreitungswahrscheinlichkeit P des errechneten χ2 -Wertes bzw. der C-Wert zu verwenden wäre, ist nicht geklärt. Im vorliegenden Fall erweist sich die Interpretation der C-Werte als sinnvoll, da eine direkte Vergleichbarkeit mit den Ergebnissen bisheriger Untersuchungen gewährleistet ist. 7. In Fällen, wo keinerlei zufriedenstellende Anpassungen festgestellt werden können, wird auf eine Präsentation der Parameter und der C-Werte aus Platzgründen verzichtet.
274 Emmerich Kelih
alfall der partial summierten NHG darstellt; diese erwies sich bislang nur für das Russische bei einem Inventarumfang von 32 Graphemen als geeignet. Tabelle 1: Parameter und Anpassungsergebnisse für 10 Stichproben und Gesamtkorpus (Grapheme) Neg. Hypergeometrisch, n = 31 #
K
M
χ227
1 2 3 4 5 6 7 8 9 10 11
3.1364 3.0647 3.0252 3.2059 3.1666 3.1884 3.0058 3.1545 3.1555 3.0053 3.1060
0.8188 0.7810 0.7667 0.7981 0.7657 0.8248 0.7729 0.8028 0.7862 0.7592 0.7917
12.17 13.52 9.57 11.65 25.88 9.89 8.75 14.57 20.90 24.22 78.33
Withworth, R = 32 C
χ230
C
0.0122 0.0134 0.0095 0.0117 0.0258 0.0098 0.0093 0.0143 0.0206 0.0241 0.0078
16.97 12.95 8.97 15.05 22.46 15.98 9.82 15.30 19.43 22.66 78.01
0.0170 0.0129 0.0089 0.0151 0.0224 0.0158 0.0104 0.015 0.0192 0.0225 0.0078
Resümierend fügen sich die Ergebnisse zur NHG und zur Whitworth-Verteilung in das Bild bisheriger Untersuchungen russischer Graphemhäufigkeiten ein (vgl. Grzybek, Kelih & Altmann 2004). Die teilweise Relevanz der Zipf-Mandelbrot- und der geometrischen Verteilung bzw. die Tatsache, dass in einzelnen Stichproben C ≈ 0.02, sollte nicht überinterpretiert werden. Insgesamt erweist sich die NHG als geeignet für die Modellierung der Graphemhäufigkeiten der Zufallsstichproben. Dabei ist in Erinnerung zu rufen, dass bereits Daten von über 120 Texten in vier slawischen Sprachen publiziert wurden, uas denen die Gültigkeit dieses Modells hervorging. 2.2
Empirische Überprüfung von Lauthäufigkeiten
Nach diesem ersten Ergebnis sind als nächstes analog zum obigen Vorgehen die Lauthäufigkeiten zu untersuchen. Zu diesem Zweck werden die in Peškovskij (1925) in Prozentzahlen angegeben Lauthäufigkeiten in absolute Häufigkeiten transformiert (vgl. Tabelle 4, S. 280).8 8. Aufgrund der ungenaueren Prozentangaben ergibt sich bei der Transformation für Stichprobe #6 ein Umfang von 999 Lauten; entsprechend ist die Länge des Gesamtkorpus (Stichprobe #11) auf 9 999 Laute zu korrigieren.
Grapheme und Laute des Russischen 275
Das Ergebnis zur Modellierung der Lauthäufigkeiten stellt sich folgendermaßen dar: die gestutzte Zeta-Verteilung, die Zipf-Mandelbrot-Verteilung, die geometrische und die Good-Verteilung sind für die hier untersuchten Lauthäufigkeiten kein geeignetes Modell. In keinem einzigem Fall ist C ≤ 0.02. Demgegenüber erweist sich jedoch für die NHG ein recht eindeutiges Ergebnis: In 11 Stichproben ergibt sich C ≤ 0.02 (vgl. Tabelle 2), wobei dieses für fünf Stichproben sogar unter 0.01 liegt. Die Whitworth-Verteilung – die ja bei der Untersuchung der Graphemhäufigkeiten durchaus gepasst hatte – ist für die Modellierung von Lauthäufigkeiten gänzlich auszuschließen, da in keinem Fall die Signifikanzschwelle unterschritten wird. Tabelle 2: Parameter und Anpassungsergebnisse der NHG (n = 29) an 10 Stichproben und Gesamtkorpus (Laute) #
K
M
χ225
C
1 2 3 4 5 6 7 8 9 10 11
2.4019 2.4821 2.5983 2.6377 2.4610 2.6633 2.5517 2.3959 2.5441 2.6605 2.4375
0.7735 0.7434 0.8037 0.7670 0.7430 0.8073 0.7572 0.7416 0.7646 0.8209 0.7551
9.78 10.19 13.35 16.11 9.20 5.37 8.22 7.49 9.39 12.70 99.65
0.0098 0.0102 0.0134 0.0161 0.0092 0.0054 0.0082 0.0075 0.0094 0.0127 0.0100
Hinsichtlich der Modellierung der hier untersuchten Lauthäufigkeiten ergibt sich nunmehr ein recht eindeutiges Ergebnis. Während bei der Anpassung der Graphemhäufigkeiten neben der NHG teilweise auch andere Modelle ins Spiel kamen, kommt für die Lauthäufigkeiten nur ein einziges Modell in Frage: Es ist dies die NHG. Damit lassen sich die Ergebnisse der Anpassungen sowohl der Graphem- als auch Lauthäufigkeiten zusammenzuführen. Eine vergleichende Darstellung der jeweiligen C-Werte zeigt, dass – mit Ausnahme von drei Stichproben bei der Modellierung der Graphemhäufigkeiten, die knapp an der Signifikanzschwelle liegen – die NHG für beide Sprachebenen durchgehend als passend anzusehen ist (vgl. Abbildung 1). Damit ist für die Stichproben aus Peškovskij (1925) eine Konvergenz von Graphem- und Lauthäufigkeit hinsichtlich ihrer stochastischen Struktur festzustellen.
276 Emmerich Kelih 0,05
, Grapheme - Laute
C-Wert
0,04 0,03
,
,
0,01 0,00
,
,
0,02
1
, -
,
2
3
,
,
4
-
, -
, -
-
5
6
7
8
-
-
9
,
10
11
Stichprobennr.
Abbildung 1: Diskrepanzkoeffizient C (NHG) für Graphem- und Lauthäufigkeiten
2.3
Perspektive: Parameter der negativen hypergeometrischen Verteilung
Wie einleitend festgestellt wurde, gibt es erste Hinweise auf eine Interpretation der Parameter K und M der NHG. Für diese wurde in Grzybek & Kelih (2006) eine Abhängigkeit vom jeweiligen Inventarumfang herausgearbeitet. Nunmehr kann für die hier untersuchten Graphem- und Lauthäufigkeiten für K und M folgende Tendenz angedeutet werden: während M sowohl für die Graphemhäufigkeiten (x¯ = 0.76) als auch für die Lauthäufigkeiten (x¯ = 0.77) praktisch gleich ist, zeigt sich für K ein deutlicher Unterschied mit K¯ = 3.1104 für die Graphem- und K¯ = 2.5304 für die Lauthäufigkeiten. Der Parameter K ist somit bei den Graphemhäufigkeiten höher als bei den Lauthäufigkeiten, wobei sich eine Abhängigkeit vom Inventarumfang (32 Grapheme vs. 28 Laute) vermuten lässt. Dieser Trend zeigt sich auch für alle einzelnen Stichproben (vgl. Abbildung 2). 4
3
4 ,
,
,
,
,
,
,
,
,
,
, Parameter K & Parameter M
2
1
,
&
&
&
&
&
&
&
&
&
3 ,
,
,
,
&
&
1
,
,
,
,
&
&
&
&
&
&
&
&
&
&
&
1
2
3
4
5
6
7
8
9
10
11
,
,
2
, Parameter K & Paramter M
,
0
0 1
2
3
4
5
6
7
(a) Grapheme
8
9
10
11
(b) Laute
Abbildung 2: Parameter K und M (Graphem- und Lauthäufigkeiten, 11 Stichproben)
Grapheme und Laute des Russischen 277
Damit lässt sich der Befund eines gemeinsamen Modells für Graphemund Lauthäufigkeiten untermauern: die statistische Häufigkeitsstruktur kann durch ein gemeinsames Modell beschrieben werden, wobei die Parameterwerte offensichtlich durch den Inventarumfang gesteuert werden.
3
Zusammenfassung
Die Analysen der Graphem- und Lauthäufigkeiten aus Peškovskij (1925) lassen folgende Schlussfolgerungen zu: 1. Zufallstichproben im Umfang von ca. 1000 Einheiten sind für eine statistische Modellierung von Lauthäufigkeiten geeignet. 2. Die Zufallstichproben zeigen ein ähnliches Verhalten wie abgeschlossene Texte und Textmischungen. (a) Graphem- und Lauthäufigkeiten lassen sich durch ein gemeinsames theoretisches Verteilungsmodell adäquat beschreiben, was auf die Ähnlichkeit ihrer stochastischen Struktur hindeutet. (b) Die Parameter zeigen ein systematisches Verhalten in Abhängigkeit vom Inventarumfang der untersuchten Sprachebenen. Inwiefern sich nun diese Befunde bei weiteren Untersuchungen von russischen Laut- bzw. Phonemhäufigkeiten bestätigen lassen, werden erst weitere empirische Analysen zeigen können.
Literatur Altmann, Gabriel; Lehfeldt, Werner 1980 Einführung in die quantitative Phonologie. Bochum: Brockmeyer. Cherry, Colin E.; Halle, Morris; Jakobson, Roman 1953 “Toward the logical description of languages in their phonemic aspect”. In: Language, 29(1); 34–46. Grzybek, Peter; Kelih, Emmerich 2003a “Graphemhäufigkeiten (am Beispiel des Russischen). Teil I: Methodologische Vor-Bemerkungen und Anmerkungen zur Geschichte der Erforschung von Graphemhäufigkeiten im Russischen”. In: Anzeiger für slavische Philologie, 31; 131–162. 2003b “Grapheme Frequencies in Slovene.” In: Slovko (2003). Bratislava. [In print]
278 Emmerich Kelih 2005a
“Häufigkeiten von Buchstaben / Graphemen / Phonemen: Konvergenzen des Rangierungsverhaltens”. In: Glottometrics, 9; 62–73. 2005b “Graphemhäufigkeiten im Ukrainischen Teil I: Ohne Apostroph (’)”. In: Altmann, Gabriel; Levickij, Viktor; Perebijnis, Valentina (Eds.), Problemi kvantitativnoï lingvistiki – Problems of Quantitative Linguiˇ stics 2005. Cernivci: Ruta, 159–179. 2005c “Graphemhäufigkeiten (am Beispiel des Russischen). Teil III: Untersuchungen zum Inventarumfang – Ein Beitrag zur Diskussion um das ё”. In: Anzeiger für slavische Philologie, 33. [In print] 2006 “Towards a General Model of Grapheme Frequencies for Slavic Languages”. In: Garabík, Radovan (Ed.), Computer Treatment of Slavic and East European Languages. Bratislava: Vydavatel’stvo Slovenskej akadémie vied, 73–87. Grzybek, Peter; Kelih, Emmerich; Altmann, Gabriel 2004 “Graphemhäufigkeiten (Am Beispiel des Russischen). Teil II: Modelle der Häufigkeitsverteilungen”. In: Anzeiger für slavische Philologie, 25–45. 2005a “Graphemhäufigkeiten im Slowakischen (Teil I: Ohne Digraphen)”. In: Nemcová, Emilia (Ed.), Philologia actualis slovaca. Trnava: UCM. [In print] 2005b “Graphemhäufigkeiten im Slowakischen (Teil II: Mit Digraphen)”. In: Sprache und Sprachen in Mitteleuropa. Trnava: GeSuS. [In print] Peškovskij, Aleksandr M. 1924 “Stichi i proza (s lingvistiˇceskoj toˇcki zrenija)”. In: Svitok, 3; 197–223. 1925 “Desjat’ tysjaˇc zvukov. (Opyt zvukovoj charakteristiki russkogo jazyka, kak osnovy dlja eufoniˇceskich issledovanij)”. In: Ibd., Metodika rodnogo jazyka, lingvistika, stilistika, po˙etika. Leningrad / Moskva: Gos. izdatel’stvo; 167–191. Wimmer, Gejza; Altmann, Gabriel 2005 “Unified derivation of some linguistic laws”. In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Rajmund (Eds.), Handbook of Quantitative Linguistics. Berlin / New York: de Gruyter, 791–807. Wimmer, Gejza; Altmann, Gabriel 2006 “Towards a Unifed Derivation of Some Linguistic Laws”. In: Grzybek, Peter (Ed.), Contributions to the Science of Language. Word Length Studies and Related Issues. Dordrecht, NL: Springer, 329–335.
Grapheme und Laute des Russischen 279 Tabelle 3: Graphemhäufigkeiten für 10 Stichproben und Gesamtkorpus Graphem
1
2
3
а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
98 27 38 10 25 81 16 18 73 13 38 35 37 63 92 20 37 47 73 34 3 10 5 30 5 4 0 19 18 2 8 18
95 21 34 20 29 88 9 12 64 14 40 32 25 56 105 28 37 52 84 40 3 8 2 22 7 9 0 10 21 4 7 28
79 110 17 15 31 47 22 11 39 38 99 67 9 3 8 18 67 57 10 11 32 37 36 42 40 20 62 69 113 111 28 37 40 37 47 49 76 65 23 24 2 0 14 11 1 3 24 23 10 6 2 6 1 0 23 19 19 23 7 6 8 3 17 29
ges.
4
5
6
7
89 27 48 11 25 107 10 18 47 3 30 29 27 73 103 19 39 54 97 27 3 9 1 26 9 5 0 20 18 6 9 15
104 101 17 19 41 44 8 12 40 25 86 73 10 3 16 15 61 47 19 9 25 26 42 45 26 26 60 63 90 91 25 33 40 43 59 43 70 73 33 29 0 4 6 8 6 4 20 12 11 9 1 4 0 0 14 17 36 19 3 6 16 17 26 23
8
9
10
ges.
99 20 40 10 33 82 12 25 67 15 42 46 25 62 104 24 28 50 87 32 3 11 2 23 12 1 0 10 23 8 3 21
95 12 39 13 30 97 9 12 50 17 28 40 26 61 109 32 37 59 93 28 0 10 5 28 7 3 1 11 32 4 7 19
96 13 43 22 31 112 16 12 54 7 32 32 22 54 100 30 37 41 86 29 1 11 0 29 12 3 0 18 31 6 7 20
966 188 405 139 315 892 97 154 587 118 330 379 274 623 1018 276 375 501 804 299 19 98 29 237 88 38 2 161 240 52 85 216
997 1 006 1 006 997 1 004 1 011 943 1 020 1 014 1007 10 005
280 Emmerich Kelih Tabelle 4: Lauthäufigkeiten für 10 Stichproben und Gesamtkorpus Laut а ь т н и эи с й у о л р в э к д п м ш ы б ч з х ц г ф ж
1 98 83 69 62 62 40 44 42 41 36 34 35 29 31 39 25 21 35 17 29 25 25 19 11 9 7 15 17 0
2
3
4
5
6
113 90 82 54 57 45 44 44 46 30 31 36 35 33 37 24 27 25 34 15 21 15 11 7 15 15 6 8 0
103 75 76 62 63 53 44 38 31 40 35 39 27 34 32 33 30 39 27 31 15 13 6 15 7 14 10 8 0
109 109 63 67 53 41 46 42 27 47 42 37 40 19 37 34 38 20 24 17 14 16 19 12 8 6 10 3 0
109 112 76 71 88 66 72 59 47 56 53 40 48 52 28 59 39 48 32 42 28 43 38 39 44 32 39 36 30 25 24 34 21 26 27 24 30 25 23 21 24 16 19 14 18 17 8 6 7 14 8 5 10 9 8 7 2 1
7
8
9
119 84 71 66 45 42 40 38 52 27 47 45 40 35 29 24 37 30 21 20 16 8 18 10 13 10 10 3 0
108 81 80 61 54 42 46 38 35 44 45 28 32 37 39 32 26 25 20 17 18 17 20 11 10 9 11 13 1
110 72 88 62 47 57 53 39 37 39 38 37 34 39 27 28 33 25 28 13 11 20 12 11 16 10 8 6 0
10
ges.
98 1 079 87 828 76 759 52 617 48 532 54 467 39 456 44 412 36 392 48 385 32 375 36 370 48 361 40 343 31 326 37 295 30 289 22 272 26 252 23 209 13 173 22 169 12 152 12 103 4 103 12 96 3 92 15 88 0 4
1 000 1 000 1 000 1 000 1 000 999 1 000 1 000 1 000 1 000 9 999
Zur Zeitoptimierung der russischen Verbmorphologie Sebastian Kempgen
In einem früheren Artikel (Kempgen 1995) wurde anhand der russischen Präsensformen erstmals überprüft, ob das Zipfsche Principle of Least Effort (Zipf 1949) auch auf morphologischer Ebene gilt. Als Resultat konnte festgehalten werden: Der Grad, mit dem die russischen Präsensmorpheme der Zeitoptimierung entsprechen, beträgt rund 84%. Die Ergebnisse ermutigen unbedingt dazu, diese Annahme auch für andere Bereiche der russischen Flexion zu überprüfen, was in dem vorliegenden Beitrag für weitere finite Verbformen geschehen soll. Die grundlegenden Annahmen seien an dieser Stelle nur ganz kurz resümiert – sie finden sich vollständiger in dem genannten Artikel. Natürliche Sprachen sind Codes mit variabler sog. Wortlänge: lange und kurze Wörter belegen dies augenfällig. Ein Code, der auf Effektivität des Zeitaufwandes hin konstruiert ist, muß “den häufigsten Symbolen die kürzesten Codewörter und, umgekehrt, den seltensten die längsten Codewörter zuschreiben” (Paduˇceva 1961: 112). Das gleiche Prinzip kann, aber muß nicht zwangsläufig auch auf der Ebene aller Morphemtypen gelten. Plausibel ist dies dennoch: Von den verschiedenen Formen eines Flexionsparadigmas werden nicht alle Formen gleich häufig benutzt. Häufige Flexionsformen sollten deshalb von der Tendenz her die kürzeren Endungen aufweisen. Dabei ist freilich besonders bei einer Sprache wie dem Russischen zu bedenken, daß der Stamm von Wortformen u.U. selbst Veränderungen seiner Länge unterliegen kann: in bestimmten Formen können Vokale eingeschoben werden oder ausfallen, das sog. ‘epenthetische l’ kann den Stamm verlängern, es können Alternationen eintreten, bei denen ein Konsonant durch zwei ersetzt wird usw. Mit anderen Worten: wenn wir hier nur die Flexionsendungen für sich betrachten, so ist dies eine gewisse Abstraktion von den individuellen Verhältnissen konkreter einzelner Verben, gilt aber auf jeden Fall für den systemischen Aspekt der Flexionsendungen als solcher. Wenn man die Flexionsmorphologie des Russischen auf das Prinzip der Zeitoptimierung hin untersucht, dann sollte ferner daran erinnert werden, daß die Silbenstruktur russischer Morpheme ebenfalls bestimmten, lange bekann-
282 Sebastian Kempgen
ten Prinzipien folgt: der Auslaut nominaler wie verbaler Wortstämme ist beispielsweise meist konsonantisch, der Anlaut der Endungen umgekehrt und konsequenterweise meist vokalisch – konsequent ist dies deshalb, weil auf diese Weise die übliche Silbenstruktur mit Abfolge von V(C)CV(C) gewahrt bleibt bzw. realisiert werden kann. Weiter ist bekannt, daß die Flexionsendungen im Russischen meist einsilbig, seltener zweisilbig sind. Wenn man diese Faktoren berücksichtigt, dann muß es umso markanter erscheinen, wenn sich selbst unter diesen einschränkenden Rahmenbedingungen das “Principle of least effort” nachweisen läßt, bemerkbar macht. In diesem Beitrag wollen wir konkret zwei Paradigmen untersuchen: das Präteritum und den Imperativ. Das Präteritum weist im Russischen insofern eine weitere Besonderheit auf, als es aus einem ehemaligen Partizip hervorgegangen ist und damit nominale grammatische Kategorien aufweist: Der Singular hat drei nach dem Genus unterschiedene Formen, der Plural eine für alle Genera gültige Form. Der russische Imperativ weist heute nur noch zwei synthetische Formen auf: eine für den Singular, eine für den Plural. Dies ist der Rest eines früher umfangreicheren Paradigmas. Daß es einzelne isolierte Verwendungsweisen weiterer Imperativformen gibt, braucht an dieser Stelle nicht berücksichtigt zu werden. Daten über die Häufigkeit der einzelnen Flexionsformen liefert uns – wie in dem früheren Artikel – das Wörterbuch von Šteinfeldt (1963: 141ff.), da es im Wörterverzeichnis zu jedem Verb genau angibt, mit welcher Häufigkeit seine einzelnen Formen in der zugrundegelegten Stichprobe aufgetreten sind. Eine Summierung aller dieser Einzelwerte führt zu den in Tabelle 1 und 2 dargestellten Ergebnissen. Tabelle 1: Frequenzen der russischen Präteritumsformen
Absolut Relativ
masc. Sg.
fem. Sg.
neutr. Sg.
Plural
∑
9 896 0.438
4 729 0.209
2 701 0.120
5 260 0.233
2 2586 1.0
Tabelle 2: Frequenzen der russischen Imperativformen
Absolut Relativ
Singular
Plural
∑
1281 0.569
969 0.431
2250 1.0
Zur Zeitoptimierung der russischen Verbmorphologie 283
Ordnet man die Inhalte nach der Häufigkeit, mit der sie verwendet werden, so ergeben sich aus den genannten Daten für das Präteritum und den Imperativ die in Tabelle 3 aufgeführten Ränge: Tabelle 3: Ränge der russischen Präteritum- und Imperativformen Rang 1 2 3 4
Präteritum Form masc. Sing. Plural fem. Sing. neutr. Sing.
Rang
Imperativ Form
1 2
Imp. Sing. Imp. Plural
Daß der russische Imperativ damit das Zipfsche Prinzip des geringsten Aufwandes befolgt, ist offensichtlich: die typische Singularendung lautet -i, die Pluralendung -ite. Dies braucht nicht also nicht weiter überprüft zu werden: Hier ist eine Korrelation offensichtlich mit ihrem Maximalwert gegeben, wie immer man sie auch berechnet. Betrachten wir nun also die tatsächliche Länge der Präteritumsmorpheme im Russischen. In Buchstaben gezählt, ergibt sich folgendes: masc. Sg.: fem. Sg.: neutr. Sg.: Plural:
/ -l (oder 0) -la -lo -li
1 (0) 2 2 2
oder, geordnet: (1) (2)–(4)
masc. Sg. fem. Sg., neutr. Sg., Plural
Für das Präteritum ergibt sich als erste augenfällige Beobachtung, daß das Masculinum des Präteritums, die kürzeste Form, in der Tat die häufigste Form ist, während die übrigen Formen, die alle gleich lang sind, auf den weiteren Rängen (nach der Häufigkeit) folgen. Wir wollen prüfen, ob dieser Augenschein einer präzisen Bewertung standhält. Dazu stellen wir in Tabelle 4 die Ränge eines jeden Elementes in Bezug auf Häufigkeit und Länge zusammen, wobei den drei Elementen gleichen Ranges der Durchschnitt der ihnen zukommenden Rangzahlen 2 bis 4, also 3, zugeschrieben wird.
284 Sebastian Kempgen Tabelle 4: Rang, Häufigkeit und Länge Rang Häufigkeit
Rang Länge
Di
D2i
1 3 4 2
1 3 3 3
0 0 1 1
0 0 1 1
masc. Sg. fem. Sg. neutr. Sg. Plural
∑2
In den beiden rechten Spalten sind die einfachen und die quadrierten Differenzen zwischen den beiden Rangreihen aufgeführt, die wir zur Berechnung des Spearman’schen Rangkorrelationskoeffizienten benötigen. Er ist für den Fall, daß Elemente mit gleichen Rängen auftreten, folgendermaßen definiert (vgl. Altmann/Lehfeldt 1980: 201; umgeformt bei Siegel 1976: 197):
K 3 − K − 6 ∑ Tx + ∑ Ty − 6 ∑ D2 rs =
K 3 − K − 12 ∑ Tx K 3 − K − 12 ∑ Ty Hierbei ist
t3 − t 12 K steht für die Anzahl der Elemente (d.h. hier 4), t für die Anzahl der Elemente mit jeweils gleichen Rängen. Wir erhalten für unseren Fall: T=
rs = =
43 − 4 − 6(0 + 2) − 6(2) (43 − 4 − 12(0))(43 − 4 − 12(2)) 64 − 4 − 12 − 12
(64 − 4 − 0)(64 − 4 − 20) 36 = 0.7348 = 48.9898 Die Werte von rs liegen im Intervall [−1; 1]; da wir einen positiven Wert erhalten haben, deutet dies auf eine Tendenz zu gleichen Rängen in beiden Bereichen. Transformiert man den Bereich [-1;1] durch die einfache Umrechnung (x + 1)/2 in das Einheitsintervall [0; 1], so erhalten wir den Wert (0.7348 + 1)/2 = 0.8674.
Zur Zeitoptimierung der russischen Verbmorphologie 285
Mit anderen Worten: Der Grad, mit dem die russischen Präteritumsmorpheme der Zeitoptimierung entsprechen, beträgt rund 87% und ist damit sogar noch etwas höher als der Wert für das Präsens. Beim Bau der Präteritumsmorpheme des Russischen spielt die Optimierung auf möglichst geringen Zeitaufwand hin also eine wichtige Rolle. Interessant ist es aber auch, sich rein hypothetisch einmal zu überlegen, unter welchen Bedingungen sich ein noch prägnanteres Ergebnis hätte ergeben können. Ein Blick auf die Häufigkeitsverhältnisse der Endungen, die alle zwei Grapheme lang sind, also fem.Sg., neutr.Sg. und Plural (vgl. Tabelle 1), zeigt, daß die Endung des neutr. Sg. ruhig drei Grapheme lang sein dürfte – dies ergäbe eine fast perfekte Korrelation zwischen Häufigkeit und Länge. Daß das Neutrum aber – sozusagen ‘dennoch’ – nur zwei Grapheme lang ist, zeigt einfach nur, daß die Sprache gegenüber unnötiger Kürze toleranter ist als gegenüber hinderlicher Länge: die Kürzung zu langer Elemente ist sprachgeschichtlich weitaus häufiger zu beobachten als die Längung zu kurzer Elemente. Das führt uns dazu, die Verhältnisse wenigstens andeutungsweise auch einmal sprachgeschichtlich zu beleuchten. Vor dem Ausfall der sogenannten “Halbvokale” (ca. 10.–12. Jh.) war die Endung des masc. Sg. zwei Grapheme und auch zwei Laute lang – genauso lang also wie alle übrigen Formen des Paradigmas auch. Es gibt nun keinen Grund anzunehmen, daß das masc. Sg. damals nicht auch schon die häufigste Form des Paradigmas gewesen sei. Der Ausfall des Halbvokals hat also in diesem Fall unbedingt dazu geführt, daß die mit Abstand häufigste Form auch die eindeutig kürzeste ist. Auch unter diesem Aspekt ist es bemerkenswert, daß die Orthographie des Russischen die traditionelle, ‘zu lange’ Schreibung noch fast 1000 Jahre bewahrt hat – sie wurde ja erst nach der Oktoberrevolution von 1917 reformiert und damit die Zeitoptimierung in der Schrift der Zeitoptimierung in der Aussprache angepaßt und beide Bereiche parallel gestaltet. Daß die Schrift einen weniger optimalen Zustand noch ein Jahrtausend länger als die Aussprache bewahren konnte, wird im übrigen seinerseits verständlicher, wenn man weiß, daß das Analphabetentum in Rußland ja Anfang des 20. Jhd. noch bis zu 95% betrug: der Anpassungsdruck war in der Schrift also viel geringer als in der Aussprache. Der vorliegende Beitrag wollte die Frage nach der Zeitoptimierung des Russischen auf morphologischer Ebene an zwei weiteren Ausschnitten aus der Flexionsmorphologie überprüfen. Mit dem Präsens, dem Imperativ und dem Präteritum gilt die geprüfte Tendenz jetzt nachweislich für alle finiten
286 Sebastian Kempgen
Verbformen des Russischen. Weitere Sprachen und weitere Formenparadigmen (z.B. der Nominalbereich) sollten entsprechend getestet werden. Hierfür liefert leider das Wörterbuch von Šteinfeldt (1963) keine geeigneten Zahlen, da es nur jeweils Gesamtsummen für Singular und Plurals sowie für alle Kasus liefert, aber nicht für die einzelnen Kombinationen. Die benötigten Daten müßten also anders erhoben werden, beispielsweise aus den elektronisch verfügbaren Korpora des Russischen.
Literatur Altmann, Gabriel; Lehfeldt, Werner 1980 Einführung in die quantitative Phonologie. Bochum: Brockmeyer. Kempgen, Sebastian 1995 “Codierung natürlicher Sprache auf morphologischer Ebene”. In: Die Welt der Slaven, 40(1); 52–57. Paduˇceva, Elena V. 1961 “Vozmožnosti izuˇcenija jazyka metodami informacii”. In: Achmanova, Ol’ga S.; Mel’ˇcuk, Igor’ A.; Paduˇceva, Elena V.; Frumkina, Revekka M. (Hg.), O toˇcnych metodach issledovanija jazyka. Moskva: Moskovskij gos. universitet, 98–149. Siegel, Sidney 1976 Nichtparametrische statistische Methoden. Mit einem Vorwort und Flußdiagramm zur Deutschen Ausgabe von W. Schüle. Frankfurt/M.: Fachbuchhandlung für Psychologie. Šteinfeldt, Evi 1962 Häufigkeitswörterbuch der russischen Sprache. 2500 meistgebrauchte Wörter der modernen russischen Schriftsprache. Handbuch für Russischlehrer. Moskva: Progress. Zipf, George Kingsley 1949 Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Cambridge, Mass.: Addison-Wesley.
¯ asha: between sphere and arrow – on the triple Ak¯ source for everything Walter A. Koch
1
Cosmogenesis in holosophy
The following ideas are an extreme and preliminary condensation of basic tenets of holosophy1 , which, not unlike theosophy2 , anthroposophy3 , or philosophia perennis4 , attempts to synthesize the essential insights of philosophy, religion, esoterics, common sense, and science5 . – “Ω” has been used as a symbol6 of evolutionary or of computational end. Teilhard de Chardin7 used it in the former sense, the mathematician Chaitin8 in the latter. In the present essay, Ω has to do with both beginning and end. It stands for “object” or “ontic entity”. Yet, Ω is never alone, there is an invariable complement: ∑; ∑ is for “subject” or “epistemic entity”. Reality, finally, in whatever guise, is never anything less than a triad9 : it amounts to an interaction (↔) between ontic Ω and epistemic ∑. Although, in specific cases, it may be quite a problem to decide whether particular entities are ultimately ontic or rather epistemic, there are, for a holosophic approach, compelling reasons to assume that such extremely useful ∑-concepts as “zero”, “infinite”, “one” or “two” have no independent Ω-existence: “0”, “∞”, “1” or “2” are thus exclusively epistemic units. Minimum ontic reality is triadic10 . The most general formula for minimum reality implies a physical paraphrase which compares the role of ∑ with that of information (I) and the role of Ω with that of energy (E)11 , the existence of an entity emerging from the interaction of these two poles shows, in an elementary fashion, by way of motion (M) or angular momentum12 (cf. Figure 1). Considerable portions of ancient philosophy and modern physics assume that the basic physical substratum of the universe is nothing but different modes of vibration13 : Everything vibrates, spirals, pulsates, resonates. Everything is waves: not only motion, but also energy and information. Vibration extends from subatomic particles to metagalaxies, from the DNA to the music in our brains14 . Matter emerges from space-resonance15 .
288 Walter A. Koch
Figure 1: Two versions of minimum reality
A bold, but necessary, hypothesis is that of an ontic entity which we might call “whole of wholes” or “God”: ∑ho . The superscript “h” is for “holon”, “whole. . . ”, the “o” for “observer”. The polar construction of “participant” (p) vs. “observer” (o) was introduced by a kind of ’behavioural linguistics’16 . While a normal language-user regards the elements of his/her language (the particular phonemes of his language, the particular semantic motivations of words etc.) as well as the particular thoughts expressed in his language as “natural” (and, likewise, the language of others as “unnatural” or “deviant”), the language-observer has a view that comes from without: he realizes that languages are fundamentally equivalent, although, superficially, arbitrary and different from each other. The dialectics between p and o explains a host of seeming antinomies in the naïve self-analysis of human cultures17 . “∑ho ” means that “God”18 is of such a nature as to observe himself. What is observed is a part of God that is more of a participant: “∑hp ”. Starting out from his ‘less conscious’ part, the observing God has – by whatever means19 – universes and their unimaginably complex differentiation emerge. A universe and any part of it is an individual. Information, any type of “mental capacity”, in anything thus created is bound to fall back on a point of view or viewpoint: vip. The extreme fundamental tension resulting from this constellation is the prime mover of everything. It is the urge of creation (vip) to approximate to the initial status of God. It is the prime mover for all kinds of motion, be it in terms of information or in terms of energy: some people call these primal modes the eternal urge to know and the eternal urge to love. Some epistemologies hold that the concept of “God” is exclusively subjective; yet, there are indices as to there being a possibility for a conception of “God” as something natural (rather than supernatural). Not unexpectedly, then, cre-
¯ asha: between sphere and arrow Ak¯
289
ation involves participantship (p), observership20 (o), individuality (vip), and holism (h). The human observer (∑o ) is a compromise between creation and God:
¬
Figure 2: Higher reality creates (³) lower reality. The latter approximates to ( ) higher reality again.
The point of it is that all is real, albeit to different degrees. The deep geometry of Figure 2 suggests that ‘unconscious fluctuations’ in the underlying wave mechanics of ∑hp give rise to a vip-entity. And this entity is not just a piece of mere ontology (Ωp ), it is a triadic structure.
2
Cosmogenesis in theosophy
If we assume that since about a time of 250 thousand years ago (250 kya) there have been about one million different human cultures on our planet21 , we have to also assume that there have been about one million different cosmologies devised and believed in22 . The comparative study of myths, religions, philosophies, and esoteric traditions will ultimately reveal a highly convoluted and complicated picture brimful of innumerable contradictions, overlappings, redundancies, dead alleys, and also clairvoyant simple verities23 . In our context, we have to concentrate on two very simple ideas illustrating the stratificatory and the planificatory deep structures of the cosmos. Figure 3 illustrates the dimension of stratification. Strata are mega-levels
290 Walter A. Koch
which coexist simultaneously. These principles of Ancient Chinese and Egyptian philosophy remind us of our “two versions of minimum reality” (Figure 1)24 : The male principle (Yang, Osiris) interacts with the female one (Yin,
Figure 3: Stratification: bipolar interaction. To the right: the Egyptian God Thot.
Isis). TAO and THOT25 are the mediators between principles. They represent the universal quest for equilibration and creative stability. Thot bears on his head sun and moon, symbols for Osiris and Isis.
Figure 4: Planification (cf. Figure 2): “Volution” 26 consists of evolution (³) and involution ( ). Strata are mega-levels in space, plana are mega-levels evolving in time. The non-manifest (m¯ulaprakriti) evolves into the manifest (prakriti). The processes of evolution are less elaborated than the resultant states. The universe is vibrant with sound (n¯ada brahm¯a)27. ¬
In contrast to Western philosophies, the Ancient Indian Ved¯anta28 is sceptical of evolution and extols involution, i.e. it is emphatic about the backevolution of the created into the creator29 . The evolved universe is said to be an illusion (m¯ay¯a) and a place of suffering (nid¯ana). The best thing that could happen to any creature (j¯ıva) is to involve into a¯ tman which is indistinguishable from the imperishable principle of brahman. While j¯ıva is the
¯ asha: between sphere and arrow Ak¯
291
participant par excellence, a¯ tman is the dispassionate, eternal self, which remains an eternal observer.
3
Mega-levels of reality
The epistemic origin of EVERYTHING, its origo30 , is ∑p . In its standard human form, ∑p brackets itself; standard consciousness focuses on the world (Ω) (cf. II/4 in Figure 5). Only as a secondary move does ∑p shift its focus onto itself. While doing so, it becomes aware of what we might call the complete picture of “phenomenal”31 reality (cf. Figure 5: II). Any further type of reality can only be gauged on the backdrop of phenomenal experience: it is the comparans32 of any further vip; and there will ultimately be infinitely many of them. Whenever we will say that something is not imaginable (e.g. the quantum void which as a “pleroma” “fills” everything in the universe33 ), the little we do understand is projected onto the phenomenal screen. Our starting point is naïve. Even the basis of evolved science remains naïve. Erwin Schrödinger34 says that “the reason why our sentient, percipient and thinking ego is met nowhere within our scientific world picture can easily be indicated in seven words: because it is itself that world picture.” If we include into “science” those reflections35 which focus not only on Ω, but also on its source, ∑, and their interaction, we could get a less desperate picture. The “structuralist” ∑o comes to realize that there is not only a ∑p , which is he himself, or which, at best, are comparable creatures: humans, animals etc. but that any segment of the universe, be it large or small, evinces this minimum kind of structure: ∑ ↔ Ω. We cannot, of course, avoid our momentary abstraction from the relativity36 of our assumed super-observer view (∑so ) which pretends to present the most “objective” superpicture of everything (Ωp ); but we infer from the substratum of our observation that the same thing is bound to happen to any other entity in the cosmos except to God himself. We also come to realize that there are infinitely many vips and realities (of which Figure 5 shows us 16 main types) and that these realities refer to each other. The implied compatibility of both samenesses and differences makes for a deeper sense of the cognitive difference between ∑ and Ω. And the difference is not only epistemic, but also ontic. Even on the lowest level imaginable, that of quanta and electrons (Figure 5: 1/IV), we meet with a ∑ ↔ Ω. Even here, the world is structured “subjectively”, electron A sees (probes) the universe. It sees everything but itself (cf. Figure 8).
292 Walter A. Koch
Figure 5: Mega-levels of reality: Mega-plana (1ff.) and four variants of mega-strata (Iff.). According to this scheme, reality has at least 16 different formats. Stratification consists of “subject” (∑) and “object” (Ω) and the interaction () between them. The asterisked areas have been called “margins of reality” (the domains of parapsychology and quantum physics). The lower shaded area is part of the origin of the universe, while the upper shaded area is the epistemic origo of everything. The stratum III is the territory of classical science, while the stratum variant IV is the territory of quantum science. The epistemic yardstick for structuring anything is the “normalized” world-picture (Ωp ) of the phenomenal variant. Prototypically, the phenomenal world is perceived through the unaided “subjective” perceptory organs of humans as participants (p), while the “structural” world is perceived by observers (o) who try to view participants as objects, in part by means of complex artifacts. The ideal of “objective” science thus is the interaction between ∑o and Ωo (Ωo consisting in the interaction between ∑p and Ωp ). All in all, there are at least 16 different types of reality (16 “worlds”: 16 Ωs). (The asterisked varieties are often referred to as “deep reality”.) And Ωp as in 2/III is, for instance, the world as the octopus has seen it since about 300 mya (million years ago).
¯ asha: between sphere and arrow Ak¯
293
Obviously, Figure 5 offers only a very crude picture. Apart from the phenomenal37 and structural (“scientific”) mega-strata, we have the para-structural (quantum38 ) and para-phenomenal (“para-psychological”39 ) mega-strata. Despite their fundamental differences, they can be shown to exhibit unsuspected similarities and, above all, coherences. Similarly, the four mega-plana40 give us only simplified versions of the immense variety of levels and diverging realities and also of the underlying homologies. But, of course, each of the sixteen levels of reality has innumerable sublevels, each one evincing a special type of ‘cognitive-emotional’ strategy. Thus, e.g., the sun (as a structural entity in 1/III) may be assumed to ‘sense’ the presence/behaviour of its planets and of the other suns in the Orion arm of the Milky Way, the presence of the gravitational pull of the black hole in the centre of our galaxy41 . And each one of the sextillion suns in our universe senses its own particular variety of reality. Early Homo sapiens (3/II) developed his first cognitive models of Ω, abstract icons of reality, which partly sedimented into the grammar of early speech: he handled structural units which in later (noogenetic) times got such labels as “subject”, “predicate”, “object”. But their typology is wellnigh infinite. Psychologists speak of different states of altered consciousness or neurognostic strategies42 , each one affording a reality of its own (4/I,II). Psychotherapy discerns human potentials for recollecting realities that go far back into the phylogenetic past43 . In view of the plethora of different realities available to each vip in the universe, it may be easy to give an answer to Schrödinger’s question44 : “And before that (i.e. the emergence of human brains) happened, should it all have been a performance to empty stalls?”. The beauty of Pangaea’s45 landscape was possibly wasted on a dinosaur brain, but then any entity is a potential, something to be rediscovered differently in every new stage of evolution.
4
Margins of reality
In her brilliant book on the “Zero Point Field”, Lynne McTaggart writes46 : “(Our standard scientific) paradigms – the world as machine, man as a survival machine – have led to a technological mastery of the universe, but little real knowledge of any central importance to us. On a spiritual and metaphysical level, they have led to the most desperate and brutal sense of isolation. They also have got us no closer to understanding the most fundamental mysteries of our own being: how we think, how life begins, why we get ill, how a
294 Walter A. Koch
single cell turns into a fully formed person, and even what happens to human consciousness when we die.” – These ultimate questions have been gingerly and superciliously eschewed by both standard science and, in its wake, by everyday consciousness. Recently, quite a few scientists have become concerned with ZPE (Zero Point Energy), energy that fills the “vacuum” (the giant spaces between the atomic nucleus and its orbiting electrons or interstellar spaces)47 . It is very likely also the medium through which “parapsychological forces” (telepathy, telekinesis, remote viewing, faith healing etc.) are working. Both these “hidden forces” and the more patent forces recognized by science and everyday experience ultimately share an underpinning of quantum behaviour. The notorious uncertainty principle48 regarding the position and the momentum of the quantum seems to have an echo in the difference between scalar waves and vectorial waves49 . Apparently you cannot have both of them at a time, only one after the other. Scalar waves and vectorial waves have to do with the two principles for everything, which ¯ asha”50 : I will also name “sphere” and “arrow”. All of this reminds us of “Ak¯
Figure 6: The margins of reality. Everyday experience (“phenomenology”) and classical science on the one hand and quantum science and parapsychology – “the margins of reality” – on the other share (↑) a common medium: the energy of the “Zero Point Field” (ZPF). ZPF may be compared to the ¯ asha” creates (³) the evolvAncient Indian “Akasha” (cf. Figure 4). “Ak¯ ¯ asha”. “Ak¯ ¯ asha” forms ing universe, while the latter influences (¬) “Ak¯ part of the observable universe; Akasha pervades everything possible, also the non-observable multiverse51. All is waves.
¯ asha: between sphere and arrow Ak¯
295
¬
¯ asha” sees us as an integral part of everySince the new paradigm of “Ak¯ thing, it makes us both spectator and actor52 , both observer ( ) and participant (³): ∑o and ∑p . Our role of ∑o has to do with scalar waves (sphere), the role of ∑p is essentially connected to vectorial waves (arrow). Although ¯ asha”53 pervades everything and is everything, it is most succinctly rep“Ak¯ resented by the two prototypes of waves. In Buddhism, it is understood as space54 : “Two kinds of space are distinguished: (1) space limited by corporeality and (2) unlimited space”. The former results from acting, directionaiming vips (entities, “bodies”), while the latter is probed by superluminal55 , omnidirectional waves mirroring the scalar aspects of everything. Waves are encoders and carriers of information. We could differentiate between fields of information (I), fields of energy (E), and fields of interaction () (cf. Figure 1). “The field,” as Einstein put it, “is the only reality”56 . Ifields (of which AKASHA is the most comprehensive and potent one) evince a great variety of wave types, the most powerful wave type being a sort of scalar wave which is not simply “electromagnetic”57 . Among its most conspicuous characteristics is the “acausal” synchronicity58 of emission and reception or of similar events whose mutual-influence waves obviously travel faster than light. The total energy of the Zero Point Field (ZPF) apparently exceeds all energy in matter by a factor of 1040 . If you could somehow tap into the energetic side of this field, you would have all the energy you would ever need59 . If you tap into the informational side of it, you do what every entity in our universe, from electron to Einstein, does for information60 and orientation. There are innumerable levels of mutual influence and information. Among the many examples from the “margins of reality” which have been accumulated61 , there is a recent one that shows an unbelievable influence between the peaks of emotion produced by a human and the behaviour of the DNA of the same person. The DNA’s behaviour is in synchrony with the various emotional bouts of its donor who is acting in a separate location62 . The “field” obviously enables its agents to interact instantly, i.e. “non-locally”. In the case of two electrons “entangled” in a common field (Bell’s inequality63 ), the actual distance could be any amount of light-years. Ervin Laszlo’s “Integral Theory of Everything” sees the fish surrounded by an ocean64 as an emblem for a new paradigm for everything. The picture is well chosen. Everything is like a fish. The (I-, E-,and M-65 ) waves it emits go to form part of the wave ensemble of the ocean, while, vice versa, the waves of the ocean and its products feed and inform the fish. The vip focus, an innate sensory and motor apparatus permit the fish to interact with waves selectively.
296 Walter A. Koch
Humans add to their innate focus all sorts of artificial antennae. Focus and antenna tune in to the waves of the ocean, but cannot, by far, perceive them all. ¯ asha”. It may comprise We do not know about the exact physical nature of “Ak¯ two types of order: the waves may have a form of “implicate order” (specific wave form) and of “explicate order”66 (another wave form or matter). The least objection one could raise against the Ancient Indian wisdom of tat tvam asi (“that thou art”: ∗∗ Ωo = ∑p ; double asterisk referring to quantum level – for asterisks cf. Figure 5) is that there is, beyond an undeniable similarity and circularity between the two, an exciting difference between ocean and fish:
¯ asha” is an ocean brimful of scalar and vecFigure 7: Entity and environment. “Ak¯ torial waves. Entities have (innate) antennas which selectively emit and receive waves
The all-encompassing ocean, as the observer sees it, is the reality version And Ωo = Σp ↔ Ωp . Minimum reality is a triple thing (Figure 1), with fundamental spannung67 as a field (↔) between poles. The most fundamental variety of minimum reality is the quantum field which underlies everything: ¯ asha” → ∗∗ Ωo =∗∗ Ωp ↔ ∗∗ Σp . “Ak¯ “Ωo ”.
5
∗∗ Ωo
as minimum reality
On the level of the quantum, it becomes obvious that the difference between “fish” and “ocean” is ultimately created by an individual act of observation made by the observer of quantum reality (∗∗ Σo ). According to the “absorber theory”, originally advanced by Richard Feynman and John Wheeler68 , any electron may become the emitter or the absorber of certain waves which serve as orientation. Any part of the entire electron universe can thus be either fish or ocean depending on the focus of a specific choice in spacetime made by a
¯ asha: between sphere and arrow Ak¯
297
specific observer. From the point of view of the quantum participant, i.e. any individual electron (∗∗ Σp ), everything except itself forms part of the ocean (∗∗ Ωp ). The absorber theory and its elaboration, the Transactional Interpretation (TI) by John Cramer69 , and related hypotheses see the advanced-retarded handshake as a natural way to justify the Heisenberg uncertainty principle and the Born probability (P = ΨΨ∗ ), basic elements of the so called Copenhaguen Interpretation (CI) of quantum mechanics. Figure 8 describes the handshake between electrons, which in Cramer’s words “can be thought of as the emitter sending out a ‘probe wave’ in various allowed directions, seeking a transaction. An absorber, sensing one of these probe waves, sends a ‘verifying wave’ back to the emitter confirming the transaction and arranging for the transfer of energy and momentum. This is very analogous to the ‘handshake’ procedures that have been devised by the computer industry . . . ”70 . The quantum handshake is the exploratory or orientational phase of a transaction. It is essentially without time – i.e. it is time-symmetric: Ψ = positive time (into the future), Ψ∗ = negative time (into the past). The subsequent cathectic phase leading to the transfer of energy etc. is time-asymmetric. The transfer (e.g. of photons), for which orientation has found a well-defined goal, does need a definite direction and time. “Synchronicity” as discussed in quantum physics and in theories of extrasensory perception (ESP)71 may be real or only nearly so. If the hypotheses advanced in this paper prove well-founded, only those fields that live on scalar waves can be truly timeless. In such strange phenomena as telekinesis, teleportation etc., we have to expect a minimum time-lag. Transfer of energy needs speed of light or slower speeds. If phenomena of the Akashic field are absolutely synchronic, there is either no traffic of energy/matter or an exotic kind of energy that falls outside the pale of natural laws as we know them72 . The difference between timeless (scalar) waves and time-bound (vectorial) waves is the most fundamental polar constituent of our universe: It has many echoes (Figure 10) up to the level of human sociology and biology. Here, scholars are used to seeing an essential difference between two foci of cognitive-emotional activity: it is the difference between orientation and cathexis73 : the map of the environment to be construed before any goaldirected action can successfully take place needs some observational sangfroid, some freedom from specific participatory burdens. And the probing and verifying perception provisionally takes in as much information as possible. By contrast, the ensuing performance of directed action needs a lot of
298 Walter A. Koch
advanced
~~~wave ~~~~~
retarded
~~~~~~~ wave retarded
~~~~~~~~~~~~~~~wave ~~~~~~~~~~
advanced
~~~~~~~~~~~~~ wave
~~~~~~~~~
~~~~~~
~~~~~~~
Figure 8: Scalar wave and its echoes (after Warnke 1997: 83). The two types of echo are the advanced ( ) and the retarded wave (³). Excited electrons emit a pair of retarded and advanced waves which in the target electrons elicit a simultaneous emission of another such pair. Similar waves absorb ( ) each other. The mutually absorbing waves are 180° out of phase. The most consequential wave is the verifying wave from B to A which constitutes an advanced echo to A’s “(I am here and) where are you?” (The initial excitations of A and B by retarded waves are not indicated by extra arrows in our excerpt of reality). The net result of the total exchange is that there is no trace left. No change of energy etc. ‘Only’ A having come to know that there is B. ¬
¯ asha: between sphere and arrow Ak¯
299
extra energy (‘emotion’) in order to economically perform the “heavier” task of applying and transferring higher amounts of energy. The first type of wave emission is focused on information (Figure 10: I), while the second type is focused on energy (E). I vs. E is another variety of fundamental polarity. Although “I” is normally regarded as a “coded type of E”, the energy implied in I is negligible, or it becomes non-existent (after absorption, Figure 8). “Orientation vs. cathexis” is even mirrored in animal behaviour. Physicists compare the two phases of quantum transaction to the roles of scout bees and worker bees. Kurakin and Malinetskii conclude that the time scout bees take to fly back and forth does not affect the E-grid. They affirm that74 “physical time simply does not tick while scouts investigate the Universe. . . ”. Time itself is born out of the irreversible order of “orientation plus cathexis” in ∗∗ Σp .
6
Sphere and arrow
In the history of physics and philosophy, time and space have often become relegated to the realm of ‘mere’ epistemology75 . In the last analysis, we have to attribute the dimensions of the universe to the interplay between ∗∗ Σp and ∗∗ Ωp . Space and time thus are neither absolutely ontological nor absolutely epistemological. And, depending on the mega-plana (Figure 5) and the plana of evolution, they are relative to innumerable lower and higher vips. Yet, the fact that space and time appear already on the quantum level and are thus ¯ asha” makes the emergence of these dimensions a very basic phepart of “Ak¯ nomenon. Sphere and arrow are more than mere symbols of mathematics or physics which have come to characterize these two dimensions; they are literally icons76 of the phenomena they describe. Scalar waves are almost identical with space resonance77 , they expand (in) space. They do so in all directions, in rhythmical spherical and spiral movements. Infinite space (sphere or “observation”) is the prelude to the creation of finite spaces or “points” (or “vips”). And here there is transfer from point to point. The “arrow” is the best icon for referring to both finite segment and direction78 . These “participatory” trajectories (“historical biographies”), however diverse in evolutionary length (milliseconds or millennia), are but (parts of) phases of recurrent (cyclic) patterns. Life, thought, even evolution are arrows, with a cyclic (spherical) background and a cyclic ingredient.
300 Walter A. Koch
Accordingly, the “laws of nature” are of a twofold kind. There are those that preponderantly characterize unique properties of points-of-focus or trajectories, there are others that characterize recurrent vibratory patterns. Laws of the first kind are the Planck constant h79 , the inflationary expansion and subsequent phases of the Big Bang80 ; laws of the second kind are the wave equations by Fourier81 or by Schrödinger82 . In fact, most laws combine the two kinds as do, e.g., laws for the growth of structures (Fibonacci sequence, “sacred geometry”83 ) and laws obtaining for the behaviour of systems84 . Part of the latter are “glottometric laws”85 :
Figure 9: Laws of systems as morphogenetic fields? The above curve may crudely describe a series of laws that obtain for different phenomena in nature. It definitely describes the language relationship between the length of words (x) and the length of syllables (y) (here: American English, cf. Altmann & Schwibbe 1989: 52). Similar laws get similar curves (Wimmer & Altmann 2005). These and all other natural laws could somehow form part of ¯ asha”. morphogenetic fields which in turn could be part of “Ak¯
There is some plausibility in Rupert Sheldrake’s hypothesis of “morphogenetic fields”. These seem to consist of informational waves of all kinds. All law-like or “habitual”86 structures are supposed to be encoded in them. Plato’s or Buckminster Fuller’s “ideal forms”87 or “sacred numerical structures” – such as “8” in the octonions88 , octaves89 , octahedrons90 or octet truss91 of matter-energy – may be supposed to occupy a prominent place in them. But just how they are encoded, how long-lived they are92 , by whom they can be accessed, whether or not they contribute on their own to the formgiving (“enformy”93 ) of evolving systems and their parts or whether they become operative only when specific vips access them via their antennae are open and fascinating questions.
¯ asha: between sphere and arrow Ak¯
301
¯ asha”. Between sphere and arrow, there emerges a vast field of fields: “Ak¯ It consists of fields which in David Bohm’s theory may be both “implicate” and “explicate”94 . It consists of ephemeral subfields as in individual subatomic particles like mesons or of something eternal like the “Akashic records”. The universe is a giant web of polar fields and subfields95 . The iconindex subfield – visibly related to the principle of sphere and arrow – goes a long way towards explaining the evolution of understanding and communication96 : These polarities, then, give rise to an immense panorama of evolving
Figure 10: Echoes of the sphere-arrow principle. There are many echoes of the two fundamental poles which guarantee the interminable variations of cosmic interaction. Poles and interaction make up an eternal triad. The variable pairs are not all of them necessarily identical, but they are intimately related. For the time being, their exact ontological relationship remains an exciting open question. (Incidentally, in a hologrammatic pantheism, there is a basic trinity of Σh ↔ Σvip . Very simply, there is no creation without God, and there is no God without creation; God and the creation of the individual are antisymmetrical variants in the same holon.)
fields. Including the “field”, the poles form a triad. We remember that a simple formula for the cooperation of these three super-forces was that of “minimum reality” (Figure 1). It is interesting to learn that Kashmir Shaivism97 sees a ´ similar trinity at work (Siva is our Σh ; the super-forces (´saktis) are mentioned in the order “EIM”): “Each of the three s´aktis is respectively associated with a corner (ko¸na) of the inverted triangle: the icch¯a-´sakti, the willing or desiring ´ ´ of Siva; the jˇna¯ na-´sakti, the cognitive function of Siva; and the kriy¯a-´sakti, the ´ active-creative function of Siva. This triad of powers is the triple function of ´ ´ the Heart of Siva, by means of which Siva is free to create, enjoy, and destroy the myriad universes that appear in the great ocean of consciousness”.
302 Walter A. Koch
Endnotes 1
Holosophy is not only a “philosophy of everything”, but also a “philosophy for everything”, which means that ideally it tries to take all points of view seriously, with what one considers as “science” remaining the backdrop for orientation and comparison (crudely similar to a “Natural Philosophy”: Bennett 1956, Koch 2006). 2 Theosophy holds that all religions are attempts by man to ascertain the Divine. The Divine and the Cosmos are considered to be nearly synonyms. Theosophy is a coherent system of thought developed by Helena Petrovna Blavatsky (1888). It is based on esoteric Buddhism. It builds on ideas in philosophy, religion, intuitive thought, and science. 3 Anthroposophy was mainly developed by Rudolf Steiner (1912; cf. Burkart 2003). Although sharing many concepts with theosophy, it emphasizes Western rather than Buddhist esoteric thought. Steiner claimed his ideas to be based on his direct experience with the “Akasha Chronicle”, a spiritual chronicle of the history and prehistory of the world encoded in the aether. 4 Philosophia perennis considers truths obtaining for the relationship between god, the cosmos and humans as fundamentally absolute and unchanging. It derives such truths from philosophic insight, revelation, mysticism, collective and individual (esoteric) sources, even from “channeling” (Free 2004, Klimo 1997). The term “Ph.p.” was originally used by Leibniz. It was then employed to describe a philosophy formulated by those who had experienced direct communion with God. Cf. Huxley (1945), Schmidt-Biggemann (1998). 5 “Science” with its many acceptations remains the pivot for understanding the world. Since, however, it has its own particular limitations and dogmas, it will be complemented by a sort of “meta-science” (“holosophy”) which tries to make circumspect use of all sources of knowledge available. 6 “Ω” in cosmology refers to the ratio of the density of the universe to the “critical density”. 7 “Omega point” is a term used by Pierre Teilhard de Chardin (1955) to describe the goal towards which consciousness evolves. The final transformative process is assumed to lead from the biosphere to the noosphere. 8 In algorithmic information theory, the Chaitin constant or halting probability is a construction by Gregory Chaitin (2005) which describes the probability that a randomly generated program for a given model of computation will halt. It is usually denoted by “Ω”. In cosmology, Frank J. Tipler (1986) develops an “omega point” scenario, in which the universe is computed to end in a Big Crunch. 9 “Sacred Geometry” (Lawlor 1982) and “Structural Numerology” present reasons for allotting universal importance to almost any simple natural number, especially to numerical complexes from monad to decad. The fundamental value of the “triad” surfaces in almost any theory: cf. Guénon (1991); Schneider (1994: 38ff. 10 Mathematicians tend to view numbers not only as the most beautiful (Paul Erdös); cf. Hoffman (1998: 44) but also as the most “real” entities in our universe. But, on the one hand, ultimate reality will probably be a continuum and thus exclude segmentation into denumerable parts, on the other hand, “ontic reality” – which is the best approximation to the continuum we can hypothesize – evinces minimum deep realities which cannot be undercut. Apart from the overarching ONE (continuum), any real process (interaction, wave) is engendered by both information and energy and can thus never be less than a conglomerate
¯ asha: between sphere and arrow Ak¯
11
12 13 14
15 16
17 18
19
303
of three: “anything comes at least by threes”. Accordingly, numbers in general are first of all of a sort of “reality” which is more of an epistemic than of an ontic nature. However, I here assume that there are different layers of reality, relatively independent of human observership (episteme). Thus a strictly monistic (epistemic) Copenhaguen (also Heisenberg) Interpretation of “quantum reality” will be disregarded in favour of a multi-layered triadic (at least “dualistic”) interpretation of reality (cf. “Transactional Interpretation”: Figure 8 and Cramer 1986). Cf. Marmet (2005). Here and elsewhere (e.g. Figure 10), fundamental structures such as IME (Figure 1) are being compared to other fundamental structures. What results from it is often termed an “echo” (Koch 2005, 2006). An echo is assumed to be a real continuation of its source. Often the specific continuity character is not yet sufficiently clear (cf. the clearer continuity found in biological “homology” or even “analogy”). Universal motion (as in “M” of IME) is technically measured as “momentum”; since cosmic movement is mostly curved, it becomes generalized as “angular momentum”. Modes of angular momentum may be “vibration” (Pond 1990, MacLean 2002), “cycling” (Tomes 1998), “pulsation” (Leonard 1978), “spiraling” (Ginzburg 1996) etc. Even the “vacuum” consists of waves. An important part of it is assumed to be scalar and torsion waves (Laszlo 2004, Bischof 2002, Bearden 1988). – As to the ideas of Nikolai Kozyrev on torsion fields: Wilcock 2000, Shipov 2005, Müller 2004. On a concrete vision of such wave motions cf. Evert 2005. – The harmonics of torsion waves are shared by galaxies, DNA, music, or atoms (Smith 2005, Cousto 1984). Milo Wolff (1990). The polarity between participant (Px ) and observer (Pan ) is the most central characteristic in the dynamics of the human and the life sciences (Koch 1986: 51ff.) in general and, hence, of language behaviour in more particular (Pike 1967). Two types of fundamentally different behaviours emerge from it: monocentric (egocentric, ethnocentric etc.) behaviour, also called “emic structures” (derived from “phonemics” in linguistics), and polycentric behaviour, also called “etic structures” (“phonetics”). Such types of behaviour and structure result from two mutually opposed types of viewpoint (vip) or “focus”: from the cathectic focus and from the orientational focus, respectively (Koch 1989: 114ff.). “Cathexis” is the Greek equivalent of Latin “participatio”; in contrast to the panoramic, polycentric (“scalar”) “orientational” focus of the observer-attitude, cathexis concentrates and invests mental and physical energy in a specific (“vectorial”) direction, toward a specific, “near” object or individual (Koch 1993: 39). This polarity pervades all of biology (Koch 1989a: 34ff.), sociology (Parsons 1951: 7ff.), psychology (Eysenck 1972: 153), and the Cultural Sciences at large (Koch 1989: 114ff.). Cf. especially the polar dynamics between “idioculture” and “uniculture” (Koch 1986, 1989). “God” may here be considered a sort of “place-holder term”. It is a cognitive-emotional term for the “most universal principle” and “all the rest”, whose relationship we keep trying to understand but which we are bound to never fully grasp (cf. Walter Russell 1926). According to each level of our understanding, “God” will assume different characteristics. However, ultimately, not only our episteme of “God” evolves, but God himself evolves (cf. Koch 1991). In order to avoid complete determinacy (“symmetry”) and, thus, unsurpassable boredom,
304 Walter A. Koch
20
21
22 23
“God” must confront himself with some portion of ineradicable indeterminacy (“asymmetry”). Only the breaking of symmetry guarantees anything to happen. Thus, in contrast to what Albert Einstein was convinced of, God has to “play dice” all the time. Without his doing so, nothing would exist. And “nothing” does not have any existence. Participantship is “view-from-within”, observership is “view-from-without”. Both imply a viewpoint (vip). But while the participant is monocentric, the observer tries to be as polycentric or even pancentric as he can. The individual participant is the vip par excellence, whereas the observer tries to approximate to the status of an observing God.– It seems, however, as if the borderline between observer and participant becomes blurred in the quantum world. Here the very act of observation seems to interfere with what happens on the level of participation. One of the greatest quantum physicists, John Archibald Wheeler (1996: 25) writes: “The act of measurement typically produces an unpredictable change in the state of the electron. This change is different according as one measures the position or the momentum . . . The choice one makes about what he observes makes an irretrievable difference in what he finds. The observer is elevated from “observer” to “participator”. What philosophy suggested in times past, the central feature of quantum mechanics tells us today with impressive force: In some strange sense this is a participatory universe. If “participation” is the strangest feature of the universe, is it possible that it is also the most important clue we have to the genesis of the universe ?” (bold type added.) – Cultural semiotics, too, extols the validity of a “participatory observer” (Koch 1986: 148). An observer has to detach himself as best he can from an involvement in what he describes in order to avoid giving too much weight to one individual object to the detriment of another. But somehow he cannot help “understanding” (extrapolating from his own former roles of participant), and thereby “participating” in, the process he describes. We must, however, make no mistake about it: we are left with a fundamental difference between the roles and poles of “participant” and “observer”, between a participant quantum (what it perceives and feels) and an amalgam of quadrillions of quanta, which observes this very quantum, and which perceives and feels in a considerably different way. But then even a simple quantum must be assumed to perceive and feel differently from another simple quantum. Although human culture evolved in more than one step (Koch 1986), it may be said to have attained a climax about 300 or 250 kya with the ‘advent’ of Homo sapiens archaicus (Conway 1997: 346) and the first signs of human iconicity in language (Koch 2005), which, in conjunction with the tendency towards cultural arbitrariness, allowed for a more stable development of “memes” (Blackmore 1999, Koch 1986a) and thereby for a complement to the genome, namely mental “tradition”. Among the many popular accounts of primitive cosmology cf. Frazer (1922), Campbell (1959). Esoteric strains of tradition try to simplify, purify, reformulate the inconclusive plethora of religions and inspirations. One such current of initiate tradition is secured by the complicity of the series “Hermes Trismegistos” – Gnosticism – Blavatsky’s theosophy – Kybalion (the latter by the ’Three Initiates’, 1912). The resultant ancient ’principles’ often provide stunning “echoes” to the most daring modern physical theories. Cf. Paul LaViolette (1995) who gives striking parallels between his ultra-modern “etheron” theory of the origin of the universe and the Egyptian myth of Osiris-Isis (as also passed on by the Hermes Trismegistos tradition).
¯ asha: between sphere and arrow Ak¯ 24 25
26
27 28 29
30
31
32 33
34 35 36
305
The Chinese version sounds far more abstract than the anthropo-therio-morphic version of Egypt. Tao, the middle way, and Thot, the mediator, might not only share a common conceptual background, but also a common linguistic-phonetic (Pre-Indo-European – Pre-SemitoHamitic – Pre-Sino-Tibetan) root (cf. the – partly speculative – reconstructions by Zollinger 1949). In that case, the mythical complex ought to be about 12,000 years old. Avant-garde physics assumes that “all is waves” (here termed “volution”) and the age-old tradition of esoterics also claims that there is a rhythmic in-and-out movement in the microand macrocosmos. Yet, the esoteric tradition does not see “involution” as the representative of the cosmic in-movement. Esoteric “involution” is meant as a descent or transformation of “spirit” into “matter”: it is the spiritual equivalent to modern “evolution”. Accordingly, a theory of “creation” is prototypically represented by a theory of “emanation” (e.g. Neoplatonism or Kashmir Shaivism). The point of it all is that “involution” in this sense behaves as a rival to modern “evolution” (cf. Kazlev 2005). Within the theoretical framework advocated in this essay, however, involution (or “metagenesis”: Koch 1986; 1998: 682) is meant to be a sort of (mental) reversal of evolution (of “genesis”). The prototype of metagenetic movement is the human episteme, yet forerunners can be found in the “memory of matter”, the feedback cycling in the protomemory of the electron etc. (cf. Schwartz, Russek 1999, Charon 1987): encoding movement from what-happened-later to what-happened-earlier. Brahm¯a “world”, n¯ada “sound”: cf. Berendt (1985). Ved¯anta is a compound of veda and anta “end”; the “end” of the Vedas, as contained in the Upanishads. Cf. Fischer-Schreiber et al. (1986: 402). It is a kind of back-evolution, achieved by the entire epistemic strategy of Hinduism (and also of Buddhism), achieved by mental exercise, meditation etc. It is what I would subsume under the dimension of involution. In normal esoteric parlance, it is not “involution”, since here spirit does not “emanate” into matter, it rather, gradually, disengages itself from it (cf. note 26). In his theory of language, Karl Bühler (1934: 107) considered the human semiotic field of “ostension” as the “origo” of mental activity. More radically, it might be considered the “origin of the world” from the point of view of an epistemic monism: the world (Ω) as an epistemic illusion (maya). According to Kant (1781), “phenomena” are appearances, which constitute our experience, “noumena” are the presumed things in themselves, which cannot be known. I understand “phenomenal” as the basic characteristic of our everyday perception and experience, which remains the basis for any kind of “higher” or “deeper” knowledge, even for “diluted” (abstract) or almost “empty” ideas. An underlying phenomenal concreteness in the most ethereal kind of human thought is pointed out by the ideas on “embodied mind” by Lakoff & Johnson (1999). The idea that the vacuum is in reality brimful of structure is shared by the new physics (Davidson 1989, McTaggart 2001: 27) and by esoterics (Jung 1916: “Das Nichts ist dasselbe wie die Fülle”). Schrödinger (1967: 138). Regrettably, sociology or cognitive sciences rarely work on the same footing as cosmology. Our assumed super-observer stance ultimately depends on a time-dependent point in the evolution of knowledge. Progress in our thinking depends, on the other hand, on the illusion
306 Walter A. Koch
37 38 39 40
41 42 43 44 45 46 47
48
49
50
that we are able to at least outline the structure of the inconceivable. We even try to undo a paradox: give an outside view of God. Probably, not even God himself is able to perform such a feat. Why should he be ? On an integrative view of the “phenomenal” vs. the “structural” cf. Kafatos and Dr˘ag˘anescu (2001). Herbert (1985). Dubrov & Pushkin (1982), Bearden (1988). In contrast to “strata” which are levels that exist simultaneously, “plana” are levels of evolution which emerge from each other as in a nested hierarchy (Koch 1998: 699). We may distinguish 4 mega-plana: cosmogenesis (according to Big-Bang theory: 15 bya; according to cyclical theories: no beginning, but locally directed by time-arrow), biogenesis (as related to our earth: 4-3.8 bya), semiogenesis (prototype: iconic human language as stabilization of consciousness: 250 kya; cf. Koch 2005), noogenesis (world pictures: meta-cosmogenesis/meta-consciousness: emergence of “spirit” (science, religion, esoterics; beginning of Holocene: retreat of ice; migrations: diffusion of populations, languages, cultures; astrological age of Lion: 12 kya; cf. Free 2004). It takes the solar system about 225 million years to complete one orbit around the galactic core. Cf., e.g., Timothy Leary’s eight levels of consciousness as reported by R.A. Wilson 2005. Grof (1975: 171ff.) Schrödinger (1967: 146). By human standards, Pangaea’s landscapes (about 150 million years ago) must have been fairly interesting: Palmer (1999: 94). McTaggart (2001: XVII). Put very simply, more than 90% of space is filled by vacuum. Jack Sarfatti (2002) tries to be more specific: “Ordinary matter made from real on-mass-shell lepto-quark fermions and gauge force bosons only accounts for approximately 4% of all that large-scale stuff of our universe, which may be one of an infinity of parallel universes in Hyperspace that we call “Super Cosmos”. I propose that the remaining 96% of our universe consists of two forms of partially coherent exotic vacuum dominated by a condensate of bound virtual electron-positron pairs.” In quantum physics, the uncertainty principle expresses a limitation in accuracy of simultaneous measurement of the position and the momentum of a particle. It was discovered by Werner Heisenberg in 1927. It seems to me noteworthy that longitudinal scalar waves (Figure 8) are associated with an electron’s probing of space (position), while transverse vectorial waves are associated with the transfer of energy of the electron (of photons) (momentum). It appears that not only the observer (physicist) cannot deal with both phenomena at a time but – what is more – the participant of quantum behaviour, the particle itself, emits these two fundamentally different types of wave only one after the other, i.e. either the one or the other (Figure 8). And we must realize that each is concerned with something totally (“polarly”) different from the other. Scalars are essentially concerned with information, vectors are essentially concerned with energy. The “Akashic Record” in Hinduism means “the ever-lasting record of all that happens and
¯ asha: between sphere and arrow Ak¯
51
52 53
54 55 56 57 58 59 60 61 62
63
64 65 66 67
68 69 70 71 72
307
¯ asha is has ever happened”. The Sankrit root k¯ash means “to radiate”, “to be brilliant”. Ak¯ one of the five elements, the others being prthivi “earth”, apa “water”, agni “fire”, vayu “air” (cf. Laszlo 2004). Akasha pervades everything. It is essentially spirit, the all-encompassing spirit and energy of God. (Incidentally, the comparable Western concept of “aether” – which Albert Einstein “killed off” in 1905 – has a similar etymology, it derives from Ancient Greek “kindle, burn, glow”. – Pythagoras, for instance, believed in the fifth element – a “quinta essentia” – which he called “aither”; cf. http://www.mountainman.com.au/ aether.html). Today, “Akasha” is being elaborated into a new concept of “aether”, which has to do with ZPF: LaViolette 1995, McTaggart 2001, Aspden 2003. “Multiverse”, also called “metaverse”, “megaverse” or “super cosmos”, is a term for speculations that multiple universes exist, our universe being one of those universes (cf. Max Tegmark http://www.hep.upenn.edu/~max/multiverse1.html). Spectator : actor = scalar waves : vectorial waves. Of the two types, the scalar waves are the more “exotic” ones: they are non-local and nontemporal, while the vectorial waves are characterized by Special Relativity: energy, mass, the speed of light. Akasha is all. Cf. Fischer-Schreiber et al. (1986: 6). Phenomena which travel faster than light (“superluminally”) can be waves (e.g. torsion waves) or particles (“tachyons”): Bischof 2002: 198ff. McTaggart (2001: XVI; 27). Bischof (2002: 218ff.), Bearden (1988). Peat (1987). McTaggart (2001: 28). The I-field contains Sheldrake’s (1988) “morphogenetic field” and Watson’s (1997) “enformy”. Radin (1997) and Jahn & Dunne (1987). Cf. Greg Braden’s and Glen Rein’s observations concerning experiments showing effect of coherent emotion on DNA: http://www.soulinvitation.com/rein/. Also: Rein (1993). “Entangled” quantum-level objects behave as if in a common field even if separated by cosmological distances. Bell’s theorem states that local realism does not obtain for the quantum. (Aczel 2001). Laszlo (2004: 120). Cf. Figure 1. Cf. David Bohm (1980). Scalar field vs. vectorial field are the most fundamental types of “spannung” in the universe. They have many repercussions or “echoes”, one of them being the pair in human communication: (scalar) tension vs. (vectorial) suspense. Cf. Koch 2001. Cramer (1986, 1988); Feynman (1985), Wheeler (1996), Warnke (1997). Cramer (1986, 1988). Kurakin & Malinetskii (2005). Cf., e.g., the research done by W.G. Braud – as reported by McTaggart (2001: 162ff.). Jahn & Dunne (1987: 246ff.)
308 Walter A. Koch 73 74 75 76 77 78
79
80
81
82 83 84 85 86 87 88
89
Cf. note 16. Kurakin & Malinetskii (2005: 7). Kant 1781. On the semiotic distinction between “index” and “icon”: Nöth (1990: 107ff.), Koch (2005: 106ff.) Wolff (1990). There is an intrinsic proportional affinity of form between the various polar variants of “sphere vs. arrow”: cf. the mathematical graphs of “scalars vs. vectors” to the “bow and arrow” in early human weaponry, to “models of space/universe vs. airplanes”, the insignia of imperial power: “orb vs. sceptre” (the orb signifying the spatial extent of power, the sceptre symbolizing the actual transfer of power/energy), to “dial vs. hand of clock” (cf. Figure 10), to “eye vs. index finger” (an evolutionary interplay which triggered the growth of human communication and consciousness: Koch 2005), to “the sun vs. the directed, historical, eye-blinking human attempt at perceiving/understanding the sun”. Between these two principles and the various ensembles of them there seems to be an underlying evolutionary tendency towards reciprocal assimilation: “Wär’ nicht das Auge sonnenhaft, die Sonne könnt’ es nie erblicken” (J.W. von Goethe); cf. also Koch (2004). Planck’s constant (denoted by h) is a physical constant that is used to describe the sizes of quanta. It has units of energy (J) multiplied by time (s), which are units of action (joule seconds). Its numerical value may be considered as a “point”, the smallest unit for energy/matter to be perceived (and/or to exist?). According to standard physical cosmology, the universe emerged in a Big Bang (13.7 billion years ago) and will be submerged into “nothingness” after some billion years (after different scenarios: needing different amounts of time) (Gribbin 1986): the universe viewed in this manner is ultimately a sort of giant “arrow”, a finite journey in eternity. While a cyclical theory (without any Big Bang: e.g. Lerner 1991) sees an infinite universe as a sphere eternally pulsating. The “Fourier transform” is an integral transform that re-expresses a function in terms of sinusoidal basis functions. It can be applied to wave-form correlations in physics, oceanography, geometry. The Schrödinger equation describes the time-dependence of quantum mechanical wave systems. Cf. Lawlor (1982), Schneider (1994), Winter (2005). Schroeder (1990), Gell-Mann (1994), Bak (1996). Altmann (1980); Köhler (2005); Köhler, Altmann & Piotrowski (2005). Sheldrake (1988). Fuller (1975). David Wilcock (2005) writes: “EIGHT: This shows up in gauge theory, a version of “Superstring” theory, and it perfectly corresponds with the idea that there is an Octave of dimensions. Furthermore, almost all credible sources of higher intelligence agree that this is the true number of dimensions in the universe. The theories of Tony Smith also give us an eight-dimensional universe with geometric qualities, built up with eight-leveled numbers known as ‘Octonions’.” – Cf. Smith 2005. The Law of Octave was first formulated by Pythagoras (Wilson 2005, Cousto 1984). It
¯ asha: between sphere and arrow Ak¯
90
91 92
93 94 95 96
97
309
seems to obtain for all levels of the universe. Cf. also Walter Russell (1953:89). The octahedron is a Platonic solid. The dynamic rotational relationships between icosahedron, tetrahedron, and octahedron are proposed to be fundamental wave structures for the build-up of the universe (Wilcock 2000). Buckminster Fuller invented the “octet truss”. It is composed of interlocking tetrahedral pyramids. It seems to be the most stable construction of space geometry. Ervin Laszlo (2004: 69) hypothesizes that purely informational waves (Akashic waves) might be more enduring than purely energetic waves, so that I-waves stemming from an older, more evolved universe could assist E-waves in a new universe to build matter and forms. Watson (1997). Bohm (1980). It seems impossible to visualize how these myriad types of fields could share the same space without mutually destroying their subtle and complex identities. What started with the electron’s capacity for emitting two totally different types of waves (Figure 8) has culminated in the human capacity of evolving language and higher forms of model-building through the interplay between iconicity (eye) and indexicality (hand) (Figure 10 and Koch 2005). Muller-Ortega (1989: 114).
References Aczel, Amir D. 2001 Entanglement: The Greatest Mystery in Physics. New York: Four Walls. Altmann, Gabriel 1980 “Prolegomena to Menzerath’s Law”. In: Glottometrika 2. Bochum: Brockmeyer, 1–10. Altmann, Gabriel; Koch, Walter A. (Eds.) 1998 Systems. New Paradigms for the Human Sciences. Berlin: de Gruyter. Altmann, Gabriel; Schwibbe, Michael H. 1989 Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim etc.: Olms. Aspden, Harold “The Physics of Creation”. [www.aspden.org/books/2edpoc/2edpoccontents.htm] Bak, Per 1996 How nature works. New York: Springer. Bearden, Thomas E. 1988 Excalibur Briefing. Explaining Paranormal Phenomena. San Francisco: Strawberry Hill Press.
310 Walter A. Koch Bennett, John G. 1956 The Dramatic Universe. Vol I: The Foundations of Natural Philosophy. London: Hodder and Stoughton. Berendt, Joachim-Ernst 1985 Nada Brahma. Die Welt ist Klang. Reinbek: Rowohlt. Bühler, Karl 1934 Sprachtheorie. Stuttgart: Gustav Fischer. Bischof, Marco 2004 Tachyonen, Orgonenergie, Skalarwellen. Aarau: AT Verlag. Blackmore, Susan 1999 The Meme Machine. Oxford: OUP. Blavatsky, Helena Petrovna 1888 The Secret Doctrine: the Synthesis of Science, Religion, and Philosophy. Transl.: Die Geheimlehre. Hamburg: Nikol, 2003. Bohm, David 1980 Wholeness and the Implicate Order. London: Ark Paperbacks. Borgmeier, Raimund; Wenzel, Peter (Hg.) 2001 Spannung: Studien zur englischsprachigen Literatur. Trier: Wissenschaftlicher Verlag. Burkart, Axel 2003 Das große Rudolf Steiner Buch. München: Hugendubel. Campbell, Joseph 1959 Primitive Mythology. The Masks of God. Harmondsworth: Penguin. Chaitin, Gregory 2005 The Quest for Omega. New York: Pantheon Books. Teilhard de Chardin, Pierre 1955 Le phénomène humain. Paris: Seuil. Charon, Jean 1987 Le tout, l’esprit et la matière. Paris: Albin Michel. Conroy, Glenn C. 1997 Reconstructing Human Origins. New York: Norton. Cousto, Hans 1984 Die kosmische Oktave. Essen: Synthesis-Verlag. Cramer, John G. 1986 “The Transactional Interpretation of Quantum Mechanics”. In: Reviews of Modern Physics, 58; 647–688. 1988 “Velocity Reversal and the Arrow of Time”. In: Foundations of Physics, 58; 1205. Davidson, John 1989 The Secret of the Creative Vacuum. Saffron-Walden, Essex: C.W. Daniel.
¯ asha: between sphere and arrow Ak¯
311
Dubrov, Aleksandr P.; Puškin, Veniamin N. 1982 Parapsychology and Contemporary Science. New York: Consultants Bureau. Evert, Alfred 2005 Äther-Physik und -Philosophie. Norderstedt: BOD. Eysenck, Hans J.; Arnold, Wilhelm et al. (Eds.) 1972 Encyclopedia of Psychology. London: Search Press. Feynman, Richard P. 1985 QED – A Strange Theory of Light and Matter. Princeton, NJ: Princeton UP. Fischer-Schreiber, Ingrid; Ehrhard, Franz-Karl; Friedrichs, Kurt; Diener, Michael S. 1994 The Encyclopedia of Eastern Philosophy and Religion. Boston: Shambala. Frazer, James G. 1922 The Golden Bough. The Classic Study in Magic and Religion. London: Macmillan. Free, Wynn; Wilcock, David 2004 The Reincarnation of Edgar Cayce? Berkeley, CA: Frog. Fuller, R. Buckminster 1975 Synergetics. Explorations in the Geometry of Thinking. New York: Macmillan. Gell-Mann, Murray 1994 The Quark and the Jaguar. New York: Freeman. Ginzburg, Vladimir B. 1996 Spiral Grain of the Universe. Huntington, West Virginia: University Editions. Gribbin, John 1986 In Search of the Big Bang. The Life and Death of the Universe. Harmonsworth: Penguin. Grof, Stanislav 1975 Realms of the Human Unconscious. New York: Viking Press. Guénon, René 1991 The Great Triad. Cambridge: Quinta Essentia. Herbert, Nick 1985 Quantum Reality. Beyond the New Physics. New York: Random House. Hoffman, Paul 1998 The Man Who Loved Only Numbers. New York: Hyperion. Huxley, Aldous 1945 The Perennial Philosophy. New York: Harper. Initiates, The Three 1912 The Kybalion. The Hermetic Philosophy of Ancient Egypt and Greece. San Diego, CA: The Book Tree.
312 Walter A. Koch Jahn, Robert G.; Dunne, Brenda J. 1987 Margins of Reality. The Role of Consciousness in the Physical World. San Diego: Harcourt Brace & Company. Jung, Carl Gustav 1916 “Septem Sermones ad Mortuos”. [http://www.feliz.de/html] Kafatos, Menas; Dr˘ag˘anescu, Mihai 2001 “Toward an Integrative Science”. [http://www.racai.ro/~dragam/TOWARD_1.HTM] Kant, Immanuel 1781 Kritik der reinen Vernunft. New York: Macmillan 1929. Transl.: Critique of Pure Reason. Kazlev, Alan M. 2005 “Kheper: Transformation, Evolution, Metamorphosis”. [http://www.kheper.net] Klimo, Jon 1997 Channeling. Investigations on Receiving Information from Paranormal Sources. Los Angeles: Tarcher. Koch, Walter A. 1986 Evolutionary Cultural Semiotics. Bochum: Brockmeyer. 1986 Genes vs. Memes. Bochum: Brockmeyer. 1989 “Culture: Its Stratification, Planification, and Dynamics”. In: Koch, Walter A. (Eds.), Culture and Semiotics. Bochum: Brockmeyer, 96– 179. 1989 The Wells of Tears. Bochum: Brockmeyer. 1991 Gott und die Welt. Bochum: Brockmeyer. 1993 The Biology of Literature. Bochum: Brockmeyer. 1998 “Systems and the Human Sciences”. In: Altmann, Gabriel; Koch, Walter A. (Eds.), Systems. New Paradigms for the Human Sciences. Berlin: de Gruyter, 671–755. 2001 “Spannung: Fragments and Pieces for a Mosaic of Structures Common to Nature and Culture”. In: Borgmeier, Raimund; Wenzel, Peter (Hg.), Spannung: Studien zur englischsprachigen Literatur. Trier: Wissenschaftlicher Verlag, 10–21. 2004 die dinge und du. lyrisch-philosophische gedanken. Norderstedt: BOD. 2005 The Iconic Roots of Language. Lüdenscheid: RAM-Verlag. 2007 Tetraktys: From Quintessence to Decimessence. Frames for Comprehending the Universe. Norderstedt: BOD. [In prep.] Köhler, Reinhard 2005 “Synergetic Linguistics”. In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Raimund G. (Eds.), Quantitative Linguistics. An International Handbook. Berlin / New York: de Gruyter, 760–774.
¯ asha: between sphere and arrow Ak¯
313
Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Raimund G. (Eds.) 2005 Quantitative Linguistics. An International Handbook. Berlin / New York: de Gruyter. Kurakin, Pavel V.; Malinetskii, George G. 2005 “How bees can possibly explain quantum paradoxes”. In: La Revue mensuelle (Robotique, vie artificielle, réalité virtuelle), 61. [http://admiroutes.asso.fr/larevue/2005/61/pavel.htm] Lakoff, George; Johnson, Mark 1999 Philosophy in the Flesh. The Embodied Mind and Its Challenge to Western Thought. New York: Basic Books. Laszlo, Ervin 2004 Science and the Akashic Field. An Integral Theory of Everything. Rochester, Vermont: Inner Traditions. LaViolette, Paul 1995 Genesis of the Cosmos. The Ancient Science of Continuous Creation. Rochester, Vermont: Bear and Company. Lawlor, Robert 1982 Sacred Geometry. London: Thames & Hudson. Leonard, George 1978 The Silent Pulse. New York: Dutton. Lerner, Eric J. 1991 The Big Bang Never Happened. New York: Random House. MacLean, Kenneth James Michael 2002 The Vibrational Universe. Ann Arbor, MI: Loving Healing Press. Marmet, Paul 2005 “What is realism?” [www.newtonphysics.on.ca/HEISENBERG/Chapter4.html] McTaggart, Lynne 2001 The Field. The Quest for the Secret Force of the Universe. London: HarperCollins. Müller, Hartmut 2004 Global Scaling. Die Basis ganzheitlicher Naturwissenschaft. Wolfratshausen: Ehlers. Muller-Ortega, Paul Eduardo ´ 1989 The Triadic Heart of Siva. Albany: State University of New York Press. Nöth, Winfried 1990 Handbook of Semiotics. Bloomington: Indiana UP. Palmer, Douglas 1999 The Atlas of the Prehistoric World. London: Marshall.
314 Walter A. Koch Parsons, Talcott 1951 The Social System. London: Collier-Macmillan. Peat, F. David 1987 Synchronicity. New York: Bantam. Pike, Kenneth L. 1967 Language in Relation to a Unified Theory of the Structure of Human Behavior. The Hague: Mouton. Pond, Dale (Ed.) 1990 Universal Laws Never Before Revealed: Keely’s Secrets. Santa Fe: Message Company. Radin, Dean I. 1997 The Conscious Universe. The Scientific Truth of Psychic Phenomena. San Francisco: HarperCollins. Rein, Glen 1993 “Modulation of Neurotransmitter Function by Quantum Fields”. In: Pribram, Karl H. (Ed.), Behavioral Neurodynamics. Washington: International Neural Network Society, 377–388. Russell, Walter 1926 The Universal One. Waynesboro, Virginia: University of Science and Philosophy. 1953 A New Concept of the Universe. Swannanoa, Waynesboro, Virginia: The University of Science and Philosophy. Sarfatti, Jack 2002 “The Macro-Quantum Vacuum”. [http://www.stardrive.org/title.shtml] Schmidt-Biggemann, Wilhelm 1998 Philosophia perennis. Frankfurt: Suhrkamp. Schneider, Michael S. 1994 A Beginner’s Guide to Constructing the Universe. New York: Harper. Schrödinger, Erwin 1967 What is Life? & Mind and Matter. Cambridge: CUP. Schroeder, Manfred 1990 Fractals, Chaos, Power Laws. New York: Freeman. Schwartz, Gary E.R.; Russek, Linda G.S. 1999 The Living Energy Universe. Charlottesville, VA: Hampton Roads Publishing Company. Sheldrake, Rupert 1988 The Presence of the Past. Morphic Resonance and the Habits of Nature. New York: Random House. Shipov, Gennady I. 2005 “New Scientific Paradigm”. [http://shipov.com/new_science.html]
¯ asha: between sphere and arrow Ak¯
315
Smith, Tony 2005 “I Ching, Genetic Code, Tai Hsuang Ching, and the D4-D5-E6-E7-E8 VoDou Physics Model”. [http://www.valdostamuseum.org/hamsmith/ichgene6.html] Tipler, Frank J. 1986 “Cosmological Limits on Computation”. In: International Journal of Theoretical Physics, 25; 617–661. Tomes, Ray 1998 “Harmonics of the Universe”. In: http://ray.tomes.biz/story.htm. Warnke, Ulrich 1997 Gehirn-Magie. Der Zauber unserer Gefühlswelt. Saarbrücken: Popular Academic Verlags-Gesellschaft. Watson, Donald E. 1997 “The Theory of Enformed Gestalts: A Model of Life, Mind, Health”. In: Advances: The Journal of Mind-Body Health, 13(4); 32–36. Wheeler, John A. 1996 At Home in the Universe. Berlin: Springer. Wilcock, David 2000 “The Breakthroughs of Dr. N.A. Kozyrev”. [http://ascension2000.com/DivineCosmos/01.htm] Wimmer, Gejza; Altmann, Gabriel 2005 “Unified Derivation of Some Linguistic Laws”. In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Raimund G. (Eds.), Quantitative Linguistics. An International Handbook. Berlin /New York: de Gruyter, 791–807. Winter, Dan 2005 “Sacred Geometry”. [http://www.soulinvitation.com/indexdw.html] Wolff, Milo 1990 Exploring the Physics of the Unknown Universe. Manhattan Beach, CA: Technotran Press. Zollinger, Gustav 1949 TAU oder TAU-t-an und das Rätsel der sprachlichen und menschlichen Einheit. Bern: Francke.
Quantitative analysis of co-reference structures in texts Reinhard Köhler and Sven Naumann
1
Introduction
In the years 1999–2000, Gabriel Altmann developed a new method to semantically analyse textual structures, which he called “Denotative Textanalyse”. With his co-author, Arne Ziegler, he presented and illustrated this novel approach in the seminal publication (Ziegler & Altmann 2000). Basically, the method consists of determining those words in the text under analysis which share the same reference to an object of the world. These words are grouped, and interesting properties of the groups – which are called ‘hrebs’ and which represent the textual manifestations of the given referent – can be measured, such as topicality, diffusion, or compactness. Altmann was inspired by a number of publications by the Czech linguist Ludˇek Hˇrebíˇcek (cf. Hˇrebíˇcek 1995, 1997), who was the first to analyse texts by grouping sentences which contain words with the same referent. He called the resulting supra-sentential structures ‘aggregates’. To honor this pioneering work, Altmann called the structures he obtained ‘hrebs’. It is obvious that the method and the measures defined by the authors open up new vistas on quantitative text analysis (e.g., coherence or theme/rheme structures) and on its use in application-oriented fields such as text classification.
2
Problems
In their presentations (cf. also Ziegler 2005), the authors do not differentiate between denotative meaning and reference, which causes a number of problems with respect to the intended kind of textual analysis. Generally, the denotative meaning of a word is considered to correspond to a class of items whereas only phrases can refer to individual objects of the world. Let us consider an illustrative example. The lexemes animal and lamb have undoubtedly different meaning in the sense that the class of objects we call animals is different from the class of lambs with respect to their extensions (and intensions). Specifically, the former includes the latter one. However, in a text, the
318 Reinhard Köhler and Sven Naumann
expressions containing the words animal and lamb may refer to one and the same individual object, as in (1)
Mary had a little lamb. She loved the animal from the first day.
as opposed to, say, (2)
Joseph had a wooden lamb. The child, however, dreamed of having a real animal.
Consequently, to determine co-references, we have to use the phrases [Mary], [a little lamb], [she], [the animal] etc. Here, [Mary] and [she] on the one hand and [a little lamb] and [the animal] on the other hand may be interpreted as referring to the same objects. [wooden lamb] and [a real animal] are not coreferential, and even if the word animal in the second example is replaced by lamb, neither the phrases nor the two lamb tokens may be interpreted as co-referential. Altmann’s and Ziegler’s way of analysing references has another problematic aspect: They do not differentiate between generic and individual meanings. Thus, in (3)
He read everything about mushrooms
and (4)
One day, he found mushrooms in the forest.
they would identify the two mushroom tokens as belonging to the same hreb although the first token corresponds to a class of mushrooms with potentially infinitely many objects and the second expression means a limited number of individual objects (possibly even of a different kind). A third reason to look for an improvement of the approach is that it attributes words such as very, such, is, not etc. a denotative (identified with referential) meaning and construes corresponding hrebs. Hence, the word-based approach Ziegler and Altmann suggest is at the same time too liberal (in stipulating co-reference between expressions which simply do not co-refer) and too restrictive (in not detecting referential relations which each reader of the texts easily reconstructs).
Quantitative analysis of co-reference structures in texts
3
319
An alternative unit of analysis
Replacing words by phrases as units of analysis avoids the three disadvantages discussed above and, at the same time, cares for a more appropriate granularity in the semantic analysis. However, this improvement brings with it several new methodological questions. One of them is the fact that phrases – as opposed to words – cannot be analysed as a linear sequence forming the text. Phrases come as parts of recursive structures, which calls for certain descriptive decisions. For the purpose of this study, we have restricted ourselves to perform a shallow syntax analysis and take into account only phrases on the clause level. This enables us to treat the given texts as sequences of phrases with unique positions and make the results more comparable to those of Altmann and Ziegler. For this first study on the basis of phrases, we take into account only nominal phrases. This decision excludes co-referring phrases such as NP [at home] and AP [here] from our analyses. However, these preliminary restrictions will be lifted in a subsequent study, where we will consider all types of phrases and take into account all levels of embedding.
4
Data selection and preprocessing
In order to get a first impression of what way and to what extend the results obtained by both approaches might differ, we used two of the four texts which Ziegler & Altmann (2000) based their analysis on: the poem “Der Erlkönig” and the short-story “Der Erdstern”. It goes without saying that for a more substantial evaluation of this approach a closer look at several types of nonfictional texts (like newspaper articles e.g.) would be necessary: Both texts considered here (especially the poem) show features which are rarely found in everyday language. Both texts were tagged, parsed and converted into X ML documents by using a variety of xml tools developed at Trier university (cf. Naumann 2004). Parsing was restricted to the detection and analysis of nominal structures, including arguments and modifiers like prepositional phrases and (restrictive) relative clauses. In this way, the first line of the Erlkönig gets transformed into:
320 Reinhard Köhler and Sven Naumann
Wer
reitet so spät durch
Nacht
und
Wind
?
The three nominal phrases (NP’s) in this sentence are taken as referential anchors. The first one sheds some light on the kind of problems one is confronted with in most semantic studies. While it is pretty straightforward to view NP’s with a common noun as head as referential, interrogative pronouns like wer (who) are quite a different matter. We treat them as introducing an unspecified entity (a variable, technically speaking). It is this (still) unspecified entity the personal pronoun es (3. person, singular, neuter), which functions as the subject of the following sentence, refers to and gets finally specified by the object of this sentence: the complex NP der Vater mit seinem Kind (the father with his child), which introduces two more entities, but in this context is individuated as a group. Otherwise it would be impossible to stipulate a co-reference relation between the (singular) subject and the object of the sentence.
Quantitative analysis of co-reference structures in texts
321
But leaving these subtilities behind, lets have a look at the hrebs we get for both texts (Erlkönig and Erdstern): (A) Erlkönig 1. Word-hrebs For the Erlkönig Altmann and Ziegler identify 96 hrebs with at most 32 tokens and up to 8 types per hreb. Kind: ist:
[Kind, Knabe, ihn, ihn, Sohn, du, dein, . . . , mein, . . . , er, . . . , mich, . . . ] [ist, ist, sind, sei, bist, war]
2. Phrase-hrebs As to be expected, the number of phrase-hrebs is much smaller: There are just 31 phrase-hrebs with up to 32 tokens and 8 types per hreb. Kind: [, , , . . . ] Erlkönig: [, , , , . . . ]
(B) Erdstern 1. Word-hrebs For the novel, Altmann and Ziegler compute 181 hrebs with at most 28 hrebs and no more than 13 types per hreb. narrator: [mich, meine, ich, mir, ich, ich, ich, . . . , Pilzsammler, . . . ] der: [der, der, die, . . . ]
2. Phrase-hrebs We found 57 phrase-hrebs with up to 22 tokens and 5 types per hreb. Erdstern: [, , , . . . ]
5
Results and comparison
For our experiment, we used some of the measures defined in Ziegler & Altmann (2000): topicality, diffusion, and compactness whereas others such as coincidences cannot be applied to phrase hrebs for obvious reasons. We also calculated the distribution of the hreb sizes in form of a rank-frequency distribution.
322 Reinhard Köhler and Sven Naumann
[-] - - - - [-] - [-] [-] - [F F] - [C C] [F] - [C C] - - [- -] [F] - [C] - [F] - [C] -
[F F F F] - - [F][-] [E] [C] - - - - - [C C] [- - -] - [- -]
[E] - [C] [E] - [- - -] - - [C] - - - - [E] [-] [F F F F] - - [E] [C] [E] - [C] [- -] -
[C C] - - [C] - - [- -] - [F F] [E E] [E E] - [- - -] [C C] [-] - [- -]
- [C C C] - [E] [D D] - [C] - [D D] - [- - -] - - - - - [F] -
[F F] - [F] - [F] - - [- -] [C C C] - [- -] - [- - -] - [- -] [C C] - -
[C C C] - - - [E] [- - -] - [E] - [C] [- - -] - - [- -] [- -] - [- - -]
[F F F F] - - [F] - [D D] - [- -] [C C C C] [F] - [-] - [- - -] - -
F: father C: Child E: Erlkönig D: Erlkönig’s daughters - : non-core hrebs
Figure 1: Distribution of referential NPs in Erlkönig
5.1
Topicality
This measure is defined by Altmann and Ziegler as: | Hi | | Hi | = ∑i∈Core | Hi | | Core | Hi ∈ Core iff | Type(Hi ) |> 1 T (hrebi ) =
Hi ∈ Core iff | Hi |> 1 Calculating the values for some of the hrebs in two texts under analysis yields: (a) Der Erlkönig – Tword hreb (Sohn) = 8/19 = 0.42 – Tword hreb (Vater) = 7/19 = 0.37 ¨ = 4/19 = 0.21 – Tword hreb (Erlkonig) – Tphrase hreb (Sohn) = 6/13 = 0.46 – Tphrase hreb (Vater) = 4/13 = 0.31 ¨ = 3/13 = 0.23 – Tphrase hreb (Erlkonig) Despite the difference in method, the results are of the same order and show moreover a similar tendency.
Quantitative analysis of co-reference structures in texts
323
- [- -] - - [N] [- -] - - [- -] [-] - - [N] - [-] - [F] [- -] - [N] [N] - [MF MF ] - - - - - - [O] - [- - - - - -] - - [O] [O] - [- -] - - [N] [N] - [MF MF ] - - - [N] - [F] - - - - - [- -] - [- - -] - [- -] [-] - - - [- -] - [- -] - [N] - [- - - -] - [- -] [MI MI MI ] - [-] - [N] [MI ] - [- - - - - - - -] - [- - - - - - - -] - [- -] - - [N] - [MI MI ] - - - [S] - [N] - [MI ] - - [- -] - [- - - -] - [- - - - - - - -] [N] - [MI MI ] [- -] - [N] [-] - [- - -] - - - [N] [MG ] [N] - [MI MI ] - [- -] - - [MI ] - [- -] [-] - [MI MI MI MI MI MI MI MI MI MI ] [D] - [D D D] - [N] [N] - [- - - -] - - [MG MG ] [F F F F F] [N] - [- - - - - - - - - - - -] - - [- - - -] - [N] [-] [MS MS MS ] [MG MG MG ] - - [- - - -] - - [- - - -] - - - [MS ] [MS ] [- - -] [N] - [B B B B] [B B] - [O] - - [- - - -] [-] - [- -] [N] - [-] - [-] - [MS ] - [MG ] - [- -] - [- - - - - - - - -] - [MG MG MG ] - - - - - - [MG MG ] - - [F F] - - - - [- - - - -] - [- -] - - - [- -] - [S S] - [- - - - -] - [N] N: narrator F: form O: one/someone B: fairy-tale book
MI : mushroom (individual) MG : mushroom (generic) MF : mushroom fever MS : mushroom scientist
F: forest S: sand D: Sunday - : non-core hrebs
Figure 2: Distribution of referential NPs in Erdstern
(b) Der Erdstern The results we obtain for Erdstern are not comparable with the findings of Ziegler and Altmann for the following two reasons: (a) We think that it is sensible for referential studies to distinguish between generic and non-generic use of common nouns. (b) Altmann and Ziegler conflate three hrebs which should be distinguished to reconstruct the narrator hreb.
324 Reinhard Köhler and Sven Naumann
Dividing the number of core-hrebs in a text by the number of all hrebs yields the core concentration of the text: TK =
| Core | n
(1)
Altmann and Ziegler present the results on the basis of word hrebs as follows: – TK(Erlkönig) = 19/96 = 0.20 – TK(Erdstern) = 49/181 = 0.27. Our results on the basis of phrase-hrebs are – TK(Erlkönig) = 7/31 = 0.23 – TK(Erdstern) = 12/57 = 0.21. Again, we do not conduct a significance test but it is interesting to notice that the order given by the values is different. Another interesting measure suggested by Altmann and Ziegler is what they call text concentration defined as 1 n (2) R = 2 ∑ fi2 L i=1 where f represents the absolute frequency of the hrebs and L text length. Increasing R indicates increasing text concentration. The corresponding values for word hrebs are: – Erlkönig = 2397/2252 = 0.0473 – Erdstern = 2668/3682 = 0.0197 For phrase hrebs we obtain: – Erlkönig = 780/562 = 0.25 – Erdstern = 650/582 = 0.19 Normalizing the values in order to make texts of different length comparable using √ 1− R √ (3) Rrel = 1 − 1/ n yields
Quantitative analysis of co-reference structures in texts
325
– Rrel (Erlkönig) = 0.87 (word hrebs) and 0.61 (phrase hrebs) – Rrel (Erdstern) = 0.93 (word hrebs) and 0.65 (phrase hrebs). Here, the results show the same tendency – although a conclusion cannot be drawn on the basis of just two texts.
5.2
Diffusion
The greater the distance between different realizations of a hreb, the more diffuse the hreb is considered to be. DH =
sup(H p ) − inf(H p ) |H |
(4)
Here H denotes the hreb for which the value is calculated, | H | represents the number of types of the given hreb and sup and inf stand for the highest and lowest position of corresponding hreb tokens respectively. Although, in principle, word and phrase hrebs are not comparable, we show in the following table the values for those hrebs which at least share some referential flavour: Table 1: Diffusion values Erlkönig phrase Dword DH H Kind Vater Tochter Arm mean
6.50 8.42 9.67 66.00 37.68
3.61 5.07 2.33 24.00 8.62
Erdstern Dword H Professor Sand Bücher Arm Erdstern ESindividual ESgeneric mean
5.75 110.00 32.50 66.00 9.77
47.03
phrase
DH
1.66 30.50 0.50 24.00 3.22 7.16 8.43
Note that in the case of the Erdstern hreb, quite different values are obtained depending on whether generic and individual meanings are differentiated or not. This finding reflects the fact that the individual Erdstern mushroom found by the narrator plays a role only at the beginning of the text, whereas reflections about the Erdstern as a specific type of mushroom (generic use) are found throughout the second half of the story.
326 Reinhard Köhler and Sven Naumann
5.3
Compactness
The compactness of a text can be measured by regarding the number of hrebs with respect to its length. Altmann and Ziegler define: K=
1 − Ln 1 − L1
(5)
Again, both methods seem to show the same tendency and, moreover, conform to the common intuition that poems form a particularly compact text type. C(Erlkonig) ¨ = C(Erdstern) =
5.4
1 − 31 77 1 1 − 77 57 1 − 103 1 1 − 103
= 0.60/0.99 = 0.61 (word hrebs 0.58) = 0.45/0.99 = 0.45 (word hrebs 0.51)
The Distribution of hreb properties
As phrases possess properties such as length, frequency, complexity, depth of embedding, position, information etc., also the hrebs which are based on these phrases can be characterized in terms of these properties. Though we are momentarily not in a position to formulate a specific hypothesis about the corresponding probability distributions, we think it is promising to investigate the frequency distributions of properties of the phrases which form a given hreb. However, only the most frequent hrebs in sufficiently long texts contain enough phrases to allow the application of statistical methods. Therefore, we concentrate on the distributional analysis of hreb properties themselves. As an illustrative example of this possibility, we present the rank frequency distribution of the sizes of phrase hrebs in Erdstern computed with the help of the Altmann Fitter. 6
Conclusion
Altmann’s and Ziegler’s approach is based on entities quite different from ours. Therefore, we cannot expect the results of the two studies to be comparable in a straightforward way. Nevertheless, in some cases, we obtained
Quantitative analysis of co-reference structures in texts
327
Figure 3: Fitting the negative hypergeometric distribution to the rank frequency data shown in Table 2
similar values. For theoretical reasons we did not perform a significance test of the differences between Altmann’s and Ziegler’s and our results. There would be no way to find a plausible interpretation. Our study has shown that our proposal to use phrases instead of words for the definition of hrebs is not only theoretically justified, but also works in practice. This first attempt at investigating co-referential text structures by means of phrase hrebs is rather limited in respect to the operationalization of the basic units and to the phrase type we took into account. Further studies will stepwise lift these restrictions.
328 Reinhard Köhler and Sven Naumann Table 2: Rank frequency of phrase hreb frequency (sample size N = 104): negative hypergeometric (K, M, n) and Zipf-Mandelbrot (a, b) distributions X [i] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
F[i] 22 9 6 4 3 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
NPNHG [i] 22.1895 7.2704 4.8405 3.7685 3.1465 2.7338 2.4371 2.2120 2.0346 1.8907 1.7713 1.6706 1.5842 1.5094 1.4439 1.3861 1.3346 1.2886 1.2471 1.2096 1.1756 1.1446 1.1163 1.0903 1.0665 1.0447 1.0246 1.0060 0.9890 NHG ZM
NPZM [i]
X [i]
F[i]
NPNHG [i]
13.0336 8.8549 6.7389 5.4552 4.5913 3.9691 3.4990 3.1310 2.8349 2.5913 2.3873 2.2138 2.0646 1.9347 1.8206 1.7196 1.6295 1.5486 1.4756 1.4094 1.3490 1.2938 1.2430 1.1961 1.1528 1.1126 1.0752 1.0403 1.0076
30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.9733 0.9589 0.9456 0.9335 0.9225 0.9124 0.9034 0.8953 0.8882 0.8820 0.8768 0.8725 0.8693 0.8671 0.8661 0.8662 0.8677 0.8708 0.8756 0.8824 0.8918 0.9043 0.9209 0.9430 0.9733 1.0163 1.0820 1.1991 1.5132
K = 1.1095, M = 0.3264, n = 57 χ2 = 2.56, DF = 41, P(χ2 ) ≈ 1.00 a = 0.9396, b = 0.9648, n = 58 χ2 = 17.06, DF = 39, P(χ2 ) = 0.99
NPZM [i] 0.9770 0.9483 0.9212 0.8957 0.8716 0.8488 0.8272 0.8067 0.7873 0.7688 0.7511 0.7343 0.7182 0.7028 0.6882 0.6741 0.6606 0.6476 0.6352 0.6232 0.6118 0.6007 0.5900 0.5797 0.5698 0.5603 0.5510 0.5421 0.5334
Quantitative analysis of co-reference structures in texts
329
References Hˇrebíˇcek, Ludˇek 1995 Text Levels. Language constructs, constituents and the MenzerathAltmann Law. Trier: Wissenschaftlicher Verlag. 1997 Lectures on text theory. Prague: Oriental Institute. Naumann, Sven 2004 “XML-basierte Tools zur Entwicklung und Pflege syntaktisch annotierter Korpora”. In: Mehler, Alexander; Lobin, Henning (Hg.), Automatische Textanalyse. Wiesbaden: VS Verlag, 153–166. Ziegler, Arne 2005 “Denotative Textanalyse”. In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Rajmund (Eds.), Quantitative Linguistics. An International Handbook. Berlin / New York: de Gruyter, 423–446. Ziegler, Arne; Altmann, Gabriel 2000 Denotative Textanalyse. Wien: Edition Praesens.
Anthroponym – Pseudonym – Kryptonym: Zur Namensgebung in Erpresserschreiben Helle Körner
1
Einleitung
“Die Gerechten”, “ASE Agentur für Schuldeneintreibung”, “Robin Hood” oder auch “Sandman”1 – dies alles sind Namen bzw. Bezeichnungen, die sich Erpresser in Tatschreiben gegeben haben. Welche Kriterien legen sie bei der Namenswahl zugrunde? Inwieweit lassen sich solche Täterbezeichnungen mit den bisherigen Kategorien der Onomastik charakterisieren? Neben der Beantwortung dieser Fragen möchte ich mit diesem Beitrag den Begriff des Kryptonyms2 für die Onomastik fruchtbar machen: Bislang wurde es als eine besonders verrätselte Form des Pseudonyms betrachtet. Man kann es aber auch als einen von Tätern3 ausgedachten Namen zur Geheimhaltung und Verdeckung des richtigen Namens im Zusammenhang mit einer Straftat ansehen. Diese Definition liegt dem Aufsatz zugrunde. Um mein weiteres Vorgehen verständlich zu machen, möchte ich zunächst einige Hinweise zum zugrunde liegenden Korpus geben. Im Rahmen einer Kooperation zwischen der Universität Göttingen und dem Bundeskriminalamt Wiesbaden (BKA) fand das Projekt LiKtORA statt, d.h. die Linguistische Korpusanalyse als textanalytische Option für Repräsentation und Auswertung von Tatschreiben.4 Vom BKA wurde uns für dieses Projekt ein Korpus von 1500 Tatschreiben zur Verfügung gestellt, das wir mittels einer neu erstellten Taggingsystematik annotierten. Diese Korpusbasis wurde dafür in 12 1. Sämtliche in Anführungszeichen gesetzte Zitate stammen aus Tatschreiben; Orthographiefehler in Korpuszitaten sind nicht korrigiert 2. Für den Verweis auf diese Bezeichnung bin ich PD Dr. Albert Busch sehr dankbar 3. Im weiteren Text werde ich im Plural von Tätern sprechen, auch wenn es sich im Einzelfall um einen einzelnen Täter handeln sollte 4. Die grundlegende Bearbeitung dieses Korpus, d.h. die Erstellung eines Kodiersystems und die anschließende Annotation hat neben mir Ina Kühner Dipl. Hdl. geleistet, der ich für die hervorragende Zusammenarbeit und den anregenden Gedankenaustausch ganz herzlich danke. Auch PD Dr. Albert Busch bin ich zu großem Dank verpflichtet, der uns während des Projekts vielfach mit Rat und Tat zur Seite stand. Für eine ausführlichere Beschreibung des Projekts vgl. Busch & Heitz (2005).
332 Helle Körner
Teilkorpora gegliedert, von denen die Korpora 1–10 die Erpresserschreiben im engeren Sinne sind (1 476 Schreiben), deren Anordnung vom BKA bereits vorgegeben war. Weitere enthaltene forensische Texte haben wir als neue Teilkorpora angelegt. Korpus 11 beinhaltet Verleumdungsschreiben, während in Korpus 12 die sonstigen forensischen Texte gesammelt sind. Insgesamt wurde die Annotierung für vier grundlegende Bereiche vorgenommen: Autorenstilisierung, Textmerkmale, Verstellungspotenzial und sonstige linguistische Auffälligkeiten. Der zur Autorenstilisierung gehörende Bereich Täterbezeichnungen weckte unser besonderes Interesse, als wir Bezüge zwischen Tatschreiben herstellen konnten, die unseres Erachtens zu diesem Zeitpunkt vom BKA nicht vergleichend beachtet worden sind, wie etwa die Zuordnung zu zwei unterschiedlichen Teilkorpora vermuten lässt. Aus diesem Anlass entstand die diesem Aufsatz zugrunde liegende Datenbasis. Insgesamt wurden 267 Kryptonyme aus 803 Tatschreiben ausgewertet; mehr als die Hälfte der Schreiben enthält somit eine Täterbezeichnung. 2
Klassifikation der Namen
Für eine angemessene Auswertung der Kryptonyme erfolgte eine Untersuchung zweier Aspekte: erstens die Motivation der Namensgebung, d.h. welchem Ausschnitt der Welt ein Name zugeordnet werden kann, und zweitens die angenommene Absicht der Täter, also welche Wirkung mit dem jeweiligen Namen erzielt werden soll. 2.1
Ursprung der Benennung
Am häufigsten wurden tatsächlich Personennamen zur Benennung ausgewählt: Es handelt sich hier entweder um Vornamen, Nachnamen oder beides. “M ÜLLER M EIER S CHULZE”, “Nico-Heyen Poppinga” oder “A HMON S ANKT H EIJG” sind dafür Beispiele. In den seltensten Fällen – wenn überhaupt – wird es sich dabei um den eigenen Namen handeln. Die Angabe des Namens einer real existierenden Person dient teilweise auch der Verleumdung eben dieser benannten Person, so vermuten wir zumindest im folgenden Fall: “Wenn es bei mir, auf meinem Konto, bei der XXX-Bank AG in OName bis zum 15. Februar 1909, 1100 h einen Betrag in US-Dollar nicht eingeht, werden wir auf alle Flugzeuge mit nuklearen Raketen schieße Das Eigentum über Alles! Kto.Nr. 12 345 678 90 Mein Name ist Johns Bèlor Kiss”.
Anthroponym – Pseudonym – Kryptonym 333
Die nächste große Subkategorie lässt sich mit dem Begriff Gruppennamen beschreiben: Hier liegen Bezeichnungen vor, die einen bestimmten Grad von Organisiertheit vermuten lassen. Dies kann im Einzelfall schon die bloße Vorgabe der Zugehörigkeit zu einer Gruppe sein. “Ihr schlimster alptraum die X-Gang He, He!”, “Garda Romania”, oder “D EMOKRATISCHER A RBEITS KREISE “W IR SIND DIE S INTFLUT” sind Beispiele, die die Bandbreite der unterschiedlichen Benennungen und des Organisationsgrades aufzeigen. Recht häufig tauchen bei der Motivierung von Kryptonymen Begriffe auf, die einen politischen Hintergrund vorgeben: “Die grauen Panter”, “D IE RE VOLUTIONÄRE F RONT IN A KTION ! kommando wolfgang werner grams rote armee fraktion”, “terrorgruppe islamischer dschihad” oder “Nationale Alternative” – das Spektrum der politischen Ausrichtung reicht also von links- bis zu rechtsextremistischen Parolen, wobei bislang etwas häufiger auf die Sprache von linksextremistischen Organisationen wie der RAF zurückgegriffen wurde. Auch Berühmtheiten müssen immer wieder als Namensgeber für Erpresser herhalten: “C OLUMBO ”, “Helmut Kohl” oder “Dagobert–Junior” – wie diese exemplarische Auswahl zeigt, handelt es sich hier um eine wahre Fundgrube für die Täter. Die Auswahl reicht vom Nachahmungstäter des deutschen Erpressers schlechthin5 über real existierende Politiker, fiktive Figuren wie “Robin Hood” zu Fabelwesen wie “die Zwerge” oder gar biblischen Gestalten. Ebenfalls einen relativ hohen Rang als Bezeichnungsgeber nehmen Abkürzungen ein. Dabei scheint es sich teilweise um Initialen eines Namens zu handeln wie “D.P.”, teilweise aber auch um kryptische Abkürzungen wie z.B. “A.j.v.c.”, deren Sinn man ohne weiteres Wissen kaum erschließen kann. Ein häufiger Befund ist der, dass viele der Täter offenbar kein eindeutiges Textsorten- und Textmusterwissen darüber haben, wie ein Erpresserbrief aussehen sollte. Schließlich existiert hierfür keine Norm. Es gibt zwar immer wieder Hinweise auf die Beeinflussung durch im Fernsehen gezeigte Erpressungen, aber in der Praxis taucht der prototypische Fall einer fiktiven Erpressung nicht auf: der aus Zeitungsbuchstaben zusammengeklebte Erpresserbrief. Eher erfolgt dann eine Orientierung an DIN 5008: Auffällig sind typische Merkmale wie die Gestaltung des Briefkopfes oder die Formelhaf5. Erstaunlicherweise hat der wohl bekannteste deutsche Erpresser Arno Funke alias Dagobert sich selbst gar nicht mit diesem Namen bezeichnet, die meisten seiner Briefe sind nicht unterschrieben, die ersten beiden mit “XXX” gekennzeichnet. “Dagobert” ist eine Täterbezeichnung, die fast ausschließlich durch die Presse geprägt wurde: Arno Funke verwendet diesen Namen nur in einem einzigen Schreiben
334 Helle Körner
tigkeit der Unterschrift in Bezeichnungen wie “unterschrift und namen offen. die gruppe” oder “G ICO –P HARMA A MSTERDAM / Geschäftsführer”. In die Namenswahl werden weiterhin auch Fremdsprachen einbezogen, dabei werden sowohl englische wie auch griechische oder sogar hebräische Versatzstücke benutzt, wie die exemplarische Auswahl zeigt: “A LPHA –O MEGA”, “die nonames” oder “aleph”. Ebenso werden teilweise Berufsbezeichnungen eingesetzt; allerdings wurde diese Kategorie sehr weit gefasst, so dass neben “Der arme Geschäftführer” auch Ausdrücke wie “der Vollstrecker!!” oder “Ein entrüssteter Bürger” zu finden sind. Auch die Fälle, in denen die Täter damit drohen, die Öffentlichkeit von der Erpressung in Kenntnis zu setzen und sich zu diesem Zweck als “Mitarbeiter der Fa. FName” ausgeben, sind in dieser Rubrik erfasst. In einigen wenigen Fällen werden die Täterbezeichnungen explizit als Kennwort deklariert, so z.B. bei “Identifikation: S TAAT 1/A-03” oder “M INOR 2000”. Meistens werden solche Kennwörter dabei sowohl im Briefkopf, im Fließtext und auch als Unterschrift verwendet: “Als Erkennungswort von unserer Seite gilt: M INOR 2001. M INOR ist den anderen Stellen bekannt, die dazugehörende Zahl nicht (dies ist zur Vorbeugung, falls sich irgendein Scherzbold einmischen wollte). Wir melden uns bei Ihnen also immer mit M INOR 2001. [. . . ] M INOR 2001”. Neben diesen Kennwörtern bleiben auch Begriffe, die sich im weitesten Sinne der Natur zuordnen lassen, nicht unbeachtet. In erster Linie wird dabei auf Tierarten zurückgegriffen, Pflanzen werden eher selten als Namensgeber herangezogen: “D IE M AIKÄFER ”, “Viele Grüße vom bösen Wolf”, “Der Pilz” oder “Ihr Hase”. Wie diese Beispiele zeigen, ist die Bandbreite der semantischen Konnotationen sehr groß: Sowohl eher harmlose Tiere als auch Raubtiere dienen zur Inspiration. Als Sammelbecken für alle in die sonstigen Kategorien nicht einzuordnenden Begriffe ist Sonstige Bezeichnungen zu verstehen. Da aus fast jedem möglichen Bereich der Welt Benennungen im Korpus auftauchen (teilweise sogar Neuschöpfungen bzw. Wortbildungen), die aber jeweils einen anderen Ursprung haben, d.h. keine oder nur wenige semantische Merkmale mit anderen teilen, ist diese Sammelkategorie relativ umfangreich. “G RRIX ”, “Die Latte” oder auch “gez GelT” zeigen diese Vielfalt. Neben dieser Art von Kryptonymen, deren Ursprünge sich nicht in einer Gruppe zusammenfassen lassen, sind in dieser Rubrik auch jene Bezeichnungen enthalten, die sich einer genaueren Zuordnung entziehen, wie “M 3” oder “XXO”. Tabelle 1 zeigt die verschiedenen Bereiche, aus denen die Namen stammen, im Überblick:
Anthroponym – Pseudonym – Kryptonym 335 Tabelle 1: Ursprung der Nomination Ursprung Natur Kennwort Fremdsprache Berufsbezeichnung DIN 5008 Abkürzung politischer Hintergrund Berühmtheit Gruppenname Personenname Sonstige Bezeichnungen Gesamtzahl
Anzahl 10 10 11 13 17 20 27 28 38 44 49
Beispiel Die Laubfrösche Kennwort: “Siegel a1” Blue Moon Ein Kaufmann ??????????? ??????????? ??????????? R.A.S.P E T A II DR. STEFFEN COLUMBO Ihre Freunde der Eisenbahn Herbert Nr. ZWEI
267
Die Namensvergabe für Anthroponyme und Pseudonyme folgt ersichtlich anderen Gesetzmäßigkeiten. Als Anthroponyme werden hier aus Individualund Familiennamen bestehende Wahrnamen verstanden; beim Pseudonym schließe ich mich der Definition von Witkowski (1964: 75) an: Danach ist ein Pseudonym ein vorgetäuschter, falscher Name, der der Geheimhaltung und Verdeckung des richtigen Namens dient (insbesondere bei Künstlern). Anthroponyme sind in der Wahlfreiheit des Namensträgers wesentlich eingeschränkter als dies bei Pseudonymen oder Kryptonymen der Fall ist. Der Familienname ist gesetzlich vorgeschrieben, er kann nur durch Heirat oder eine offizielle Namensänderung geändert werden. Der Vorname wird ebenfalls nicht durch den Namensträger selbst bestimmt, sondern i.d.R. durch dessen Eltern vergeben. Die Bildung von Vornamen ist dabei überwiegend reproduktiv nach Seutter (1996: 39, 111): Vornamen werden aus einem bereits vorhandenen Namenspool ausgewählt. Pseudonyme werden zwar von den Namensträgern selbst gewählt, sie werden aber meist dem bürgerlichen Namen nachgebildet und können aus Vornamen und Familienamen oder aus nur einem von beiden bestehen. Hierbei handelt es sich um den produktiven Typen der Namensbildung. Subjektive Vorlieben werden häufig direkt in den Namen eingebunden, sie treten also offenkundiger zutage als bei den Anthroponymen. Die Kryptonyme berücksichtigen ebenfalls subjektive Vorlieben, sind aber im Regelfall nicht mehr dem bürgerlichen Namen nachempfunden, wie Tabelle 1 gezeigt hat.
336 Helle Körner
2.2
Angenommene Absicht
Die Intention, die in den meisten Fällen hinter der Wahl eines bestimmten Namens zu stehen scheint, lässt sich am besten als Verstärkung der Drohung bezeichnen. Dies ist deshalb eine so elementare Kategorie, weil letztendlich jede Erpressung zwei grundlegende Bestandteile aufweisen muss: die Androhung eines Schadens und eine Forderung (vgl. Artmann 1996: 184f.; Baldauf 2000: 148). Beispiele dafür sind “O.R.S. Hinrichtungskommando”, “E U ER GANZ PERSÖNLICHER A LPTRAUM ” oder “RAF C OMMANDO H OLGER M EINS ”. Eine besondere Form liegt dabei in einigen wenigen Fällen vor, bei denen die Drohung dadurch verstärkt wird, dass in der Täterbezeichnung nochmals auf das Drohmittel zurückgegriffen wird: z.B. “der Feuerteufel” (Brandstiftung als Drohmittel) oder “Ihre Freunde der Eisenbahn” (Beschädigung des Schienennetzes als Drohmittel). Auch der Einbezug der Presse bzw. die Veröffentlichung der Erpressung wird von den Tätern in den Schreiben immer wieder als Druckmittel eingesetzt. In den Bezeichnungen kommt dieser Umstand dann zum Tragen, wenn die Täter sich als Mitarbeiter einer erpressten Firma ausgeben und vor vergifteten Nahrungsmitteln warnen: “Wir, Mitarbeiter der Firma FName in PLZ OName, haben Kenntnis darüber erhalten, daß eine Gruppe Menschen unserem Unternehmen gedroht hat, Produkte unseres Hauses mit Ameisenvernichtungsmittel zu vergiften.” Eine weitere Motivation, sich überhaupt für ein Kryptonym zu entscheiden, liegt in der dadurch möglichen Individualisierung der Täter: Eine Verwechslung mit anderen Erpressern soll so ausgeschlossen und Nachahmungstätern das Handwerk erschwert werden. Dies erfordert eine besondere Kreativität, wie Unterschriften wie “mausegeyer”, “Gruß von Franzi-Maus und Co” oder “G RRIX ” zeigen. Den direkten Gegenpol zur Individualisierung stellt die Anonymisierung dar. Für diese Auswertung wurden allerdings nur Formen der expliziten Anonymisierung wie “Mister X” oder “Ein Freund” gewertet. Nicht berücksichtigt wurden die Schreiben, in denen eine Anonymisierung implizit dergestalt erfolgte, dass die Täter auf eine Unterschrift oder sogar auf die Pronominalformen verzichteten. Einige Täter wiederum wandeln auf berühmten Spuren – vor allem auf denen Robin Hoods – wenn sie Namen wählen, die karitative Assoziationen hervorrufen: “anonyme Hilfsorganisation” oder auch “Gesellschaft für gerechte Vermögensverteilung Deutschland”. Im weitesten Sinne auch als karitativ einzustufen sind jene Fälle, in denen die Täter ihre eigene Bedürftigkeit betonen durch Bezeichnungen wie “Intressengemeinschaft
Anthroponym – Pseudonym – Kryptonym 337
d. Geschädigt”, “D IE B LINDEN ” oder “D IE B ETROFFENEN ”. Die Vorgabe einer geschäftlichen Angelegenheit wird ebenfalls gerne benutzt, um die eigentlichen Motive zu verdecken. Dies tritt häufig in Briefen auf, die sich an der DIN 5008 orientieren: “G ICO –P HARMA A MSTERDAM / Geschäftsführer” oder “Dr. Alfa* Postfach 40 52 10 *40232 Düsseldorf”. Teilweise erwecken die in diesem Bereich gesammelten Bezeichnungen den Eindruck, als wollten die Täter zudem ihre Erpressung als ein Geschäft tarnen oder vor sich selbst rechtfertigen. Namen wie “ASE Agentur für Schuldeneintreibung” oder “Verkaufsleitung /Anzeigenblatt-Kombination-Ost AKO” werden gewählt, um die Kernaussage des Haupttextes zu stützen, es handele sich gar nicht um eine Erpressung, sondern beispielsweise um ein Geschäft. Als letzte Intention bei der Namenswahl bleibt noch die Bildung zu erwähnen. In diesen Fällen geben die Erpresser ein Bildungsniveau vor – durch die Wahl einer bestimmten Ausdrucksweise, fremdsprachiger Versatzstücke oder mythologischer oder biblischer Figuren: “aleph”, “Ihr Demogenes” oder “matthäus” zeigen das. Auch die Unterschrift “S IGNED : C AESAR of the G.E.C. in agreement of the whole Crew G.E.C. our Fate is to rule the world! T HE G ERMAN E LITE C RES” kann als Vorgabe einer bestimmten Bildung angesehen werden, da es sich hierbei um eine für das Hackermilieu typische Signatur handelt. Für den Bereich der beabsichtigten Wirkung ist ebenfalls eine Sammelkategorie Sonstige Inhalte erforderlich, da es zu viele Benennungen gibt, deren Sinn ohne über die Tatschreiben hinausgehendes Wissen nicht zu erschließen ist: Warum nennen sich Erpresser “Dr. Best”, “S HG -R F: NName the L OO SER ” oder “C OLUMBO ”? Für letztere Bezeichnung, die hier den gewitzten Fernsehkommissar meint, könnte man unterstellen, dass die Täter damit ihre eigene Intelligenz betonen wollen. Meist verwenden die Erpresser jedoch wesentlich mehr Raum als nur eine Unterschrift darauf, die eigenen Vorzüge darzustellen: “Jeder Aufklärungsversuch Ihrerseits, sei es durch Polizei, Geheimdienst p.p., wird uns mit größter Wahrscheinlichkeit in allen Einzelheiten bekannt. Sie können davon ausgehen, daß wir über alle gegen uns grundlegend gerichteten Aktivitäten informiert werden und das gesamte personelle und technische Potential der genannten Organisationen kennen und in unsere Planung einbezogen haben. Auf eventuelle Aktivitäten dieser Organe wird angemessen reagiert.” Ähnlich wie beim Namensursprung muss allerdings auch hier zwischen singulär auftretenden Intentionen (“gez GelT”, “Für ein freies bosnien”) und nicht erkennbaren (“L OVE L ETTERs”) unterschieden werden.
338 Helle Körner
Im Überblick ergeben sich die in Tabelle 2 aufgeführten quantitativen Besetzungen der genannten Kategorien. Tabelle 2: Intention der Nomination Absicht
Anzahl
Verstärkung der Drohung Individualisierung Anonymisierung karitativ Vorgabe einer geschäftlichen Angelegenheit Bildung sonstige Inhalte Gesamtzahl
84 53 46 24 17 11 32
Beispiel Ital. Maf. Michael ??? XXX Kinder der dritten Welt Gesellschaft zum Schutz von Dienstleistungsbetrieben (Schutzgesellschaft) Octavian SHG-RF: NName the LOOSER ?
267
Vergleicht man die Motivation bei der Namensvergabe, so kann man feststellen: Die Vergabe von Vornamen bei Anthroponymen erfolgt nach persönlichen Vorlieben und Motiven der Eltern. Kriterien für die Auswahl sind u.a. der Klang eines Namens, persönliche Erfahrungen mit Trägern dieses Namens sowie der Zusammenklang mit dem Familiennamen. Für Pseudonyme spielen zwei weitere Motive eine wichtige Rolle: Entweder will der Träger aus politischen (oder privaten) Gründen untertauchen, oder es handelt sich gewissermaßen um eine Marketingstrategie zur Ersetzung eines unaussprechlichen oder eines Allerweltsnamens (vgl. Seutter 1996: 75). Bei den Kryptonymen verhält es sich ähnlich: Neben den bereits gezeigten Motiven soll einerseits eine Identifizierbarkeit unabhängig vom Wahrnamen gewährleistet sein; andererseits soll die eigene Person verschleiert bzw. ein Image durch das Kryptonym geschaffen werden.
3
Resümee
Die gezeigte Vielfalt belegt, dass Täter tatsächlich Zeit darauf verwenden, sich ein geeignetes Kryptonym zu überlegen; sie erachten diesen Punkt also durchaus als wichtig. Daher soll nun dieses bislang in der Onomastik wenig bearbeitete Feld in Bezug auf eine mögliche Kategorisierung6 näher be6. Auf die entsprechende Literatur wies mich PD Dr. Albert Busch hin, dem ich darüber hinaus für weitere Anregungen sehr dankbar bin.
Anthroponym – Pseudonym – Kryptonym 339
trachtet werden. Folgende hyponymische Einteilung bietet sich dabei für eine Charakterisierung an (nach Seutter 1996: 107): 1. Ebene: Anthroponyme 2. Ebene: Pseudonyme 3. Ebene: Kryptonyme Alle drei Ebenen haben gemeinsam, dass sie Bezeichnungen für singuläre Entitäten, bzw. Namen für Menschen sind. Anthroponyme sind in ihrer Funktion allgemeingültig, bei ihnen handelt es sich um Zwangsnamen, die in funktionaler Hinsicht (vor allem von Seiten des Gesetzgebers oder Staates) immer zu führen sind. Daher sind sie nicht ersetzbar. Anders verhält es sich mit Pseudonymen: Es sind Wahlnamen, die normalerweise nur in bestimmten Lebensbereichen getragen werden, in denen sie dann aber den Wahrnamen ersetzen können; zu diesem kann ein Bezug vorhanden sein. Zu den Wahlnamen sind auch Kryptonyme zu zählen. Im Gegensatz zu Pseudonymen werden sie jedoch ausschließlich in einem ganz bestimmten Lebensbereich, dem Begehen einer Straftat, benutzt. Da das Kryptonym im Gegensatz zum Pseudonym nicht nur ein Falsch-, sondern im wahrsten Sinne des Wortes ein Geheimname ist, kann es außerhalb des Straftatkontextes nie den Wahrnamen ersetzen. Aus diesem Grund sollte ein Bezug zum Anthroponym in keiner Weise gegeben sein. Das wichtigste Unterscheidungsmerkmal, in dem Täterbezeichnungen sich der Einordnung in eine der anderen Kategorien widersetzen, ist jedoch der deiktische Bezug. Täterbezeichnungen haben zwar wie auch Pseudonyme oder die Wahrnamen einen identifizierenden Charakter – diesen haben sie jedoch nur im Sinne einer möglichen Zuordnung zu einem bestimmten Erpressungsfall bzw. -serie. Während durch ein Anthroponym oder Pseudonym eine Person klar gekennzeichnet und gewissermaßen definiert ist, gilt dies für Kryptonyme nicht. Sie können, wie die Beispiele gezeigt haben, sogar Gruppenbezeichnungen sein – im Gegensatz zu Anthroponymen und Pseudonymen. Einen abschließenden Überblick über die Merkmalsausprägungen bietet Tabelle 3; den jeweils genannten Merkmalen werden die Ausprägungen vorhanden (+), nicht vorhanden (−) oder teilweise vorhanden (0) zugewiesen. Die bislang in der Namensgebung üblichen Prinzipien gelten für Kryptonyme also nur in eingeschränktem Maße: Es handelt sich also um Namen, die der Bezeichnung einer singulären Entität, d.h. Menschen dienen; die übliche Namensbestandteile wie Vornamen und Familiennamen enthalten können, dies aber nicht müssen; denen der deiktische Bezug fehlt; die nie in der
340 Helle Körner Tabelle 3: Ausprägung der onomastischen Merkmale Merkmal Bezeichnung einer singulären Entität Namen, die zur Bezeichnung eines Menschen dienen Bestandteile VN und/oder FN Individualsierung Gebrauch in der Öffentlichkeit Offizieller Gebrauch Gesetzliche Vorschriften In seiner Funktion allgemeingültig Wahlfreiheit Produktive Namensbildung
Anthroponym + +
Pseudonym + +
Kryptonym + +
+ + + + + + -
+ + + + +
0 + +
Öffentlichkeit oder von offizieller Seite gebraucht werden. Weiterhin gelten für die Ausgestaltung von Kryptonymen keine gesetzlichen Vorschriften, sie gelten nur in einem eingeschränkten Kommunikationsbereich, können vom Namensträger i.d.R. selbst gewählt werden und gehören zu einem äußerst produktiven Bereich der Namensbildung.
Literatur Artmann, Peter 1996 Tätertexte – eine linguistische Analyse der Textsorten Erpresserbrief und Drohbrief. Würzburg: Phil. Diss. Baldauf, Christa (Hg.) 2000 2. Symposion Autorenerkennung des Bundeskriminalamtes. Wiesbaden: BKA. Busch, Albert 2006 “Textsorte Erpresserschreiben.” In: Wichter, Sigurd; Busch, Albert (Hg.), Wissenstransfer – Erfolgskontrolle und Rückmeldungen aus der Praxis. Frankfurt/M.: Lang, 51–65. [Im Druck.] Busch, Albert; Heitz, Susanne Catharina 2006 “Wissenstransfer und Verstellung in Erpresserschreiben: Zur Analyse von Verstellungsstrategien auf korpuslinguistischer Basis”. In: Wichter, Sigurd; Busch, Albert (Hg.), Wissenstransfer – Erfolgskontrolle und Rückmeldungen aus der Praxis. Frankfurt/M.: Lang, 85–102. [Im Druck.]
Anthroponym – Pseudonym – Kryptonym 341 Heitz, Susanne Catharina 2002 Methoden der Verstellung bei der Produktion von Erpressungsschreiben. Mainz: Magisterarbeit. Koß, Gerhard 2002 Namensforschung. Eine Einführung in die Onomastik. 3., aktualisierte Auflage. Tübingen: Niemeyer. Seutter, Konstanze 1996 Eigennamen und Recht. Tübingen: Niemeyer. Wichter, Sigurd; Busch, Albert 2006 Wissenstransfer – Erfolgskontrolle und Rückmeldungen aus der Praxis. Frankfurt/M.: Lang. [Im Druck] Witkowski, Teodolius 1964 Grundbegriffe der Namenkunde. Berlin: Akademie-Verlag.
Quantitative linguistics within Czech contexts Jan Králík
1
Introduction
Gabriel Altmann opened not only new directions in quantitative linguistics, but he evidently established new theoretical strengths for this branch. Although the previous theories – for example, type-token ratio or confrontations of empiric data with well-known statistical distributions – represented an important period, the real science first appeared with Altmann’s new conception, method and theory based on hidden perceptions made by Paul Menzerath. Gabriel Altmann developed a fully new approach that enabled linguists not only to describe and confront quantitative data in a reasonable way but also to explain them. For the occasion of hommage, it could serve as inspiration to mention some historical contexts of looking for conceptions, methods and theories for the future scientific branch, which must have surrounded everybody who dealt with quantitative linguistics in former Czechoslovakia, including Gabriel Altmann. A superficial view may reduce quantitative linguistics to quantification in linguistics only. Therefore, the origins of quantitative linguistics could be seen in studies that were undertaken in the field of stenography and shorthand. However, as mentioned above, a serious scientific branch should be based not only on empirics and simple applications but also on its own conceptions, its own methods and its own theory. Czech quantitative linguistics could find these three bases in three historical works. The first one of them, with a polite allowance, might allow us to assume that Gabriel Altmann was born in the jubilee year of the third centenary of Czech quantitative linguistics. As long ago as in the time of the Thirty Years War, John Amos Comenius pointed out some words as “useful” and other words as “old fashioned’. In his Latin Ianua Linguarum Reserata (Komenský, 1631), and two years later in its Czech version Dvéˇre jazyk˚u otevˇrené, Comenius improved the temporary word games by identifying the one thousand most often used words in Latin, evidently of a higher linguistic level, at which he introduced this simple quantification: words corresponding to the one hundred “most common things” (“things” such as God, nature, man, honours, etc.) have been brought
344 Jan Králík
into a “certain order”. Today, we should speak about ordering the one hundred most frequent conceptions according to their social weights. Comenius’ method was applied to several typologically different languages (Latin, German, Czech, Hungarian). His target was not yet a frequency list or a dictionary for translations, but didactically composed continuous text, in which none of the most important (most common) conceptions would be missing. After three and half centuries, the inspiring idea of general linguistic categories and their quantification arose from this Comenius’ proposal. Thus, within the Czech linguistic tradition, origins of classes of equivalence and of their quantitative evaluation can be found. Many years later, in 1886, which again formed a jubilee, Czech mathematician Anton Seydler joined exciting discussions about the false Czech manuscripts Královédvorský and Zelenohorský (Seydler 1886a,b). These manuscripts, as they appeared around 1817, seemed to support the idea of rich medieval Czech epic and lyric poetry with strongly patriotic themes. Seydler suggested an objective method of how to create probabilistic hypothesis about the coincidences of peculiarities found in the disputed texts and in texts written by potential forgers and their contemporaries (Hanka, Jungmann and other authorities form the first two decades of 19th century). The calculations proved catastrophic for the manuscript defenders, and formulation in words yet multiplied the strengths of calculation: “We can bet 3000 million against one that not all peculiarities in manuscript K are random only.” Besides Seydler’s careful formulation “not all . . . are random only”, which has its formal logical value, we should underline both his skilled application of probabilistic combinatorics and his method of probabilistic approach to coincidences of linguistic events appearing simultaneously on several linguistic levels. Seydler focused his attention to such coincidences as: forms of imperfectum and presens, substitution of imperfectum with aorist, dual with feminina, instrumental singularis with the paradigm of “znamenie”, suffixes -o with adverbs, contexts for appearance of the short form and composed form of adjectives, etc. From this point of view, Seydler published a pioneer quantitative paper based on multidimensional space of morphology and grammar. The exclusively Czech theme of disputed authorship, as well as the language of the paper, however, confined Seydler’s original method to Czech lands only. Nonetheless, local knowledge of multidimensional probabilistic approach did not disappear. In 1911, Czech linguist Vilém Mathesius, who was only 29 at the time, gave a lecture at the meeting of the Historical and Philological Section of the
Quantitative linguistics within Czech contexts
345
Czech Royal Society of Sciences. The theme was, among others, static fluctuations in pronunciation of long vowels by a particular speaker and by individual speakers inside language societies. In other words, Mathesius spoke about static fluctuations (statické kolísání) of linguistic events within a given period, which he saw in opposition to dynamic changes inside the language over the course of time (mˇenlivost v postupu cˇ asovém). For linguists, he seemingly both separated and connected the synchronic and diachronic approach. However, his perception of static fluctuations and his introduction of the conception of potentiality, not only for such cases but for all linguistic events in general, formed an essential step towards future theories based on probabilistic modelling. Mathesius spoke about fluctuations among regularities of the word order in a sentence, about fluctuations in accenting parts of speech in a sentence, about fluctuations of the word border in spoken language, etc. By this, Mathesius proved he was ahead of any contemporary empiric research on which quantitative linguistics based a great deal of its next development. The first original findings, which formed the well-known bases of quantitative linguistics, appeared about the same time. French stenographer Jean Baptiste Estoup (Estoup 1916) described regularities between the rise of the text length and the rise of the number of new words, as well as regularities in the quantitative structure of word lists ordered by frequencies. The key discovery followed shortly later in the form of mathematical formulations, published by E.V. Condon (Condon 1928) and soon corrected and popularised by G.K. Zipf (Zipf 1929). At the same time Condon published his paper, Mathesius took part in the formulation of the Theses of the Prague Linguistic Circle (PLC). An official presentation was made in 1929 at the first Conference of Slavonic Philologists in Prague (Theses 1929). Again, the Theses of PLC brought new inspiration to quantitative linguistics, which had not been fully exploited yet. There were such ideas as: definition of linguistic items by distinctive features, conception of convergence and divergence in language, contradiction of necessity and randomness. The theses concerned also the functional point of view and conception of language as a system, the unity and diversity of synchronic and diachronic research, and questions concerning limits of language formalisation, etc. This directly called for application of the mathematical approach. Mathematical and probabilistic modelling of language, as the most specific method, could start. Mathematics – statistics especially – offered in some measure methods of how to observe discrete elements in communication on
346 Jan Králík
the level of discrete sets. Mathematics could offer methods of how to describe the functioning of linguistic elements in communication on the level of functional categories that are realised by choice. At this level, for the first time, differences and separations between a mere description and real model could be considered. All the more, conversion of the descriptive approach into functional modelling could be considered too. The Theses of PLC allowed two ways to perform such a conversion by means of the functional point of view: first, the introduced conception of functional scheme forms as a base on which formalised models can be developed; second, any empiric description of the linguistic elements functioning can be developed into a model by stochastisation. Before such contemplations could be formulated in today’s terms, quantitative linguists started to fill up their horizons by gathering numerous quantitative characteristics of linguistic phenomena. Linguists from the PLC made important further steps by the empiric description of phonetic systems of English and Czech. Then, Bohumil Trnka, who was the leading personality of this work, additionally gathered the very first bibliography of quantitative linguistics. He called it humbly A Tentative Bibliography, although his bibliographic collection of papers by nearly 170 authors represented an important constitutive work of a new linguistic branch. Trnka’s bibliography was published foresightedly not in Prague, but in Utrecht and Brussels (Trnka 1950). In Czechoslovakia during the ’50s, quantitative linguistics became politically assigned as an anti-science of the “bourgeois”, and the work on the Czech frequency dictionary, which took place in the Comenius Institute in Prague, was stopped. The reason was expressed by the word “objectivistic” and therefore “objectionable”. The book called Frequencies of Words, Parts of Speech and Word Forms in the Czech Language was belatedly printed in the early ’60s (Jelínek, Beˇcka & Tešitelová, 1961) after some political liberation enabled a new wave of mapping quantitative characteristics of Czech in communication. It also enabled looking for new technical means for such research. In The Czech Language institute of Czechoslovak Academy of Sciences, a special mechano-graphic laboratory (departement) was opened and headed by Jitka Štindlová. Czech quantitative linguistics owes her for the definition and introduction of lexical indexes, for the frequency dictionary of works by the poet Petr Bezruˇc, and for the first machine-reordered Czech reversed alphabetic dictionary of more than 200 000 lemmata. At the same institute, the departement of mathematical linguistics had also been established in 1961,
Quantitative linguistics within Czech contexts
347
thanks to Lubomír Doležel. However, the long-term head of this department was Marie Tešitelová, whom Czech quantitative linguistics owes for continuing the bibliography of quantitative linguistics covering two decades 1962– 1982, for inspiring new quantitative contributions to ten volumes of Prague Studies in Mathematical Linguistics, and for the project Czech Academic Corpus, which remains unique in the world context. In 1970, Marie Tešitelová and her colleagues projected this corpus as an extended data base of Czech texts, covering 540 000 running words, which have been provided in great detail by morphological and syntactical tags (Tešitelová et al., 1985). Detailed descriptions have been exploited by special computer programs and many commentaries have been published in a special book series. Although new quantitative models did not step into this project, the Czech Academic Corpus became an important testing and training instrument for applications and modelling of another generation, such as computerised analysis of information, automatic lemmatisation and disambiguation by contexts, computational construction of dependency trees, etc. Scientific and educational institutes used the Czech Academic Corpus in Czechoslovakia (Institute of Formal and Applied Linguistics, Institute of Theoretical and Computational Linguistics, Institute of the Czech National Corpus, philosophical faculties of Charles University in Prague and of Masaryk University in Brno, Czech High Technical School etc.). Some new authors are still using the data of the Czech Academic Corpus in Germany, Austria, Serbia, Spain, and the USA. The line of multi-level quantitative research, as it was mentioned with historical consequences, has been followed in Czechoslovakia beyond Prague. ˇ Mirek Cejka and Antonín Lamprecht in Brno developed new views in their glottochronological studies within the direction given originally by Swadesh and Lees. Lubomír Doležel in Canada concentrated his interest of linguistic quantifications on informatics within the direction given by Shannon. Henry Kuˇcera in the USA multiplied empiric models in the way introduced by Herdan. More or less related with the ideas developed in the PLC, some other important linguists from Czechoslovakia strongly influenced the future of quantitative linguistics. Among them, Gabriel Altmann in Germany (Bochum), as mentioned above, deepened perceptions made by Paul Menzerath on the field of synergetic linguistics. By this, perhaps unconsciously, Gabriel Altmann established a new school in quantitative linguistics, which is now commonly referred to as Bochum-Trier. In this direction, back in Prague, original views
348 Jan Králík
have been developed and added by Ludˇek Hˇrebíˇcek (Hˇrebíˇcek 2002). Such a brief enumeration can point out peaks only. After the activities of the above mentioned departments of The Czech Language Institute ended, the weight of the specific contribution of Czech quantitative linguists was underlined on an international level by the invitation of three colleagues from Prague to join the group of grounders of the International Quantitative Linguistics Association. Ludmila Uhlíˇrová became the first Czech member of the committee. After Czechoslovakia was divided, new quantitative linguistics projects in the newly formed Czech Republic have been supported by the Czech Grant Agency. Both old and new linguistic data in computer form suitable for quantifications were prepared and some original papers were presented and published, e.g., on word length and clause length distributions from the perspective of word order (Uhlíˇrová 1996, 1997, 2001), on occurrence probabilities as inherent features of linguistic elements, on distribution of such probabilities bound with Zipf law, on randomised seriation, etc. (Králík 1995, 1997ab, 2001). Presentation of new results in the Journal of Quantitative Linguistics and Glottometrics, as well as at conferences abroad, brought an important appreciation to Czech quantitative linguistics by situating the IVth international conference on quantitative linguistics, QUALICO 2000, in Prague. The Prague conference gained importance not only because it took place at the turn of the millennium, but also because, here, linguistics evidently closed its pre-computational history and made a clearer distinction between computer linguistics and corpus linguistics. The most important step forward could be expressed briefly as a program: from description to explanation. International cooperation in quantitative analysis of certain linguistic themes (e.g., sentence length and word length distributions) showed its deep sense and effect. The necessity of meaningful interpretation was underlined by intersections of quantitative linguistics with historical and cognitive linguistics, psycholinguistics, dialectology, didactics, sociology, toponomastics, terminology, etc. The new situation generated a strict task to build all new models in such a way that inversions into fully interpretative elementary conceptions could be guaranteed. Direct applications of today’s knowledge connect quantitative linguistics with automatic corrections for text editors (both spelling and syntax checkers); automatic extraction and analysis of linguistic information; disambiguation in decoding spoken language; automatic analysis of polysemic words; automatic tagging and lemmatisation; automatic sentence analysis and con-
Quantitative linguistics within Czech contexts
349
struction; treebanks; automatic elimination of improper alternatives in computer translation; multidimensional didactic techniques, etc. However, models developed on the basis of quantitative linguistics touch much deeper mechanisms of human recognition activities, associative processes, communication, etc., and also represent an important view of humans thinking independently of a particular language. Since Q UALICO 2000 in Prague, new questions have arisen, such as: what type of information will be offered to quantitative linguists by data from corpora; how to confront traditional quantitative characteristics of linguistic phenomena with the enormous amount (and sharpness) of data from corpora; to what extent is the individuality of texts lost in corpora and what the individuality of the texts means in these consequences; and which base should be chosen for new models if the majority of previous models, historically based on the impossibility of large samples, does not eliminate the attractiveness and usefulness of the great numbers law. These and many other questions show quantitative linguistics have assuredly opened a branch with a widely interesting future. Although it was mere luck the indicated perspectives were concentrated on and expressed in Prague, we may hope that the Czech contribution of a special approach to conceptions, methods and theories in quantitative linguistics will not remain limited to this history and place only, but that it will go on in the future with more international cooperation.
References Baayen, R. Harald (Ed.) 2000 Proceedings of the fourth conference of the International Quantitative Linguistics Association QUALICO 2000. Prague. Condon, Edward U. 1928 “Statistics of Vocabulary”. In: Science, 67(1733); 300. ˇ Cejka, Mirek; Lamprecht, Arnošt 1963 “K otázce vzniku a diferenciace slovanských jazyk˚u”. In: Sborník filozofické fakulty brnˇenské university J.E. Purkynˇe. Brno: Universita J.E. Purkynˇe, 1–20. Estoup, Jean-Baptiste 1916 Gammes sténographiques. Paris: Institut sténographique. Hˇrebíˇcek, Ludˇek 2002 Vyprávˇení o lingvistických experimentech s textem. Praha: Academia. Jelínek, Jaroslav; Beˇcka, Josef V.; Tˇešitelová, Marie 1961 Frekvence slov, slovních druh˚u a tvar˚u v cˇ eském jazyce. Praha: SPN.
350 Jan Králík Königová, Marie 1965 “K otázce statistického výbˇeru v lingvistice”. In: Slovo a slovesnost, 26; 161–168. Komenský, Jan Ámos 1631 Ianua linguarum reserata. Repr. 1959. Praha: SPN. Králík, Jan 1991 “Matematické modelování a Teze PLK”. In: Slovo a slovesnost, 52; 234–237. 1995a “Present experience and the computational perspectives of quantitative linguistics”. In: Prague Studies in Mathematical Linguistics, 11; 135– 140. 1995b “Probabilistic Scaling of Texts”. In: Contributions to Quantitative Linguistics. Dordrecht, NL: Kluwer Academic Publishers, 227–240. 1997 “On the Probability of Probabilities”. In: Qualico, Third International Conference on Quantitative Linguistics. Helsinki, August 26-29, 77– 82. 1997 “A Short Comment on Probability in Quantitative Linguistics”. In: Journal of Quantitative Linguistics, 4; 126–130. 2001 “On Quantitative Characteristics of Corpora Approaching Infinite Size”. In: Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Festschrift in honour of Ludˇek Hˇrebíˇcek. [= Quantitative Linguistics; 60]. Trier: Wissenschaftlicher Verlag, 149–152. Kuˇcera, Henry 1963 “Entropy, redundancy and functional load in Russian and Czech”. In: American Contributions to the Fifth International Congress of Slavistics. The Hague: Mouton, 191–218. Mathesius, Vilém ˇ 1911 “O potenciálnosti jev˚u jazykových. Vˇestník Král. Ceské spoleˇcnosti nauk, tˇrída hist”. In: Vachek, Josef (Ed.), U základ˚u pražské jazykovˇedné školy. Repr. 1970. Praha: Academia, 5–34. Seydler,August 1886a “Poˇcet pravdˇepodobnosti v pˇrítomném sporu”. In: Athenaeum, 3(7); 299–307. 1886b “Dodatek k mé úvaze o pravdˇepodobnosti”. In: Athenaeum, 3(10); 446–448. Tˇešitelová, Marie 1970 “J.Á. Komenský a racionalisace osvojování slovní zásoby”. In: Slovo a slovesnost, 31; 397–398. 1987 Kvantitativní lingvistika. Praha: SPN. Tˇešitelová, Marie; Petr, Jan; Králík, Jan 1986 Retrográdní slovník souˇcasné cˇ eštiny. Praha: Academia.
Quantitative linguistics within Czech contexts
351
Tˇešitelová, Marie; Confortiova, Helena; Králik, Jan; Ludviková, Marie; Nebeská, Iva; Uhlíˇrová, Ludmila 1985 Kvantitativní charakteristiky souˇcasné cˇ eštiny. Praha: Academia. Theses 1929 “Theses of the Prague Linguistic Circle (1929). Pražský lingvistický kroužek – Teze pˇredložené prvému sjezdu slovanských filolog˚u v Praze”. Repr. 1970. In: Vachek, Josef (Ed.), U základ˚u pražské jazykovˇedné školy. Praha: Academia, 35–65. Trnka, Bohumil 1935 A phonological analysis of present-day standard English. Praha: Filosofická fakulta University Karlovy. 1950 A Tentative Bibliography. Utrecht/Brussels: Spectrum Publishers. ˇ 1951 “Kvantitativní lingvistika”. In: Casopis pro moderní filologii, 34; 66– 74. Uhlíˇrová, Ludmila 1996 “How long are words in Czech?” In: Glottometrica 15. Trier: Wissenschaftlicher Verlag, 134–146. 1997 “Length vs. order: On word length and clause length from the perspective of word order”. In: Altmann, Gabriel; Mikk, Jaan; Saukkonen, Pauli; Wimmer, Gejza (Eds.), Linguistic structures. To honour J. Tuldava. Special Issue of: Journal of Quantitative Linguistics, 4; 266– 275. 2001 “Word Length, Clause Length and Sentence Length”. In: Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Festschrift in honour of Ludˇek Hˇrebíˇcek. [= Quantitative Linguistics; 60]. Trier: Wissenschaftlicher Verlag, 266–282. Uhlíˇrová, Ludmila; Nebeská, Iva; Králík, Jan 1982 “Computational Data Analysis for Syntax”. In: COLING 82, Proceedings of the Ninth International Conference on Computational Linguistics. Prague July 5-10. Amsterdam etc., 391–396. Vašák, Pavel 1980 Metody urˇcování autorství. Praha: Academia. Zipf, George K. 1946 Human Behavior and the principle of least effort. Cambridge, Mass.: Addison-Wesley.
Semantic components and metaphorization Viktor Krupa
A finite set of semantic components is assumed to underlie the surface level of a particular language, which amounts to its being independent of the particular semantic structure of any given language (Lyons 1969: 472). The assumption of the existence of a universal set of semantic components is frequently attacked by some linguists, but the description of semantic structure of a particular language is not necessarily impaired if the semantic components as such turn out not to be universal. Criticism often aimed at other weak points of the method of componential analysis as well, namely at its atomism, at the questionable psychological or cognitive relevance of the established sets of distinctive features, and at a certain lack of systematicity in the organization of meaning structure (cf. Nida 1975). However, the fuzziness of meaning is not a defect of language, but rather its necessary and useful property that makes vocabulary flexible and its expansion possible. It is not without significance that while the componential analysis of meaning is usually criticized on theoretical grounds, those who concentrate upon primary data – like for example ethnolinguists – do appreciate its advantages and feel that the method, instead of being abandoned, deserves elaboration and refinement. The subsequent microanalysis of lexical metaphors based mainly upon the vocabulary of Indonesian (Echols & Shadily 1963; Korigodskij 1990) and of Maori (e.g. Williams 1957), with a few occasional examples from other languages, confirms at least a partial psychological reality of semantic components indicating at the same time that the latter are not clearly delimited atomic entities. Instead, there is a good deal of overlapping and transition between them. The metaphorical transfer exceeds the limits of particularism; lexical metaphors are applied in clusters, as whole models (cf. Lakoff & Johnson 1980). Solitary, isolated metaphorizations are rare – pragmatically based semantic models like human body, family, natural elements, flora, etc. are the rule. Our cognitive basis is to be sought in the interface between the human being and his/her immediate surroundings. It is here that our first cognitive hypotheses arise and are subsequently applied to less accessible phenomena
354 Viktor Krupa
both outside and inside our beings. This interface comprises the surface of our body (visible anatomy, senses, bodily functions, activities) and, via perception, our immediate surroundings (including basic social relations, family, and some natural phenomena). This application is based, among other things, on metaphorical mechanisms. Lexical metaphor cannot be reduced to anthropomorphism – other elementary conceptual models are employed as well. The reason is that, for example, the human mind is one of those domains that does not belong to the abovementioned interface; feelings, thoughts, desires, and moods are less accessible to our perception than many observable natural phenomena. Therefore it comes as no surprise that natural elements – fire, water, wind, storm, thunder, etc., are so frequently metaphorized for the purpose of characterizing or explaining our psychical life. This is documented below, even if our attention is focusing on anthropomorphic models. Let us start with the vegetative or botanical model that communicates the idea of a slow, gradual growth. The Indonesian term batang “stem, stalk” is used in botanical metaphors – batang the main stream of a river and batangan hari “noon” (the day’s stem). Pokok “trunk, root” in Indonesian, is metaphorized as subject, reason, motive, beginning, capital, stake, e.g. pokok hujan “rain cloud” (the reason of rain). The result of an action may be referred to by buah “fruit”, for example buah tangan “a gift brought back from a trip or presented when visiting someone”, buah mulut (i.e. “fruit of the mouth”), buah bibir (“fruit of the lips”), and buah tutur (“fruit of the talking”), all meaning “the subject of conversation”. Another semantic feature of buah “fruit” is its roundness leading to the transferred meaning of buah timbangan (“fruits of the scales”), i.e. weights of scales. By the way, there is a competitive lexical metaphor referring to the same piece of reality, namely anak timbangan, literally “children of the scales” where the metaphorical vehicle anak “child” relies on the fact that weights are the smaller part of the mechanism of scales. The existence of alternative metaphorical expressions proves that lexical motivation has a probabilistic basis, without being arbitrary. The tenor, just like the vehicle, displays a set of salient features, and it depends upon the circumstances of nomination (including pragmatic convention within the particular language community and the experiential background of the creative individual who has invented the new metaphorical term), which of the former would trigger the resulting metaphorization. This is the proper opportunity to mention the problem of psychological reality of semantic features so often discussed in connection with the com-
Semantic components and metaphorization 355
ponential analysis of meaning. The existence of cognitive universals will be ˇ illustrated here with an example from K. Cukovskij’s book on the speech of children. The author quotes a child saying, “Oh, mum, you’ve got bigˇ bellied legs!” (Cukovskij 1981: 14), obviously regarding it as an occasionalism. However, the same reasoning is hidden behind the lexicalized Indonesian term perut kaki “calf of the leg” (literally “belly of the leg”) as well as behind the Maori koopuu o te waewae “calf of the leg” (literally “belly of the leg”). Another cognitive coincidence may be found in the expression for fireworks in Indonesian and in Japanese. The Indonesian term is bunga api, literally “flowers of the fire” while in Japanese we find hanabi, literally “flowery fire”. The semantic features are psychologically real; but their realization in speech is probabilistic (because they need not be realized). The expression bunga “flower” is by far the most favourite botanical metaphorical vehicle in the Indonesian lexicon. The semantic features of this word that make its metaphorical application possible consist in its alluring, attractive, aesthetic value, and in its fragility. The former feature is felt to be present in such lexical metaphors as bunga uang “interest on money” (literally “flowers of money”), bunga api “fireworks, sparks” mentioned above (literally “flowers of fire”), bunga bibir “flattery, sweet words” (literally “flowers of the lips”), bunga desa “village belle” (“flower of the village”), bunga tanah “humus, topsoil” (literally “flower of soil”), bunga pasir “fine sand” (literally “flower of sand”), bunga rampai “anthology” (literally “flower of medley”). Kinship terminology might be expected to function as one of the universal sources of lexical metaphors throughout the world. However, only a few kinship terms are actually metaphorized in Indonesian, namely ibu “mother” (as well as induk mainly “mother of animals” and biak also referring mostly to animals), and anak “child”. Strangely enough, Indonesian avoids using ayah “father”, and its synonym bapak is only employed in the transferred or rather generalized meaning of protector. Productivity of the three terms referring to mother is very high in Indonesian vocabulary, and the same is true of their logical opposite, i.e., of anak “child”. The following semantic features of the kinship term mother are employed metaphorically in the following functions: – something essential, superior, the main component, – something big(ger) than the rest or its opposite, – causal or chronological precedent of something else. The term child may be regarded as a metaphorical opposite of the term mother, and its relevant semantic features may be summed up as follows:
356 Viktor Krupa
1. an inferior or subordinate part of something, of a whole, 2. something small, 3. a result or consequence of something else. The semantic feature (1) is the basis of the terms ibu akar main root (“mother of roots”), ibu sungai principal river (“mother of the river/s/”), ibu tentara or induk tentara main body of an army (“mother of the army”), induk utang principal debt (“mother of the debt/s/”), ibu kota capital (“mother of the cities”), ibu tangga banister (“mother of the stairs”), induk kalimat main sentence (“mother of the sentence”), ibu tangan thumb (“mother of the hand”), biang tangan thumb (“mother of the hand”), ibu kaki big toe (“mother of the foot”), induk kaki (“mother of the foot”); the semantic feature (2) is illustrated with ibu pasir pebble (“mother of sand”), ibu jari thumb (“mother of fingers”), induk jari thumb (“mother of fingers”); and, finally, the feature (3) is felt to operate with biang keringat prickly heat (literally “mother of perspiration”) with biang roti leaven (literally “mother of bread”), induk karangan editorial (literally “mother of articles”), and induk madu honeycomb (literally “mother of honey”). Anak may be metaphorized in the meaning of something small (feature 2), e.g. anak bukit hillock (“child of a hill”), anak saku small pocket (“child of pockets”), anak lidah uvula (“child of tongue”) and besides may be understood as an opposite of cause, i.e. as a consequence or product of something else (feature 3), e.g. anak duit interest on money (“child of money”), beranak to get interest on money (“to bear money as a child”), anak bedil bullet (“child of a gun”), anak panah arrow (“child of a bow”), anak busur arrow (“child of a bow”), but by far the most common metaphorizations of anak child are intended to deliver the meaning that it is an inner, subordinate part of a greater whole (feature 1), e.g., anak jentera (“child of a wheel”) or anak roda wheel spoke (“child of a wheel”), anak mata pupil of the eye (“child of the eye”), anak telinga tympanum (“child of the ear”), anak meja drawer (“child of the table”), anak genta (“child of the bell”) or anak lonceng “bell clapper”(“child of the bell”), anak kalimat “subordinate sentence” (“child of the sentence”), anak kapal or anak perahu “crew member” (kapal “ship”, perahu “boat”), anak negeri “subject of a state, citizen” (“child of the country”), anak tangan “finger” (“child of the hand”), anak tangga “ladder rung, stair step” (“child of stairs”), anak rambut “lock of hair” (child of hair”), anak baju “undershirt” (“child of blouse or of jacket”), anak sungai “tributary” (“child of a river”).
Semantic components and metaphorization 357
A careful investigation of Indonesian (and data of other languages as well) clearly confirms that the metaphorical transfer may also take place within one and the same conceptual domain, to be more precise, between the subdomains of a hierarchically structured conceptual domain. For example in Indonesian, eye is implicitly and ad hoc conceptualized as mouth, and that is why eyelid may be referred to as bibir mata, literally “lips of the eyes”. The metaphorical application of bibir “lips” is based upon the analogical position of lids in relation to lips while eye is simply in between the lids just as mouth is between the lips. In Indonesian ankle is referred to as mata kaki, literally “eye of foot”, because it is likewise situated in the “nucleus”. The same anatomical item is metaphorized in Japanese, however, there is the metaphorical lexeme ashikubi (Nelson 1982: 857), that is, “neck of foot” (ashi “foot”, kubi “neck”). It is obvious that not only metaphorical vehicles have their structure of salient semantic features but that the same holds for the semantics of metaphorical tenors; while Indonesian concentrates upon the importance of the ankle for the whole leg, Japanese channels our attention toward the mobility of the ankle joint. As a rule, the plurality of metaphorization may be attested for those referents that are culturally salient in a given language community. In the Indonesian expression mata jalan “road observer, watchman, scout” (literally “eye of the road”), mata is not used because of its (in this instance nonexistent) central position but because of the key function of eyes. A convincing example of the potential plurality of metaphorization is found in the proliferation of Maori metaphors referring to the concept of chief, for example ika toto nui “fish of great blood” (ika “fish”, toto “blood”, nui “great, big, much”), koromatua literally “father, chief” is metaphorized as thumb, uru “head” may metaphorically mean “chief, top, upper end, point of a weapon”, kai rangi literally “food of heaven” (kai “food”, rangi “heaven”) is metaphorized as “rainbow”, “finest variety of greenstone” or “exalted chief”, taniwha “fabulous monster” may metaphorically refer to “shark”, “chief” as well as to “prodigy”, angaanga “head” has also the figurative meaning of “elder, chief”, haku “kingfish” may also be a figurative expression for a “chief”, polysemic kaakahi “a mollusc, whale, large porpoise” may be metaphorized as “chief”, kaahu “hawk, harrier” is a figurative expression referring to “chief” and also to “kite”, kawau pu “shag” (figuratively “chief”), kekeno “sea-lion” (figuratively “chief”), manu kura “precious bird”, figuratively “chief, leader in a council” (consisting from manu “bird” (figuratively “person in high esteem”) and kura “red, precious”, paraoa “sperm whale”
358 Viktor Krupa
(figuratively “chief”), takupu “gannet” (figuratively “chief”), peka “fernroot, faggot” (figuratively “chief”), teetee “young shoot” (figuratively “chief”), kahika “white pine” (figuratively “chief, ancestor”), amo kapua literally “he who supports clouds”, figuratively “chief, leader, priest” and likewise amo rangi, “he who supports heaven”, figuratively “priest, leader” – however, there is an alternative interpretation as well; amo may be interpreted as “to carry someone” while rangi “heaven” has a metaphorical meaning “chief”; taumata okiokinga “resting place on a hill” also refers to a “great chief”, tuumuu whakarae “prominent headland” (tuumuu “cape”, whakarae “to stand out”) is a figurative term for “a chief”, takere “keel, main part of the hull of a canoe” is figuratively used in the meaning of “chief man of the tribe”. A semantic analysis of at least some of the quoted figurative expressions confirms that among the Maori the chief is or was the most important member of his tribe, his is the top position, he is directly linked to heaven, he is likewise a genealogical ladder between the past and the present, the treasury of superior mental faculties, he leads his warriors to the battle, he is the root of his people whom he supports like a pillar, a precious possession, the most precious and the most important man of his tribe, the first to be noticed among his people. The discrepancies between metaphorization where tenors coincide while vehicles differ cannot be quoted as disproving the psychological reality of distinctive features. What they in truth prove is simply the fundamental and indisputable plurality of semantic features within the meaning of any word and the fact that in principle any of these features may be actualized (even if with different degrees of probability), depending upon the circumstances of the nomination and upon the linguistic and intellectual competence of the language user.
References Echols, John M. 1963 An Indonesian-English Dictionary. 2d ed. Ithaca, NY: Cornell University. Jackendoff, Ray S. 1983 Semantics and Cognition. Cambridge, Mass. / London: MIT Press. Korigodskij, R. N. (Red.) 1990 Bol’šoj indonezijsko-russkij slovar’. Tom 1 & 2. Moskva: Russkij jazyk. Lakoff, George; Johnson, Mark L. 1984 Metaphors We Live By. Chicago: University of Chicago Press.
Semantic components and metaphorization 359 Lyons, John 1969 Introduction to Theoretical Linguistics. Cambridge: Cambridge University Press. Nelson, Andrew N. 1987 The Modern Reader’s Japanese – English Character Dictionary. Rutland, VT: Tuttle Company. Nida, Eugene A. 1975 Componential Analysis of Meaning. The Hague / Paris: Mouton. ˇ Cukovskij, Kornej 1981 Od dvoch do piatich. Bratislava: Mladé letá. Williams, Herbert W. 1957 A Dictionary of the Maori Language. Wellington: R.E. Owen.
Wortlängenhäufigkeit in J.W. v. Goethes Gedichten Ina Kühner
1
Zur Modellierung von Wortlängen
Vorschläge zur Modellierung von Wort- und Satzlängen, die bis heute entsprechenden Untersuchungen zugrunde gelegt werden, gehen auf Arbeiten von Altmann u.a. zurück (z.B. Altmann 1988; Wimmer & Altmann 1996). Auf diese Vorschläge stützt sich auch der vorliegende Beitrag, der im Rahmen des Göttinger Projekts zur Quantitativen Linguistik durchgeführt wurde. Gegenstand sind zwanzig klassische Goethe-Gedichte, bei denen die Häufigkeitsverteilung der Wortlängen daraufhin geprüft wurden, ob sie – wie bei vielen anderen Texten im Deutschen auch – der 1-verschobenen Hyperpoisson-Verteilung entsprechen. Durch zahlreiche Untersuchungen hat sich die theoretische Annahme bestätigen lassen, dass die Wortlängenhäufigkeiten in Texten nicht zufällig vorkommen, sondern gesetzmäßigen Regularitäten unterliegen. Hierbei ist zu beachten, dass diese Regularitäten zum einen nicht universal gültig sind, d.h. in verschiedenen Sprachen kommen verschiedene Modelle zur Anwendung; zum anderen reicht ein einziges Modell keineswegs immer für eine bestimmte Sprache aus, da eine Vielzahl von Faktoren wie Autorenschaft, Genre, Textgattung usw. zu spezifischen Modifikationen führen können.
2
Der theoretische Ansatz
Die Grundidee der Modellierung von Wortlängenhäufigkeiten besteht darin, dass die Anzahl der zweisilbigen Wörter in einem Text in spezifischer Relation zur Anzahl der einsilbigen Wörter dieses Textes steht; die Anzahl der dreisilbigen ist abhängig von der Anzahl der zweisilbigen, usw. – kurz: die jeweils benachbarten Längenklassen sind gemäß einer einfachen Proportionalitätsbeziehung miteinander verbunden: Px ∼ Px−1 .
(1)
362 Ina Kühner
Das Verhältnis der Längenklassen erweist sich dabei nicht als konstant, sondern lässt sich als Funktion verstehen: Px = g(x) Px−1 .
(2)
In Abhängigkeit davon, welche konkrete Form g(x) annimmt, kommt man zu unterschiedlichen Verteilungsmodellen. Wimmer & Altmann (1996: 114, 131f.) führen insgesamt 21 in Frage kommende Modelle für Wortlängenverteilungen an, die als ‘Spielarten’ aus der Gleichung (2) entwickelt werden können. Nachdem in den 40er Jahren des letzten Jahrhunderts der russische Meˇ ˇ diziner S.G. Cebanov (1947) – vgl. Best & Cebanov (2001) – die PoissonVerteilung in Texten indoeuropäischer Sprachen als allgemeines Modell für die Wortlängenverteilung vorschlug und überprüfte, was wenig später auch vom deutschen Physiker Wilhelm Fucks (1955) unter Einbeziehung nichtindoeuropäischer Sprachen bestätigt wurde, schlägt Grotjahn (1982) die 1verschobene negative Binominal-Verteilung als geeignetes Modell der Wortlängenverteilung vor. Nach Grotjahns Vorgaben konnte angenommen werden, dass die negative Binominal-Verteilung wenn nicht das einzige, so doch das bevorzugte Verteilungsmodell sein sollte. Inzwischen scheint die Hyperpoisson-Verteilung diese Rolle zu übernehmen; bisherige Untersuchungen zum Deutschen haben gezeigt, dass die Hyperpoisson-Verteilung sich bei einer großen Zahl von Texten der Gegenwartssprache, aber auch früherer Sprachentwicklungsphasen bewährt hat (Best 2001). Da keine andere Verteilung auf so viele Texte und Textsorten bei derart vielen Sprachen angewendet werden kann wie die Hyperpoisson-Verteilung und keine andere Verteilung sich bei der Untersuchung von alten Sprachen in ähnlicher Weise als geeignet herausgestellt hat (vgl. Best 1999), soll auch in dieser Arbeit die Hypothese, dass die Hyperpoisson-Verteilung sich als geeignetes Modell für Wortlängen in Texten erweist, überprüft werden. Grotjahn (1982) hat bereits ein kleines Korpus von Goethe- und SchillerGedichten untersucht. Um die Datenbasis zu erweitern, werden hier zwanzig weitere Goethe-Gedichte analysiert. 3
Methodik
Die Untersuchung wurde nach den gleichen Methoden durchgeführt, wie sie schon in Best & Zhu (1994) und Best (1996) beschrieben sind. Es wurde immer nur der laufende Text ohne Überschrift ausgewertet. Ein Wort wird als
Wortlängenhäufigkeit in J.W. v. Goethes Gedichten 363
orthographisches Wort aufgefasst (vgl. Bünting & Bergenholtz 1989: 36ff.), d.h. ein Wort grenzt sich durch Leerzeichen und Interpunktion ab. Trennungsbzw. Bindestriche kennzeichnen die Einheit eines Wortes. Die Wortlänge wird anhand der Silbenzahl pro Wort gemessen. Dabei entspricht die Zahl der Silben im Wort der Zahl der Vokale und Diphthonge. Bei Wörtern, die aus rhetorischen Gründen verkürzt geschrieben wurden, ist die Silbenzahl der Aussprache angepasst worden, z.B. “mutwill’ger” = 3 Silben oder “Aug’ ” = 1 Silbe. Die Textauswahl wurde relativ willkürlich getroffen. Um eine einigermaßen homogene Textgruppe zu erhalten, wurden nur Gedichte mit einem Wortumfang zwischen 100 und 300 Wörter ausgesucht. Bei den ausgewerteten Gedichten handelt es sich um die in Tabelle 1 aufgeführten Texte aus der Gedichtesammlung Johann Wolfgang von Goethe, Gedichte des HyperionVerlags, Freiburg im Breisgau (o.J.).
Tabelle 1: Textgrundlage: 20 Gedichte Goethes Nr.
Text und Erscheinungsjahr
Nr.
Text und Erscheinungsjahr
1 2 3 4 5 6 7 8 9 10
Hochzeitslied (1767) An Schwager Kronos (1774) Prometheus (1774) Symbolum (1815) Willkomm und Abschied (1789) Lauf der Welt (1825) Vermächtnis (1829) Der Becher (1776) An Frau von Stein (1784) Grenzen der Menschheit (1778)
11 12 13 14 15 16 17 18 19 20
Harzreise im Winter (1777) Das Göttliche (1783) Der Besuch (1788) Wiederfinden (1815) Morgenklagen (1788) Philine (1795) Magisches Netz (1803) Adler und Taube (o.J.) An den Mond (1789) Seefahrt (1776)
Da die Hyperpoisson-Verteilung zwei Parameter hat, die hier untersuchten Gedichte aber nur über eine relativ geringe Anzahl von Wortklassen verfügen (in der Regel kommen höchstens fünfsilbige Wörter vor), wurden an die Dateien dieser Texte sowohl die 1-verschobene Hyperpoisson-Verteilung (NPx1 ) als auch die 1-verschobene Poisson-Verteilung (NPx2 ), die nur einen Freiheitsgrad aufweist, angepasst.
364 Ina Kühner
4
Anpassung der Modelle
Die Ergebnisse der Untersuchung finden sich in den Tabellen3a und 3b; Tabelle 2 enthält die dazugehörige Legende. Als Prüfkriterium dafür, ob die Tabelle 2: Legende zu den Tabellen 3a und 3b x nx NPx1 NPx2 FG a, b χ2 P C
= = = = = = = = =
die Wortlänge in Silben beobachtete Zahl der Worte mit x Silben Länge im betreffenden Text theoretische Werte nach der 1-verschobenen Hyperpoisson-Verteilung theoretische Werte nach der 1-verschobenen Poisson-Verteilung Freiheitsgrade Parameter der Verteilungen Wert des Chiquadrats Überschreitungswahrscheinlichkeit des betreffenden Chiquadrats Diskrepanzkoeffizient (C = χ2 /N)
Anpassung gelungen ist oder nicht, dient der Chiquadrat-Test (χ2 ). Die Testergebnisse gelten als zufriedenstellend, wenn die Wahrscheinlichkeit P für das betreffende χ2 einen Wert von P ≥ 0.05 erreicht; Anpassungen mit 0.01 ≤ P < 0.05 gelten als akzeptabel. Falls P mangels Freiheitsgraden nicht berechnet werden kann, wird der Diskrepanzkoeffizient C als Kriterium verwendet, der mit C ≤ 0.02 eine gute Anpassung signalisiert. Die Formel der 1-verschobenen Hyperpoisson-Verteilung lautet: Px =
ax−1 b(x−1) 1 F1 (1; b; a)
,
x = 1, 2, . . .
(3)
Hier bedeuten 1 F1 (1; b; a) = 1 + a/b + a2 /b(b + 1) + . . . die konfluente hypergeometrische Funktion und b(x−1) = b(b + 1)(b + 2) . . . (b + x − 2). Die Formel der 1-verschobenen Poisson-Verteilung lautet: Px =
e−a ax−1 , (x − 1)!
x = 1, 2, 3, . . .
(4)
Bei allen Texten wurden jeweils zuerst in der vorderen Spalte der nachfolgenden Tabellen die Ergebnisse der 1-verschobenen Hyperpoisson-Verteilung und in der zweiten Spalte die Ergebnisse der 1-verschobenen PoissonVerteilung eingetragen.
1.0419 0.6068 1.8087 2.85 0.004 1 1 0.0914 0.9469
0.9083 0.5974 1.7056 1.43 2.89 2 2 0.4902 0.2353
75.21 146 143.89 139.76 45.64 72 76.63 83.49 13.85 30 25.72 24.93 3.30 5 6.36 4.96 1 1.46 0.86
74.05 42.65 15.82 5.48
75 46 10 7
1 2 3 4 5
a b χ2 FG P
92.15 56.43 17.27 4.15
Text 7 NPx1 NPx2
Text 6 NPx1 NPx2
nx
nx
92.38 55.62 17.54 4.46
Text 2 NPx1 NPx2
0.6624 0.6124 1.1001 0.21 0.28 1 2 0.6447 0.8676
93 56 16 5
nx
0.3770 0.4359 0.8365 0.08 0.15 1 2 0.7725 0.9286
x
a b χ2 FG P C
91.85 41.39 8.49 1.27
92 41 9 1
1 2 3 4 5 6 7 8
92.47 40.3 8.78 1.45
Text 1 NPx1 NPx2
nx
x
nx
1.68 2 0.4327
0.5900
75 58 16 4 3 0.7292 1.0221 1.21 1 0.2722
76.25 54.4 19.61 4.73 1.01
nx
1.19 2 0.5520
0.7222
75.76 167 54.71 102 19.75 25 4.75 13 1.03
Text 8 nx NPx1 NPx2
0.9976 1.9952 0.34 2 0.8456
130 130.96 124.86 105 65 65.48 73.53 50 24 21.81 21.65 6 5 5.44 4.25 1 0 1.08 0.62 | 0 0.18 | 0.07 | 0 0.02 | 0.00 | 1 0.03 0.02
Text 3 nx NPx1 NPx2 NPx2
nx
0.8631 1.4666 3.29 1 0.0696
165.28 97.27 34.03 10.42
Text 9 NPx1
< 0.001
0
0.1787 0.3753
4.75 2 0.0930
0.6436
161.3 103.81 33.4 8.49
NPx2
1.98 2 0.3724
0.4104
67 47 12 3 1
nx
104.99 107.47 116 49.99 44.1 54 6.49 9.04 8 0.53 1.39 6
Text 4 NPx1
0.02 1 0.8967
0.4584
0.5700 0.8427 0.51 1 0.4763
67.19 45.45 14.05 2.81 0.50
0.61 2 0.7388
0.6455
68.17 44 14.2 3.05 0.58
Text 10 NPx1 NPx2
< 0.001
0
0.4285 0.9204
115.98 116.33 53.99 53.33 12.04 12.22 1.99 2.12
Text 5 NPx1 NPx2
Wortlängenhäufigkeit in J.W. v. Goethes Gedichten 365
Tabelle 3a: Anpassung von Hyperpoisson- und Poisson-Verteilung (Texte 1-10)
a b χ2 FG P C
0.5066 0.5147 0.9764 0.34 0.34 1 2 0.5583 0.8442
84 63 23 13 1
94.77 49.17 12.6 2.46
95 50 11 3
1 2 3 4 5
95.02 48.91 12.58 2.49
Text 16 NPx1 NPx2 nx
nx
x
1.0101 0.6693 1.7471 3.58 6.03 2 3 0.1672 0.1100
a b χ2 FG P C
Text 11 NPx1 NPx2 nx
181 180.86 172.56 92 110 104.61 115.49 69 30 38.48 38.65 17 14 10.37 8.62 7 2 2.68 1.68
nx
1 2 3 4 5
x
nx
1.1675 0.8515 1.5629 3.84 5.20 2 3 0.1465 0.1580
78.52 153 66.86 66 28.46 10 8.08 11 2.08 5
Text 17 NPx1 NPx2
82.34 61.51 28.02 9.18 2.95
nx
93.43 176 63.82 128 21.79 27 5.96 9
0.0674 0.6831 0.8442 1.59 1.69 1 2 0.207 0.4303
91.75 66.01 21.74 5.5
Text 12 NPx1 NPx2
< 0.001
0
1.0426 2.417
153.01 66 20.14 4.75 | 1.10
Text 18 NPx1
0.4638 0.6708 2.46 1 0.1164
176.96 122.35 33.96 6.73
Text 13 NPx1
1.76 1 0.1851
0.4979
148.9 74.14 18.46 3.06 | 0.44
NPx2
4.05 2 0.1322
0.6238
182.21 113.65 35.44 8.7
NPx2
85 54 8
nx
151 56 19 10
nx
nx
nx
1.32 0
0.4713
91.75 138 43.24 108 12.01 10 15
NPx2
5.48 2 0.0647
0.5638
< 0.001
0
0.2783 0.3557
6.61 1 0.0102 0.0244
0.6127
137.98 146.84 107.98 89.97 22.17 27.56 2.87 6.63
Text 20 NPx1
T where k and kr are two constants and T is the time coordinate of the point where one simple logistic curve is replaced with another. Another choice of k(t) for a two-stage change is that of a quadratic function, (4) k(t) = 3At 2 + 2Bt +C,
Fitting the development of periphrastic do in all sentence types
683
so that (2) becomes p(t) =
1 1 + exp[−(At 3 + Bt 2 +Ct + D)]
,
(5)
where D is an integration constant. The choice in (4) is attractive because of the following possible interpretation. If we assume that A > 0 and that the parabola (4) has two t-intercepts, then k(t) changes its sign from positive to negative and then again to positive. Because of this, it follows from (2) that the sign of d p(t)/dt changes in the same way (assuming the solution p(t) stays between 0 and m). We can therefore expect that p(t) changes from increasing to decreasing and then back to increasing. This is exactly how most of the periphrastic-do data look like.
3
The fits
We consider in this section two main fitting methods based on (3) and (4) respectively, with an additional variation of the latter. Within each method, all fitting curves are obtained simultaneously with m = 1 using the generalizedlinear-model function in R with the binomial family linked to the logit function. The dependent variable is a two-column matrix whose columns contain proportions of sentences with and without do for each year and each sentence type. Fit I. We use (3) with the changeover point T set at the seventh measurement point in time. This is somewhat different from what is done in Vulanovi´c (to appear), but is simpler. The changeover point is introduced via Indicator, a variable set equal to 0 for the seven initial values of t, and to 1 after that. We get a very good fit to the data with the coefficient of determination R2 = 0.96 for the entire model. This value is included in Table 2 together with R2 values for other fits and for all individual sentence types. Values for separate Table 2: R2 values (All = complete model) Fit
All
AD
ND
AQ
NQ
NI
I II IIa
0.96 0.95 0.97
0.89 0.73 0.92
0.91 0.91 0.94
0.96 0.99 0.98
0.93 0.88 0.94
0.91 0.87 0.90
684 Relja Vulanovi´c and Harald Baayen
sentence types are obtained from the appropriate subsets of the data after the fit was found for the whole model; the smallest R2 -value in each fit is boldfaced. Table 3 presents the results of F-tests for the predictors in the model. All predictors are highly significant. Table 3: F-tests for the predictors in Fit I; Pr(> F) F) < 2.2e–16 < 2.2e–16 1.2e–08 < 2.2e–16 < 2.2e–16 < 2.2e–16 < 2.2e–16 5.1e–12 8.1e–10 < 2.2e–16
The graph is presented in Figure 3. The coefficients for each curve, consisting of two type (5) curves linked together, are given in Table 6. Like in
1.0
686 Relja Vulanovi´c and Harald Baayen
0.6 0.4 0.0
0.2
proportion
0.8
AD ND AQ NQ NI
1400
1450
1500
1550
1600
1650
year
Figure 3: Fit IIa
Fit I, Indicator is used so that its two values affect only the coefficients C and D. No improvement is achieved when we let all coefficients change. Table 6: Fit IIa – coefficients in formula (5) Indicator = 0
Indicator = 1
Type
A
B
C
D
C
AD ND AQ NQ NI
3.05e–6 3.32e–6 1.98e–6 2.00e–6 5.93e–7
–1.48e–2 –1.59e–2 –9.57e–3 –9.55e–3 –2.99e–3
23.83 25.39 15.28 15.04 4.92
–1.27e+4 –1.34e+4 –8.08e+3 –7.83e+3 –2.66e+3
23.97 25.53 15.42 15.17 5.06
4
D –1.29e+4 –1.36e+4 –8.29e+3 –8.04e+3 –2.86e+3
Conclusion
One of the contributions of this paper is the introduction of a new kind of linguistic change to complement Altmann’s (1983) classification based on the
Fitting the development of periphrastic do in all sentence types
687
logistic curve. To Altmann’s complete, partial, and reversible changes, we add the two-stage change, inspired by how the graphs of periphrastic-do data look like in Figure 1. Around 1560, all sentence types except affirmative questions show a decline in the use of periphrastic do, from which only affirmative declaratives do not recover. The five developments cannot be described by one linguistic-change category of Altmann’s, but they all fall within the new two-stage type. The change in periphrastic do is a single syntactic change with five manifestations in different sentence types. It is therefore natural to fit all five developments simultaneously. We accomplish this by using curves (2) with m = 1 and with either piecewise linear or cubic functions K(t), which are suitable for fitting two-stage linguistic changes. The resulting fits, obtained for all curves at the same time, are very good. By considering an overall model like this, we do not focus on individual curves and we avoid the danger of overfitting them.
References Altmann, Gabriel 1983 “Das Piotrowski-Gesetz und seine Verallgemeinerungen”. In: Best, Karl-Heinz; Kohlhase, Jörg (Hg.), Exakte Sprachwandelforschung. Göttingen: Herodot, 54–90. Best, Karl-Heinz; Be˝othy, Erzsébet; Altmann, Gabriel 1990 “Ein methodischer Beitrag zum Piotrowski-Gesetz”. In: Glottometrika 12. Bochum: Brockmeyer, 115–124. Ellegård, Alvar 1953 The Auxiliary Do: The Establishment and Regulation of Its Use in English. Stockholm: Almquist & Wiksell. Imsiepen, Ulrike 1983 “Die e-Epithese bei starken Verben im Deutschen”. In: Best, KarlHeinz; Kohlhase, Jörg (Hg.), Exakte Sprachwandelforschung. Göttingen: Herodot, 119–141. Kroch, Anthony S. 1989a “Function and grammar in the history of English: Periphrastic do”. In: Fasold, Ralph W.; Schiffrin, Deborah (Eds.), Language Change and Variation. Amsterdam: Benjamins, 133–172. 1989b “Reflexes of grammar in patterns of language change”. In: Language Variation and Change, 1; 199–244.
688 Relja Vulanovi´c and Harald Baayen Ogura, Mieko 1993 “The development of periphrastic do in English: A case of lexical diffusion in syntax”. In: Diachronica, 10; 51–85. R Development Core Team 2005 R: A Language and Environment for Statistical Computing. Vienna: R Foundation for Statistical Computing. [http://www.R-project. org] Seber, George A. F. 1977 Linear Regression Analysis. New York: Wiley. Vulanovi´c, Relja 2005 “The rise and fall of periphrastic do in affirmative declaratives: A grammar efficiency model”. In: Journal Quantitative Linguistics, 12; 1–28. 2006 “Fitting periphrastic do in affirmative declaratives”. In: Journal of Quantitative Linguistics. [In print.]
Language change in a communication network Eric S. Wheeler
Prolog
The story is told about one national space agency that spent much time and money developing a pen to write in the cold and weight-less environment of outer space. A rival space agency used pencils. Lesson: The answers we find are shaped by the questions we ask (“How do I get a pen to work in outer space?” vs. “How do I write in outer space?”). Perhaps, from time to time, we should ask some different questions.
In the mathematical study of human language, we have often focused on the textual and symbolic nature of language: we count words, model syntactic structure, map meaning to expression and so on. But language is also humans talking to humans – a product of a community of speakers, interacting with one another over an extended period of time. From this point of view, what can we learn about language? Furthermore, mathematics typically provides not just a notation for expressing a formal model of some subject, but also theorems that can be applied to the model to give us logical consequences of our model and (perhaps testable) hypotheses about our subject. The mathematical approach to a subject can be extremely powerful, if we choose to use the mathematics fully. Prof. Altmann has been a strong voice for studies that have “a theory – or at least a modest hypothesis – saying what all this means” (Hˇrebíˇcek & Altmann 1993: 7). In full support of this view, I present here some ideas (first developed in Wheeler 1975, 1976 and repeated here) on language as a process inside the network of communication among speakers. I develop a model, apply a well-known mathematical theorem (illustrated with some computer simulations), and from that, develop some questions and hypotheses. While we cannot expect that a simple model will explain everything, it begins to “peel the onion” by offering an explanation of some of what must be happening, and perhaps offers a basis for looking at language in a different way than our customary approach.
690 Eric S. Wheeler
1
Model
1.1
Preliminaries
Some elementary observations: 1. People speak to other people. For a community of n speakers, let us represent this by an n × n matrix M in which M jk = 0 if the jth person does not directly speak to the kth person, and 0 < M jk ≤ 1 otherwise. M represents the network of communication. 2. Language can be measured. Whether it is a simple difference in vowel height, or a complex assessment of semantic and grammatical status, our observations about language can be restated as a set of one or more numbers, and (if need be) the numbers scaled and treated as values in the range [0 1]. Indeed, the interpretation of these numbers as “probabilities” is well supported. It is easy, for example, to say: “the speaker’s vowel height on test 123 was probably .012” or “the speaker had propensities of [.987 .876 .765] to use the local-expressions over the standard expressions”. A single measure over n speakers can be a 1 × n row matrix L; for k measures, we can use a k × n matrix. 1.2
Model of change
To these observations, we add a claim that seems plausible: 3. The language used by subjects is influenced by the language of the people who speak to them (including their own influence on themselves). We assume that both the nature of the language that each person is using with the subject at starting time s (as measured in row matrix L(s)) and the weight of a speaker’s influence on others (as represented in a row of matrix M) controls the measure of language for the subject at the next time interval, L(s + 1). This means that the non-zero entries in M jk are “the share of person j’s behaviour that was influenced by person k” and the entries need not be simply a measure of how much time person k spends with person j, although that is an obvious first estimate. Under this assumption, the rows of M each sum to 1. The equation for change, then, is a linear model:
Language change in a communication network
691
4. L(s + 1) = L(s) · M As a simple illustration, consider three people, A, B and C, such that A has a certain language feature and B and C do not: % & L(0) = 1 0 0 Let the influence of A, B, and C on one another be given as: [ 0.5 0.3 0.2 ] M = [ 0.2 0.5 0.3 ] [ 0.1 0.1 0.8 ] The rows of M each sum to 1. The second row, for example, indicates that 20% of the influence on B comes from A, 50% from B himself, and 30% from C. The effect on language measure L(0) of the communication network M is L(1): % & L(1) = L(0) · M = 0.5 0.3 0.2 That is, the feature that formerly had been used only by A, is now used partly by B and C also, and less so by A in the face of B and C’s non-use of the feature.
2
Applying the mathematics
By repeatedly applying equation 4, we get: 5. L(s + t) = L(s) · Mt Setting s = 0 as our starting point: 6. L(t) = L(0) · Mt That is, at some time t-units in the future, the language measure we get depends on what we started with, and on the effect of running that language repeatedly through the communication network.
2.1
Theorem
There is an important theorem that applies to our model. It is given in Kemeny et al. (1959: 392f., 1966: 272ff.) and elsewhere, along with the necessary definitions and is equivalent to:
692 Eric S. Wheeler
7.1. Definitions: A matrix like M (i.e. square, with non-negative entries, and row sums equal to one) in which any person can communicate with any other person (including himself) in one or more steps is ergodic. M is also regular because each person can talk to himself in one step (so M has positive entries on the diagonal, and for some x, M x has no zeroes). A probability vector is a row matrix, with sum equal to one. 7.2. Theorem: For a regular matrix M and a probability vector L(0): (a) (b) (c) (d) (e)
Mt approaches a matrix W as t gets large. Each row of W is the same probability vector w. The values of w are all positive and non-zero. L(0) · Mt , which is L(t), approaches vector w, as t gets large. Vector w is the only probability vector such that w = w · M.
Theorem 7.2. can be interpreted as: 8.
2.2
(a) In the long run (as t gets large), the effect that the network has on the language description reaches some sort of limit or equilibrium, which it maintains no matter how big t gets. (b) In the long run, the effect that the community has on one person is about the same as the effect that it has on any other person. (c) In the long run, each person will have some influence on everyone in the community (but not necessarily the same influence on each person). (d) In the long run, the measurement of the language will tend toward some equilibrium. (e) There is only one equilibrium that the language moves to, and it is determined by the communication network, not the starting measurement of the language. Simulation
We can illustrate the theorem with a simulation. The values of a matrix are displayed on a gray-scale from 0 to 255, and each small square represents an entry in the matrix. We randomly generate the entries, such that: Each M jk is a random value between a minimum entry value (which could be zero, but is 0.3 here) and 1.0. The rows are all summed to 1 by adding a balancing factor, if needed, to M j j – hence, the diagonal is a bit lighter in colour in some places.
Language change in a communication network
Figure 1: A communication matrix M(n = 25)
693
Figure 2: Matrix M 2
Note that all the columns are uniform, and so each row has the same pattern as every other row. The communication matrix, which (in Figure 1) starts out with random connections between individuals, in time (see Figure 2 for t = 2 and Figure 3 for larger t) comes to have a stable configuration, that is the same for all individuals (each row has the same pattern of columns, because the columns have become uniform).
Figure 3: Matrix W = Mt for large t
Figure 4: A(n = 17) and B(n = 9) with 1 shared person
694 Eric S. Wheeler
2.3
Simulation of two interacting communities
It is possible also to put two communities into a matrix, where the A-community is all interconnected (Figure 4: Entries at the upper-left of the matrix), and the B-community is too (Figure 4: Entries at the lower-right), but the interconnection between the two is limited (Figure 4: Columns and rows in the middle). The resulting matrix W = Mt still leads to a stable configuration (Figures 5, 5), although the influence of the smaller community is less in the final result, and the time to achieve the equilibrium is much greater.
Figure 5: A and B at intermediate time. Note the uniformity within each community.
2.4
Figure 6: A and B after many iterations. Note the distinctiveness of A and B is (almost) lost.
Significance
Now the interpretation of the theorem (made in 8.) provides some interesting claims about a speech community; they are interesting, in part, because they are not obvious in the way that our initial statements (1., 2. and 3.) are obvious. The mathematics has taken us to a position where we can formulate hypotheses and tests.
Language change in a communication network
695
2.4.1 For example, 8a. says that in the context of a stable language community, we can expect to see the language itself be stable. And conversely, if the language is evolving (and we assume there are no other sources of language change), we can expect the communication network to be shifting, and offer up the shifting as the explanation for the language change. Such reasoning would suggest that relatively isolated communities (e.g. rural populations) would have more conservative speech than highly-mobile populations (such as modern urban populations). On the other hand, very small language communities (those facing language extinction) would have a lot of language change because, relative to the size of the community, each loss of a community member has a bigger impact on the communication network (and therefore the language) than in a large community.
2.4.2 Consider, also, 8b. Over a population of several million people, it would not be surprising to find a great range of variation in any set of behaviour (e.g. over the course of a week, it is doubtful if any two people have the same or even a similar set of utterances), and yet language behaviour (i.e. the grammar and other matters that linguists concern themselves with) remains coherent over even large populations and over long periods of time. Why do people not diverge in their grammatical habits in the way they do change their opinions of politicians and movie stars? The answer is that people are strongly influenced in their choice of grammar by the people they talk to (Statement 3.) and therefore it follows that the communication network (while it is stable) will impose a uniformity on everyone. I may not let what you say to me dictate what I will say to you, but I do let how you say your message influence how I say mine. As a result, we have a language in common.
2.4.3 When the communication matrix is uniformly random, the results are all similar whatever the specifics of the matrix. More interesting is the possibility of putting non-uniform structure into the network, as in Figure 4. In this way, we
696 Eric S. Wheeler
can represent social groups, class structure, or outright intrusion of one group on another. For example, the Norman invasion of Anglo-Saxon England in 1066 created an immediate change in the national communication network, (with what one would imagine was a “heavy” influence by a “small” group on a “large” group. For details, see Baugh 1935). It is not surprising that the language emerging some centuries later was still English but with many French features. The Church also brought a Romance (namely Church Latin) influence to English, but it seems to have had much less impact on the language. Was that because the Church did not radically change the communication network the way a conquering army does?
2.4.4 There are many ramifications of statements 7 and 8. Let us consider only one more: Anecdotal confirmation of claims and models brings a certain satisfaction, but mathematical methods invite quantitative, empirical testing. It would be fascinating to have a matrix of all the communication links for a full community of speakers, reflecting their real influence on one another. With it, we could predict the future linguistic measure of any aspect of their language, and with these predictions, confirm or disconfirm the model proposed here. It is reminiscent of the input-output models that economists use for representing national and international flows of goods and services. But that also reminds us of the vast amount of work that goes into gathering the primary data for such models, and that would be required in the linguistic case as well. It seems unlikely that we can model a large language community directly. However, that does not preclude the possibility of looking for empirical measurements with this model. We could: 1. Model small communities, and extrapolate from that to larger ones. 2. Represent whole communities as single entries in a matrix, and look for estimates of one community’s influence on another. 3. Look for related measures that may help confirm or disconfirm the model, such as measures of interconnectedness among people (the lore says that every person is connected to every other person by at most n links, where n is perhaps 7) and observed rates of change in language (for example, the Dialect Project at http://dialect.topography. chass.utoronto.ca/ “investigates what English words people use in Canada . . . ” and has extensive data that can give a perceived measure
Language change in a communication network
697
of change over time based on age – cf. also Scargill (1974) which has numerous tables of similar data from an earlier time). Furthermore, we can create simulations with a range of values that span the values we believe hold in the real case, and then look for common results across the whole range (which must then apply to the real case, whatever the real case is). The model is a way of conceptualizing the problem. The quantitative testing of the model remains to be done, but it is feasible (I think) to do so.
3
Summary
Here, then, is a concept of language as a set of measures that are changed over time by the shape of the communication network of connections and influences exhibited by the community of speakers of the language. The mathematics to support such a concept certainly exists and can be explored much further than we have done here. The use of information technology for simulating and visualizing the process provides yet another tool, complementary to the mathematics. With some imagination, and the use of quantitative and qualitative data (some of which is already available), we can offer up and test hypotheses about how language changes, about the impact of non-linguistic events (such as invasions and population shifts) on language, and why language (as a symbol system) has the pattern and coherence it does. Thus, by starting with a new concept of language – not radical or extreme, but simply different than our conventional view – we open up the possibility of seeing new aspects of language, and getting new explanations that expand our understanding of what language is. Mathematical linguists are well placed to do just that.
References Baugh, Albert C. 1935 A History of the English Language. 2nd ed. 1957. New York: AppletonCentury-Crofts, Inc. Hˇrebíˇcek, Ludˇek; Altmann, Gabriel 1993 “Prospects of text linguistics”. In: Hˇrebíˇcek, Ludˇek; Altmann, Gabriel (Eds.), Quantitative Text Analysis. Trier: Wissenschaftlicher Verlag, 1–28.
698 Eric S. Wheeler Kemeny, John G.; Mirkill, Hazleton; Snell, James L.; Thompson, Gerald L. 1959 Finite Mathematical Structures. Englewood Cliffs, NJ: Prentice-Hall. Kemeny, John G.; Snell, James L.; Thompson, Gerald L. 1966 Introduction to Finite Mathematics. Original ed. 1957. Englewood Cliffs, NJ: Prentice-Hall. Scargill, Matthew H. 1974 Modern Canadian English Usage. Toronto: McClelland & Stewart Limited. Wheeler, Eric S. 1975 “The Communication Model of Language”. [Unpublished ms.] Wheeler, Eric S. 1976 “Communication Networks and Language Change”. [Unpublished ms.]
Die Suche nach Invarianten und Harmonien im Bereich symbolischer Formen Wolfgang Wildgen
1
Invariantentheorie und symbolische Formen
Die nicht-Euklidische Geometrie und Kleins Invarianten- und Gruppentheorie haben Cassirer bereits 1896 als Student in Marburg fasziniert (vgl. Ihmig 2003: 233f.). Seine erste große erkenntnistheoretische Schrift Substanzbegriff und Funktionsbegriff von 1910 setzt sich mit Poncelet’s Projektiver Geometrie (1865) und Kleins Invarianten- und Gruppentheorie, dem sogenannten Erlanger Programm von 1872 auseinander. In der schwedischen Emigration hat er 1936/37 ein Manuskript geschrieben: Die Invarianten der Wahrnehmung und des Begriffs, das 1999 aus dem Nachlass publiziert wurde. Eine Serie von Aufsätzen 1938 (in Französisch), 1944 (in Englisch), 1945 (am Morgen seines Todestages vervollständigt) ist ebenfalls diesem Thema, dem Zusammenhang zwischen mathematischer Gruppentheorie und Wahrnehmungstheorie (indirekt Begriffstheorie und Philosophie symbolischer Formen) gewidmet. In der Kontinuität der Beschäftigung Cassirers mit diesem Thema von 1896 bis 1945 zeigt sich, dass diese Frage einen Angelpunkt seiner Erkenntnis- und auch Sprach- bzw. Begriffs-Theorie darstellt. Wenn das platonische Erkenntnisprogramm in seiner Ausformung bis Euklid und Archimedes die Basis der Wissenschaften der letzten beiden Jahrtausende und die Geometrie die “Wissenschaft des immer Seienden” war, so wird mit den nicht-Euklidischen Geometrien eine Wende, eine Relativierung dieses Anspruches vollzogen. Sie erreicht im Erlanger Programm von Felix Klein, insbesondere in dessen Gruppentheorie, einen ersten Höhepunkt. Demnach befasst sich die metrisch-Euklidische Geometrie “nur mit solchen Eigenschaften der räumlichen Gebilde, die unabhängig sind von der Stelle im Raum, die sie einnehmen, sowie der absoluten Größe der Gebilde” (Cassirer 1937: 126). Weiterhin schreibt er (ibd., 128): Der projektiven Geometrie liegt eine umfassendere Gruppe als der metrischEuklidischen zu Grunde, indem hier zu den ähnlichen Abbildungen im gewöhnlichen Sinne noch die Parallel- bzw. Zentralprojektionen aufgenommen werden und alle Transformationen, welche sich aus solchen zusammensetzen.
700 Wolfgang Wildgen
Dies bedeutet, dass je nach Wahl der Gruppe erlaubter Transformationen neue Invarianzen und andere geometrische Eigenschaften geschaffen werden. Gleichzeitig löst man sich dabei im Gegensatz zum antiken Denken von der “anschaulichen Bestimmtheit der reinen Formen” (ibd., 129). Nun fußen aber alle Anwendungen seit der Antike1 genau auf dieser Anschaulichkeit der Bezugsformen, und es war eine schwerwiegende Entscheidung, als Kepler, der 1596 noch ein platonisch reines Konstrukt des Planetensystems publiziert hatte, durch die genauen Messungen Tycho Brahes gezwungen, widerwillig die Mars-Bahn als Ellipse (nicht mit der “ewig stabilen” Figur des Kreises) beschrieb (vgl. dazu die starre, reguläre Konstruktion in seiner frühen Schrift “Mysterium cosmographicum” von 1596, siehe Abbildung 1).
Abbildung 1: Keplers platonischer Entwurf eines kopernikanischen Weltsystems; die durch die verschachtelten platonischen Körper definierten Abstände stimmten innerhalb der Messgenauigkeit von 1596 mit den mittleren Abständen zwischen den Planetenbahnen überein
In seinen Aufsätzen zwischen 1938 und 1945 versucht Cassirer, den Ansatz der Gruppentheorie auf die Wahrnehmungstheorie, insbesondere das Phänomen der Wahrnehmungskonstanz (das schon 1886 von Ernst Mach thema1. Siehe z.B. für die Bedeutung der Praktischen Geometrie des 15. und 16. Jahrhunderts: Wildgen (1998: 87ff.)
Die Suche nach Invarianten und Harmonien 701
tisiert worden ist) und der Transponierbarkeit musikalischer Gestalten (zentrales Beispiel für die Gestaltqualitäten bei von Ehrenfels) zu übertragen. Denn eigentlich ist jede Abstraktion in der Wahrnehmung und in der Begriffsbildung so etwas wie eine Invariantenbildung. Es entsteht dabei jedoch ein Problem/Dilemma, das die platonische Tradition nicht kannte. Da es eine Vielzahl von Geometrien gibt und da die jeweilige Abstraktionstiefe von einer metrischen, einer projektiven bis hin zu einer topologischen Betrachtung zur Wahl steht, muss im Anwendungsfall eine Entscheidung über die jeweils nahe liegende Geometrie getroffen werden. Eventuell sind, wie dies Helmholz für die Wahrnehmung des Raumes gezeigt hat, eine Vielzahl von Geometrien je nach Distanz des Wahrgenommenen anzunehmen, sowie Übergangszonen zwischen diesen. Prinzipiell kann man außerdem anzweifeln, ob die mathematische Abstraktionshierarchie überhaupt alle notwendigen Wahlmöglichkeiten enthält, die in der Wahrnehmung und Begriffsbildung auftreten können. Dies kann schließlich zu einer Ablehnung aller formalen Vorgaben bei der phänomenologischen Analyse von Gesetzmäßigkeiten führen, wie sie Lakoff (1987) programmatisch für sein “experiental realism” vertritt – vgl. die Kritik in Wildgen (1994, Kap. 5). Ich sehe darin allerdings eher ein empirisches als ein grundsätzliches Problem. Die geometrische Denktradition seit 2500 Jahren (Pythagoras, Platon, Euklid, Leibniz, Poincaré) ist nicht durch Ad-hoc-Modellkonzepte entwertbar. Bei Lakoff ist deutlich beobachtbar, dass er mit seiner assoziativen Metapherntheorie in eine Theoretisierungsstufe vor Mach und von Ehrenfels, d.h. in die Assoziationspsychologie und letztlich auf den Stand der Diskussion bei Berkeley und Hume zurückfällt. Cassirer (1945/79: 285) beschreibt deren Position wie folgt: Sense perception is nothing but an aggregate or conglomerate of isolated sense data – colors, sounds, tactile, kinaesthetic data held together by the laws of association – association of similarity or contiguity in space and time.
Lakoffs Semantik auf der Basis von Metapher und Metonymie ist so gesehen nur eine Neuauflage psychologischer Theoriekonzepte vor 1850, insofern sie die Bedeutungen als lediglich durch Ähnlichkeit und räumlich organisatorische Nähe verbunden sieht. Es bleibt demnach die Aufgabe ungelöst, wie die Invarianz (im Sinne von Kleins Erlanger Programm) im Falle sprachlicher Strukturen aussehen könnte. Einen ersten Hinweis enthält bereits Bühlers Sprachtheorie, die Cassirer
702 Wolfgang Wildgen
(1937: 100, Fn. 1) zitiert. Die Wahrnehmung der “Hördinge” – unabhängig von ihrer “perspektivischen Lautheitsschrumpfung” – ist “im Sprechverkehr von grundlegender Bedeutung” (ibd.). Sie kann eine Komponente in der Evolution der Sprache gewesen sein, insofern die akustische Wahrnehmung in Stadium der Australopithicinen überlebenswichtig zur Ortung von Fressfeinden war und eventuell später zur sozialen Kommunikation refunktionalisiert wurde – vgl. Calvin & Bickerton (2000) sowie Wildgen (2004). Ziemlich nahe kam dem Erlanger Programm die Transformationstheorie von Harris (1957) und zumindest in seiner frühen Ausprägung die seines Schülers Chomsky. Wenn die Sätze einer Sprache durch eine Menge von Kernsätzen (als Invarianten der Syntax) und von Transformationen, die alle Sätze aus diesen Kernsätzen erzeugen, beschrieben werden könnten, dann läge eine erfolgreiche Anwendung der Invariantentheorie vor, d.h. die Kernsätze wären die Invarianten einer Gruppe von Transformationen.2 Im folgenden Abschnitt will ich diese Denkrichtung anhand der Arbeiten von Leyton und der Kritik Leytons am Erlanger Programm in Leyton (2001) in ihren grundsätzlichen Konsequenzen bewerten. Einerseits führt Leyton die generative Grundidee radikaler aus als Harris und Chomsky, andererseits schlägt er eine grundsätzliche Modifikation oder gar Umkehrung des Erlanger Programms vor.
2
Leytons “generative Geometrie” der Kognition und seine Kritik des Erlanger Programms
Michael Leyton hat seit 1974 mathematische Wahrnehmungstheorien entwickelt, 1986 publizierte er einen langen Artikel “Principles of Information Structure Common to Six Levels of the Human Cognitive System” (Leyton 1986). Die fünfte Ebene erfasst grammatische Strukturen in enger Anlehnung an die vorherige Modellierung der Wahrnehmung: dabei spielen Symmetrieeigenschaften, Transformationsgruppen und Stabilität eine zentrale Rolle. Mit der aus der mathematischen Wahrnehmungstheorie auf geometrischer 2. Chomsky verweist zwar indirekt auf Husserl (in Chomsky, 1981: 16), dessen Denken wesentlich von der Entwicklung der Mathematik im letzten Viertel des 19. Jahrhunderts beeinflusst war; einen Bezug Chomskys auf Felix Klein oder das Erlanger Programm konnte ich aber nicht finden. Es erscheint aber offensichtlich, dass sowohl der Begriff der “translation” bei Tesnière als auch die frühen Transformations-Konzepte bei Harris und Chomsky im Geiste des Erlanger Programms verfasst sind.
Die Suche nach Invarianten und Harmonien 703
Basis entwickelten Modellstruktur reformuliert Leyton dann Chomskys Transformationshypothesen. In seinem neuesten Buch A Generative Theory of Shape (2001) greift Leyton auf der Basis der Ausführungen in Leyton (1992) Symmetry, Causality, Mind direkt das Erlanger Programm von Felix Klein (1872) an. Da diese Fundamentalkritik am Begriff der Invarianz und der Symmetrie ansetzt, will ich einige Aspekte diskutieren. Für Leyton ist die Information einer visuellen Gestalt aber auch eines Satzes durch das “Gedächtnis” seiner Umformung aus einer neutralen (informationslosen) Basis-Struktur gekennzeichnet. Der Informationsgehalt korreliert also mit dem Ausmaß der Deformation oder der Länge des Deformationsweges. Er stellt die Geometrie seiner Theorie der von Klein entgegen (Leyton 2001: 495f.). Das zentrale Unterscheidungsmerkmal ist der Bezug zum Gedächtnis: GENERATIVE GEOMETRY: A geometric object is one from which the transformations are recoverable; i.e. a geometric object is a memory store.
Die programmatische Opposition zwischen Klein (1872) und Leyton (2001) kann uns nach der Diskussion Cassirers nicht mehr täuschen. Es geht nicht darum, ein geometrisches (mathematisches) System gnadenlos auf einen empirischen Phänomenbereich anzuwenden, da die Geometrie seit dem Aufkommen der nicht-Euklidischen Geometrien nur noch als Auswahltafel anzusehen ist und die Hybridität der Anwendung seit Helmholz vorgezeichnet ist.3 Immerhin enthält Leytons Werk eine neue Idee. Die Idealtypen der Klein’schen Geometrie-Welt sind nur archetypische Bezugspunkte. Was wir in den Phänomenen vorfinden können, sind nicht diese Archetypen, sondern deren Deformationen, und diese sind bedeutungstragender als die Archetypen selbst, die als beliebig in vielfältigen Umformungen realisierbare Gestalten fast bedeutungslos sind.4 In seiner Zusammenfassung “Against the Erlangen Program” (vgl. Leyton 2001: 526ff.) benennt Leyton wichtige Unterschiede, von denen ich nur einige nennen und kommentieren möchte: 3. Leyton, der 1986 in Yale, also in der Nähe zum M.I.T., arbeitete, akzeptiert im Prinzip Chomskys Theorie-Bildungs-Politik, die den Galileischen Stil der Physik zum Vorbild nimmt. In Chomsky (1981: 17) wird dieser Stil nach Husserl durch die folgende Frage charakterisiert: “Können wir hoffen, unter die Oberfläche zu gelangen, wenn wir uns bereit erklären, vielleicht weitreichende Idealisierungen vorzunehmen und abstrakte Modelle zu erstellen, die als aufschlussreicher angesehen werden als die alltägliche Welt der Sinneseindrücke . . . ?” 4. Eine vollständige Bedeutungslosigkeit würde zu einer Aporie führen, denn wie sollte dann das Entstehen, Sich-Entfalten von Bedeutung erklärt werden.
704 Wolfgang Wildgen Tabelle 1: Einige der Unterschiede zwischen Kleins und Leytons Geometrie (vgl. Leyton 2001: 526ff.). Kleins Erlanger Programm
Leytons generative Geometrie
Kein Gedächtnis Keine Spuren der Transformationen Ideal der Symmetrie Eine definierende Transformationsgruppe
Gedächtnis Spuren der Transformationen Symmetriebruch Verschiedene Transformationsgruppen auf mehreren Ebenen Begrenzte Transitivität der Operationen
Vorherrschende Transitivität der Operationen
Bezogen auf sprachliche Formen könnte man die Hypothese wagen, dass es eine Ebene sehr stabiler, invarianter, symmetrischer Formen geben mag, die eine Krypto-Struktur für alle sprachlichen Formen darstellen. Diese BasisStrukturen wären bedeutungslos, formal, und extrem einfach und damit mögliche Kandidaten für eine angeborene Struktur, da nur einfachste Muster, die keine sensorisch/motorisch fundierten Inhalte aufweisen, vererbt werden können (vgl. zum Problem der angeborenen Auslöser Lorenz, 1978). Alle bedeutungstragenden und funktionsbeladenen Strukturen müssten aus diesen einfachsten Formen generiert werden. Sie erhielten ihre Funktion und Bedeutung erst im Transformationsprozess, womit dieser zum Bedeutungsgenerator würde. Man kann diese Basis deshalb nicht mehr wie Chomsky eine “Universalgrammatik” nennen; angemessener wäre es, von einer “Universalmorphologie” symbolischer Formen (etwa im Sinne Goethes oder René Thoms) zu sprechen (vgl. Wildgen 1983). Die jeweiligen, in Einzelsprachen vorfindlichen Formen wären bedeutungsgenerierende Deformationen dieser Grundmuster. Wenn diese Transformationen, wie Leyton behauptet, rekursiv, komplex, auf mehreren Ebenen ablaufend und begrenzt transitiv sind, ist die Rekonstruktion der Invarianten anhand der Deformationsprodukte nur in Sonderfällen und unter Unsicherheit möglich. Ein Sonderfall minimaler und extrem optimierter Formen stellen die einfachsten valenz-abhängigen Satzmuster (in einer anderen Terminologie: die Tiefenkasus-Konfigurationen) dar. In der katastrophentheoretischen Semantik wird eine damit vergleichbare Hypothese präzisiert. Es ist dabei kein historischer Zufall, dass die ElementarKatastrophen mathematisch in engem Zusammenhang mit Platons regulären Vielecken und Körpern und den Invarianten Kleins stehen (vgl. Slodovy 1988).
Die Suche nach Invarianten und Harmonien 705
Da die Transformationen, die Leyton annimmt, empirisch auf ein Labyrinth evolutionärer, historischer und pragmatischer Prozesse verweisen, in denen die (angeborene) Basis bis zur Unkenntlichkeit verwandelt wird, ist die empirische Prüfung einer solchen Konstruktion extrem schwierig. Die Strategie der katastrophentheoretischen Semantik, das System nicht global zu beschreiben, sondern nur Singularitäten, d.h. lokale Strukturbildungen zu erfassen, erweist sich in diesem Kontext als realistischer als die hypothetische Rekonstruktion des gesamtem Maschinerie als generatives System.5
3
Harmonie in symbolischen Formen
Das Thema der Harmonie steht seit den musikalischen Theorien des legendären Pythagoras im Zentrum der mathematischen Modellbildung. Kepler versuchte, etwa das Weltall als Harmonie, im Sinne des Platonismus zu verstehen. Erst die Analysis situs (der Differential-Kalkül) erlaubte jedoch Euler, D’Alembert, Lagrange eine mathematische Theorie der Musik zu entwickeln; ähnliche Gleichungen wurden dann auf Wellen im Wasser und schließlich auf elektromagnetische Wellen (Maxwell) angewandt (vgl. Stewart 1990: 36ff.). Der harmonische Oszillator, im einfachsten Fall ein Federpendel, der um den Ruhepunkt schwingt, zeigt das Grundprinzip gedämpfter Schwingung. Eine höhere Form der Harmonie, also jenseits periodisch abklingender Schwingungen, wird sichtbar, wenn zwei Oszillatoren, oder genereller, zwei oder mehrere dynamische Systeme gekoppelt werden. In Haken (1996) werden z.B. gekoppelte Bewegungen von zwei Fingern (einer der rechten und einer der linken Hand) oder der Beinbewegungen von Vierfüßlern (Kamelen, Ochsen, Pferde, Geparden) mathematisch beschrieben. Charakteristisch sind stabil koordinierte Phasen; beim Pferd etwa Schritt, Trab, Galopp. Haken nennt Prozesse der Koordination verschiedener dynamischer Systeme synergetisch, die dazu gehörige wissenschaftliche Disziplin nennt er Synergetik (Lehre des Zusammenwirkens). 5. Wie im Falle Keplers, wird der entscheidende Schritt die Gewinnung empirischer Daten zur Evaluation dieser Hypothese sein. Kepler hat erst anhand der Daten Tycho Brahes zur Marsbahn seine entscheidenden neuen Einsichten in der Astronomie gewonnen. Entsprechend können erst Messungen komplexer kognitiver Leistungen des menschlichen Gehirns, die genaue Untersuchung der Dynamik im Erwerb und im Wandel der Sprache die Hypothesen Thoms oder Leytons definitiv evaluieren; vorher sind nur Plausibilitätsschätzungen möglich.
706 Wolfgang Wildgen
Bei symbolischen Formen sind natürlich die rhythmischen und harmonischen Muster für die Musik charakteristisch, auch die Farben eines Bildes oder dessen figürliche Komponenten können harmonisch koordiniert sein; der goldene Schnitt ergibt ein harmonisches Verhältnis von Strecken und Flächen. In der Sprache erzeugen Vokale oder Konsonanten derselben Artikulationsorte (Vokale: vorne – hinten; Konsonanten: palatal – velar) eine Harmonie-Wirkung, durch die Phänomene der Assimilation, Dissimilation, der Vokalharmonie oder des Umlautes erklärt werden können. In der Poesie sind Stabreim, Endreim, Parallelismen künstliche und damit zusätzliche Harmonien, die einem Text poetische Qualität verleihen können. Dennoch sind formal ausgearbeitete Harmonie-Modelle in der Sprachwissenschaft eher selten. Dies hängt wohl damit zusammen, dass die Harmonie nicht nur (mindestens) zwei Subsysteme, zwischen denen Harmonie herrscht, voraussetzt, es wird auch eine Oszillation, ein zyklischer Prozess in beiden Systemen voraussetzt, der bei geeigneter Koordination zur Resonanz gebracht wird, eine harmonische Koppelung erreicht. Solche Prozesse sind in der Sprache seltener als in der Musik, und es wäre eine spannende Frage, weshalb dies so ist. Ein einfaches technisches Modell der Harmonie ist ein Regelkreis, wie wir ihn beim Suchen eines Radiosenders benutzen. Die charakteristischen Einstellungen des Kondensators und/oder des Widerstandes werden so lange verändert, bis Regelkreis und Sender in ihrer Frequenz zueinander passen, in Harmonie sind. In gewisser Weise kann man diesen Vorgang auf das Gehirn als neuronales System übertragen: Verbände von Hebb-Synapsen werden auf Input-Eigenschaften abgestimmt, extrahieren damit Invarianzen des Inputs. Liegt eine Population von auf diese Weise auf externe Inputs abgestimmter neuronaler Subsysteme vor, können diese Verbände wiederum interagieren, wobei eine interne Harmonie entsteht, die in gewisser Weise Repräsentationen erster, zweiter, . . . , n-ter Ordnung schafft. Diese Grundidee wurde in der sogenannten “harmony theory” von Smolensky (1986) mathematisch ausgeführt und ergab das Programm des subsymbolischen ComputerParadigmas, auch Konnexionismus oder Theorie neuronaler Netze genannt. Hier werden physikalische Systeme, d.h. im Computer programmierte Netze, in Harmonie zu einem Input gebracht und damit kann ein Lernvorgang simuliert werden. Die Harmonie wird durch eine statistische Anpassung von Netzverbindungen “gefunden”. Da das subsymbolische Paradigma auch auf die Erzeugung grammatischer Strukturen angewandt wird, erhält der so präzisierte Harmonie-Begriff eine wichtige Funktion für die Modellierung des
Die Suche nach Invarianten und Harmonien 707
Aufbaus, der Nutzung, Stabilisierung und Veränderung sprachlicher Kompetenzen. Zusammenfassend kann man sagen, dass Harmonie im Kern die stabile Koordination mehrerer (eigentlich unabhängiger) Systeme betrifft. Sie schafft damit eine stabile Ordnung höheren Grades. Symmetrieeigenschaften und Kleinsche Transformationsgruppen bilden ideale Voraussetzung für die Erzeugung einer Harmonie zwischen gekoppelten Systemen, da sie diese vereinfachen und ihre Freiheitsgrade reduzieren.
Literatur Calvin, William; Bickerton, Derek 2000 Lingua ex Machina. Reconciling Darwin and Chomsky with the Human Brain. Cambridge, Mass.: MIT Press. Cassirer, Ernst 1937 “Die Invarianten der Wahrnehmung und des Begriffs”. Repr., 1999. In: Ernst Cassirer, Nachgelassene Manuskripte und Texte. Hamburg: Meiner, 83–133. 1938/44 “The Concept of Group and the Theory of Perception”. In: Philosophy and Phenomenological Research, 5(1); 1–36. 1945 “Reflections on the Concept of Group and the Theory of Perception.” Repr., 1979. In: Symbol, Myth and Culture. Essays and Lectures of Ernst Cassirer 1935–1945. New Haven etc.: Yale University Press, 271–291. Chomsky, Noam 1981 Regeln und Repräsentationen. Frankfurt/M.: Suhrkamp. Haken, Hermann 1996 Principles of Brain Functioning. A Synergetic Approach to Brain Activity, Behavior and Cognition. Berlin: Springer. Harris, Zellig S. 1957 “Co-occurrence and Transformation in Linguistic Structure”. In: Language, 33; 283–340. Ihmig, Karl Norbert 2003 “Cassirers Philosophie der Mathematik”. In: Sandkühler, Hans Jörg; Pätzold, Detlev (Hg.), Kultur und Symbol. Die Philosophie Ernst Cassirers. Stuttgart: Metzler, 232–247. Lakoff, George 1987 Women, Fire, and Dangerous Things. What Categories Reveal about the Mind. Chicago: Chicago University Press.
708 Wolfgang Wildgen Leyton, Michael 1986 “Principles of Information Structure Common to Six Levels of the Human Cognitive System”. In: Information Sciences, 38; 1–120. 1992 Symmetry, Causality, Mind. Cambridge, Mass.: MIT Press. 2001 A Generative Theory of Shape. Heidelberg: Springer. Lorenz, Konrad 1978 Vergleichende Verhaltensforschung. Grundlagen der Ethologie. Wien: Springer. Slodowy, Peter 1988 “Platonic Solids, Kleinian Singularities, Elementary Catastrophes, and Lie Groups”. In: Petitot-Cocorda, Jean (Eds.), Logos et théorie des catastrophes. A partir de l’œuvre de René Thom. Genf: Patiño, 73–98. Smolensky, Paul 1986 “Information Processing in Dynamical Systems: Foundations of Harmony Theory”. In: Rumelhart, David E. et al. (Eds.), Parallel Distributed Processing, Bd. 1: Foundations. Cambridge, Mass.: MIT Press, 194–282. Stewart, Ian 1989 Does God Play Dice? The Mathematics of Chaos. London: Penguin Books. Thom, René 1983 Mathematical Models of Morphogenesis. New York: Wiley. Wildgen, Wolfgang 1983 “Goethe als Wegbereiter einer universalen Morphologie (unter besonderer Berücksichtigung der Sprachform)”. In: Goethes Bedeutung für das Verständnis der Naturwissenschaften heute. Bayreuth: Universitätsverlag, 235–277. 1994 Process, Image, and Meaning. A Realistic Model of the Meanings of Sentences and Narrative Texts. Amsterdam: Benjamins. 1998 Das kosmische Gedächtnis. Kosmologie, Semiotik und Gedächtnistheorie im Werke von Giordano Bruno (1548–1600). Frankfurt: Lang. 2003 “Die Sprache – Cassirers Auseinandersetzung mit der zeitgenössischen Sprachwissenschaft und Sprachtheorie”. In: Sandkühler, Hans Jörg; Pätzold, Detlev (Hg.), Kultur und Symbol. Die Philosophie Ernst Cassirers. Stuttgart: Metzler, 171–201. 2004 The Evolution of Human Languages. Scenarios, Principles, and Cultural Dynamics. Amsterdam: Benjamins. 2006 “The dimensionality of text and picture and the cross-cultural organization of semiotic complexes.” In: Köhler, Reinhard; Mehler, Alexander (Eds.), Aspects of Automatic Text Analysis. Berlin: Springer. [Im Druck]
Applying an evenness index in quantitative studies of language and culture: a case study of women’s shoe styles in contemporary Russia Andrew Wilson and Olga Mudraya
1
Introduction
Although most of Gabriel Altmann’s energies have been devoted to the study of the language system itself, he has also demonstrated a more general interest in other semiotic systems (e.g. Köhler & Altmann 1983). This contribution encompasses both of these interests, in so far as it considers a link between an aspect of language and an aspect of culture within a quantitative systemtheoretic paradigm.
1.1
The Language of shoes
The following is an observation that appeared in a recent newspaper interview with the British novelist Kate Atkinson: The first thing that Kate Atkinson does when she meets a man is look at his shoes. ‘Doesn’t everyone?’ she asks. ’If I like the look of what he’s wearing, I take it from there. If a man wears slip-ons, especially with white socks, it means he has no taste. While Gucci loafers signal that he’s self-indulgent and vain. I like men in boots. It means they are capable, protective and can fix things.’ (Daily Mail Weekend Supplement, 4 June 2005; p. 18)
Although such comments are not encountered in print with very great frequency, Kate Atkinson’s view of shoe styles as symbols with meanings is far from uncommon. For instance, a recent popular book, Cleary (2005), informs women about what their choice of shoe style is reputedly saying about their personalities. Scholarly research in fashion has also proposed a link between shoe style and the communication of personality attributes. For
710 Andrew Wilson and Olga Mudraya
example, Kramps (1995: 231) has commented that “in keinem anderen Kleidungsstück spiegelt sich die Persönlichkeit so direkt wider als in Schuhen”, whilst Herzog (1995: 109f.) has claimed that “Schuhe unterstützen nicht nur den aufrechten Gang des Menschen, sondern sind auch Ausdruck seiner Persönlichkeit. Schuhe haben identitätsstiftenden Charakter.” Regardless of whether shoes do actually mirror the personality – and the evidence for this is not, at present, especially strong in terms of traits such as the Big Five (cf. McCrae & Costa 1990)1 – studies such as Kaiser et al. (1987) have certainly shown that people relate to footwear not just on a descriptive and contextual level but also in ways that involve making social judgements about aspects of the wearer – what we might call a ‘reader response’ model (Wilson, 2006a). In this sense, shoes do become a mirror of the personality, but it is an attributed personality, in contrast to the self-report measures often used in psychology. As Fleischer (2003) has shown, the attribution of personality traits also forms a part of a discoursally constructed cultural system, and the balance of attributed traits can differ quite substantially between judges.2 However, when the judgements made by different groups of people tend to coincide, we can argue that the concept or thing being judged – in our case, a shoe style – has become conventionalized as a collective symbol in the sense of Fleischer (2001). In the context of an ongoing research project, known for convenience as ‘The Language of Shoes’, we are attempting to approach the cultural system of footwear fashions from the twin orientations of onomasiology and cultural studies – in other words, we want to find out which terms languages use for footwear styles and what associative meanings these words and objects have within a culture. We see our work as an extension of the Wörter-und-Sachen paradigm pioneered in the early twentieth century by Meringer (e.g. 1909), which married onomasiology, etymology, and cultural studies – “from the trivial to the sublime” (Hüllen 1990: 141) – within a strongly object-oriented linguistics; Schuchardt, another early twentieth-centry linguist working in the 1. There is rather more evidence for the role of shoes in self-presentation – cf. Belk (2003). 2. Within the constructivist paradigm, Fleischer (2003: 248) remarks on the fundamental truthfulness of both self-report and attributed personalities. However, the distinction between self-report and other-attributed personalities, and between lay and professional judgements, lies at the heart of a number of ongoing disputes in personality psychology – e.g. Shedler & Westen (2004). There is a whole wealth of research that remains to be done on personality within a constructivist model of culture.
Applying an evenness index in quantitative studies 711
Wörter-und-Sachen tradition, viewed linguistics even more explicitly as a part of ethnology (Tuite 2006). However, in common with Fleischer (2001, 2003), we give much more emphasis than did the original Wörter-und-Sachen scholars to value judgements and to the constructivist nature of culture.3
1.2
Measures of prototypicality and conventionalization
In this paper, we want to examine one possible link between the onomasiological and cultural levels, and also contribute to the quantitative methodological approach in this area. Prototypicality effects are a common concern of onomasiology and system-theoretic cultural studies. In onomasiology, the concept of prototypicality relates to the readiness with which speakers recognize an object as belonging to one lexical category as opposed to another – in other words, how far they agree in naming it. This is an indication of how cognitively entrenched the object is (Grondelaers & Geeraerts 2003). Looking at Fleischer (2001), we can note that this idea of entrenchment may have implications beyond basic onomasiology. Specifically, Fleischer (2001: 334) argues that the degree to which a symbol is “anchored” – German: ‘verankert’ – within interdiscourse4 will determine the conventionalization of its semantic profile and the extent to which it is open to manipulation. In this paper, we equate Fleischer’s concept of anchoring with entrenchment, and will consider entrenchment of a symbol at the pan-cultural level to be its gross cognitive (onomasiological) entrenchment across a reasonably large sample of individuals. However, in order to study prototypicality and conventionalization, we first need some way of measuring these constructs. In onomasiology, Grondelaers & Geeraerts (2003) have proposed a simple dominance measure known as the onomasiological cue validity (or OCV). This is intended as a measure of how readily an object is given a particular name, in other words, how prototypical that object is in relation to the name. When applied to a corpus of texts (e.g. product catalogues), Grondelaers & Geeraerts (2003: 75) define the OCV measure as follows: 3. Note, however, that Fleischer does not situate himself – at least explicitly – within the Wörter-und-Sachen paradigm. 4. Interdiscourse is the intersection between the discourses of subcultures – i.e. shared discourse at the pan-cultural level.
712 Andrew Wilson and Olga Mudraya Onomasiological cue validity . . . can be measured by computing the ratio between the number of times that a lexical item is chosen as a name for a particular (set of) referent(s), and the total corpus frequency of that (set of) referent(s).
In Wilson (2006b), the first author applied a version of the OCV to respondent data in a naming experiment rather than to corpus data. In this case, the OCV was calculated as the ratio between the most preferred term for a particular boot style and the total number of responses for that style. Thus, if all subjects used the same word for the same object, it would have an OCV of 1, and if all subjects used different words, the OCV would tend towards (though never actually reach) zero. A disadvantage of the OCV, however, is that it only applies to one lexical item at a time. A more preferable measure might be one that shows the extent to which the names provided for an object are spread evenly across several options or concentrated around just one or two of them. In cultural studies, although mentioning the existence of other possibilities, Fleischer (e.g. 2002, 2003) has suggested and applied the type-token ratio (TTR) as a measure of the degree to which cultural symbols have become conventionalized – i.e., how far the discourse about a symbol is similar across respondents. The logic is that the fewer the word types that are being used, the more the respondents are speaking like one another. It is well known that the TTR is sensitive to variations in sample size, but this can easily be controlled for by keeping sample sizes similar. A more serious disadvantage of the TTR, however, which it shares with the OCV, is its insensitivity to frequency distributions. For the sake of example, let us consider four imaginary survey discourses in which 25 tokens are distributed across six types. This would invariably give us a TTR of 6/25 = 0.24, suggesting that each of the four discourses shows a similar degree of conventionalization. However, underlying this TTR could be one of several frequency distributions, for example: (a) 20, 1, 1, 1, 1, 1 (b) 4, 4, 4, 4, 4, 5 (c) 10, 10, 2, 1, 1, 1 (d) 10, 5, 5, 2, 2, 1 Distribution (a) shows a distribution where one type is clearly dominant over all the others, and we could say that this shows a very high degree of conventionalization. In contrast, distribution (b) shows a rather even spread
Applying an evenness index in quantitative studies 713
across the six types, suggesting a wider divergence of views. Examples (c) and (d) show two intermediate distributions, with (c) showing somewhat more conventionalization than (d). The TTR, then, can be misleading about the degree of conventionalization within a discourse. Although it is possible and desirable to model this kind of rank-frequency data with probability distributions (cf. Fleischer 2002), it also seems desirable to be able to measure the conventionalization of a discourse or a set of names by means of a single index. Conveniently, such measures can be borrowed from the field of community ecology. In a similar way to linguists, ecologists often want to know how diverse the population of a given place is – i.e., how many species live in that area, and how dominant one is compared to another. Recognizing that a large number of rare species can exert a strong influence on straightforward proportional measures – similar to the TTR in linguistics – ecologists often use measures known as evenness indices, which give a better representation of how evenly species (i.e. types) are distributed in terms of individuals (i.e. tokens). There are a number of evenness indices available, which are reviewed and compared in some detail by Beisel et al. (2003). In this paper, we have chosen to use Molinari’s evenness measure (G2,1 ), since Beisel et al. suggest that this gives more weight than others to high and medium frequency types. G2,1 is based on Hill’s modified evenness (F2,1 ), which is given by: 1/D − 1
eH − 1 where D is Simpson’s diversity measure: s
∑ q1 (qi − 1)
i=1
Q (Q − 1) and H is the Shannon-Weaver diversity (or entropy): S
− ∑ (qi /Q) ln (qi /Q) i=1
In these equations, S is the total number of types, Q is the total number of tokens, and qi is the number of tokens of type i. To obtain G2,1 we need to examine the values of F2,1 and apply the following weightings:
714 Andrew Wilson and Olga Mudraya
For F2,1 > 0.5: G2,1 =
arcsin (F2,1 ) F2,1 π 2
Else: 3 G2,1 = F2,1
Applying G2,1 to the four imaginary distributions above (a-d), we obtain the following results: a = 0.077 b = 0.932 c = 0.386 d = 0.467 showing clearly that the distribution with the most conventionalization – i.e. (a) – receives the lowest G2,1 and the distribution with the least conventionalization – (b) – the highest G2,1 . In the following study, we apply G2,1 to some data from our Language of Shoes project in order to address the issue of whether conventionalized naming and conventionalized attitudes correlate with one another. Following Fleischer’s (2001) comments noted above, our working hypothesis is that shoe styles which are more prototypical in the sense that they are more readily named (as evidenced by a low G2,1 in a naming experiment) will tend to be more cognitively entrenched at the cultural level and should therefore also exhibit more conventionalized discourses in terms of associations (as evidenced by a low G2,1 in an association experiment). 2
Data and method
2.1
Subjects
Thirty-nine residents of Volgograd (Russia) participated in the study. Of these, 28 were female and 11 were male. The majority of participants were students at two universities in Volgograd.
2.2
Materials
The subjects were shown photographs of 12 contemporary women’s shoe styles:
Applying an evenness index in quantitative studies 715 1. a plain classic court shoe (Am.E. pump) with a heel of approx. 2 inches in height and 0.5 square inches in area. 2. an ankle boot with a squarish toe and a wide block heel of approx. 1.5 inches in height. The boots have a wide elastic insert along the outside from top to bottom, like a classic Chelsea boot. 3. a pair of knee-high boots in a stretch material with a high chisel heel (approx. 2.5 inches). 4. a pair of slip on court shoes (Am.E. pumps) with a very broad heel of approx. 2 inches in height. The shoes have a broad rounded toe, a seam along the middle of the upper and a fairly broad (approx. 0.5 inch) strap and buckle decoration at the instep. 5. a pair of classic Doc Marten lace-up boots, ankle high, with eight rows of eyelets. 6. a pair of patent leather (or mock patent) court shoes (Am.E. pumps) with a narrow stiletto heel of approx. 2.5 inches in height. The shoes have a long narrow toe. 7. a pair of knee-length boots with a square toe and a block heel of approx 1.52.0 inches in height. The boots have a broad strap and buckle decoration at the ankle. 8. a pair of sandals with a high heel of approx. 2.5 inches in height and 0.5 square inches in area. The sandals have a square open toe and an upper extending approx. 1.5 inches from the base of the toes upwards. There is a strap and buckle across the instep extending around the back of the ankle. 9. a pair of ankle-length boots whose tops fall just on the ankle bone. These boots are therefore rather lower than styles (2) and (5). The boots have a long narrow toe and a narrow stiletto heel of approx. 2 inches in height. 10. a pair of modern “sporty” slip-on shoes. The shoes have a deep flat sole and very low heel, these forming a single component without any gap. The toes are squared and the shoe extends quite high up the instep. There is a decorative seam extending half way along the foot from the toes. 11. a pair of low-heeled classic lace-up shoes without toecaps or decoration. These shoes are actually marketed as UK servicewomen’s duty shoes. 12. a classic loafer with a flat sole and very low heel. The shoes have a squarish toe. There is a seam around the foot and a decorative strap with a slit across the instep.
All shoes were in plain black leather, apart from the Doc Marten boots. It proved difficult to locate a satisfactory close-up photograph of the latter in black. However, all photographs were presented in monochrome, so that this aspect was not particularly noticeable.
716 Andrew Wilson and Olga Mudraya
2.3
Tasks
The participants were asked to undertake two tasks in relation to each photograph. Both tasks were undertaken in Russian. Firstly, in a naming experiment, they were asked to say what they would typically call each shoe style. They were invited to imagine that they were asking someone to fetch them from the shoe closet or alternatively asking a shop assistant to fetch a pair in a shoe shop, thus completing the sentences: “Please bring me my . . . ” or “Please bring me a pair of . . . ” Secondly, in an association experiment, they were asked to provide up to 10 different completions of the sentence “I think that the woman who wears these shoes . . . ”. This is a briefer, other-directed version of the Twenty Statements Test (or “Who Am I?” activity), which has been widely used in the past to study self-identity – cf. Grace & Cramer (2003). In our case, we were looking for the traits which the participants attributed to someone who wore a particular shoe style.
2.4
Data processing
The responses to each task were collated by shoe style and counted. In the case of the naming experiment, each distinct word or phrase used to name a style was counted separately. In the case of the association experiment, the responses were lemmatized and word frequencies within the discourse were then counted, following removal of a pre-determined set of function words.
3
Results
3.1
Naming of shoe styles
The Molinari evenness measures (G2,1 ) for the naming experiment are shown in Table 1. The 1σ confidence interval for these figures is 0.097−0.355. Thus, following the logic in Fleischer (2002), we can divide the table into three regions.5 Below 0.097 are the buckle court shoes, the Doc Marten boots, and the sandals – these can be considered to be the most prototypical and entrenched 5. We have used 1σ confidence intervals in place of Fleischer’s 3σ intervals, since the 3σ intervals did not allow us to subdivide our lists into regions.
Applying an evenness index in quantitative studies 717
styles, in so far as their low evenness index indicates the clear dominance of one name item.6 Above 0.355 are the stiletto ankle boot and the sporty shoes – these can be considered to be very unprototypical, in so far as the choice of names is wider and more evenly distributed at the high-frequency end of the spectrum. The remaining shoes fall into the middle region. Table 1: Molinari evenness measures (G2,1 ) for the naming experiment Shoe Court shoes Chelsea-style boots Stretch knee boots Buckle court shoes Doc Marten boots Stiletto court shoes
3.2
G2,1
Shoe
0.278 0.339 0.325 0.058 0.078 0.120
Chunky knee boots Sandals Stiletto ankle boots Sporty shoes Lace-up shoes Loafers
G2,1 0.320 0.078 0.407 0.367 0.234 0.111
Associations in relation to shoe styles
The Molinari evenness measures (G2,1 ) for the association experiment are shown in Table 2. As with the naming experiment, we can divide this table into three regions using the 1s confidence interval, which in this case is 0.266 − 0.333. Falling below 0.266, the Doc Marten boots and the sporty shoes can be considered to demonstrate more conventionalized discourses. Above 0.333, the loafers, lace-up shoes, and sandals can be considered to show more variable discourses, with a more even spread of frequencies across word types. The remaining shoes fall into the middle region.
3.3
Correlation between evenness scores
Contrary to our prediction, there was no significant correlation between the evenness of shoe-style naming and the evenness of personal attributes suggested by shoe styles. Spearman’s ρ was −0.235, p = 0.464. This lack of correlation can be illustrated by looking at two examples. The relationship 6. It is important, when interpreting evenness indices, also to check back with the original frequency distribution.
718 Andrew Wilson and Olga Mudraya Table 2: Molinari evenness measures (G2,1 ) for the association experiment Shoe Court shoes Chelsea-style boots Stretch knee boots Buckle court shoes Doc Marten boots Stiletto court shoes
G2,1
Shoe
0.267 0.295 0.266 0.296 0.253 0.318
Chunky knee boots Sandals Stiletto ankle boots Sporty shoes Lace-up shoes Loafers
G2,1 0.294 0.337 0.331 0.256 0.340 0.341
between the naming and associations of the Doc Marten boots was in the predicted direction (low evenness for both naming and associations). However, the sporty shoes showed the opposite effect (high evenness for naming, low evenness for associations). To ensure that this effect was not due simply to the inclusion of very lowfrequency naming phrases (such as модельные вечерние туфли [= fashionable evening shoes, N = 1]), we also re-calculated the correlations based on the evenness of just the head nouns used within naming expressions.7 The results for evenness are presented in Table 3. The 1σ confidence interval here is 0.023 − 0.325, thus the court shoes and Doc Marten boots show a high degree of conventionalization in naming and the Chelsea-style boots, stiletto ankle boots, and sporty shoes the lowest degree of conventionalization.8 In terms of a relationship between the evenness of naming and evenness of associations, there was again no significant correlation: Spearman’s ρ was 0.182, p = 0.565.
4
Discussion and conclusion
In this paper, we have applied an index of evenness – Molinari’s G2,1 – to two sets of data: the results of a naming experiment and the results of an association experiment. We suggest that an evenness index may be potentially a more useful measure of prototypicality and conventionalization effects than 7. The use of adjectives in Russian, where nominal compounds would normally be used in English and German, makes it quite difficult to distinguish in elicitation tasks between fixed expressions and more casual collocations. 8. The position of the Doc Marten boots, stiletto boots, and sporty shoes is common to both forms of counting.
Applying an evenness index in quantitative studies 719 Table 3: Molinari evenness measures (G2,1 ) for the naming experiment (head nouns only) Shoe Court shoes Chelsea-style boots Stretch knee boots Buckle court shoes Doc Marten boots Stiletto court shoes
G2,1
Shoe
0.000 0.342 0.226 0.078 0.000 0.083
Chunky knee boots Sandals Stiletto ankle boots Sporty shoes Lace-up shoes Loafers
G2,1 0.088 0.088 0.369 0.456 0.245 0.111
a simple diversity measure or dominance measure, because it takes account of how evenly token frequencies are distributed across types. We have used the evenness index to test a hypothesis about the place of shoe styles in contemporary Russian culture. We hypothesized that shoe styles where respondents agreed more readily about an appropriate name – in other words, styles which were more cognitively entrenched as prototypes – would also, because of their entrenchment, elicit more conventionalized associations about their potential wearers. In practice, however, our hypothesis was not supported, and there was no significant correlation between naming evenness and the evenness of associations. It seems, then, that Fleischer’s (2001) claim about the level of entrenchment of a symbol and its effect on the conventionalization of the symbol’s cultural semantic profile may not hold true, at least in relation to shoe styles. Further work is needed to confirm whether this is truly the case, and whether it differs from culture to culture. One methodological improvement that could be made on the present study, and on which we are currently working, is to separate out the genuinely identity-descriptive words from the other words in the respondents’ discourses (rather than taking the discourses as a whole as the basis for calculating the evenness index), since there is a risk that the evenness indices may be biased by words that are not directly relevant to the question in hand. The experiment should also be replicated on other cultural symbols. Furthermore, we may need to consider in more detail whether cultural entrenchment is really equivalent to gross cognitive (i.e. onomasiological) entrenchment across a large enough sample of individuals, and, if not, exactly how the two concepts differ.
720 Andrew Wilson and Olga Mudraya
References Beisel, Jean-Nicolas; Usseglio-Polatera, Philippe; Bachmann, Vincent; Moreteau, Jean-Claude 2003 “A comparative analysis of evenness index sensitivity”. In: International Review of Hydrobiology, 88(1); 3–15. Belk, Russell W. 2003 “Shoes and self”. In: Advances in Consumer Research, 30; 27–33. Cleary, Meghan 2005 The perfect fit: what your shoes say about you. San Francisco: Chronicle. Fleischer, Michael 2001 Kulturtheorie: Systemtheoretische und evolutionäre Grundlagen. Oberhausen: Athena. 2002 “Das Image von Getränken in der polnischen, deutschen und französischen Kultur”. In: etc: Empirische Text- und Kulturforschung, 2; 8– 47. 2003 Wirklichkeitskonstruktion: Beiträge zur systemtheoretischen Konstruktivismusforschung. Dresden: Thelem. Grace, Sherry L.; Cramer, Kenneth L. 2003 “The elusive nature of self-measurement: the self-construal scale versus the twenty statements test”. In: Journal of Social Psychology, 143 (5); 649–668. Grondelaers, Stefan; Geeraerts, Dirk 2003 “Towards a pragmatic model of cognitive onomasiology”. In: Cuyckens, Hubert; Dirven, René; Taylor, John (Eds.), Cognitive Approaches to Lexical Semantics. Berlin: Mouton de Gruyter, 67–92. Herzog, Marianne 1995 “Auftreten. . . Mensch und Schuh.” In: Grünewald, D. (Hg.), ‘Was sind wir Menschen doch!. . . ’ Menschen im Bild. Analysen. Hermann Hinkel zum 60. Geburtstag. Weimar: Verlag und Datenbank für Geisteswissenschaften, 105-114. Hüllen, Werner 1990 “Rudolf Hallig and Walther von Wartburg’s Begriffssystem and its non-/acceptance in German linguistics.” In: Schmitter, Peter (Ed.), Essays towards a history of semantics. Münster: Nodus, 129–168. Kaiser, Susan B.; Schutz, Howard G.; Chandler, Joan L. 1987 “Cultural codes and sex-role ideology: a study of shoes”. In: American Journal of Semiotics, 5(1); 13–34. Köhler, Reinhard; Altmann, Gabriel 1983 “Systemtheorie und Semiotik”. In: Zeitschrift für Semiotik, 5; 424– 431.
Applying an evenness index in quantitative studies 721 Kramps, Ursula 1995 “Umgestaltung von Schuhen: Didaktische Überlegungen zur Wahl des Unterrichtsthemas”. In: Textilarbeit + Unterricht, 4; 230–235. McCrae, Robert R.; Costa, Paul T. 1990 Personality in adulthood. New York: Guilford. Meringer, Rudolf 1909 “Wörter und Sachen”. In: Germanisch-Romanische Monatsschrift, 1; 593–598. Shedler, Jonathan; Westen, Drew 2004 “Dimensions of personality pathology: an alternative to the five-factor model”. In: American Journal of Psychiatry, 161; 1743–1754. Tuite, Kevin 2006 “Language, Culture and Society”. Cambridge: Cambridge University Press. [Forthcoming] Wilson, Andrew 2006a “ ‘Personality is in the eye of the beholder’: a pilot study on shoes and personality and its implications for theories of footwear as a communicative code”. In: etc: Empirische Text- und Kulturforschung. [Forthcoming] 2006b “Words for women’s boots in present-day Polish: a quantitative and constrastive onomasiological study”. In: Research in Language. [Forthcoming]
The weighted mid-P confidence interval for the difference of independent binomial proportions1 Viktor Witkovský and Gejza Wimmer
1
Introduction
The binomial distribution belongs to the class of standard distributions in Quantitative linguistics, see e.g. Köhler (1995), Altmann (1984), Altmann (1988), Altmann (1991), Uhlíˇrová (1995a), Uhlíˇrová (1995b), Schmidt (1996), Best (1997) and Wimmer & Altmann (1999). The proper estimation of a single binomial proportion and the estimation of the difference of two binomial proportions belong to the basic tasks in modelling dichotomic situations by using binomial models. The interval estimators for the difference of two independent binomial proportions, say δ = pt − pc , are required also in other areas of scientific research, e.g. in clinical trials, where the typical task is to compare a new treatment with a standard treatment (control). The recent statistical literature offers several exact and approximate methods to construct such interval estimators, see e.g. Newcombe (1998a), Newcombe (1998b) and Chan & Zhang (1999) for numerical comparison of several selected exact and approximate methods. In this paper we propose a new class of alternative interval estimators for the difference of two independent binomial proportions. In detail, we say that the interval estimator is exact (in a strong sense) if its minimum coverage probability (CP) is equal or greater to the prespecified nominal level 1 − α, i.e. minCP(δ) ≥ 1 − α, where δ = pt − pc , and such that −1 ≤ δ ≤ 1. We propose a class of weighted mid-P interval estimators parameterized by the parameter κ, 0 ≤ κ ≤ 1. If κ = 0, the mid-P interval estimator is an approximate estimator, however, exact in weak sense: i.e. such that the average coverage probability CP = CP(δ) d f (δ) ≥ 1 − α for some smooth distribution f (δ) on the parameter space −1, 1. In this case, according to Newcombe (1998a), the CP should be close to 1 − α, ideally a little over 1 − α, with minCP(δ) a little under 1 − α. If κ = 1, the minimum coverage probability of 1. This research has been supported by the Scientific Grant Agency of the Slovak Republic, by the grants VEGA 1/3016/06 and VEGA 2/4026/04.
724 Viktor Witkovský and Gejza Wimmer
the weighted mid-P interval estimator should not be, due to its construction, below the nominal level 1 − α, and so, the estimator is exact in a strong sense. The suggested interval estimators are based on the generalization of the Clopper-Pearson confidence interval for a single binomial proportion (which is known to be strictly conservative, and so, it is considered to be an exact method), see Clopper and Pearson (1934), and on its mid-P version, see Berry and Armitage (1995), which was suggested to reduce the unnecessary conservativism of the Clopper-Pearson’s exact method. Given the observed proportions, the suggested interval estimators are derived from the probability distributions of the random variables associated with the test statististics for testing the one-sided hypotheses on the parameter p of the binomial distribution, which is explained in Section 2. The calculation of the proposed interval estimates does not depend on the nuisance parameter and requires numerical integration. The integrand is a well behaved function and so the numerical integration is equally simple for all possible parameters and for any observed data. As recommended in Barnard (1989) we suggest to report both the exact and the mid-P interval estimates, arguing that the former is appropriate when the data under analysis are judged alone, whereas it is appropriate to use the latter when the evidence is combined or to be combined with that from other studies.
2
Interval estimators for a single binomial proportion
Let X be a binomial random variable having parameters n and p, i.e. X ∼ Bin(n, p). Clopper and Pearson (1934) proposed the exact confidence interval for the parameter p. The method eliminates aberrations and guarantees strict conservativism by assuming the coverage probability to be at least (1 − α) for all p, 0 ≤ p ≤ 1. The Clopper-Pearson two-sided 100 × (1 − α)% interval estimator for p is given by [LX,(α/2) ,UX,(1−α/2) ],
(1)
where the lower bound LX,(α/2) and the upper bound UX,(1−α/2) are random variables, obtained implicitely by inverting the test procedure for two onesided hypotheses, one for the lower bound and the other for the upper bound.
The weighted mid-P confidence interval
725
The lower bound of the interval estimate for p can be found by considering the one-sided hypothesis H0 : p = p0 versus H1 : p > p0 ,
(2)
for a prespecified value p0 . Suppose that, given the observed value x of X , the significance test for p > p0 results in the significance level given by p-value pv(p0 ). To decide what values of p are consonant (i.e. are in good agreement) with the data, it is reasonable to determine the hypothesized values p0 for the parameter p, for which the significance level given by the p-value, say pv(p0 ), exceeds the prespecified value, say α/2. Given the observed value x of X , we reject the null hypothesis (2) for large values of x. So, the lower bound Lx,(α/2) (by Lx,(α/2) we shall denote the realization of LX,(α/2) , given the observed value x of X ) is defined such that the following equation holds true: pv(Lx,(α/2) ) = Pr(X ≥ x|n, p0 = Lx,(α/2) ) =
α . 2
(3)
The one-sided interval estimate [Lx,(α/2) , 1] is the realization of the 100 × (1 − α/2)% interval estimator [LX,(α/2) , 1]. The interval [Lx,(α/2) , 1] contains the values p from the parameter space 0, 1 which are in good agreement with the model, the specified type of hypothesis, and the observed value x, given the fixed prespecified significance level α/2. The upper bound can be found by considering the one-sided hypothesis H0 : p = p0 versus H1 : p < p0 .
(4)
The upper bound Ux,(1−α/2) (Ux,(1−α/2) is the realization of UX,(1−α/2) given the observed value x of X ) is defined such that pv(Ux,(1−α/2) ) = Pr(X ≤ x|n, p0 = Ux,(1−α/2) ) =
α . 2
(5)
Clopper-Pearson’s two-sided 100 × (1 − α)% interval estimate for the parameter p is defined by [Lx,(α/2) ,Ux,(1−α/2) ], where Lx,(α/2) and Ux,(1−α/2) are given by (3) and (5), respectively. Further, we will introduce auxiliary random variables and their probability distributions, which are associated with the test statistics for testing the onesided hypotheses on the parameter of the binomial distributions, which will be later used for deriving the mid-P interval estimators:
726 Viktor Witkovský and Gejza Wimmer
Given the observed value x of X , for any p, 0 ≤ p ≤ 1, we get Pr(X ≤ x|n, p) = = = =
n ∑ j p j (1 − p)n− j j=0 p n−1 1−n zx (1 − z)n−x−1 dz x 0 (Ux ) (p) 1 − F[x+1,n−x] Pr(Ux > p|n, x), x
(6)
(U )
x we denote the cdf of the beta distribution (note that this whereby F[x+1,n−x] is a continuous distribution defined over the interval 0, 1) with parameters x + 1 and n − x, and by Ux we denote the associated beta random variable, (Ux ) . Similarly, given the observed value x of X , for any such that Ux ∼ F[x+1,n−x] p, 0 ≤ p ≤ 1, we get
(L )
x (p) = Pr(Lx ≤ p|n, x), Pr(X ≥ x|n, p) = F[x,n+1−x]
(7)
(L )
x we denote the cdf of the beta distribution with parameters whereby F[x,n+1−x] x and n + 1 − x, and by Lx we denote the associated beta random variable, (Lx ) . such that Lx ∼ F[x,n+1−x]
(L )
x of the beta distribution is not defined, however If x = 0, the cdf F[x,n+1−x] + for x → 0 the cdf converges to the cdf of the degenerate (Dirac) distribution (Ux ) is not defined, concentrated at p = 0. Similarly, if x = n, the cdf F[x+1,n−x] − and for x → n the cdf converges to the cdf of the degenerate distribution concentrated at p = 1. Notice that from (3) the lower bound Lx,(α/2) of the 100 × (1 − α)% interval estimate [Lx,(α/2) ,Ux,(1−α/2) ] for binomial proportion p could be derived
(L )
x of the random varias the lower cut-off point (quantile) of the cdf F[x,n+1−x] able Lx , i.e. −1 (Lx ) (α/2), (8) Lx,(α/2) = F[x,n+1−x]
−1 (L )
(L )
x x is the quantile function for the distribution function F[x,n+1−x] . where F[x,n+1−x] On the basis of this assumption we say that given the observed value x of X , (Lx ) is the lower probability distribution which is associated with the cdf F[x,n+1−x] the auxiliary random variable Lx for the parameter p.
The weighted mid-P confidence interval
727
From (5), the upper bound Ux,(1−α/2) could be derived as the upper cut-off (U )
x of the auxiliary random variable Ux , i.e. point (quantile) of the cdf F[x+1,n−x]
−1 (U )
x (1 − α/2). Ux,(1−α/2) = F[x+1,n−x]
(9)
(U )
x is the upper probability distribution which is We say that the cdf F[x+1,n−x] associated with the auxiliary random variable Ux for the parameter p. To avoid different distributional behaviour of the lower and the upper bounds the mid-P interval estimator is defined as
[PX,(α/2) , PX,(1−α/2) ],
(10)
where the random variables PX,(α/2) and PX,(1−α/2) are defined implicitely: Given the observed value x of X , the two-sided 100× (1− α)% mid-P interval estimate is given by [Px,(α/2) , Px,(1−α/2) ], where Px,(α/2) is the lower quantile and Px,(1−α/2) is the upper quantile of the mid-P probability distribution of (P )
the random variable Px ∼ F[x,n]x , where 1 2
1 2
(Px ) (Lx ) (Ux ) F[x,n] (p) = Pr(Px ≤ p) = F[x,n+1−x] (p) + F[x+1,n−x] (p).
(11)
The weighting of the lower and upper probability distributions can be generalized to the whole class of weighted distributions. We propose the class of (P ) random variables Px,κ ∼ F[x,n]x,κ , with 0 ≤ κ ≤ 1, where (Px,κ ) F[x,n] (p) = Pr(Px,κ ≤ p) (L )
(U )
x x (p) + (1 − wx,κ (p))F[x+1,n−x] (p), (12) = wx,κ (p)F[x,n+1−x]
and
κ (P ) 1 − F[x,n]x (p) wx,κ (p) = κ κ . (Px ) (Px ) F[x,n] (p) + 1 − F[x,n] (p)
(13)
In Figure 1, the cumulative distribution functions (cdf’s) of Lx , Ux , Px , Px,0.5 , and Px,1 are plotted given n = 4 and the observed value x = 3. If κ = 0, the random variable Px,0 is equivalent with the mid-P random (P ) variable Px . On the other hand, if κ = 1, the left tail of the cdf F[x,n]x,1 of the
728 Viktor Witkovský and Gejza Wimmer
0.975 0.95 0.9
0.75
probability
0.625
0.5
0.375
0.25
0.1 0.05 0.025 0
0.1
0.2
0.3
0.4
0.5 parameter p
0.6
0.7
0.8
0.9
1
Figure 1: The cumulative distribution functions (cdf’s) of Lx (left solid line), Ux (right solid line), Px ≡ Px,0 (dotted line), Px,0.5 (dashed line), and Px,1 (dashdotted line), given n = 4 and the observed value x = 3 (L )
x random variable Px,1 is close to F[x,n+1−x] (p) (for smal values of p) and the
(P )
(U )
x (p) (for large values of p). right tail of the cdf F[x,n]x,1 is close to F[x+1,n−x] For chosen κ, 0 ≤ κ ≤ 1, the weighted mid-P interval estimator is defined as (14) [PX,κ,(α/2) , PX,κ,(1−α/2) ].
Given the observed value x of X , the weighted mid-P two-sided 100 × (1 − α)% interval estimate, the realization of (14), is given by [Px,κ,(α/2) , Px,κ,(1−α/2) ], where Px,κ,(α/2) and Px,κ,(1−α/2) are the quantiles of the probability distribu(P )
tion of the random variable Px,κ ∼ F[x,n]x,κ .
3
Interval estimators for the difference of two independent binomial proportions
Let X be a binomial random variable having parameters nt and pt , i.e. X ∼ Bin(nt , pt ) and Y be an independent binomial random variable having parameters nc and pc , i.e. Y ∼ Bin(nc , pc ).
The weighted mid-P confidence interval
729
Here we propose an alternative method for the construction of the interval estimators for the difference of two independent binomial proportions δ = pt − pc , −1 ≤ δ ≤ 1, based on combining the associated random variables, as defined in Section 2. We propose the class of weighted mid-P interval estimators for the parameter δ. For given κ, 0 ≤ κ ≤ 1, the interval estimator is defined as [ΔX,Y,κ,(α/2) , ΔX,Y,κ,(1−α/2) ].
(15)
Given the observed values x of X and y of Y , the weighted mid-P 100 × (1 − α)% two-sided interval estimate for the parameter δ is [Δx,y,κ,(α/2) , Δx,y,κ,(1−α/2) ] where Δx,y,κ,(α/2) and Δx,y,κ,(1−α/2) are the quantiles of the probability distribution of the random variable Δx,y,κ = Px,κ − Py,κ , (P )
(16)
(P )
and Py,κ ∼ F[y,ny,κ , see (12). where Px,κ ∼ F[x,nx,κ t] c] If κ = 0, the mid-P interval estimator (15) is exact in weak sense, i.e. conservative on average. If κ = 1, the minimum coverage probability, minCP(δ), should be very close (greater or equal) to the nominal level 1 − α. However, we have no formal proof yet, and further study is necessary to get a better picture of the (minimum) coverage probabilities under different scenarios. The calculation of the lower and the upper bound of the proposed interval estimates does not depend on the nuisance parameter (i.e. on the true value of the parameter pt or pc , respectively) and requires one-dimensional numerical integration. The integrand is a well behaved function and so the numerical integration is equally simple for all possible parameters and any observed data. Some typical shapes of the weighted mid-P cumulative distribution functions for the difference of two binomial proportions δ = pt − pc are plotted in Figure 2. (Δ ) the distribution function of the In particular, let us denote by F[x,nx,y,κ t ,y,nc ] (P )
and Py,κ ∼ auxiliary random variable Δx,y,κ = Px,κ − Py,κ with Px,κ ∼ F[x,nx,κ t] (P )
(Δ
)
(Δ
)
F[y,ny,κc ] , see (12). We define F[x,nx,y,κ (δ) = 0 for δ < −1 and F[x,nx,y,κ (δ) = 1 t ,y,nc ] t ,y,nc ]
for δ ≥ 1. Further, for −1 ≤ δ < 1, we have (Δ
)
F[x,nx,y,κ (δ) = Pr(Δx,y,κ ≤ δ) t ,y,nc ]
730 Viktor Witkovský and Gejza Wimmer
0.975 0.95 0.9
0.75
probability
0.625
0.5
0.375
0.25
0.1 0.05 0.025 1
0.8
0.6
0.4
0.2
0 0.2 parameter δ=p p t
0.4
0.6
0.8
1
c
Figure 2: The weighted mid-P cumulative distribution functions for the difference of two binomial proportions δ = pt − pc . Here nt = nc = 4, κ = 0.5, and the observed values (from the left to the right) are: (a) x = 0, y = 4, (b) x = 1, y = 4, (c) x = 2, y = 4, (d) x = 3, y = 4, (e) x = 0, y = 0, (f) x = 2, y = 1, (g) x = 3, y = 1, (h) x = 3, y = 0, and (i) x = 4, y = 0
= Pr(Px,κ ≤ δ + Py,κ ) 1
= 0 1
(P )
(Px,κ ) F[x,n (δ + p) d F[y,ny,κ (p) t] c] (P )
= max{−δ,0}
(Px,κ ) F[x,n (δ + p) d F[y,ny,κ (p). t] c]
(17)
A careful treatment is required if the extreme values of X and Y were observed, i.e. if x = 0, y = 0, x = nt , and/or y = nc . If y = 0, (Δ ) F[x,nx,y,κ (δ) = t ,y,nc ]
1 (Px,κ ) F (δ) + 2 [x,nt ]
1 max{−δ,0}
(P )
(P )
F[x,nx,κt ] (δ + p) d F[y,ny,κc ] (p),
(18)
and if y = nc , (Δ
)
1 2
(P ) F[x,nx,y,κ (δ) = F[x,nx,κ (1 + δ) + t ,y,nc ] t]
1 max{−δ,0}
(P )
(Px,κ ) F[x,n (δ + p) d F[y,ny,κ (p). (19) t] c]
The integrand in (18) and (19) should be integrated over an open interval (max{−δ, 0}, 1).
The weighted mid-P confidence interval (Δ
731
)
Moreover, note that if x = 0 and y = nc , then F[x,nx,y,κ (−1) = 0.25; for t ,y,nc ] illustration see the case (a) in Figure 2). Furthermore, if x = nt and y = 0, (Δ ) (δ) = 0.75, (see the case (i) in Figure 2). then limδ→1− F[x,nx,y,κ t ,y,nc ] (Δ
)
(Δ
)
(0) − limδ→0− F[x,nx,y,κ (δ) = 0.25, (see If x = 0 and y = 0 then F[x,nx,y,κ t ,y,nc ] t ,y,nc ] the case (e) in Figure 2).
4
Example
In order to illustrate the suggested methods we have calculated the weighted mid-P interval estimates for the difference of two independent binomial proportions δikl = pik − pil of the i-syllable words, i = 1, . . . , 9, in arbitrary pairs of four different volumes of Lev Tolstoj’s Anna Karenina, indexed by k and l, where k, l = 1, . . . , 4, see Table 1 for the observed counts. For illustrative purposes, we have considered here a very simplified model for modelling frequencies of the i-syllables words. We have assumed that for any fixed i, i = 1, . . . , 9, and for any fixed k, k = 1, . . . , 4, the observed number of the isyllables words in a band indexed by k could be represented as a realization of the binomial random variable with the parameters pik and nk , where nk is the total number of words in the band indexed by k, i.e. by Xki ∼ Bin(pik , nk ). Table 1: Counts of the i-syllable words, i = 1, . . . , 9, in four volumes of Lev Tolstoj’s Anna Karenina i
Vol. 1
Vol. 2
Vol. 3
Vol. 4
1 2 3 4 5 6 7 8 9
11 958 12 354 7 226 3 546 1 179 248 38 6 0
12 589 12 532 7 594 3 709 1 352 315 49 12 1
12 187 12 541 7 268 3 658 1 548 385 53 9 1
8 356 8 206 4 742 2 404 1 063 282 33 7 2
nk
36 555
38 153
37 650
25 095
We have computed the two-sided 95% weighted mid-P interval estimates (κ = 0 and κ = 1) for the parameter δikl , see the Table 2 for the results.
732 Viktor Witkovský and Gejza Wimmer Table 2: The two-sided 95% weighted mid-P interval estimates calculated for κ = 0 and κ = 1 for the parameter δikl with i = 1 and i = 9, and k, l = 1, . . . , 4. For easier reading of the results, the limits of the calculated intervals were multiplied by the number 100 nk
xik
nl
xil
(κ = 0)
(κ = 1)
36 555 36 555 36 555 38 153 38 153 37 650 36 555 36 555 36 555 38 153 38 153 37 650
11 958 11 958 11 958 12 589 12 589 12 187 0 0 0 1 1 1
38 153 37 650 25 095 37 650 25 095 25 095 38 153 37 650 25 095 37 650 25 095 25 095
12 589 12 187 8 356 12 187 8 356 8 356 1 1 2 1 2 2
(−0.9574, +0.3900) (−0.3311, +1.0175) (−1.3415, +0.1701) (−0.0410, +1.2946) (−1.0520, +0.4480) (−1.6794, −0.1783) (−0.0121, +0.0056) (−0.0123, +0.0056) (−0.0253, +0.0023) (−0.0104, +0.0102) (−0.0232, +0.0067) (−0.0232, +0.0069)
(−0.9594, +0.3921) (−0.3331, +1.0195) (−1.3441, +0.1727) (−0.0429, +1.2967) (−1.0545, +0.4505) (−1.6820, −0.1759) (−0.0134, +0.0076) (−0.0136, +0.0076) (−0.0273, +0.0046) (−0.0121, +0.0119) (−0.0256, +0.0088) (−0.0256, +0.0090)
5
Conclusions
The proposed method for computing the weighted mid-P interval estimates for the difference of two binomial proportions is simple, it does not depend on the nuisance parameter and requires only one-dimensional numerical integration of well behaved functions. The mid-P interval estimator (κ = 0) is exact in weak sense, i.e. conservative on average, with minimum coverage probability possibly little under the nominal level 1 − α. If κ is large (close to 1) the weighted mid-P interval estimator is expected to be strictly conservative with the minimum coverage probability close to the nominal level 1 − α. A reasonable compromise is the weighted mid-P interval estimate with chosen κ, 0 < κ < 1. This method is especially suitable for small sample cases when the classical approximative methods based on the asymptotical results are not applicable and leads to wrong results. For more examples and comparisons based on small samples see the unpublished work by Witkovský (2002). However, as illustrated in this paper the method works equally well also for the large samples, including cases with the extreme observations. The MATLAB algorithm for computing the weighted mid-P interval estimates for single binomial proportion as well as the difference of two inde-
The weighted mid-P confidence interval
733
pendent binomial proportions is available at the webpage: http://aiolos. um.savba.sk/~viktor/software.html. Acknowledgments. Professor Gabriel Altmann’s numerous, important contributions to the theory of linguistics were due in part to his reliance on the logic and the tools of mathematics and statistics. By our joint work with him in some of these efforts, we can affirm that, in addition to enriching his field, his work has enriched our understanding of our field. We express our gratitude and appreciation for his enthusiastic encouragement and support over the years, as well as his congenial company.
References Altmann, Gabriel 1984 “Beitrag zur Methodologie der Areallinguistik”. In: Goebl, Hans (Ed.), Dialectology. Bochum: Brockmeyer, 61–69. 1988
Wiederholungen in Texten. Bochum: Brockmeyer.
1991
“Word class diversification of Arabic verbal roots”. In: Rothe, Ursula (Ed.), Diversification processes in language: grammar. Hagen: Rottmann, 57–59.
Barnard, George A. 1989 “On alleged gains in power from lower P-values”. In: Statistics in Medicine, 8; 1469–1477. Berry, Geoffrey H.; Armitage, Peter 1995 “Mid-P confidence intervals: a brief review”. In: Statistician, 44; 417– 423. Best, Karl-Heinz (Ed.) 1997 The Distribution of Word and Sentence Length. Trier: Wissenschaftlicher Verlag. Chan, Ivan S.F.; Zhang, Zhongxin 1999 “Test-based exact confidence intervals for the difference of two binomial proportions”. In: Biometrics, 55; 1202–1209. Clopper, C.J.; Pearson, Egon .S. 1934 “The use of confidence or fiducial limits illustrated in the case of the binomial”. In: Biometrika, 26; 404–413. Köhler, Reinhard (Ed.) 1995 Bibliography of Quantitative Linguistics. Amsterdam: Benjamins.
734 Viktor Witkovský and Gejza Wimmer Newcombe, Robert G. 1998 “Interval estimation for the difference between independent proportions: Comparison of eleven methods”. In: Statistics in Medicine, 17; 873–890. 1998 “Two-sided confidence intervals for the single proportion: Comparison of seven methods”. In: Statistics in Medicine, 17; 857–872. Schmidt, Peter (Ed.) 1996 Issues in General Linguistic Theory and the Theory of Word Length. Trier: Wissenschaftlicher Verlag. Uhlíˇrová, Ludmila 1995 “O jednom modelu rozloˇvení délky slov”. In: Slovo a slovesnost, 56; 8–14. 1995 “On the generality of statistical laws and individuality of texts. A case of syllables, word forms, their length and frequencies”. In: Journal of Quantitative Linguistics, 2; 238–247. Wimmer, Gejza; Altmann, Gabriel 1999 Thesaurus of Univariate Discrete Probability Distributions. Essen: Stamm. Witkovský, Viktor 2002 Computing the exact and the mid-P interval estimates for the difference of two independent binomial proportions. Bratislava: Institute of Measurement Science, Slovak Academy of Sciences. Unpublished Technical Report. [http://aiolos.um.savba.sk/~viktor/PDF/ VW2002C.pdf]
Gabriel Altmann: Complete bibliography of scholarly works (1960–2005)
1
Monographs 1973
[with Lehfeldt, Werner] Allgemeine Sprachtypologie. München: Fink.
1980
Statistik für Linguisten. Bochum: Brockmeyer.
1980
[with Lehfeldt, Werner] Einführung in die quantitative Phonologie. Bochum: Brockmeyer.
1988
Wiederholungen in Texten. Bochum: Brockmeyer.
1989
[with Hammerl, Rolf] Diskrete Wahrscheinlichkeitsverteilungen I. Bochum: Brockmeyer.
1989
[with Schwibbe, Michael H.] Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms.
1992
[with Zörnig, Peter] Diskrete Wahrscheinlichkeitsverteilungen II. Bochum: Brockmeyer.
1995
Statistik für Linguisten. 2., verb. Auflage. Trier: Wissenschaftlicher Verlag.
1999
[with Wimmer, Gejza] Thesaurus of univariate dicrete probability distributions. Essen: Stamm-Verlag.
2002
[with Ziegler, Arne] Denotative Textanalyse. Wien: Edition Praesens.
2002
[with Bagheri, Dariusch; Goebl, Hans; Köhler, Reinhard; Prün, Claudia] Einführung in die Quantitative Lexikologie. (Göttinger Linguistische Abhandlungen; 5). Göttingen: Peust & Gutschmidt.
2003
[with Wimmer, Gejza; Hˇrebíˇcek, Ludˇek; Ondrejoviˇc, Slavomír; Wimmerová, Soˇna] Úvod do analýzy textov. Bratislava: Vydatel’stvo Slovenskej Akadémie vied.
2005
[with Altmann, Vivien] Erlkönig und Mathematik. [http://ubt.opus.hbz-nrw.de/volltexte/2005/325/]
736 Gabriel Altmann
2
Edited Books 1978
Glottometrika 1. Bochum: Brockmeyer.
1993
Glottometrika 14. Trier: Wissenschaftlicher Verlag.
1993
[with Hˇrebíˇcek, Ludˇek] Quantitative Text Analysis. Trier: Wissenschaftlicher Verlag.
1997/98
[with Mikk, Jaan; Saukkonen, Pauli; Wimmer, Gejza] Festschrift in honor of Juhan Tuldava. Special Issue: Journal of Quantitative Linguistics, 4 (1997) & 1 (1998).
1998
[with Koch, Walter A.] Systems. New paradigms for the human sciences. Berlin: de Gruyter.
2005
[with Levickij, Viktor; Perebijnis, Valentina] Проблеми квантитаˇ тивноï лiнгвiстикi. Problems of Quantitative Linguistics. Cernovtsi: Ruta.
2005
[with Köhler, Reinhard; Piotrowski, Rajmund G.] Quantitative Linguistik – Ein internationales Handbuch. Quantitative Linguistics – An International Handbook. Berlin / New York: de Gruyter.
3
Articles 1960
“Ostrov umelcov”. In: Rol’nícke noviny, 17.VIII.1960, XV/200; 2.
1961
[with Krupa, Viktor] “Semantic analysis of the system of personal pronouns in the Indonesian language”. In: Archiv orientální, 29; 620–625.
1963
“Betjaky, vlaky, lietadlá”. In: Príroda a spoloˇcnost’, 17; 16–19.
1963
“Kvantitatívne metódy v literárnej vede.” In: Slovenská literatúra, 10; 432–441.
1963
“Phonic structure of Malay pantun”. In: Archiv orientální, 31; 620– 625.
1963
“Štatistika a poetika”. In: Svet vedy, 10/1; 67.
1963
[with Štukovský, Robert] “Analyza náhleho klimaxu”. In: Litteraria, 6; 62–72.
1964
“250 nyelven beszél˝o ország”. In: Természet és társadalom, 5; 32–33.
1964
[with Krupa, Viktor] “On relations of structure and inventory in linguistic systems”. In: Jazykovedný cˇ asopis, 15; 97–100.
Complete bibliography of scholarly works (1960–2005) 737
1964
[with Štukovský, Robert] “Fonická povaha slovenského rýmu”. In: Litteraria, 7; 65–80.
1965
“Jazykové problémy Indonézie”. In: Svet vedy, 12; 402–405.
1965
“Kvantitativne metódy v jazykovede”. In: Svet vedy, 12/1; 2–4.
1965
“Problémy indonézskej kultúry”. In: Svet vedy, 12/3; 169–174.
1965
[with Štukovský, Robert] “The climax in Malay pantun”. In: Asian and African Studies, 1; 13–20.
1965
[with Štukovský, Robert] “Vyvoj otvoreného rymu v slovenskej poézii”. In: Litteraria, 8; 156–161.
1966
“Binomial index of euphony for Indonesian poetry”. In: Asian and African Studies, 2; 62–67.
1966
“The measurement of euphony”. In: Teorie verše I. Brno: Universita J.E. Purkynˇe, 208–209.
1966
“Pískajúci ostrov”. In: Príroda a spoloˇcnost’, 6; 52–53.
1966
“Športujúce kravy”. In: Letná revue; 137–139.
1966
[with Krupa, Viktor] “Relations among typological indices”. In: Linguistics, 24; 29–37.
1966
[with Riška, Augustin] “Towards a typology of courtesy in language”. In: Anthropological Linguistics, 8; 1–10.
1966
[with Štukovský, Robert] “Die Entwicklung des slowakischen Reimes im XIX. und XX. Jahrhundert”. In: Teorie verše I. Brno: Universita J.E. Purkynˇe, 259–261.
1967
“Functional-probabilistic classification of phonemes”. In: Beiträge zur Linguistik und Informationsverarbeitung, 10; 27–33.
1967
“The structure of Indonesian morphemes”. In: Asian and African Studies, 3; 23–36.
1968
“Combination of consonants in Indonesian morphemes of the CVCVC type”. In: Mitteilungen des Instituts für Orientforschung, 14; 108–125.
1968
ˇ je typológia jazykov”. In: Svet vedy, 9; 551–552. “Co
1968
“Prvou triedou po Jáve”. In: Príroda a spoloˇcnostt’, 18/17; 56–59.
1968
“Some phonic features of the Malay shaer”. In: Asian and African Studies, 4; 9–16.
1968
“Žijú ešte lovci lebiek?” In: Príroda a spoloˇcnostt’, 18/24; 40–43.
738 Gabriel Altmann
1968
[with Dömötör, Zoltán; Riška, Augustin] “The partition of space in Nimboran”. In: Beiträge zur Linguistik und Informationsverarbeitung, 12; 56–71.
1968
[with Dömötör, Zoltán; Riška, Augustin] “Reprezentácia priestoru v systéme slovenských predložiek”. In: Jazykovedný cˇ asopis, 19; 25–40.
1969
“Differences between phonemes”. In: Phonetica, 19; 118–132.
1969
“O statistiˇceskich metodach issledovanija malajskoj literatury [Statistical methods in the research into Malay literature]”. In: Narody Azii i Afriki, 1969; 137–141.
1970
“Dobrú chut’ po indonézsky”. In: Príroda a spoloˇcnostt’, 19/1; 52–55.
1971
“Die phonologische Profilähnlichkeit. Ein Beitrag zur Typologie phonologischer Systeme der slawischen Sprachen”. In: Phonetica, 24; 9– 22.
1972
“Status und Ziele der quantitativen Sprachwissenschaft”. In: Jäger, Siegfried (Hg.), Linguistik und Statistik. Braunschweig: Vieweg, 1–9.
1972
“Zur linguistischen Unbestimmtheit”. In: Linguistische Berichte, 22; 74–79.
1972
[with Lehfeldt, Werner] “Typologie der phonologischen Distributionsprofile”. In: Beiträge zur Linguistik und Informationsverarbeitung, 22; 8–35.
1973
“Asymmetrie der Distribution linguistischer Einheiten”. In: Phonetica, 28; 86–96.
1973
“Mathematische Linguistik”. In: Koch, Walter A. (Hg.), Perspektiven der Linguistik. Stuttgart: Kröner, 208–232.
1973
“Probabilistische Klassifikation von Konsonantenverbindungen des Indonesischen”. In: Zeitschrift der Deutschen Morgenländischen Gesellschaft, 123; 98–116.
1973
“Zur Klassifikation philippinischer Sprachen”. In: Anthropos, 68; 300– 304.
1973
[with Sander, Hans-Dieter] “Asymmetrie binärer Stammbäume”. In: Phonetica, 28; 171–181.
1973
[with Raettig, Volker] “Genus und Wortauslaut im Deutschen”. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung, 26; 297–303.
1974
“Lautgesetz und Zufall”. In: Anthropos, 69; 263–271.
Complete bibliography of scholarly works (1960–2005) 739
1975
[with Lehfeldt, Werner] “Begriffskritische Untersuchungen zur Sprachtypologie”. In: Linguistics, 144; 49–78.
1976
“Homologiekriterien in der Linguistik und Biologie”. In: Evoluierende Systeme, I & II. Frankfurt/M.: Kramer, 184–191.
1976
[with Lehfeldt, Werner] “Betrachtungen zum Verhältnis zwischen Biologie und Linguistik.” In: Evoluierende Systeme, I & II. Frankfurt/M.: Kramer, 147–154.
1977
“Sprachregeln und Erklärung.” In: Linguistische Berichte, 50; 31–37.
1977
“Zur Ähnlichkeitsmessung in der Dialektologie.” In: Germanistische Linguistik, 3-4; 305–310.
1978
“Gedanken zur Areallinguistik.” In: Finnisch-Ugrische Mitteilungen, 2; 63–69.
1978
“Towards a theory of language.” In: Glottometrika 1. Bochum: Brockmeyer, 1–25.
1978
“Zur Anwendung der Quotiente in der Textanalyse.” In: Glottometrika 1. Bochum: Brockmeyer, 91–106.
1980
“Prolegomena to Menzerath’s law.” In: Glottometrika 2. Bochum: Brockmeyer, 1–10.
1980
“Diskussion zu: Boroda, M.G., Häufigkeitsstrukturen musikalischer Texte.” In: Glottometrika 3. Bochum: Brockmeyer, 70–71.
1980
ˇ ˇ “Diskussion zu: Rehák, J., Reháková, B., Analyse von Kontingenztafeln: Zwei Grundtypen von Aufgaben und das Vorzeichenschema.” In: Glottometrika 3. Bochum: Brockmeyer, 29–31.
1980
[with Gerši´c, Slavko] “Laut-Silbe-Wort und das Menzerathsche Gesetz.” In: Frankfurter Phonetische Beiträge, 3; 115–123.
1980
[with Naumann, Carl L.; Goebl, Hans] “Simplifizierung in der Dialektologie.” In: Kwartalnik neofilologiczny, 27; 287–300.
1981
“The homogeneity of metric patterns in hexameter.” In: Grotjahn, Rüdiger (Hg.), Hexameter Studies. Bochum: Brockmeyer, 137–150.
1981
“Zur Funktionsanalyse in der Linguistik.” In: Esser, Jürgen; Hübler, Axel (Eds.), Forms and Functions. Tübingen: Narr, 25–32.
1982
[with Be˝othy, Erzsébet] “Das Piotrowski-Gesetz und der Lehnwortschatz.” In: Zeitschrift für Sprachwissenschaft, 1; 171–178.
1982
[with Be˝othy, Erzsébet; Best, Karl-Heinz] “Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz.” In: Zeitschrift für
740 Gabriel Altmann Phonetik, Sprachwissenschaft und Kommunikationsforschung, 35; 537– 543. 1982
[with Burdinski, Violetta] “Towards a law of word repetitions in textblocks.” In: Glottometrika 4. Bochum: Brockmeyer, 147–167.
1982
[with Naumann, Carl L.] “Statistische Darstellung.” In: Besch, Werner; Knoop, Ulrich; Putschke, Wolfgang; Wiegand, Herbert E. (Hg.), Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung. Handbücher zur Sprach- und Kommunikationswissenschaft; Bd. 1. Berlin u.a.: de Gruyter, 653–666.
1983
“Das Piotrowski-Gesetz und seine Verallgemeinerungen.” In: Best, Karl-Heinz; Kohlhase, Jörg (Hg.), Exakte Sprachwandelforschung. Göttingen: Herodot, 54–90.
1983
“H. Arens’ «Verborgene Ordnung» und das Menzerathsche Gesetz.” In: Faust, Manfred; Harweg, Roland; Lehfeldt, Werner; Wienold, Götz (Hg.), Allgemeine Sprachwissenschaft, Sprachtypologie und Textlinguistik. Tübingen: Narr, 31–39.
1983
[with Buttlar, Haro v.; Rott, Walter; Strauß, Udo] “A law of change in language.” In: Brainerd, Barron (Ed.), Historical linguistics. Bochum: Brockmeyer, 104–115.
1983
[with Kind, Bernd] “Ein semantisches Gesetz.” In: Glottometrika 5. Bochum: Brockmeyer, 1–13.
1983
[with Köhler, Reinhard] “Systemtheorie und Semiotik.” In: Zeitschrift für Semiotik, 5; 424–431.
1983
[with Zörnig, Peter] “The repeat rate of phoneme frequencies and the Zipf-Mandelbrot law.” In: Glottometrika 5. Bochum: Brockmeyer, 205–211.
1984
“Beitrag zur Methodologie der Areallinguistik.” In: Goebl, Hans (Hg.), Dialectology. Bochum: Brockmeyer, 61–69.
1984
[with Be˝othy, Erzsébet] “The diversification of meaning of Hungarian verbal prefixes. II. ‘ki-’.” In: Finnisch-Ungarische Mitteilungen, 8; 29–37.
1984
[with Be˝othy, Erzsébet] “Semantic diversification of Hungarian verbal prefixes. III. ‘föl-’, ‘el-’, ‘be-’.” In: Glottometrika 7. Bochum: Brockmeyer, 45–56.
1984
[with Strauß, Udo; Sappok, Christian; Diller, Hans-Jürgen] “Zur Theorie der Klumpung von Textentitäten.” In: Glottometrika 7. Bochum: Brockmeyer, 73–100.
Complete bibliography of scholarly works (1960–2005) 741
1984
[with Teupenhayn, Regina] “Clause length and Menzerath’s law.” In: Glottometrika 6. Bochum: Brockmeyer, 127–138.
1984
[with Zörnig, Peter] “The entropy of phoneme frequencies and the Zipf-Mandelbrot law.” In: Glottometrika 6. Bochum: Brockmeyer, 41– 47.
1985
“Die Entstehung diatopischer Varianten. Ein stochastisches Modell.” In: Zeitschrift für Sprachwissenschaft, 4; 139–155.
1985
“On the dynamic approach to language.” In: Ballmer, Thomas T. (Ed.), Linguistic Dynamics. Berlin: de Gruyter, 181–189.
1985
“Semantische Diversifikation.” In: Folia Linguistica, 19; 177–200.
1985
“Sprachtheorie und mathematische Modelle.” In: SAIS Arbeitsberichte aus dem Seminar für Allgemeine und Indogermanische Sprachwissenschaft, 8; 1–13.
1985
[with Gerši´c, Slavko; Naumann, Carl L.] “Subjektive Lautähnlichkeit.” In: Beiträge zur Phonetik und Linguistik, 50; 101–120.
1985
[with Job, Ulrike] “Ein Modell für anstrengungsbedingte Lautveränderung.” In: Folia Linguistica Historica, 6; 401–407.
1986
“Tendenzielle Vokalharmonie.” In: Glottometrika 8. Bochum: Brockmeyer, 104–112.
1986
[with Best, Karl-Heinz] “Untersuchungen zur Gesetzmäßigkeit von Entlehnungsprozessen im Deutschen.” In: Folia Linguistica Historica, 7; 31–41.
1986
[with Köhler, Reinhard] “Synergetische Aspekte der Linguistik.” In: Zeitschrift für Sprachwissenschaft, 5; 253–265.
1986
[with Wagner, Klaus R.; Köhler, Reinhard] “Zum Gesamtwortschatz der Kinder.” In: Wagner, Klaus R. (Hg.), Wortschatz-Erwerb. Bern: Lang, 128–142.
1987
“The levels of linguistic investigation.” In: Theoretical Linguistics, 14; 227–239.
1987
[with Best, Karl-Heinz; Kind, Bernd] “Verallgemeinerung des Gesetzes der semantischen Diversifikation.” In: Glottometrika 8. Bochum: Brockmeyer, 130–139.
1988
“Ein Test für tendenzielle Vokalharmonie.” In: Bluhme, Hermann (Hg.), Beiträge zur quantitativen Linguistik. Tübingen: Narr, 167–170.
742 Gabriel Altmann
1988
“Verteilung der Satzlängen.” In: Glottometrika 9. Bochum: Brockmeyer, 147–170.
1988
[with Gerši´c, Slavko] “Ein Modell für die Variabilität der Vokaldauer.” In: Glottometrika 9. Bochum: Brockmeyer, 49–58.
1988
[with Schulz, Klaus-Peter] “Lautliche Strukturierung von Spracheinheiten.” In: Glottometrika 9. Bochum: Brockmeyer, 1–48.
1988
[with Grotjahn, Rüdiger] “Linguistische Meßverfahren.” In: Ammon, Ulrich; Dittmar, Norbert; Mattheier, Klaus J. (Hg.), Sociolinguistics. Soziolinguistik. Berlin: de Gruyter, 1026–1039.
1989
“Hypotheses about compounds.” In: Glottometrika 10. Bochum: Brockmeyer, 100–107.
1989
“Japanese quantitative linguistics.” In: Mizutani, Shizuo (Hg.), Japanese quantitative linguistics. Bochum: Brockmeyer, I–XIII.
1989
[with a Campo, Frank W.; Gerši´c, Slavko; Naumann, Carl L.]“Subjektive Ähnlichkeit deutscher Laute.” In: Glottometrika 10. Bochum: Brockmeyer, 46–70.
1989
[with Köhler, Reinhard] “Status und Funktion quantitativer Verfahren in der Computerlinguistik.” In: Bátori, István S.; Lenders, Winfried; Putschke, Wolfgang (Eds.), Computational Linguistics. Computerlinguistik. Berlin: de Gruyter, 1113–1119.
1990
“Bühler or Zipf? A re-interpretation.” In: Koch, Walter A. (Hg.), Aspekte einer Kultursemiotik. Bochum: Brockmeyer, 1–6.
1990
[with Best, Karl-Heinz; Be˝othy, Erzsébet] “Ein methodischer Beitrag zum Piotrowski-Gesetz.” In: Glottometrika 12. Bochum: Brockmeyer, 115–124.
1991
“Definitionsfolgen und Lexemnetze: Eine neue Disziplin.” In: Sambor, Jadwiga; Hammerl, Rolf (Hg.), Definitionsfolgen und Lexemnetze. Lüdenscheid: RAM-Verlag, 188–198.
1991
“Modelling diversification phenomena in language.” In: Rothe, Ursula (Hg.), Diversification processes in language: grammar. Hagen: Rottmann, 33–46.
1991
“Word class diversification of Arabic verbal roots.” In: Rothe, Ursula (Hg.), Diversification processes in language: grammar. Hagen: Rottmann, 57–59.
Complete bibliography of scholarly works (1960–2005) 743
1991
[with Be˝othy, Erzsébet] “The diversification of meaning of Hungarian verbal prefixes I. ‘meg-’.” In: Rothe, Ursula (Hg.), Diversification processes in language: grammar. Hagen: Rottmann, 60–66.
1991
[with Boroda, Moisej G.] “Menzerath’s law in musical texts.” In: Musikometrika, 3; 1–13.
1992
“Das Problem der Datenhomogenität.” In: Glottometrika 13. Bochum: Brockmeyer, 287–298.
1992
“Two models for word association data.” In: Glottometrika 13. Bochum: Brockmeyer, 105–120.
1992
[with Wagner, Klaus R.] “Das Type-Token-Verhältnis in der Kindersprache.” In: Wagner, Klaus R. (Hg.), Kindersprachstatistik. Essen: Die Blaue Eule, 35–46.
1992
[with Rothe, Ursula; Wagner, Klaus R.] “Verteilung der Länge von Sprechakten in der Kindersprache.” In: Wagner, Klaus R. (Hg.), Kindersprachstatistik. Essen: Die Blaue Eule, 47–56.
1993
“Phoneme counts. Marginal remarks to Päkkönen’s article.” In: Glottometrika 14. Trier: Wissenschaftlicher Verlag, 54–68.
1993
“Science and linguistics.” In: Köhler, Reinhard; Rieger, Burghard (Eds.), Contributions to Quantitative Linguistics. Dordrecht, NL: Kluwer, 3–10.
1993
[with Grotjahn, Rüdiger] “Modelling the distribution of word length: Some methodological problems.” In: Köhler, Reinhard; Rieger, Burghard (Hg.), Contributions to Quantitative Linguistics. Dordrecht, NL: Kluwer, 141–153.
1993
[with Hˇrebíˇcek, Ludˇek] “Prospects of text linguistics.” In: Hˇrebíˇcek, Ludˇek; Altmann, Gabriel (Eds.), Quantitative Text Analysis. Trier: Wissenschaftlicher Verlag, 1–28.
1993
[with Köhler, Reinhard] “Begriffsdynamik und Lexikonstruktur.” In: Beckmann, Frank; Heyer, Gerhard (Hg.), Theorie und Praxis des Lexikons. Berlin: de Gruyter, 173–190.
1993
[with Zörnig, Peter] “A model for the distribution of syllable types.” In: Glottometrika 14. Trier: Wissenschaftlicher Verlag, 190–196.
1994
[with Nemcová, Emilia]“Zur Wortlänge in slowakischen Texten.” In: Zeitschrift für empirische Textforschung, I; 40–43.
1994
[with Wimmer, Gejza; Köhler, Reinhard; Grotjahn, Rüdiger] “Towards
744 Gabriel Altmann a theory of word length distribution.” In: Journal of Quantitative Linguistics, I; 98–106. 1995
“Die Natur der Spracheinheiten.” In: Boroda, Moisej G. (Ed.), Units, text and language. An interdisciplinary approach. Bochum: Brockmeyer, 1–12.
1995
[with Wimmer, Gejza] “Generalized Gegenbauer distribution.” In: Sankhya: The Indian Journal of Statistics, 57; 450–452.
1995
[with Zörnig, Peter] “Unified representation of Zipf distributions.” In: Computational Statistics & Data Analysis, 19; 461–473.
1996
“Diversification processes of the word.” In: Glottometrika 15. Trier: Wissenschaftlicher Verlag, 102–111.
1996
“The nature of linguistic units.” In: Journal of Quantitative Linguistics, 3; 1–7.
1996
[with Best, Karl-Heinz] “Project report.” In: Journal of Quantitative Linguistics, 3; 85–88.
1996
[with Best, Karl-Heinz] “Zur Länge der Wörter in deutschen Texten.” In: Glottometrika 15. Trier: Wissenschaftlicher Verlag, 166–180.
1996
[with Erat, Eran; Hˇrebíˇcek, Ludˇek] “Word length distribution in Turkish texts.” In: Glottometrika 15. Trier: Wissenschaftlicher Verlag, 195– 204.
1996
[with Hˇrebíˇcek, Ludˇek] “The levels of order in language.” In: Glottometrika 15. Trier: Wissenschaftlicher Verlag, 38–61.
1996
[with Kim, Icheon] “Zur Wortlänge in koreanischen Texten.” In: Glottometrika 15. Trier: Wissenschaftlicher Verlag, 205–213.
1996
[with Köhler, Reinhard] “ ‘Language Forces’ and synergetic modelling of language phenomena.” In: Glottometrika 15. Trier: Wissenschaftlicher Verlag, 62–76.
1996
[with Wimmer, Gejza] “A model of morphological productivity.” In: Journal of Quantitative Linguistics, 2; 212–216.
1996
[with Wimmer, Gejza] “The multiple Poisson distribution, its characteristics and a variety of forms.” In: Biometrical Journal, 8; 995–1011.
1996
[with Wimmer, Gejza] “The theory of word length: Some results and generalizations.” In: Glottometrika 15. Trier: Wissenschaftlicher Verlag, 112–133.
1997
“The art of quantitative linguistics.” In: Journal of Quantitative Linguistics, 4; 13–22.
Complete bibliography of scholarly works (1960–2005) 745
1997
[with Best, Karl-Heinz; Wimmer, Gejza] “Wortlänge in romanischen Sprachen.” In: Gather, A.; Werner, H. (Hg.), Semiotische Prozesse und natürliche Sprache. Festschrift für Udo L. Figge zum 60. Geburtstag. Stuttgart: Steiner, 1–13.
1997
[with Köhler, Reinhard] “On explorative methodology concerning probability distributions.” In: Bandilla, Wolfgang; Faulbaum, Frank (Hg.), SoftStat’97. Advances in Statistical Software 6. Stuttgart: Lucius & Lucius, 335–339.
1999
“Von der Fachsprache zum Modell.” In: Wiegand, Herbert E. (Hg.), Sprache und Sprachen in den Wissenschaften. Geschichte und Gegenwart. Berlin: de Gruyter, 294–312.
1999
[with Wimmer, Gejza] “On vocabulary richness.” In: Journal of Quantitative Linguistics, 6; 1–9.
1999
[with Wimmer, Gejza] “Rozdelenie polysémie v maorijˇcine.” In: Genzor, Jozef; Ondrejoviˇc, Slavomír (Hg.), Pange Lingua. Zborník na pocˇ est’ Viktora Krupu. Bratislava: Veda, 17–25.
1999
[with Wimmer, Gejza; Witkovský, Viktor] “Modification of probability distributions applied to word length research.” In: Journal of Quantitative Linguistics, 6; 257–268.
1999
[with Wimmer, Gejza; Šidlík, Peter] “A new model of rank-frequency distribution.” In: Journal of Quantitative Linguistics, 6; 188–193.
2000
[with Köhler, Reinhard] “Probability distributions of syntactic units and properties.” In: Journal of Quantitative Linguistics, 7; 189–200.
2000
[with Wimmer, Gejza] “On the generalization of the STER distribution applied to generalized hypergeometric parents.” In: Acta Universitatis Palackiensis Olomouciensis Fakultas Rerum Naturalium, mathematica, 39; 215–247.
2000
[with Ziegler, Arne; Best, Karl-Heinz] “A contribution to text spectra.” In: Glottometrics, 1; 97–108.
2001
“Theory building in text science.” In: Uhlíˇrová, Ludmila; Wimmer, Gejza; Altmann, Gabriel; Köhler, Reinhard (Eds.), Text as a linguistic paradigm: levels, constituents, constructs. Festschrift in honour of Ludˇek Hˇrebíˇcek. Trier: Wissenschaftlicher Verlag, 10–20.
2001
[with Wimmer, Gejza] “Models of rank-frequency distributions in language and music.” In: Uhlíˇrová, Ludmila; Wimmer, Gejza; Altmann,
746 Gabriel Altmann Gabriel; Köhler, Reinhard (Eds.), Text as a linguistic paradigm: levels, constituents, constructs. Festschrift in honour of Ludˇek Hˇrebíˇcek. Trier: Wissenschaftlicher Verlag, 283–294. 2001
[with Wimmer, Gejza] “A new type of partial-sums distributions.” In: Statistics and Probability Letters, 52; 359–364.
2001
[with Wimmer, Gejza] “Some statistical investigations concerning word classes.” In: Glottometrics, 1; 109–123.
2001
[with Wimmer, Gejza] “Two hypotheses on synonymy.” In: Ondrejoviˇc, Slavomír; Považaj, Matej (Eds.), Lexicographica ’99. Bratislava: Veda, 218–225.
2001
[with Ziegler, Arne] “Beziehung zwischen Synonymie und Polysemie.” In: Ondrejoviˇc, Slavomír; Považaj, Matej (Eds.), Lexicographica ’99. Bratislava: Veda, 226–236.
2002
“Zipfian Linguistics.” In: Glottometrics, 3; 19–26.
2002
[with Grzybek, Peter] “Oscillation in the frequency-length relationship.” In: Glottometrics, 5; 97–107.
2002
[with Lehfeldt, Werner] “Der altrussische Jerwandel.” In: Glottometrics, 2; 34–44.
2002
[with Ziegler, Arne; Best, Karl-Heinz]“Nominalstil.” In: ETC – Empirical Text and Culture Research, 2; 72–85.
2003
[with Jüngling, Ralf] “Python for linguistics?” In: Glottometrics, 6; 70–82.
2003
[with Lehfeldt, Werner] “Протекание падения редуцированных в древнерусском языке в свете закона Пиотровских.” In: Russian Linguistics, 27; 141–149.
2003
[with Strauß, Udo] “Age and polysemy of words.” In: Glottometrics, 6; 61–64.
2003
[with Ziegler, Arne] “Text stratification.” In: Journal of Quantitative Linguistics, 10; 275–295.
2004
“Script complexity.” In: Glottometrics, 8; 68–74.
2004
[with Grzybek, Peter; Kelih, Emmerich] “Graphemhäufigkeiten (am Beispiel des Russischen). Teil II: Modelle der Häufigkeitsverteilung.” In: Anzeiger für Slawische Philologie, 32; 25–54.
2004
[with Tamaoka, Katsuo] “Symmetry of Japanese Kanji lexical productivity on the left- and right-hand sides.” In: Glottometrics, 7; 65–84.
2005
“Diversification processes.” In: Köhler, Reinhard; Altmann, Gabriel;
Complete bibliography of scholarly works (1960–2005) 747 Piotrowski, Raimund G. (Hg.), Quantitative Linguistics – An International Handbook. Berlin: de Gruyter, 646–658. 2005
“Diversification processes.” In: Quantitative Linguistics. An International Handbook. Berlin / New York: de Gruyter, 646–659.
2005
“Мода та iстина в лiнгвiстицi.” In: Altmann, Gabriel; Levickij, Viktor; Perebijnis, Valentina (Hg.), Проблеми квантитативноï ˇ лiнгвiстикi. Problems of Quantitative Linguistics. Cernivtsi: Ruta, 3–11.
2005
“Phonic word structure.” In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Rajmund G. (Eds.), Quantitative Linguistik – Quantitative Linguistics. Ein internationales Handbuch – An International Handbook. Berlin / New York: de Gruyter, 191–208.
2005
[with Anti´c, Gordana] “On letter distinctivity.” In: Glottometrics, 9; 46–53.
2005
[with Best, Karl-Heinz] “Some properties of graphemic systems.” In: Glottometrics, 9; 29–39.
2005
[with Köhler, Reinhard] “Aims and methods of quantitative linguistics.” In: Altmann, Gabriel; Levickij, Viktor; Perebijnis, Valentina (Hg.), Проблеми квантитативноï лiнгвiстикi. Problems of ˇ Quantitative Linguistics. Cernivtsi: Ruta, 12–41.
2005
[with Maˇcutek, Ján] “Discrete and continuous modeling in quantitative linguistics.” In: Journal of Quantitative Linguistics, [In print].
2005
[with Maˇcutek, Ján] “Parallel discrete and continuous distributions defined on bounded supports.” In: [In print].
2005
[with Meyer, Peter] “Physicists look at language.” In: Altmann, Gabriel; Levickij, Viktor; Perebijnis, Valentina (Hg.), Проблеми квантитативноï лiнгвiстикi. Problems of Quantitative Linguistics. ˇ Cernivtsi: Ruta, 42–59.
2005
[with Pustet, Regina]“Morpheme length distribution in Lakota.” In: Journal of Quantitative Linguistics, 12; 53–63.
2005
[with Wimmer, Gejza] “Unified derivation of some linguistic laws.” In: Köhler, Reinhard; Altmann, Gabriel; Piotrowski, Rajmund G. (Eds.), Quantitative Linguistik – Quantitative Linguistics. Ein internationales Handbuch – An International Handbook. Berlin / New York: de Gruyter, 791–807.
2005
[with Tamaoka, Katsuo]“Mathematical Modelling for Japanese Kanji
748 Gabriel Altmann Strokes in Relation to Frequency, Asymmetry and Readings.” In: Glottometrics, 10; 16–29. 2006
[with Andersen, Simone] “Information Content of Words in Texts.” In: Grzybek, Peter (Ed.), Contributions to the Science of Text and Language: Word Length Studies and Related Issues. Dordrecht, NL: Springer, 91–115.
2006
[with Strauß, Udo; Grzybek, Peter] “Word Length and Word Frequency.” In: Grzybek, Peter (Ed.), Contributions to the Science of Text and Language: Word Length Studies and Related Issues. Dordrecht, NL: Springer, 277–294.
2006
[with Wimmer, Gejza] “Towards a Unified Derivation of Some Linguistic Laws.” In: Grzybek, Peter (Ed.), Contributions to the Science of Text and Language: Word Length Studies and Related Issues. Dordrecht, NL: Springer, 329–337.
4
Reviews 1960
“Oplt, M., Bahasa Indonesia. Uˇcebnice indonéštiny. Indonesian language. Praha 1960.” In: Archiv orientální, 29; 707–708.
1962
“Kähler, H., Ethnographische und linguistische Studien über die orang darat, Orang akit, Orang laut und Orang utan im Riau-Archipel und auf den Inseln an der Ostküste von Sumatra. Berlin, Reimer 1960. – Kähler, H., Simalur-Deutsches Wörterbuch mit Deutsch-Simaluresischem Wörterverzeichnis. Berlin 1961.” In: Archiv orientální, 30; 535–537.
1962
“Kähler, H., Vergleichendes Wörterverzeichnis der Sichule-Sprache auf der Insel Simalur an der Westküste von Sumatra. Berlin 1959.” In: Archiv orientální, 30; 534–535.
1964
“Ellegård, A., English, Latin and Morphemic Analysis. Göteborg 1963.” In: Jazykovedný cˇ asopis, 15; 89.
1964
“Levin, S.R., Linguistic structures in poetry. ’s-Gravenhage 1962.” In: Jazykovedný cˇ asopis, 15; 90–91.
1965
“Echols, J.M, Shadily, H., An Indonesian-English dictionary. Ithaca 1963(2).” In: Jazykovedný cˇ asopis, 16; 111–112.
1965
“Ellegård, A., A statistical method for determining authorship. The Junius Letters, 1768-1772. Göteborg 1962.” In: Jazykovedný cˇ asopis, 16; 106–107.
Complete bibliography of scholarly works (1960–2005) 749
1965
“George, H.V., Report on a verb-form frequency count. Hyderabad 1963.” In: Jazykovedný cˇ asopis, 16; 204.
1965
“Horne, E.C., Beginning Javanese. New Haven and London 1961.” In: Asian and African Studies, 1; 173–174.
1965
“Juilland, A., Outline of a general theory of structural relations. ’sGravenhage 1961.” In: Asian and African Studies, 1; 186–189.
1965
“Lewy, E., Der Bau der europäischen Sprachen. Tübingen 1964.” In: Jazykovedný cˇ asopis, 16; 199–201.
1965
“Studies in New Guinea linguistics. By members of the Summer Institute of Linguistics. Sydney 1962.” In: Jazykovedný cˇ asopis, 16; 109– 110.
1965
“Teeuw, A. with the assistance of H.W. Emanuels, A critical survey of studies on Malay and Bahasa Indonesia. ’s-Gravenhage 1961.” In: Asian and African Studies, 1; 210–211.
1965
“Teselkin, A.S., Javanskij jazyk. Moskva 1961.” In: Asian and African Studies, 1; 212.
1966
“Anceaux, J.C., The Nimboran language. Phonology and morphology. ’s-Gravenhage 1965.” In: Archiv orientální, 34; 612.
1966
“Dresden, S., Geschiere, L., Bray, B., La notion de structure. La Haye 1961.” In: Asian and African Studies, 2; 209–211.
1966
“Esser, E.J., De Uma-taal (West-Midden Celebes). ’s-Gravenhage 1964.” In: Asian and African Studies, 2; 163–164.
1966
“Fónagy, I., Die Metaphern in der Phonetik. Ein Beitrag zur Entwicklungsgeschichte des wissenschaftlichen Denkens. The Hague 1962.” In: Asian and African Studies, 2; 207–208.
1966
“Herdan, G., The structuralistic approach to Chinese grammar and vocabulary. The Hague 1964.” In: Asian and African Studies, 2; 141–143.
1966
“Jaspan, M.A., Redjang Ka-ga-nga texts. Canberra 1964.” In: Asian and African Studies, 2; 165.
1966
“Muller, Ch., Essai de statistique lexicale. Paris 1964.” In: Jazykovedný cˇ asopis, 17; 208–209.
1966
“Ramakrishna, B.S., Nair, K.K., Chiplunkar, V.N., Atal, B.S., Ramachandran, V., Subramanian, R., Some aspects of the relative efficiencies of Indian languages. Bangalore 1962.” In: Jazykovedný cˇ asopis, 2; 62–67.
750 Gabriel Altmann
1966
“Uhlenbeck, E.M., A critical survey of studies on the languages of Java and Madura. ’s-Gravenhage 1964.” In: Asian and African Studies, 2; 164–165.
1966
“Voegelin, C.F., Voegelin, F.M., Languages of the world: Indo-Pacific. Fascicle One. Bloomington 1964.” In: Archiv orientální, 2; 156–157.
1966
“Voegelin, C.F., Voegelin, F.M., Languages of the world: Indo-Pacific. Fascicle Two. Bloomington 1964.” In: Archiv orientální, 34; 148–149.
1967
“Capell, A., Linguistic survey of Australia. Sydney 1963.” In: Asian and African Studies, 3; 180–181.
1967
“Cooper, W.S., Set theory and syntactic description. The Hague 1964.” In: Asian and African Studies, 3; 250–251.
1967
“Drabbe, P., Drie Asmat-dialecten. ’s-Gravenhage 1963.” In: Archiv orientální, 35; 180.
1967
“Hymes, D. (ed.), Language in culture and society. A reader in linguistics and anthropology. New York 1964.” In: Asian and African Studies, 3; 249–250.
1967
“Milner, G.B., Henderson, E.J.A. (eds.), Indo-Pacific Linguistic Studies. Part I: Historical Linguistics. Amsterdam 1965.” In: Archiv orientální, 35; 692–696.
1967
“Stap, P.A.M.van der, Outline of Dani morphology. ’s-Gravenhage 1966.” In: Archiv orientální, 36; 524.
1967
“Voorhoeve, C.L, The Flamingo Bay Dialect of the Asmat Language. ’s-Gravenhage 1965.” In: Archiv orientální, 35; 332.
1968
“Cowan, H.K.J., Grammar of the Sentani language. ’s-Gravenhage 1965.” In: Archiv orientální, 36; 524.
1968
“Milner, G.B., Henderson, E.J.A. (eds.), Indo-Pacific Linguistic Studies. Part II: Descriptive Linguistics. Amsterdam 1965.” In: Archiv orientální, 36; 525–526.
1968
“Oates, W., Oates, L., Hershberger, H., Hershberger, R., Dayers, B., Godfrey, M., Gugu-Yalanji and Wik-Munkan language studies. Canberra 1964.” In: Asian and African Studies, 4; 166–168.
1968
“Pittman, R., Kerr, H. (eds.), Papers on languages of the Australian Aborigines. Canberra 1964.” In: Asian and African Studies, 4; 164– 166.
1968
“Watson, J.B. (ed.), New Guinea: The Central Highlands. Menasha 1964.” In: Asian and African Studies, 4; 158–162.
Complete bibliography of scholarly works (1960–2005) 751
1969
“Arakin, V.D., Indonezijskie jazyki. Moskva 1965.” In: Asian and African Studies, 5; 113–115.
1969
“Greenberg, J.H., Language universals. The Hague 1966.” In: Asian and African Studies, 5; 206–207.
1969
“Holmer, N.A., Oceanic semantics. A study in the framing of concepts in the native languages of Australia and Oceania. Uppsala 1966.” In: Asian and African Studies, 5; 115–116.
1969
“Krupa, V., Jazyk Maori. Moskva 1967.” In: Asian and African Studies, 5; 120–122.
1969
“Landar, H., Language and Culture. New York 1966(2).” In: Asian and African Studies, 5; 204–205.
1969
“Lie, T.S., Introducing Indonesian I, II. Sydney 1966(2).” In: Archiv orientální, 37; 123–124.
1969
“Milic, L.T., A quantitative approach to the style of Jonathan Swift. The Hague 1967.” In: Asian and African Studies, 5; 212–216.
1969
“Scholes, R., Phonotactic grammaticality. The Hague 1966.” In: Jazykovedný cˇ asopis, 20; 192.
1969
“Tugby, D., Ethnological and allied work on Southeast Asia 19501966. Brisbane 1967.” In: Asian and African Studies, 5; 108–109.
1970
“Buchler, I., Selby, H.A., A formal study of myth. Austin 1968.” In: Slovenský národopis, 18; 169–170.
1971
“Carvell, H.T., Svartvik, J., Computational experiments in grammatical classification. The Hague 1969.” In: Kratylos, 16; 88–90.
1971
“Doležel, L., Bailey, R.W. (eds.), Statistics and style. New York 1969.” In: Muttersprache, 81; 276–282.
1972
“Gerši´c, S., Mathematisch-statistische Untersuchungen zur phonetischen Variabilität, am Beispiel von Mundartaufnahmen aus der Batschka. Göppingen 1971.” In: Germanistik, 13; 43–44.
1972
“Robins, R.H., General linguistics. An introductory survey. London 1971.” In: Germanistik, 13; 610–611.
1973
“Dezsö, L., Hajdú, P. (eds.), Theoretical problems of typology and the Northern Eurasian languages. Amsterdam 1970.” In: Kratylos, 16; 213–215.
1973
“Katiˇci´c, R., A contribution to the general theory of comparative linguistics. The Hague 1970.” In: Germanistik, 14; 33.
752 Gabriel Altmann
1973
“Malmberg, B. (ed.), Readings in modern linguistics. The Hague 1972.” In: Germanistik, 14; 39.
1973
“Z’graggen, J.A., Classificatory and typological studies in languages of the Madang district. Canberra 1971.” In: Anthropos, 68; 354–355.
1974
“Alekseev, P.M., Kalinin, W.M., Piotrowski, R.G. (Hrsg.) Sprachstatistik. München 1973.” In: Kratylos, 18; 15–18.
1974
“Gerši´c, S., Materialien zur phonetischen Variabilität. Göppingen 1973.” In: Germanistik, 15; 71.
1974
“Piotrovskij, R.G., Informacionnye izmerenija jazyka. Leningrad 1968.” In: Linguistics, 127; 124–128.
1974
“Tischler, J., Glottochronologie und Lexikostatistik. Innsbruck 1973.” In: Anthropos, 69; 308–309.
1974
“Wall, R., Introduction to mathematical linguistics. Englewood Cliffs, NJ, 1972.” In: Germanistik, 15; 263.
1975
“David, J., Martin, R. (eds.), Statistique et linguistique. Paris 1974.” In: Kratylos, 19; 15–18.
1975
“Elgin, S.H., What is linguistics. Englewood Cliffs, NJ, 1973.” In: Germanistik, 16; 752.
1975
“Greenberg, J.H., Language universals: A historical and analytic overview. The Hague 1974.” In: Germanistik, 16; 339.
1977
“Haarmann, H., Aspekte der Arealtypologie. Die Problematik der europäischen Sprachbünde. Tübingen 1976.” In: Germanistische Linguistik, 3-4; 305–310.
1977
“Zampolli, A. (ed.), Linguistica matematica e calcolatori. Atti del convegne e della prima scuola internazionale Pisa 16.VIII.-6.IX.1970. Firenze 1973.” In: Zeitschrift für Dialektologie und Linguistik, 44; 202–204.
1978
“Prague Studies in Mathematical Linguistics 5. Amsterdam 1977.” In: Germanistik, 19; 265.
1978
“Prague Studies in Mathematical Linguistics 6. Amsterdam 1978.” In: Germanistik, 19; 992.
1980
“David, J., Martin, R. (eds.), Études de statistique linguistique. Paris 1977.” In: Kratylos, 24; 194–195.
1983
“Zwirner, E., Zwirner, K., Grundfragen der phonometrischen Linguistik. Basel 1982.” In: Speech Communication, 2; 67–69.
Complete bibliography of scholarly works (1960–2005) 753
1999
“Oakes, M.P., Statistics for Corpus Linguistics. Edinburgh 1998.” In: Journal of Quantitative Linguistics, 6; 269–270.
2000
“Hˇrebíˇcek, L., Lectures on text theory. Prague: Oriental institute 1997.” In: Göttingische Gelehrte Anzeigen, 252; 127–137.
2000
“Viprey, J.M., Dynamique du vocabulaire des Fleurs du mal. Paris 1997.” In: Journal of Quantitative Linguistics, 7; 185–186.
2002
[with Lehfeldt, Werner] “Haspelmath, M., Optimality and diachronic adaptation. Zeitschrift für Sprachwissenschaft 18/2 (1999)[2000], 180– 205, mit Diskussion, 206–268.” In: Göttingische Gelehrte Anzeigen, 254; 123–136.
2003
[with Lehfeldt, Werner] “Siemund, P., Methodology in Linguistic Typology. Berlin 2000. (Sprachtypologie und Universalienforschung; 53.)” In: Göttingische Gelehrte Anzeigen, 254; 137–252.
2004
[with Lehfeldt, Werner] “Bybee, J.; Hopper, P. (eds.), Frequency and the Emergence of Linguistic Structure. Amsterdam 2001.” In: Journal of Quantitative Linguistics, 11/3; 275–304.
5
Humoristic stories 1985
Das velare [e]. Ein Beitrag zur Geschichte der degenerativen Linguistik. In: V. Ventaversus Campus (Ed.), Apophthegmata slavica novissime edita. Poemata panegyrica, studia et linguistica et ultralinguistica atque varia in honorem Giselae Naschwitziae diem tertii lustri muneris sui in Universitate Constantiensi initii feliciter celebrantis. Konstanz: Universitätsverlag, 29–34.
1993
Einführung in die Kongressologie. In: Bauer, Roland (Hg.), Varietas delectat: vermischte Beiträge zur Lust an romanischer Dialektologie, ergänzt um Anmerkungen aus verwandten Disziplinen. Hans Goebl zu seinem 50. Geburtstag. Wilhelmsfeld: Egert, 21–28.
2001a
Der kompetente Hörer. Ein weiterer Beitrag zur Geschichte der degenerativen Linguistik. In: Meier, Jörg; Ziegler, Arne (Hg.), Deutsche Sprache in Europa. Geschichte und Gegenwart. Festschrift für Ilpo T. Piirainen. Wien: Edition Praesens, 595–598.
2001b
Typologie der Konferenzschläfer. In: Igla, Birgit; Stolz, Thomas (Hg.), ‘Was ich noch sagen wollte.’ Festschrift für Norbert Boretzky. Berlin: Akademie-Verlag, 2–6.
754 Gabriel Altmann
2003
Ein Beitrag zur Frühgeschichte der Slawen. In: Kempgen, Sebastian; Schweier, Uwe; Berger, Tilmann (Hg.), Rusistika · Slavistika · Lingvistika. Festschrift für Werner Lehfeldt zum 60. Geburtstag. München: Sagner, 530–533.
2004a
Die Habilitation. In: Busch, Albert; Stenschke, Oliver (Hg.), Wissenstransfer und gesellschaftliche Kommunikation. Festschrift für Sigurd Wichter zum 60. Geburtstag. Frankfurt/M.: Lang, 397–402. [Mit W. Lehfeldt.]
2004b
Ein professorales Partygespräch. In: Noll, Volker; Thiele, Sylvia (Hg.), Sprachkontakte in der Romania. Zum 75. Geburtstag von Gustav Ineichen. Tübingen: Niemeyer, 297–300. [Mit W. Lehfeldt.]
Tabula Gratulatoria In Honor of Gabriel Altmann
Andreev, Sergej Smolensk State University Foreign Languages Department RUS–214000 Smolensk, Prževalskij 4, Russia email: [email protected] Askedal, John Ole Universität Oslo Institut für Literaturwissenschaft, Kulturkunde und Europäische Sprachen NO–0315 Oslo, PO Box 1003 Blindern, Norway email: [email protected] Baayen, Harald Max Planck Institute of Psycholinguistics NL–6500 AH Nijmegen, PO Box 310, The Netherlands email: [email protected] Balasubrahmanyan, Vriddhachalam K. Minnesota 55104, St. Paul, 1847 Ashland Avenue, USA email: [email protected] Best, Karl-Heinz Universität Göttingen Seminar für deutsche Philologie D–37073 Göttingen, Käte-Hamburger-Weg 3, Germany email: [email protected] Bluhme, Hermann University of Antwerpen Department of Germanic Languages BE–2020 Antwerpen, Groenenborgerlaan 171, Belgium email: [email protected]
756 In Honor of Gabriel Altmann
Bockholt, Volker Universität Göttingen Seminar für Slavische Philologie D–37073 Göttingen, Humboldtallee 19, Germany email: [email protected] Buk, Solomija Ivan Franko National University of Lviv Department for General Linguistics UA–79000 Lviv, 1 Universytetska St., Ukraine email: [email protected] Cortina-Borja, Mario University College London Centre for Paediatric Epidemiology and Biostatistics, Institute of Child Health UK–WC1N 1EH London, 30 Guilford Street, United Kingdom email: [email protected] Cysouw, Michael Max Planck Institute for Evolutionary Anthropology Department of Linguistics D–04103 Leipzig, Deutscher Platz 6, Germany email: [email protected] Daelemans, Walter University of Antwerp Center for Dutch Language and Speech B–2610 Antwerpen, Universiteitsplein 1 (A), Belgium email: [email protected] D˛ebowski, Łukasz Polish Academy of Sciences Institute of Computer Science PL–01-237 Warszawa, ul. Ordona 21, Poland email: [email protected] Embleton, Sheila York University Languages, Literatures and Linguistics CDN–M3J 1P3 Toronto, 4700 Keele Street, Canada email: [email protected]
Tabula Gratulatoria 757
Eom, Jeehyeon Georg-August-Universität Göttingen Seminar für Slavische Philologie D–37073 Göttingen, Humboldtallee 19, Germany email: [email protected] Erjavec, Tomaž Jožef Stefan Institute Department for Knowldege Technologies SI–1000 Ljubljana, Jamova 39, Slovenia email: [email protected] Fan, Fengxiang Dalian Maritime University School of Foreign Languages C–116026 Dalian, China email: [email protected] Ferrer i Cancho, Ramon University of Barcelona Departament de Fisica Fonamental S–08028 Barcelona, Marti i Franques 1, Spain email: [email protected] Figge, Udo L. Ruhr-Universität Bochum, Romanisches Seminar D–44780 Bochum, Universitätsstraße 150, Germany email: [email protected] Fleischer, Michael Universität Breslau Institut für Kulturwissenschaft und Willy-Brandt-Zentrum für Deutschland- und Europastudien PL–50 139 Wroclaw, Szewska 50, Poland email: [email protected] Goebl, Hans Universität Salzburg Fachbereich Romanistik A–5020 Salzburg, Akademiestraße 24, Österreich email: [email protected]
758 In Honor of Gabriel Altmann
Gordesch, Johannes A–9020 Klagenfurt, Quederstraße 23, Austria email: [email protected] Grotjahn, Rüdiger Ruhr-Universität Bochum Seminar für Sprachlehrforschung D–44801 Bochum, Universitätsstraße 150, Germany email: [email protected] Grzybek, Peter Universität Graz Institut für Slawistik A-8010 Graz, Merangasse 70, Austria email: [email protected] Hilberg, Wolfgang Technische Universität Darmstadt Digitaltechnik D–64401 Bieberau, Im Geisner 11, Germany email: [email protected] Holm, Hans J. D–30629 Hannover, Bernburger Straße 11, Germany email: [email protected] Hˇrebíˇcek, Ludˇek The Academy of Sciences of the Czech Republic Oriental Institute CZ–182 07 Praha 8, Pod vodárenskou vˇeží 4, Czech Republic email: [email protected] Hug, Marc Université de Strasbourg II U.F.R. des Lettres, Institut de linguistique française F–67000 Strasbourg, 19, rue Oberlin, France email: [email protected]
Tabula Gratulatoria 759
Jamison, Julian University of California Institute of Business and Economic Research US–94720 Berkeley, CA, 2220 Piedmont Ave, USA email: [email protected] Kelih, Emmerich Universität Graz Institut für Slawistik A–8010 Graz, Merangasse 70, Austria email: [email protected] Kempgen, Sebastian Universität Bamberg Slavische Sprachwissenschaft D–96045 Bamberg, An der Universität 5, Germany email: [email protected] Koch, Walter A. D–44799 Bochum, Markstrasse 266, Germany email: [email protected] Köhler, Reinhard Universität Trier Linguistische Datenverarbeitung D–54296 Trier, Universitätsring 15, Germany email: [email protected] Körner, Helle Universität Göttingen Seminar für deutsche Philologie D–37073 Göttingen, Käte-Hamburger-Weg 3, Germany email: [email protected] Köster, Jens-Peter Universität Trier Phonetik D–54296 Trier, Universitätsring, Germany email: [email protected]
760 In Honor of Gabriel Altmann
Králík, Jan Czech Academy of Sciences Prague Czech Language Institute CZ–11851 Praha, Letenská 4, Czech Republic email: [email protected] Krstev, Cvetana University of Belgrade Faculty of Philology CS–11000 Belgrade, Studentski trg 3, Serbia and Montenegro email: [email protected] Krupa, Viktor Slovak Academy of Sciences Institute of Asian Studies SK–81364 Bratislava, Klemensova 19, Slovakia email: [email protected] Kühner, Ina Universität Göttingen Seminar für deutsche Philologie D–36179 Bebra, Kasseler Straße 15, Germany email: [email protected] Kunsmann, Peter Freie Universität Berlin Institut für Englische Philologie D–14195 Berlin, Goßlerstraße 2-4, Germany email: [email protected] Lavalette, Daniel F–91300 Massy, 3b rue de Versailles, France email: [email protected] Lehfeldt, Werner Georg-August-Universität Göttingen Seminar für Slavische Philologie D–37073 Göttingen, Humboldtallee 19, Germany email: [email protected]
Tabula Gratulatoria 761
Leopold, Edda Hochschule für Angewandte Wissenschaften Hamburg Fakultät Design Medien und Infomation D–20099 Hamburg, Berliner Tor 5, Germany email: [email protected] Levickij, Viktor ˇ Universität Cernivci Lehrstuhl für germanische, allgemeine und vergleichende Sprachwissenschaft ˇ UA–58000 Cernivci, Radišˇcevstr. 6/5, Ukraine email: [email protected], [email protected] Maˇcutek, Ján Comenius University Department of Applied Mathematics and Statistics SK–84248 Bratislava, Mlynská dolina, Slovakia email: [email protected] Martynenko, Grigorij Ja. St. Petersburg State University Department of Mathematical Linguistics RUS–190000 Sankt Petersburg, Universitetskaja nab. 11, Russia email: [email protected] Medina-Urrea, Alfonso Universidad Nacional Autónoma de México Instituto de Ingeniería MX–04510 México, Circuito Interior S/N, Ciudad Universitaria, Mexico email: [email protected] Mehler, Alexander Universität Bielefeld Fakultät für Literaturwissenschaft und Linguistik D–33501 Bielefeld, Universitätsstraße 25, Germany email: [email protected] Meyer, Peter Universität Göttingen Seminar für Slavische Philologie D–37073 Göttingen, Humboldtallee 19, Germany email: [email protected]
762 In Honor of Gabriel Altmann
Mikros, George University of Athens Italian and Spanish Language and Literature GR–15561 Athens, Aetideon 25, Greece email: [email protected] Mohanty, Panchanan University of Hyderabad Centre for Applied Linguistics and Translation Studies Gachibowli, I–500046 Hyderabad, India email: [email protected] Mudraya, Olga Lancaster University Linguistics and English Language GB–LA1 4YT Lancaster, United Kingdom email: [email protected] Naranan, Sundaresan I–600041 Chennai, 20 A/3 Second Cross Street Jayaramnagar, India email: [email protected] Naumann, Sven Universität Trier Linguistische Datenverarbeitung D–54296 Trier, Universitätsring 15, Germany email: [email protected] Nemcová, Emília Universität Trnava Lehrstuhl für Slovakische Sprache und Literatur SK–91701 Trnava, Námestie Jozefa Herdu 2, Slovakei email: [email protected] Oakes, Michael University of Sunderland, School of Computing and Technology GB–SR6 0DD Sunderland, St. Peter’s Way, United Kingdom email: [email protected]
Tabula Gratulatoria 763
Panas, Epaminondas Athens University of Economics and Business Statistics GR–10434 Athens, Patission 76, Greece email: [email protected] Pawłowski, Adam University of Wrocław Institute of Information and Library Science PL–50-137 Wrocław, pl. Uniwersytecki 9/13, Poland email: [email protected] Piotrovskij, Rajmund Herzen University Institute for Foreign Languages RUS–194223 Sankt Peterburg, Prospekt M. Toreza 9/6, Russia email: [email protected] Popescu, Ioan-Iovitz Romanian Academy, Physical Sciences RO–77125 Magurele/Ilfov, POB MG-18, Romania email: [email protected] Prün, Claudia D–54296 Trier, Johann-Eck-Straße 6, Germany email: [email protected] Pustet, Regina Universität München (LMU) Allgemeine und Typologische Sprachwissenschaft D–80539 München, Geschwister-Scholl-Platz 1, Germany email: [email protected] Rapp, Reinhard Universität Mainz Fachbereich Angewandte Sprach- und Kulturwissenschaft D–76726 Germersheim, An der Hochschule 2, Germany email: [email protected]
764 In Honor of Gabriel Altmann
Robbins, Jeff Rutgers University Department of English USA–11561 Long Beach, P.O. Box 335, USA email: [email protected] Rottmann, Otto D–58099 Hagen, Behrensstraße 19, Germany email: [email protected] Roukk, Maria Moskauer Akademie fuer Feine Chemische Technologie Institut für Fremdsprachen RUS–119571 Moskau, Vernadskij prospekt 86, Russland email: [email protected] Rovenchak, Andrij Ivan Franko National University of Lviv Department for Theoretical Physics UA–79005 Lviv, 12 Drahomanov St., Ukraine email: [email protected] Saukkonen, Pauli FIN–830 Helsinki, Väylänrinne 4, Finland email: [email protected] Schindelin, Cornelia D–71083 Herrenberg, Graitweg 4, Germany email: [email protected], [email protected] Sorvali, Irma University of Oulu Department of German, French and Scandinavian Languages FIN–90014 Oulu, Linnanmaa, Finland email: [email protected] Spivak, Dmitrij Russian Academy of Sciences Human Brain Institute RUS–191186 Sankt Peterburg, Nevskij prosp. 22/19, Russia email: [email protected]
Tabula Gratulatoria 765
Stadlober, Ernst Technische Universität Graz Institut für Statistik A–8010 Graz, Steyrergasse 17/IV, Austria email: [email protected] Steiner, Petra Universität Erfurt Englische Sprachwissenschaft D–99086 Erfurt, Nordhäuser Str. 63, Germany email: [email protected] Stolz, Thomas Universität Bremen Linguistik D–28334 Bremen, Bibliothekstr. 1, Germany email: [email protected] Stroh, Cornelia Universität Bremen Linguistik D–28334 Bremen, Bibliothekstr. 1, Germany email: [email protected] Thümmel, Wolf Universität Osnabrück Institut für Kognitionswissenschaft F–34000 Montpellier, 6 rue Pagézy, France email: [email protected] Uhlíˇrová, Ludmila The Czech Language Institute, Department of Language Culture CZ–11851 Praha, Letenská 4, Czech Republic email: [email protected] Urdze, Aina Universität Bremen, Linguistik D–28334 Bremen, Bibliothekstr. 1, Germany email: [email protected]
766 In Honor of Gabriel Altmann
Uritescu, Dorin York University Glendon College French Studies / Linguistics and Language Studies Programme 2275 Bayview Avenue, Toronto, Ontario, Canada M4N 3M6 email: [email protected] Vitas, Duško University of Belgrade Faculty of Mathematics CS–11000 Belgrade, Studentski trg 16, Serbia and Montenegro email: [email protected] Vulanovi´c, Relja Kent State University Stark Campus Department of Mathematical Sciences USA–44720 North Canton, 6000 Frank Ave NW, USA email: [email protected] Wheeler, Eric York University School of Information Technology 33 Peter Street, Markham, Ontario, Canada, L3P 2A5 email: [email protected] Wichter, Sigurd Georg-August-Universität Göttingen Seminar für deutsche Philologie D–37073 Göttingen, Käte-Hamburger-Weg 3, Germany email: [email protected] Wildgen, Wolfgang Universität Bremen Institut für Allgemeine und Angewandte Sprachwissenschaft D–28334 Bremen, Bibliothekstraße, Germany email: [email protected] Wilson, Andrew Lancaster University Linguistics and English Language GB–LA1 4YT Lancaster, United Kingdom email: [email protected]
Tabula Gratulatoria 767
Wimmer, Gejza Slovak Academy of Sciences Mathematical Institute SK–81473 Bratislava, Štefaniková 49, Slovak Republic email: [email protected] Witkovsky, Viktor Slovak Academy of Sciences Institute of Measurement Science SK–84101 Bratislava, Dúbravská cesta 9 email: [email protected] Zadorožna, Iryna ˇ Universität Cernivci Lehrstuhl für germanische, allgemeine und vergleichende Sprachwissenschaft ˇ ˇ UA–58013 Cernivci, Cervonoarmijskaja ul. 107/52, Ukraine email: [email protected] Ziegler, Arne Universität Graz Institut für Germanistik A–8010 Graz, Mozartgasse 8/II, Austria email: [email protected]