260 41 30MB
German Pages 1055 Year 2005
Quantitative Linguistik / Quantitative Linguistics HSK 27
≥
Handbücher zur Sprach- und Kommunikationswissenschaft Handbooks of Linguistics and Communication Science Manuels de linguistique et des sciences de communication Mitbegründet von Gerold Ungeheuer (†) Mitherausgegeben 1985⫺2001 von Hugo Steger
Herausgegeben von / Edited by / Edite´s par Herbert Ernst Wiegand Band 27
Walter de Gruyter · Berlin · New York
Quantitative Linguistik Quantitative Linguistics Ein internationales Handbuch An International Handbook
Herausgegeben von / edited by Reinhard Köhler · Gabriel Altmann Rajmund G. Piotrowski
Walter de Gruyter · Berlin · New York
앝 Gedruckt auf säurefreiem Papier, das die 앪
US-ANSI-Norm über Haltbarkeit erfüllt.
ISBN-13: 978-3-11-015578-5 ISBN-10: 3-11-015578-8 Library of Congress Cataloging-in-Publication Data Quantitative Linguistik : ein internationales Handbuch ⫽ Quantitative linguistics : an international handbook / edited by Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski. p. cm. ⫺ (Handbücher zur Sprach- und Kommunikationswissenschaft ⫽ Handbooks of linguistics and communication science ; 27) Parallel text in German and English. Includes bibliographical references and indexes. ISBN-13: 978-3-11-015578-5 (alk. paper) ISBN-10: 3-11-015578-8 (alk. paper) 1. Mathematical linguistics. I. Title: Quantitative linguistics. II. Köhler, Reinhard. III. Altmann, Gabriel. IV. Piotrovskiæi, Raæimond Genrikhovich. V. Handbücher zur Sprach- und Kommunikationswissenschaft ; Bd. 27. P138.Q36 2005 410.1151⫺dc22 2005027011
Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über ⬍http://dnb.ddb.de⬎ abrufbar. 쑔 Copyright 2005 by Walter de Gruyter GmbH & Co. KG, D-10785 Berlin Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany Satz: Meta Systems, Wustermark Einbandgestaltung und Schutzumschlag: Rudolf Hübler, Berlin
Vorwort Die quantitative Linguistik als wissenschaftliche Disziplin unterscheidet sich hinsichtlich ihres Gegenstands und Erkenntnisinteresses prinzipiell nicht von den anderen Forschungsrichtungen innerhalb der Sprachwissenschaft. Ihr Charakteristikum ist ein methodisches: die Einbeziehung sämtlicher mathematischen Hilfsmittel in ihr Instrumentarium, d. h. vor allem der quantitativen Methoden in Erweiterung und Ergänzung der in anderen Bereichen der Linguistik eingeführten und üblichen formalen Methoden (Logik, Mengentheorie, Algebra etc.), von einfachen, elementaren Verfahren wie dem Zählen von Einheiten und dem Feststellen von (metrisierten) Merkmalsausprägungen bis hin zu anspruchvollsten Modellbildungen. Dennoch zeichnet sie sich in der Wissenschaftspraxis gegenüber formalen, qualitativen Ansätzen auch dadurch aus, dass sie aufgrund intensiver wissenschaftstheoretischer Reflexion den in den Naturwissenschaften etablierten, bewährten und in der Wissenschaftstheorie philosophisch abgesicherten Theorie- und Gesetzesbegriff übernommen hat. Dadurch steht sie auch methodologisch den Naturwissenschaften näher als die formalen Ansätze, die sich an nicht-empirischen, axiomatischen Systemen orientieren. In der theoretischen quantitativen Linguistik geht es entsprechend um die Konstruktion einer Sprachtheorie in Form nomologischer Netze, die zur Einlösung eines sprachwissenschaftlichen Erklärungsanspruchs zwingend erforderlich ist, während die Aufstellung ebenfalls meist „Theorien“ genannter axiomatischer Systeme in Form von Algebren oder mengentheoretischen Konstrukten nicht zu einer Erklärung empirischer Befunde zu führen vermag. Eine dem entsprechend zentrale Rolle kommen in der quantitativen Linguistik der deduktiven Ableitung von Hypothesen und dem exakten Testen dieser Hypothesen durch Gegenüberstellung mit geeigneten empirischen Daten zu. Wie in allen anderen empirischen Wissenschaften nimmt in der Praxis der quantitativen Linguistik der Bereich der Theoriebildung und der Suche nach Gesetzen ⫺ gemessen an der insgesamt geleisteten Forschungsarbeit und der veröffentlichten Literatur ⫺ nur einen relativ geringen Raum ein. Der Versuch eines Überblicks in Form des vorliegenden Handbuchs durfte sich nicht auf die wissenschaftstheoretisch anspruchsvollsten Teilbereiche konzentrieren; vielmehr sollten ihre verschiedenen Aspekte ohne Wertung umfassend dokumentiert werden. Zu diesen Aspekten gehören insbesondere 1. die Metrisierung (Quantifizierung, Meßbarmachung) von sprachlichen Entitäten und Eigenschaften, also die Schaffung der Möglichkeit, aufgrund von Operationalisierung und Messung quantitative Daten aus sprachlichem Rohmaterial zu erzeugen, 2. die quantitative Analyse und Beschreibung sprachlicher und textueller Objekte, 3. die numerische Klassifikation sprachlicher und textueller Objekte zum Zweck weitergehender Untersuchungen oder für praktische Zwecke, 4. die Entwicklung und Anwendung statistischer Testverfahren zum diagnostischen Vergleich von sprachlichen und textuellen Objekten und zur Entdeckung von Tendenzen, 5. die Modellbildung mit Hilfe quantitativer Modelle und Methoden der Mathematik,
VI
Vorwort
6. die Theoriebildung durch Suche nach universellen Sprach- und Textgesetzen und ihre Einbettung in ein umfassendes nomologisches Netz, 7. die Erklärung sprachlicher Erscheinungen mit Hilfe einer Theorie, 8. die Einbettung der Linguistik in ein allgemeines Gefüge der Wissenschaften, d.h. die Herstellung bzw. Aufdeckung interdisziplinärer Bezüge in Form von Generalisierungen, Analogien oder Spezialisierungen, 9. die Ausarbeitung einer spezifisch linguistischen Methodologie unter Berücksichtigung der besonderen Eigenheiten des linguistischen Untersuchungsgegenstands, 10. praktische Anwendungen in verschiedenen Bereichen, u. a. in Lehr- und Lernzusammenhängen, Psychologie/Psycholinguistik/Psychiatrie, Stilistik/Forensik, Computerlinguistik und Sprachtechnologie, Dokumentationswissenschaften, Inhaltsanalyse, Sprachplanung, Medienwissenschaften u. v. m. Mit diesem Handbuch soll ein möglichst umfassender Überblick über den Gegenstand, die Geschichte, die wissenschaftstheoretischen Voraussetzungen und den Stand der Forschung der quantitativen Linguistik gegeben werden. In einem einleitenden Kapitel (Kapitel I) werden allgemeine Informationen zum Gegenstand, zu den wissenschaftstheoretischen Grundlagen und zur Geschichte der quantitativen Linguistik mit Einzeldarstellungen von Werken hervorragender Forscher (G. K. Zipf und W. Fucks) sowie Übersichtsartikel über die Forschungsarbeiten in ausgewählten Ländern zusammengefasst. Die Kapitel II bis X widmen sich den wichtigsten Gebieten und Phänomenen, geordnet nach linguistischen Analyseebenen und Forschungsansätzen: Phonologie (Kapitel II), Morphologie (Kapitel III), Syntax (Kapitel IV), Lexikologie und Lexikographie (Kapitel V), Text (Kapitel VI), Semantik und Pragmatik (Kapitel VII), Geolinguistik und Dialektologie (Kapitel VIII), Typologie (Kapitel IX), und Diachronie (Kapitel X). In Kapitel XI wird die Arbeitsweise der quantitativen Linguistik exemplarisch an einigen der wichtigsten Modelle, Hypothesen und Gesetze verdeutlicht. Kapitel XII stellt Bezüge der quantitativen Linguistik zu anderen wissenschaftlichen Disziplinen vor und präsentiert Beispiele für Gebiete, in denen Methoden und Modelle der quantitativen Linguistik oder Resultate wie Daten oder Verfahren angewendet werden. Das abschließende Kapitel XIII bietet einen Überblick über die wichtigsten Aspekte der Organisation der quantitativen Linguistik als Fach und über ihre Hilfsmittel (Bibliographien, Publikationsforen etc.). Alle Artikel schließen mit einer Auswahlbibliographie. Am Ende des Bandes findet sich ein Personen- und Sachregister. Einige Gebiete und Forschungsrichtungen (wie Soziolinguistik und Sprachvariation, Psycholinguistik, Inhaltsanalyse u. a.) wurden in dem vorliegenden Handbuch nicht berücksichtigt, obwohl sie ⫺ zumindest in Teilbereichen ⫺ aus methodologischer Sicht mit gleichem Recht wie die hier aufgenommenen zum Gegenstand dieses Handbuchs hätten gezählt werden können. Ein Grund dafür liegt darin, dass einigen ihnen bereits eigene Handbücher gewidmet wurden oder eine andere Form ausführlicher Dokumentation ihres Forschungsstands vorliegt oder in Vorbereitung ist. Adressaten des Handbuchs sind neben Forschern, Lehrenden und Studierenden aller Zweige der Sprachwissenschaften einschließlich der Philologien auch Wissenschaftler benachbarter Fächer, deren theoretische und empirische Forschung sprachwissenschaftliche Fragen berührt (wie Psychologie und Soziologie) bzw. die bewährte Methoden oder Resultate aus der quantitativen Linguistik für die eigenen Fragestellungen nutzbar machen wollen (wie die Musikologie).
Vorwort
VII
Für die meisten Artikel des Handbuchs konnten die weltweit angesehensten Fachleute aus Europa, Asien und Amerika als Autorinnen und Autoren gewonnen werden. Wie es wohl unvermeidlich im Zusammenhang mit solchen großen Projekten ist, schieden im Laufe der Vorbereitungen aus verschiedensten Gründen einige der ursprünglich vorgesehenen Autoren aus. Denen, die freundlicherweise (zum Teil bereits zu einem späten Zeitpunkt) vakant gewordene Artikel übernahmen und unter Zeitdruck arbeiten mussten, sei an dieser Stelle besonders gedankt. Auch denen, die ihre Beiträge termingerecht eingereicht hatten und sie später aktualisieren mussten, gebührt Dank, vor allen denen, die uns Geduld und Verständnis entgegenbrachten. Ebenso möchten wir dem Reihenherausgeber, Herbert Ernst Wiegand, sowie Barbara Karlson und Monika Wendland vom Verlag Walter de Gruyter für die gute Zusammenarbeit danken. Oktober 2004
Reinhard Köhler, Gabriel Altmann, Raijmund G. Piotrowski
Preface Quantitative Linguistics as a scientific discipline actually does not differ substantially from common research in linguistics in terms of its subject nor in its main issues. Its characteristic is rather a methodological one: the scope of its instruments includes all of the mathematical tools, i. e. especially quantitative methods expanding and supplying the formal methods introduced and practised in other areas of linguistics (logic, set theory, algebra etc) ranging from the most simple elementary procedures like counting of units and recording of (metric) forms of features up to the most sophisticated modelling. In fact, compared with formal approaches in the qualitative paradigm, its particular advantage in scientific work are the concepts of theory and law imported from the natural sciences based on careful epistemic consideration: concepts that have been well-established and proven there, capable of referring to epistemology for philosophical foundation. Thereby it is closer related to the natural sciences also in respect of its methodological framework than those formal approaches that refer to nonempirical, axiomatic systems. Accordingly theoretical quantitative linguistics is concerned with the construction of a theory of language in terms of nomological nets which is inevitably necessary to meet the linguistic requirements of explanation; while claiming axiomatic systems in terms of algebraic or set theoretical constructs, though often called “theories”, is not able to provide explanation of empirical findings. Correspondingly, deductive derivation of hypotheses just as the exact testing of these hypotheses by comparing them to the appropriate data is of central importance in quantitative linguistics. Like in any other empirical science, however, the field of theory construction and search for laws does not take up a lot of space in scientific practice of quantitative linguistics ⫺ relative to the total amount of research work and publications. Trying to give a survey with the present handbook by concentrating on the epistemologically most sophisticated parts would have been unfair; instead it was rather aimed to cover extensively all of its various aspects without making value judgements. In particular, these aspects include 1. metricizing (scaling, quantifying, making measurable, or quantitation, as M. Bunge calls it) of linguistic entities and qualities, and thereby providing the possibility of generating quantitative data from speech material based on operationalisation and measurement, 2. quantitative analysis and description of linguistic and textual objects, 3. numerical classification of linguistic and textual objects for the purpose of further investigation or for practical reasons, 4. development and application of statistical test procedures for diagnostic comparison of linguistic and textual objects and for trend detection, 5. modelling of linguistic structures, functions, and processes by means of quantitative models and mathematical methods, 6. theory construction by searching for universal laws of language and text and their embedding into an extensive nomological net, 7. explanation of linguistic phenomena (properties, structures, processes) by means of a theory,
Preface
IX
8. embedding of linguistics into a general system of sciences, i.e. establishing resp. exploring interdisciplinary relations in the shape of generalization, analogy or specification, 9. elaborating a genuine linguistic methodology with regard to the particular characteristics of the linguistic subject, 10. practical applications to various areas such as those in contexts of learning and teaching, psychology/psycholinguistics/psychiatry, stylistics/forensics, computational linguistics and language technology, documentation science, content analysis, language planning, mass communication research and more This handbook is aimed to provide a maximum comprehensive survey of subject, history, epistemological conditions and current state of research of quantitative linguistics. In an introductory chapter (chapter I) general information is summarized concerning object of research, epistemologic foundations and history of quantitative linguistics including individual accounts on the works of outstanding researchers (G. K. Zipf and W. Fucks) as well as survey articles on the research work in selected countries. Chapters II to X attend to the central areas and phenomena, sorted by levels of linguistic analysis and research frameworks: phonology (chapter II), morphology (chapter III), syntax (chapter IV), lexicology and lexicography (chapter V), text (chapter VI), semantics and pragmatics (chapter VII), geolinguistics and dialectology (chapter VIII), typology (chapter IX), and diachronics (chapter X). In chapter XI, the technique of quantitative linguistics will be illustrated exemplarily by some of the main models, hypotheses and laws. Chapter XII establishes the relations of quantitative linguistics to other scientific disciplines and presents areas where methods and models of quantitative linguistics or results like data or procedures are applied. The final chapter XIII provides a survey on the most important aspects of the structure of quantitative linguistics as a discipline and its tools (bibliographies, places of publication etc). Each article provides selected references. The remainder of the volume presents an index of persons and subjects. Some fields and branches of research (as sociolinguistics and language variation, psycholinguistics, content analysis and others) are not regarded in the present handbook, though they ⫺ at least in component parts ⫺ would have deserved to be counted as belonging to the topic of this book as rightly as the ones included here. One reason for this is that some of them are already attended in proper handbooks or that some other kind ofν/inlineο comprehensive coverage of their results is otherwise available or in preparation. The handbook is addressed not only to research workers, teachers and students of all areas of linguistics including philology but also to scientists of closely related fields, whose theoretical and empirical investigations are concerned with linguistic questions (as psychology and sociology) or attempt to make use of proven methods or of results from quantitative linguistics for their own issues (e. g., musicology). For the majority of contributions in this handbook we could gain for authorship the most respected international experts with the highest reputation from Europe, Asia and America. As seems to be inevitably joined with such extensive projects, in the course of preparation some of the initially designated authors were lost for many different reasons. At this point, we wish to express our special appreciation to those who kindly took over (partly even at a later time) vacant contributions and had to work under pressure. Acknowledgements are also due to those who had submitted
X
Preface
their contributions on time and had to update them later, particularly those who met us with patience and understanding. We also wish to express our thanks to the series editor, Herbert Ernst Wiegand, and to Barbara Karlson and Monika Wendland of Walter de Gruyter publishing company for good cooperation. Oktober 2004
Reinhard Köhler, Gabriel Altmann, Raijmund G. Piotrowski
Inhalt / Contents Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII
I.
Allgemeines / General
1.
Reinhard Köhler, Gegenstand und Arbeitsweise der Quantitativen Linguistik (Aims and methods of Quantitative Linguistics) . . . . . . . . . . Dieter Aichele, Quantitative Linguistik in Deutschland und Österreich (Quantitative Linguistics in Germany and Austria) . . . . . . . . . . . . . . . Peter Grzybek / Emmerich Kelih, Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach-und Literaturwissenschaft (The pre-history of quantitative methods in Russian linguistics and philology) . . . . . . . . . . Emmerich Kelih / Peter Grzybek, Neuanfang und Etablierung quantitativer Verfahren in der sowjetischen Sprach- und Literaturwissenschaft (1956⫺1962) (Recommencement and establishment of quantitative methods in Soviet linguistics and philology (1956⫺1962)) Masamitsu Ito, Quantitative linguistics in Japan (Quantitative Linguistik in Japan) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cornelia Schindelin, Zur Geschichte quantitativ-linguistischer Forschungen in China (The history of quantitative-linguistic research in China) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Jadwiga Sambor / Adam Pawłowski, Quantitative linguistics in Poland (Quantitative Linguistik in Polen) . . . . . . . . . . . . . . . . . . . . . . . . . . Ludmila Uhlı´rˇova´, Quantitative linguistics in the Czech Republic (Quantitative Linguistik in Tschechien) . . . . . . . . . . . . . . . . . . . . . . George K. Mikros, Quantitative linguistics in Greece (Quantitative Linguistik in Griechenland) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Claudia Prün, Das Werk von G. K. Zipf (The work of G. K. Zipf) . . . . . Dieter Aichele, Das Werk von W. Fucks (The work of W. Fucks) . . . . . . Gordana Antic´ / Peter Grzybek / Ernst Stadlober, Mathematical aspects and modifications of Fucks’ Generalized Poisson Distribution (GPD) (Mathematische Aspekte und Modifikationen von Fucks’ verallgemeinerter Poisson-Verteilung) . . . . . . . . . . . . . . . . . . . . . . .
2. 3.
4.
5. 6.
7. 8. 9. 10. 11. 11a.
II.
Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
12. 13. 14.
Werner Lehfeldt, Phonemdistribution (Phoneme distribution) . . . . . . Gabriel Altmann, Phonic word structure (Die Lautstruktur des Worts) Karl Heinz Best, Längen rhythmischer Einheiten (Length of rhythmic units) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sabine Weber, Zusammenhänge (Interrelations) . . . . . . . . . . . . . . .
15.
1 16
23
65 82
96 115 129 136 142 152
158
. . 181 . . 191 . . 208 . . 214
XII
Inhalt / Contents
III.
Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
16.
Claudia Prün / Petra Steiner, Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme (Quantitative Morphologie: Properites of units and systems) . . . . . . . . . . . . . . . . R. Harald Baayen, Morphological productivity (Morphologische Produktivität) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Karl-Heinz Best, Morphlänge (Morph length) . . . . . . . . . . . . . . . . Karl-Heinz Best, Wortlänge (Word length) . . . . . . . . . . . . . . . . . .
17. 18. 19.
. . 227 . . 243 . . 255 . . 260
IV.
Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
20.
Relja Vulanovic´ / Reinhard Köhler, Syntactic units and structures (Syntaktische Einheiten und Strukturen) . . . . . . . . . . . . . . . . . . . . . 274 Sven Naumann, Probabilistic grammar (Probabilistische Grammatik) . . . 292 Karl-Heinz Best, Satzlänge (Sentence length) . . . . . . . . . . . . . . . . . . . 298
21. 22.
V.
Gebiete und Phänomene: Lexik / Fields and phenomena: lexicology and lexicography
23. 24.
Reinhard Köhler, Properties of lexical units and systems (Eigenschaften lexikalischer Einheiten und Systeme) . . . . . . . . . . . . . . . . . . . . . . . . 305 Pavel M. Alekseev, Frequency dictionaries (Häufigkeitswörterbücher) . . . 312
VI.
Gebiete und Phänomene: Text / Fields and phenomena: text
25.
Alexander Mehler, Eigenschaften der textuellen Einheiten und Systeme (Properties of textual units and systems) . . . . . . . . . . . . . . . . . . . . Ludeˇk Hrˇebı´cˇek, Text laws (Textgesetze) . . . . . . . . . . . . . . . . . . . . . Gejza Wimmer, The type-token relation (Das Type-Token-Verhältnis) . . Juhan Tuldava †, Stylistics, author identification (Stilistik und Autorenbestimmung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fiona J. Tweedie, Statistical models in stylistics and forensic linguistics (Statistische Modelle in der Stilistik und in der forensischen Linguistik) R. Harald Baayen, Word frequency distributions (Verteilungen der Worthäufigkeit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26. 27. 28. 29. 30.
. 325 . 348 . 361 . 368 . 387 . 397
VII. Gebiete und Phänomene: Semantik und Pragmatik / Fields and phenomena: semantics and pragmatics 31. 32. 33. 34. 35. 36.
Wolfgang Wildgen, Catastrophe theoretical models in semantics (Katastrophentheoretische Modelle in der Semantik) . . . . . . . . . . . . Arne Ziegler, Denotative Textanalyse (Denotative text analysis) . . . . . Jadwiga Sambor, Lexical networks (Lexikalische Netze) . . . . . . . . . . Victor Levickij, Polysemie (Polysemy) . . . . . . . . . . . . . . . . . . . . . Victor Levickij, Lexikalische Kombinierbarkeit (Lexical combinability) John Myhill, Quantitative methods of discourse analysis (Quantitative Methoden der Diskursanalyse) . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
410 423 447 458 464
. . 471
Inhalt / Contents
XIII
VIII. Gebiete und Phänomene: Geolinguistik und Dialektologie / Fields and phenomena: geolinguistics and dialectology 37. 38. 39.
Hans Goebl, Dialektometrie (Dialectometry) . . . . . . . . . . . . . . . . . . . 498 Edgar Haimerl, Taxierungsalgorithmen (Appraisal algorithms) . . . . . . . 532 Eric S. Wheeler, Multidimensional scaling for linguistics (Multidimensionale Skalierung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
IX.
Gebiete und Phänomene: Typologie / Fields and phenomena: typology
40.
Michael Cysouw, Quantitative methods in typology (Quantitative Methoden in der Typologie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554 Christiane Hoffmann, Morphologisch orientierte Typologie (Morphology-oriented typology) . . . . . . . . . . . . . . . . . . . . . . . . . . 578 Ludmila Uhlı´rˇova´, Word order variation (Wortfolgevariation) . . . . . . . . 598
41. 42.
X.
Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
43. 44. 45.
Witold Man´czak, Diachronie: Grammatik (Diachrony: grammar) . . . . . . 607 Edda Leopold, Das Piotrowski-Gesetz (Piotrowski’s law) . . . . . . . . . . . 627 Hans J. Holm, Genealogische Verwandschaft (Genetic relationship) . . . . 633
XI.
Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses, and laws
46. 47. 48.
Gabriel Altmann, Diversification processes (Diversifikationsprozesse) . . . Irene M. Cramer, Das Menzerathsche Gesetz (Menzerath’s law) . . . . . . . Wolfgang Wildgen / Peter Jörg Plath, Katastrophen- und Chaostheorie in der linguistischen Modellbildung (Catastrophe and chaos theory in linguistic model building) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Royal Skousen, Analogical modeling (Analogische Modellierung) . . . . . . S. Naranan / V. K. Balasubrahmanyan, Power laws in statistical linguistics and related systems (Potenzgesetze in der quantitativen Linguistik und in verwandten Systemen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Adam Pawłowski, Modelling of sequential structures in text (Die Modellierung sequenzieller Strukturen in Texten) . . . . . . . . . . . . . . . . Georgij Sil’nitskij, Correlational analysis in linguistics: Results and perspectives (Korrelationsanalyse in der Linguistik: Ergebnisse und Möglichkeiten) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reinhard Köhler, Synergetic linguistics (Synergetische Linguistik) . . . . . . Thorsten Roelcke, Sprachliche Ökonomie / Kommunikative Effizienz (Linguistic economy / communicative efficiency) . . . . . . . . . . . . . . . . . Gejza Wimmer / Gabriel Altmann, Unified derivation of some linguistic laws (Die vereinheitlichte Ableitung linguistischer Gesetze) . . . . . . . . . .
49. 50.
51. 52.
53. 54. 55.
646 659
688 705
716 738
751 760 775 791
XIV
Inhalt / Contents
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines 56. 57. 58.
59. 60. 61. 62. 63.
64. 65. 66. 67.
68.
69. 70.
Hermann Ney, The statistical approach to natural language processing (Statistische Ansätze für die Verarbeitung natürlicher Sprache) . . . . . . . Walter Daelemans, Machine learning of natural language (Maschinelles Lernen natürlicher Sprache) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Yuri A. Kosarev / Andrey L. Ronzhin, Quantitative methods in speech processing (Quantitative Verfahren bei der Verarbeitung gesprochener Sprache) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sven Naumann, Probabilistic parsing (Probabilistisches Parsing) . . . . . . . Rajmund G. Piotrowski, Quantitative linguistics and information theory (Quantitative Linguistik und Informationstheorie) . . . . . . . . . . . . . . . V. K. Balasubrahmanyan / S. Naranan, Entropy, information, and complexity (Entropie, Information und Komplexität) . . . . . . . . . . . . . Jussi Niemi / Jürgen Tesak, Quantitative linguistics and neurolinguistics (Quantitative Linguistik und Neurolonguistik) . . . . . . . . . . . . . . . . . . Xenia Piotrowska, Computer-assisted language learning. The quantitative-linguistic basis of CALL methods (Computer-unterstützter Spracherwerb. Die quantitativ- linguistische Grundlage von CALLMethoden) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Jaan Mikk, Text comprehensibility (Textverständlichkeit) . . . . . . . . . . . Rajmund G. Piotrowski / Larissa N. Beliaeva, Linguistic automaton (Der linguistische Automat) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Evangelos Dermatas / George Kokkinakis, Phoneme-grapheme conversion (Phonem-Graphem-Konvertierung) . . . . . . . . . . . . . . . . . . . . . . . . . Kyo Kageura, Character system, orthography and types of origin in Japanese writing (Das japanische Schriftsystem, Orthographie und Herkunftsarten) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cornelia Schindelin, Die quantitative Erforschung der chinesischen Sprache und Schrift (Quantitative research on Chinese language and script) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chantal Enguehard, Terminology (Terminologie) . . . . . . . . . . . . . . . . Weronika Piotrowska, Quantitative linguistics and psychiatry (Quantitative Linguistik und Psychiatrie) . . . . . . . . . . . . . . . . . . . . .
808 821
834 847 857 878 891
897 909 921 931
935
947 971 988
XIII. Informationsquellen / Sources of Information 71.
Reinhard Köhler, Sources of information (Informationsquellen) . . . . . . . 1003
Namenregister / Name index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1005 Sachregister / Subject index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026
I. Allgemeines / General 1. Gegenstand und Arbeitsweise der Quantitativen Linguistik 1. 2.
6. 7. 8.
Einführung Die quantitative Linguistik als wissenschaftliche Disziplin Zur Geschichte der quantitativen Linguistik Begründung, Ziele und Arbeitsweise der quantitativen Linguistik Methodologische Probleme der statistischen Struktur von Texten und Korpora Sprachtheorie, Gesetze und Erklärung Zusammenfassung Literatur (in Auswahl)
1.
Einführung
3. 4. 5.
Während sich die formalen Zweige der Linguistik auf die Behandlung qualitativer Eigenschaften von Sprachen und deren Elementen beschränkt, wobei sie sich dem entsprechend ausschließlich der qualitativen mathematischen Hilfsmittel der Mathematik (Algebra, Mengenlehre) und der Logik bedienen, macht die quantitative Linguistik (QL) die Vielzahl von quantitativen Eigenschaften zu ihrem Gegenstand, die zur Beschreibung und zum tieferen Verständnis der Entwicklung und der Funktionsweise von Sprachsystemen und ihren Bestandteilen nötig sind. Die Forschungsobjekte der QL selbst unterscheiden sich also nicht von denen anderer sprachwissenschaftlicher oder textologischer Disziplinen; auch das Erkenntnisinteresse macht den Unterschied nicht aus. Vielmehr bestehen die Differenzen in der Verschiedenheit ontologischer Ansichten (wird eine Sprache z. B. als eine Menge von Sätzen mit ihnen zugeordneten Strukturen aufgefasst oder z. B. als System, das ähnlich biologischen Organismen einer Evolution unterliegt etc.) und in der Verschiedenheit der verwendeten Konzepte (vgl. Abschn. 5). Solche Verschiedenheiten sind verantwortlich schon dafür, welche Elemente, Phänomene oder Eigenschaften ein Wissenschaftler überhaupt wahrzunehmen vermag. Ein Linguist, der gewohnt ist, in mengentheoretischen Konstrukten zu denken, wird kaum auf die Idee kommen (oder davon überzeugt werden können), dass die Betrachtung von Länge, Häufigkeit, Alter, Grad der Polysemie oder anderen messba-
ren Eigenschaften sprachlicher Einheiten interessant oder gar notwendig sein könnte. Einzig vom Zipfschen Gesetz hat fast jeder schon einmal gehört, aber im Bewusstsein der nicht näher mit der QL Vertrauten spielt es eher die Rolle einer Kuriosität als die einer zentralen und mit vielen Eigenschaften und Prozessen der Sprache verbundenen Gesetzmäßigkeit. Von der fundamentalen Bedeutung quantitativer Zusammenhänge in der Sprache überzeugen lassen sich viele, denen man die funktionalen Abhängigkeiten zwischen Häufigkeit und Länge, Länge und Polysemie, Polysemie und Kontextualität, zwischen den Umfängen von Inventaren sprachlicher Einheiten und der Größe der aus ihnen gebildeten Konstrukte etc. vor Augen zu führen Gelegenheit hat. Hat man aber einmal begonnen, Sprache und Text mit quantitativen Augen zu betrachten, findet man solche Eigenschaften und Beziehungen, die sich nur mit Hilfe von Zahlen oder Rangreihenfolgen ausdrücken lassen, wo immer man hinblickt. So gibt es gesetzmäßige Abhängigkeiten zwischen Länge bzw. Komplexität syntaktischer Konstruktionen einerseits und ihrer Häufigkeit und ihrer Mehrdeutigkeit andererseits; der Homonymie grammatischer Morpheme und ihrer Verbreitung im Paradigma; dem Alter und der Länge von Ausdrücken; dem Umfang von Texten und der Dynamik des Informationsflusses; der artikulatorischen Schwierigkeit von Lauten und der Wahrscheinlichkeit für ihre Veränderung im Laufe der Zeit ... Kurz, in allen Bereichen und auf allen linguistischen Analyseebenen K Lexik, Phonologie, Morphologie, Syntax, Textstruktur, Semantik und Pragmatik, in Dialektologie, Sprachwandelforschung, Psychound Soziolinguistik, in Prosa und Lyrik K treten Phänomene dieser Art auf. Sie finden sich offenbar in allen Sprachen der Welt und zu allen Zeiten. Darüber hinaus kann man feststellen, dass diese Eigenschaften sprachlicher Elemente und ihre Zusammenhänge allgemeingültigen Gesetzen unterliegen, die sich streng mathematisch formulieren lassen K in der Weise, wie wir es von den Naturgesetzen her kennen. Dabei ist zu beachten, dass es sich um stochastische Gesetze
2
I. Allgemeines / General
handelt; sie sind nicht in jedem Einzelfall erfüllt (das ist weder notwendig noch möglich), sondern sie schreiben die Wahrscheinlichkeiten vor, mit denen bestimmte Ereignisse erfolgen bzw. bestimmte Verhältnisse in der Gesamtheit eintreten. Zu allen oben angeführten Beispielen wird man mit Leichtigkeit Gegenbeispiele finden, die als einzelne jedoch nicht gegen die entsprechenden Gesetze verstoßen, da Abweichungen vom statistischen Durchschnitt nicht nur zulässig, sondern sogar erforderlich und ihrerseits quantitativ exakt bestimmt sind. Im Grunde unterscheidet sich diese Situation nicht von der in den Naturwissenschaften, in denen die alten deterministischen Vorstellungen längst ausgedient haben und ebenfalls durch statistisch-probabilistische Modelle ersetzt wurden. Die Aufgabe der quantitativen Linguistik ist es nun, die entsprechenden Phänomene zu entdecken, sie systematisch zu beschreiben und K soweit möglich K Gesetze zu finden bzw. zu formulieren, mit deren Hilfe die beobachteten Fakten erklärt werden können. Über den Aspekt der Grundlagenforschung hinaus können die quantitativen Zusammenhänge auch in vielen Fällen in Bereichen wie Computerlinguistik, Sprachlehrforschung, Textoptimierung u. a. angewendet werden (vgl. Kap. XI dieses Handbuchs).
2.
Die quantitative Linguistik als wissenschaftliche Disziplin
Wenn man fragt, was den Erfolg der modernen Naturwissenschaften begründet, wird nicht selten auf die exakten, nachprüfbaren Aussagen, präzisen Vorhersagen und fruchtbaren Anwendungsgebiete hingewiesen, die mit ihrem Instrumentarium und den heutigen Modellen erreichbar sind. Physik, Chemie, Biologie und andere Disziplinen bemühen sich seit langer Zeit u. a. um immer bessere Messmethoden und verfeinerte Experimente, um die in den jeweiligen theoretischen Bereichen aufgestellten Hypothesen zu überprüfen und die jeweiligen Theorien weiterzuentwickeln. Während in diesen Wissenschaften Zählen und Messen zu den Grundoperationen gehören, denen man verwertbare Aussagen über die Welt überhaupt verdankt, werden sie in den Geisteswissenschaften als eher niedere und jedenfalls nutzlose Beschäftigungen angesehen. In der Psy-
chologie und der Soziologie käme wohl niemand auf die Idee, es ginge auch ohne die Messung von Reaktionszeiten, Lerndauern und Augenbewegungsprotokolle, ohne Populationsstatistik, Migrationsmessung, Makround Mikrozensus. Die Ökonomie ist ganz und gar auf quantitative Modelle des Marktes angewiesen, und die Wissenschaft, die sich mit der materiell-energetischen Manifestation von (gesprochener) Sprache befasst, die Phonetik, beruht auf der Erfassung der quantitativen Größen Schalldruck, Länge und Frequenz. Andere Wissenschaften sind noch nicht so weit in ihrer Entwicklung fortgeschritten, dass ihnen das Messen von Größen und die Anwendung der Mathematik selbstverständlich wären. Speziell in der Linguistik gibt es erst seit gut 50 Jahren Forscher, die diese Methoden in unser Fachgebiet einführen, und sie bilden auch noch heute eine verschwindende Minderheit unter den Sprachwissenschaftlern, obwohl uns doch heute die Naturwissenschaften als Beispiel vor Augen stehen. Zur Unterstreichung der Notwendigkeit dieser Einführung und der Entwicklung spezifisch linguistischer Methoden und Modelle, die auf einer solchen Denkweise beruhen, werden solche Arbeiten, die sich eben darum bemühen, unter der Bezeichnung „quantitative Linguistik“ zusammengefasst. Es ist zu hoffen, dass diese Bezeichnung bald aufgegeben werden kann; denn die Vertreter dieses Ansatzes verfolgen ja im Prinzip keine anderen wissenschaftlichen Ziele als die übrigen Linguisten. Es gibt ja auch keine spezielle quantitative Meteorologie, Astronomie oder Medizin. Sobald die Verwendung der weiterführenden Konzepte selbstverständlich geworden ist, erübrigt sich das charakterisierende Etikett. Dagegen ist es heute durchaus üblich, von quantitativer Geographie, Archäologie usw. zu sprechen; hier ist die Situation teilweise wie in den Sprachwissenschaften zu beurteilen. Ein anderes, aber analoges Beispiel betrifft ebenfalls die Linguistik: Die „Computerlinguistik“ wird als eigene Disziplin angesehen; sie ist in unserer Zeit an einigen Universitäten sogar ein gesondertes Studienfach. Sicher hat andererseits niemand je etwas von „Computerphysik“ gehört, weil die Verwendung von Rechnern in der Physik eben selbstverständlich ist. Aber es ist noch nicht lange her, dass in der Linguistik für die Einführung der Mathematik gegen konservative, unbewegliche
3
1. Gegenstand und Arbeitsweise der Quantitativen Linguistik
Kollegen angekämpft werden musste, die den Nutzen von mathematischen Methoden für die Sprachwissenschaft nicht sehen konnten und wollten. In dieser Zeit wurde der Terminus „Mathematische Linguistik“ geprägt. Heute ist dieser schon fast wieder vergessen; zu selbstverständlich ist die Verwendung formaler Hilfsmittel in der modernen Sprachwissenschaft geworden. Nicht so schnell durchgesetzt haben sich die quantitativen Bereiche der Mathematik, obwohl sie keineswegs später als jene in der Linguistik auftauchten. Bereits in der ersten Hälfte des letzten Jahrhunderts gab es systematische Untersuchungen, die auf statistischen Zählungen mit faszinierenden Befunden (die noch heute nicht vollständig ausgelotet sind) beruhten, und erste Versuche, diese Daten aus entsprechenden theoretischen, mathematisch formulierten Modellen abzuleiten. Hier ist an erster Stelle George Kingsley Zipf (1902K1950) zu nennen, dessen Pionierwerk den Grundstein für die quantitative Linguistik bildete (vgl. Art. 10). Nun richtete sich aber das Hauptinteresse der Forscher in der modernen Linguistik, also in der Zeit nach dem wichtigen Beitrag de Saussures zur Sprachwissenschaft, auf die Erfassung sprachlicher Strukturen. Daraus ergab sich logischerweise ihre Zuwendung zu den qualitativen Hilfsmitteln der Mathematik: Logik, Mengenlehre und Algebra. Die historische Entwicklung der Sprachwissenschaft und die anschließende einseitige Betonung bestimmter Elemente der strukturalistischen Errungenschaften hatten dazu geführt, dass sich ein absolut statischer Systembegriff herausgebildet hatte, der bis in unsere Zeit leider weitgehend erhalten geblieben ist. Die Beschäftigung mit den über die Struktur hinausgehenden Aspekten von Systemen: Funktion, Dynamik, Prozess unterblieb fast vollständig in der westlichen mathematischen Sprachwissenschaft. In der mittel- und osteuropäischen mathematischen Linguistik hat es eine Ausgrenzung der quantitativen Methoden nie gegeben, und die meisten Wissenschaftler und Forschungsgruppen arbeiteten und arbeiten sowohl mit qualitativen als auch mit quantitativen Mitteln. Dem Mangel, der aus der künstlichen Ausgrenzung ganzer begrifflicher Bereiche entstand, abzuhelfen ist das eigentliche Ziel der quantitativen Linguistik, und zu diesem Zweck benötigt man auch die quantitativen Teile der Mathematik, z. B. Analysis, Wahr-
scheinlichkeitstheorie mit Statistik, Funktionentheorie, Differenzen- und Differentialgleichungen.
3.
Zur Geschichte der quantitativen Linguistik
Erste Zählungen von Einheiten der Sprache oder von Texten wurden schon im vorigen Jahrhundert vorgenommen. In Deutschland waren es wahrscheinlich Förstemann (1846, 1852) und Drobisch (1866), in Russland Bunjakovskij (1847), in Frankreich Bourdon (1892), in Italien Mariotti (1880) und in den USA wohl Sherman (1888), die als erste zu dieser Methode als Mittel der sprachwissenschaftlichen Beschreibung gegriffen haben. Erste theoretische Einsichten nach vielen Jahren, in denen nur deskriptive Untersuchungen, Zählungen verschiedener Art, unternommen wurden, stammen von dem Mathematiker A. A. Markov, der 1913 die Grundlage für die Theorie der „MarkovKetten“ legte. Dieses mathematische Modell für die sequentielle (syntagmatische) Abhängigkeit von Einheiten in einer linearen Verkettung (in Form von „Übergangswahrscheinlichkeiten“) war trotz ihrer großen mathematischen Bedeutung über lange Zeit von nur geringem Nutzen für die Sprachwissenschaft. Bestimmte Bereiche wie die Syntax wurden sogar grundsätzlich als für die Anwendung dieses Modells ungeeignet angesehen, da hier, wegen der Selbsteinbettung syntaktischer Strukturen, rekursive Modelle erforderlich sind. So blieben Anwendungen von Markov-Ketten zunächst auf einige Versuche im Bereich textueller Einheiten und auf die Phonologie beschränkt. Heute dagegen sind Markov-Ketten in der Form von „Hidden Markov Chains“ zentraler Bestandteil wichtiger computerlinguistischer Verfahren (vgl. z. B. Brants 1999). Später erwuchsen quantitative Studien an sprachlichem Material vor allem aus praktischen Erfordernissen: aus Bemühungen zur Verbesserung des Sprachunterrichts bzw. zur Konstruktion eines optimalen stenografischen Codes: Frühe quantitative Beobachtungen und mathematische Modelle zu ihrer Erfassung im Bereich des Vokabulars stammen von J. B. Estoup (1916), G. U. Yule (1924) und E. U. Condon (1928). Systematisch untersucht wurden die entdeckten Zusammenhänge zwischen der Häufigkeit von
4 Wörtern und der Rangzahl der Häufigkeitsklasse bzw. der Anzahl von Wörtern in der jeweiligen Klasse dann von dem erwähnten Begründer der quantitativen Linguistik, G. K. Zipf, der ein erstes theoretisches Modell zur Erklärung dieser Befunde aufstellte, und eine Formel zur Berechnung der Funktion aufstellte K das berühmte „Zipfsche Gesetz“. Dieselbe Abhängigkeit zwischen Rang und Häufigkeit beobachteten Zipf und andere bei einer großen Zahl von alltäglichen und wissenschaftlichen Erscheinungen. Zu den wichtigsten seiner zahlreichen Arbeiten zählen die Bücher „The Psycho-Biology of Language. An Introduction to Dynamic Philology“ (1935) und „Human Behavior and the Principle of Least Effort“ (1949). Seine Ideen wie das „Prinzip der geringsten Anstrengung“ und die „Unifikations- bzw. Diversifikationskräfte“ haben (trotz gewisser Mängel und Fehler) bis heute Bedeutung und gehören zu dem Wenigen aus der quantitativen Linguistik, was unter heutigen Sprachwissenschaftlern allgemein bekannt ist. Später wurde sein Modell begrifflich und mathematisch korrigiert und weiterentwickelt von Benoît Mandelbrot, der außerhalb der quantitativen Linguistik erst später vor allem durch seine „fraktale Geometrie“ bekannt wurde (Mandelbrot 1953, 1959, 1961a, 1961b). Das Gedankengut von Zipf, der ohne auf Vorarbeiten oder gar Schulen zurückgreifen zu können und lange vor dem Entstehen der modernen Systemtheorie die Ideen der Selbstorganisation, des o. g. Prinzips der geringsten Anstrengung und grundlegender Gesetze des Sprachverhaltens formulierte, befruchtete eine ganze Reihe wissenschaftlicher Disziplinen und erfreut sich inzwischen erneut eines wachsenden Interesses. Shannon und Weaver (1949) entfesselten mit ihren Anwendungen der Informationstheorie in der Linguistik eine wahre Flut von Berechnungen für verschiedene Sprachphänomene. Sie fanden ein großes Echo bei vielen Forschern, unter denen besonders G. Herdan (z. B. 1954, 1956, 1960, 1962, 1964, 1966, 1969), R. G. Piotrowski, auch in der Schreibweise: Piotrovskij (1959, 1968, 1979) und W. Meyer-Eppler (1959) hervorzuheben sind. Bei diesen Experimenten und Berechnungen stellte sich aber bald heraus, dass die Anwendung des technischen Informationsbegriffs auf die Sprache keine tiefergehenden Erkenntnisse erbrachte, da die sprachliche Bedeutung bei diesem Ansatz außer
I. Allgemeines / General
Acht gelassen wurde. Im Grunde kam man nicht über die Berechnung von Entropie und Redundanz hinaus, und so flaute die Welle bald ab. Der Physiker W. Fucks (vgl. Fucks 1955; Art. 11) gab der quantitativen Linguistik in Deutschland eine Wendung zur Theorie, indem er ein Modell für die Wortlängenverteilung aufstellte und verschiedene Bereiche von Sprache und Musik untersuchte. In Frankreich begründete Ch. Muller (1973, 1979) eine neue Richtung der Analyse des Textvokabulars, die bis heute lebendig ist und ständig weiterentwickelt wird. Die Zipfsche Linguistik wurde in Russland besonders von A. A. Arapov (1988; Arapov/Cherc 1983) in Moskau betrieben, der seine Modelle für die Textdynamik und für die Sprachentwicklung auf Rangordnungsanalysen basierte. In Georgien war es vor allem die Gruppe um J. K. Orlov (s. bes. 1982a, 1982b); sie untersuchte und entwickelte das Zipf-Mandelbrotsche Gesetz in der Theorie und in Anwendungen auf Texte weiter. Von J. Tuldava (1995, 1998) in Estland stammen mathematische Analysemethoden für zahlreiche Texterscheinungen. Im Verlauf der bisherigen Geschichte der quantitativen Linguistik (vgl. Art. 2, 3, 4, 5, 6, 7, 8, 9) beschäftigten sich auch immer wieder Wissenschaftler aus anderen Disziplinen, vor allem Mathematiker, mit der Anwendung mathematischer Modelle auf bzw. ihrer Entwicklung für sprachwissenschaftliche Fragen. Bis heute Bestand hatten meist diejenigen ihrer Resultate, die auf der Grundlage linguistisch fundierter Voraussetzungen entstanden, so z. B. das Werk von B. Mandelbrot (1959 u. a.), das sich gegen konkurrierende Modelle ohne eine solche Basis durchsetzte, während etwa die Arbeiten von Yule (s. o.) oder Williams (1946, 1956, 1964) und vielen anderen kaum noch Erwähnung finden.
4.
Begründung, Ziele und Arbeitsweise der quantitativen Linguistik
Dass die Sprache ein Gegenstand ist, der sich adäquat nur unter Zuhilfenahme quantitativer Methoden erfassen lässt, folgt aus ontologischen, erkenntnistheoretischen, heuristischen und methodologischen Erwägungen (vgl. auch Altmann/Lehfeldt 1980: 1 ff.):
1. Gegenstand und Arbeitsweise der Quantitativen Linguistik
4.1. Zur Ontologie Alle sprachlichen Erscheinungen bewegen sich zwischen den Polen absoluter Notwendigkeit und reiner Zufälligkeit. Reiner Determinismus würde die Verwendung der Sprache zur Kommunikation (bzw. zu irgendeinem Zweck überhaupt) ausschließen, da ja von vornherein alles festgelegt wäre und keine individuellen Wahlmöglichkeiten mehr bestünden, z. B. zwischen zwei oder mehr Wörtern zu wählen, sobald das erste feststeht. Reiner Zufall als Prinzip wäre ebenso unmöglich. In der Sprache herrscht K wie in vielen anderen Systemen K ein faszinierendes Zusammenspiel zwischen diesen beiden Extremen. Reiner Determinismus, also absolute Vorherbestimmtheit, würde auch jede Veränderung und Entwicklung von Sprachen ausschließen, während jeder weiß, dass sich Sprachen im Laufe der Zeit ändern; diese Veränderungen verlaufen sogar selbst nach (stochastischen) Gesetzen. Am leichtesten zu behandeln und zu beschreiben sind solche Eigenschaften und Phänomene, die sich (fast) deterministisch erfassen lassen; dies ist der Hauptgrund dafür, dass dieser Modelltyp in der Linguistik (und anderen noch nicht weit entwickelten Wissenschaften) vorherrschend ist. Die Einführung quantitativer Methoden und Denkweisen ist daher ein Fortschritt, der die erreichten (qualitativen) Errungenschaften einer Wissenschaft nicht negiert: Deterministische bzw. quasi-deterministische Aussagen sind auch nach der Erweiterung um stochastische und andere quantitative Elemente in einer Wissenschaft weiterhin möglich und sinnvoll K sogar unverzichtbar. Sie beziehen sich auf die Fälle, die sich am (oder nahe beim) extremen Pol der Determiniertheit befinden, oder werden verwendet, wenn dies aus Gründen der Zweckmäßigkeit (z. B. im Zusammenhang mit der Fremdsprachenvermittlung oder anderen praktischen Zielen) vernünftig erscheint. Es sollte auch nicht vergessen werden, dass die Phänomene der Realität selbst weder deterministisch noch stochastisch sind, weder geordnet noch chaotisch, weder qualitativ noch quantitativ. Diese Charakterisierungen sind Eigenschaften nicht der Welt, sondern unserer Begriffe und Untersuchungsmethoden, mit denen wir der objektiven Realität näher zu kommen versuchen, indem wir mit ihnen eine uns verständliche Ordnung schaffen. Diese ist wiederum rela-
5
tiv und richtet sich nach dem jeweiligen Entwicklungsstand der Wissenschaft. Der historischen Erfahrung nach aber kann man sagen, dass wissenschaftlicher Fortschritt sich an der Schärfe der Begriffe messen lässt. Bedeutende, sprunghafte Fortschritte waren in der Geschichte der Wissenschaft immer mit der Einführung quantitativer Begriffe verbunden. 4.2. Zur Epistemologie Unsere Möglichkeiten, Aussagen über Sprache(n) aus der Beobachtung abzuleiten, sind ernsthaft beschränkt. Direkte Beobachtung von ,Sprache‘ ist unmöglich, und Introspektion (so verbreitet sie in der Linguistik auch ist) kann allenfalls heuristische Beiträge liefern, besitzt aber (entgegen oft wiederholten Behauptungen) nicht den Status empirischer Evidenz. Als Quelle von Daten bleibt einzig das Sprachverhalten der Menschen, sei es in Form gesprochener oder geschriebener Sprache, sei es in Form psycholinguistischer Experimente. In jedem Fall stehen wir vor einer Reihe von Problemen des komplizierten und weitgehend noch unverstandenen Verhältnisses zwischen langue und parole. Darüber hinaus ist die Situation in gleicher Weise wie in anderen empirischen Wissenschaften dadurch erschwert, dass wir praktisch niemals über vollständige Information über den Untersuchungsgegenstand verfügen. Zum einen können wir uns immer nur zu einem begrenzten Ausschnitt des Gegenstands Zugang verschaffen K entweder weil er prinzipiell unendlich ist (wie die Menge aller Texte oder aller Sätze) oder weil er aus praktischen Gründen nicht vollständig beschreibbar ist (wie die Menge aller Wörter einer Sprache zu einem bestimmten Zeitpunkt). Zum anderen fehlt auch häufig die vollständige Information über Zahl und Art aller Faktoren, die für eine bestimmte Frage relevant sind. Die Statistik als mathematisches Hilfsmittel versetzt uns trotz solch unvollständiger Information in die Lage, zu gültigen Schlussfolgerungen und Aussagen zu kommen, und zwar mit objektiv feststellbarer und wählbarer Verlässlichkeit. Ein Beispiel von Frumkina (1973: 172 ff.) betrifft die Verwendung statistischer Methoden für die Beschreibung des Gebrauchs bestimmter Artikel im Englischen: Versucht man, deterministische Regeln aufzustellen, wird man eine Anzahl von Fällen zunächst nicht erfassen. Weitere Regeln und zusätzliche Bedingungen verbes-
6 sern das Ergebnis, lassen aber immer noch viele Einzelfälle unbeschrieben. Je mehr Regeln und Bedingungen man hinzunimmt, desto weniger zusätzliche Fälle werden damit erfasst. Schließlich müsste man für jeden verbliebenen Fall eine eigene Regel einführen, wobei noch immer nicht gesichert wäre, dass alle relevanten Bedingungen erfasst wären. Ein statistischer Ansatz dagegen fasst das Ereignis „bestimmter Artikel“ als zufällig auf (d. h. als einer stochastischen Gesetzmäßigkeit gemäß einer Menge von Bedingungen unterliegend) und erlaubt es dann, eine (festlegbare) Anzahl von richtigen Voraussagen zu treffen, wobei gilt, dass der zu treibende Aufwand höher wird, je geringer die Irrtumswahrscheinlichkeit gewählt wird. So liefert uns gerade die mathematische Statistik ein begriffliches Instrumentarium, mit dem wir tiefer in das komplizierte Gefüge der Realität eindringen und es besser verstehen können. 4.3. Zur Heuristik Eine der elementaren Aufgaben jeder Wissenschaft ist die Schaffung von Ordnung in einer Menge mannigfaltiger, unübersichtlicher Daten. Klassifikations- und Korrelationsverfahren können dabei Hinweise auf zuvor nicht bekannte Phänomene und Zusammenhänge liefern, zumal wenn, wie in der Korpuslinguistik, große Datenmengen zur Verfügung stehen, die oft mit bloßem Auge nicht einmal mehr gesichtet werden könnten. Es ist zu betonen, dass eine induktive, heuristische Vorgehensweise K auch wenn sie zur Gewinnung von Hypothesen beitragen kann K keinen Ersatz für die Hypothesenbildung darstellt, die letztendlich immer deduktiv sein muss. Aus Daten kann man weder Einheiten noch Kategorien oder gar Zusammenhänge und Erklärungen gewinnen, denn bereits bei wenigen Variablen gibt es prinzipiell unendlich viele mit den jeweiligen Daten verträgliche Modelle (z. B. Formeln). Die Daten können nicht verraten, welche der möglichen Merkmale, Klassifizierungen, Regeln oder Funktionen angemessen sind, um die hinter ihnen verborgenen Strukturen, Mechanismen und Prozesse der Sprache und der menschlichen Sprachverarbeitung zu repräsentieren. Es ist sogar möglich, dass aus rein induktiven Untersuchungen nicht nur irrelevante, sondern sogar irreführende Resultate erwachsen: wenn nämlich die auf der Oberfläche sichtbaren
I. Allgemeines / General
Daten aufgrund komplexer, verschachtelter und in mehreren historischen Phasen unterschiedlich wirkender Ursachen entstanden sind K eine Situation, mit der gerade in der Sprachwissenschaft stets gerechnet werden muss. Es ist auch diese unendliche Komplexität jedes Forschungsobjekts, die uns hindert, von Anfang an große, umfassende Theorien aufzustellen. Wir können und müssen stets mit einem kleinen Ausschnitt, mit wenigen Variablen, beginnen und das entstehende Modell, wenn es soweit erfolgreich ist, schrittweise erweitern. 4.4. Zur Methodologie Jede Wissenschaft beginnt mit kategorischen, qualitativen Begriffen, die den Gegenstandsbereich in möglichst klar voneinander abgegrenzte Klassen zerlegen, um eine Ordnung in ihm zu etablieren. Dieser erste Ansatz, Ordnung zu schaffen, ist auch der gröbste. Mit Hilfe qualitativer (eine andere Bezeichnung ist: nominalskalierter) Begriffe lässt sich feststellen (bzw. ausdrücken), ob (dass) zwei oder mehrere Objekte (in Bezug auf eine Eigenschaft) gleich sind oder nicht (E (A) Z E (B) oder E (A) s E (B)). Ein linguistisches Beispiel für diese Art von Begriffen ist die klassische Kategorie der Wortart; für jedes Wort lässt sich etwa sagen, ob es zu den Substantiven gezählt werden soll oder nicht. Alle Wörter dieser Klasse gelten dann im Hinblick auf die Wortart als gleich, alle anderen als von ihnen verschieden (Auf die Probleme der Kategorienbildung und der Klassifikation selbst kann hier nicht eingegangen werden). Alle Aussagen, die auf qualitativen Begriffen beruhen, lassen sich auf Dichotomien, also auf die Zuordnung zu zweielementigen Wertemengen wie {wahr, falsch}, {1, 0}, {ja, nein} u. ä. reduzieren. Solche Begriffe sind grundlegend und immer notwendig, sie genügen aber schon bald nicht mehr, wenn man einen tieferen Einblick in den Untersuchungsgegenstand gewinnen will. Die Vergleichsmöglichkeit auf Identität bzw. Nichtidentität ist für weitergehende Fragestellungen meist zu grob und muss dann durch eine solche erweitert werden, bei der eine Graduierung erfolgen kann. Diese Möglichkeit stellen komparative (oder: ordinalskalierte) Begriffe, die einfachste Art quantitativer Begriffe, zur Verfügung; sie gestatten es auszudrücken, dass ein Objekt von einer Eigenschaft mehr oder we-
1. Gegenstand und Arbeitsweise der Quantitativen Linguistik
niger besitzt als ein anderes (E (A) O E (B), E (A) Z E (B) oder E (A) ! E (B)). Dadurch kann ein höherer Typ von Ordnung erreicht werden: eine Sortierung der Objekte in eine Rangreihenfolge in Bezug auf die untersuchte Eigenschaft. Als linguistisches Beispiel kann hier die Akzeptabilität von Satzkonstruktionen dienen. Den dritten und höchsten Typ von Ordnung erreichen die metrischen Begriffe, die benötigt werden, sobald eine Rolle spielt, um wie viel mehr oder weniger von einer Eigenschaft ein Objekt besitzt als ein anderes. Hierbei werden den Ausprägungen der Eigenschaft die Werte einer Zahlenmenge zugeordnet, in der die Beziehungen zwischen den Zahlen den Beziehungen zwischen den möglichen Eigenschaftsausprägungen der Objekte entsprechen. So wird es möglich, aus dem Vergleichen von Objekten als Resultat ebenfalls Zahlen zu erhalten (Differenzen, Abstände: E (A) K E (B) Z d), die wiederum miteinander verglichen werden können und eine beliebig feine Ordnung im Objektbereich etablieren. Begriffe, die die Beurteilung der Abstände (bzw. Ähnlichkeiten) zwischen Objekten erlauben, heißen intervallskaliert. Kommt noch eine weitere Eigenschaft hinzu, nämlich ein fester Referenzpunkt (z. B. ein Nullpunkt) auf der Skala, so erhält man ratioskalierte (oder: verhältnisskalierte) Begriffe (E (A) Z aE (B) C d). Nicht immer werden quantitative Begriffe direkt eingeführt; bei der Quantifizierung (Metrisierung) von Begriffen geht man u. U. von bereits vorhandenen (oder denkbaren) qualitativen Begriffen aus und fügt die erforderlichen Eigenschaften hinzu. Dabei muss auf die Skala geachtet werden, von der abhängt, welche mathematischen Operationen im Zusammenhang mit dem neuen Begriff erlaubt sind, und festgelegt werden, welche Werte Objekten und ihren Eigenschaftsausprägungen zuzuordnen sind. Ein Beispiel hierfür ist der Begriff der Polysemie, der als qualitativer Begriff in der traditionellen Sprachwissenschaft nur unterscheidet, ob ein sprachlicher Ausdruck eindeutig ist oder nicht („polyseme“ Ausdrücke sind nicht eindeutig; jeder Ausdruck ist entweder polysem oder nicht polysem). Die quantitative Variante dieses Begriffs ermöglicht die Frage, wie viele Bedeutungen ein Ausdruck besitzt (die „Polysemie“ eines Ausdrucks wird durch eine ganze Zahl angegeben, die min-
7
destens gleich 1 ist und keine obere Grenze hat). Erst mit Hilfe dieser neu gewonnenen Begriffe auf höheren Skalen lassen sich weitergehende Fragen überhaupt stellen bzw. Beobachtungen machen. So kann ohne den im Beispiel genannten quantitativen Polysemie-Begriff nicht einmal bemerkt werden, dass ein gesetzmäßiger Zusammenhang zwischen der Anzahl der Bedeutungen eines Wortes und seiner Länge besteht (vgl. Art. 47) Ein weiterer Schritt ist die Operationalisierung, aus der auch eine Messvorschrift hervorgeht. Dabei wird festgelegt, auf welche Weise dem theoretisch definierten Begriff tatsächlich beobachtete Eigenschaften entsprechen sollen. So ist eine einfache und praktikable, wenn auch nicht besonders zufrieden stellende Operationalisierung des Begriffs Polysemie die Festlegung, dass die (theoretische) Eigenschaft eines Wortes, n Bedeutungen zu besitzen, (empirisch) durch die Zahl der in einem bestimmten Wörterbuch angegebenen Lesarten gemessen bzw. geschätzt werden soll. Eine in der Sprachwissenschaft verbreitete Methode, quantitative Begriffe einzuführen, ist die Bildung von Indizes (die Definition mathematischer Operationen, mit deren Hilfe Eigenschaften auf Zahlenverhältnisse abgebildet werden), von denen die morphologischen Indizes von Greenberg (1960) die bekanntesten sind; viele andere typologische Indizes finden sich in (Altmann/Lehfeldt 1973). Zur Bildung von Indizes und zu den damit zusammenhängenden Problemen vgl. (Altmann/Grotjahn 1988). 4.5. Ziele der quantitativen Linguistik Wie oben bereits kurz gesagt wurde, kann man nicht von einem gesonderten Erkenntnisinteresse der quantitativen Linguistik sprechen, da es ihr um keinen anderen Forschungsgegenstand geht als der Sprachwissenschaft insgesamt. Allerdings hebt sie sich durch die Einführung eines weiterführenden, zusätzlichen Instrumentariums, also in ihren Methoden, von den anderen linguistischen und textwissenschaftlichen Ansätzen ab. Grundsätzlich geht es auch der Sprachwissenschaft, wie allen anderen empirischen Wissenschaften, darum, Erklärungen der Beschaffenheit, der Mechanismen, der Funktionen, der Entwicklung usw. der Sprache zu gewinnen. Es wäre verfehlt, dabei etwa an letzte, endgültige Erklärungen zu denken,
8 mit denen sich so etwas wie das „Wesen“ der Dinge erfassen ließe (vgl. Popper 1971: 23, Hempel 1952: 52 ff.; vgl. auch Kutschera 1972: 19 f.). Es handelt sich vielmehr um das Bestreben, eine Hierarchie von Erklärungen aufzubauen, die zu immer allgemeineren Theorien führen und immer mehr Erscheinungen abdecken. Wegen der stochastischen Eigenschaften der Sprache spielen hierbei Metrisierung und Wahrscheinlichkeitsmodelle eine entscheidende Rolle. Im Rahmen dieser Gesamtzielsetzung kommt der quantitativen Linguistik also nur deshalb eine Sonderrolle zu, weil sie sich speziell um die dazu erforderlichen Methoden bemüht, und nur so lange, wie diese nicht in allen Bereichen der Sprach- und Textforschung selbstverständlich geworden sind. Diese Ziele lassen sich in zwei komplementären Aspekten charakterisieren: Zum einen ist die Entwicklung und Anwendung quantitativer Modelle und Methoden unausweichlich dort erforderlich, wo die rein deterministischen (algebraischen, mengentheoretischen und logischen) Methoden versagen, nämlich wo die Variabilität und die Vagheit natürlicher Sprachen nicht vernachlässigt werden können, wo eher Tendenzen und Präferenzen herrschen als strikte Prinzipien und wo graduelle Veränderungen die Anwendung statisch-struktureller Modelle ausschließen K also immer dann, wenn die dramatische Vereinfachung, die durch die deterministische („Ja/Nein“-) Skala verursacht wird, nicht mehr zu rechtfertigen bzw. mit dem Ziel der Untersuchung nicht vereinbar ist. Zum anderen sind, wie gezeigt, quantitative Begriffe und Methoden den qualitativen grundsätzlich überlegen. Sie erlauben eine adäquatere Beschreibung der Realität, indem sie eine höhere Auflösung bieten. Zwischen den beiden Polen (Ja/Nein, wahr/ falsch, 1/0) deterministischer Modelle kann man mit ihrer Hilfe beliebig viele Zwischenstufen unterscheiden, bis hin zu den unendlich vielen Punkten des kontinuierlichen Übergangs. Allgemein zielt also die Entwicklung quantitativer Verfahren darauf, die Ausprägungen von Eigenschaften sprachlicher und textueller Größen in möglichst exakter und prägnanter Form auszudrücken. Tatsächlich ist die Exaktheit, mit der eine Eigenschaft erfassbar ist, von zwei Faktoren abhängig: von der Schärfe, mir der man einen gegebenen Begriff definieren, und von der Güte
I. Allgemeines / General
der Messmethoden, mit denen die Ausprägung der Eigenschaft bei den Objekten festgestellt werden kann. Gelingt es, eine sprachliche Eigenschaft exakt zu fassen, so erwächst daraus die Möglichkeit, mathematische Operationen mit ihr auszuführen, wobei jeweils darauf geachtet werden muss, welche Operationen auf die jeweiligen Größen (in Abhängigkeit von ihrem Skalenniveau) anwendbar sind. Mit Hilfe dieser Operationen lassen sich neue Erkenntnisse ableiten, die ohne sie nicht erreichbar wären: So können Beurteilungskriterien, die zuvor nur in subjektiver und tentativer Form existierten, objektiviert und operationalisiert werden (z. B. in der Stilanalyse), es können Zusammenhänge zwischen Einheiten bzw. Eigenschaften erkannt werden, die mit dem qualitativen Instrumentarium nicht sichtbar sind (oft erhält man aus nummerischen Klassifikationen und Korrelationsanalysen Hinweise auf solche noch unbekannten Interdependenzen), und es lassen sich praktikable Methoden für technische und andere Anwendungsbereiche finden, in denen entweder aufgrund der großen Menge der zu verarbeitenden sprachlichen Daten oder wegen ihrer stochastischen Eigenschaften die Mittel der herkömmlichen linguistischen Modelle Aufgaben nicht oder nur unzureichend lösbar waren (z. B. bei der maschinellen Verarbeitung von Sprachdaten, vgl. Art. 56, 57). 4.6. Arbeitsweise der quantitativen Linguistik Alle linguistischen Untersuchungen, die sich quantitativer Methoden bedienen, folgen einem bestimmten Schema, das aus einer festgelegten Folge von Schritten besteht. Dieses Schema ist im wesentlichen in gleicher Weise für alle empirischen Wissenschaften verbindlich, wobei die Unterschiede lediglich in den fachspezifischen Inhalten liegen, nicht in den Elementen der Schrittfolge selbst. Natürlich umfasst nicht jede einzelne Arbeit eines Wissenschaftlers immer die Gesamtheit aller Schritte dieses Schemas. Sehr häufig wird arbeitsteilig vorgegangen, oft erstrecken sich die aufeinanderfolgenden Schritte über Jahre, Jahrzehnte oder gar Jahrhunderte, und manchmal werden, z. B. für reine Anwendungszwecke, nur einige der Schritte ausgeführt. Das allgemeine Schema besteht aus den folgenden fünf Schritten:
1. Gegenstand und Arbeitsweise der Quantitativen Linguistik
4.6.1. Aufstellung linguistischer Hypothesen Eine linguistische Hypothese ist eine in die Form einer Aussage gekleidete Behauptung bzw. Annahme über die Beschaffenheit sprachlicher Erscheinungen. Dabei ist es von untergeordneter Bedeutung, wie die jeweilige Hypothese entstanden ist (immer spielen Vorkenntnisse, Ausbildung, Neigung, Intuition usw. eine Rolle), wichtig ist einzig das Einhalten bestimmter formaler und inhaltlicher Anforderungen (vgl. Bunge 1967). Grundsätzlich muss eine Hypothese empirisch relevant und überprüfbar sein. Im Falle stochastischer Hypothesen, mit denen wir es zumeist zu tun haben, gilt eine Annahme nicht schon durch ein einziges Gegenbeispiel als widerlegt, sondern erst auf der Grundlage eines mathematischen Tests anhand ausreichender Daten. Auf der anderen Seite kann eine Hypothese niemals als endgültig bewiesen angesehen werden, sondern immer nur als vorläufig bestätigt. Deduktiv gewonnene Hypothesen können, wenn sie empirisch validiert und in ein System von gültigen theoretischen Aussagen eingebunden sind, den Status von Gesetzen bekommen. 4.6.2. Übersetzung der Hypothesen Stochastische Hypothesen lassen sich nur mit Hilfe statistischer Verfahren überprüfen. Daher muss jede solche Hypothese, ob sie nun verbal oder in Form einer Differentialgleichung formuliert wurde, in eine Form überführt werden, die zu diesem Zweck geeignet ist. Dazu ist es erforderlich, die statistischen Modelle und die Voraussetzungen für ihre Verwendung genau zu kennen. In diesem Bereich werden überraschend viele Fehler gemacht, die zwangsläufig zu ungültigen Schlussfolgerungen führen. Falls kein fertiges statistisches Modell vorliegt, dessen Bedingungen mit denen der verwendeten Daten übereinstimmt, muss ein geeignetes neues Modell abgeleitet werden. In Übereinstimmung mit diesem der Hypothese entsprechenden Modell müssen dann auch die Einheiten bzw. Eigenschaften operational bestimmt werden, anhand derer das Modell überprüft werden soll. Manchmal erscheinen die daraus resultierenden Definitionen künstlich, d. h. wenig intuitiv, sie haben aber den Vorteil, objektiv und nachvollziehbar zu sein. Keine Definition aber, egal wie intuitiv oder operational auch immer, darf für die
9
„richtige“ oder „wahre“ gehalten werden; denn jede Definition und jedes Untersuchungsergebnis ist korrekt immer nur relativ zu den gewählten Bedingungen und Modelleigenschaften. 4.6.3. Anwendung statistischer Verfahren Nach der Übersetzung der linguistischen Hypothese in die Sprache der Statistik müssen geeignete Daten in Form möglichst großer Stichproben erhoben werden, um zu möglichst aussagekräftigen Resultaten zu kommen und damit der Hypothese einen hohen Bestätigungsgrad zu verleihen bzw. sie mit großer Sicherheit abzulehnen. In dieser Untersuchungsphase spielen die linguistisch-inhaltlichen Gesichtspunkte keine Rolle; es wird mechanisch verfahren und mit den theoretischen Größen gearbeitet, die empirische Entsprechungen erhalten haben. Der Einsatz der Statistik kann vier verschiedene Formen annehmen, die wir hier kurz (im Anschluss an Karush 1963) zusammenfassen: (1) Direkte Anwendung: Die aus den sprachlichen Daten gewonnenen Zahlen werden direkt in ein Modell, eine Formel eingesetzt, die als adäquates Abbild der betrachteten sprachlichen Erscheinung bzw. des Mechanismus angesehen wird. Die Lösung ergibt sich direkt aus dem statistischen Modell. (2) Inventive Anwendung: Für linguistische Fragestellungen bzw. Daten lassen sich oft keine geeigneten statistischen Modelle finden, da die stochastischen Eigenschaften von Sprache stark von denen anderer Gegenstandsbereiche, für die es bereits ein entwickeltes statistisches Instrumentarium gibt, abweichen (gerade dies ist die Hauptfehlerquelle auch für statistisch gut ausgebildete Forscher). So ist man gezwungen, vorhandene Modelle zu modifizieren oder völlig neue abzuleiten. (3) Modellbildung: Auf dieser Forschungsstufe kommt es darauf an, ein Modell für den untersuchten sprachlichen Gegenstand zu finden, wobei es nicht im voraus sicher ist, ob sich die Erscheinung in gewünschter Weise modellieren lässt. Man geht dann von Annahmen aus, meist müssen Restriktionen in Kauf genommen werden, und man versucht, den Erscheinungen der Realität so nahe wie möglich zu kommen. Nicht
10
I. Allgemeines / General
immer sind die praktikablen Modelle stochastischer Natur: Jedes plausible Modell, das mit den beobachteten Daten übereinstimmt, ist brauchbar, wenn es seinen Zweck erfüllt. (4) Theoriebildung: Dieses höchste Ziel der Wissenschaft bedingt die Konstruktion eines Systems aus zusammenhängenden, plausiblen und gut bestätigten Aussagen über den Gegenstand, die es erlauben, aus ihnen weitere Aussagen abzuleiten, vorherzusagen und Erklärungen zu liefern. 4.6.4. Entscheidung Wenn die Daten ein statistisches Verfahren durchlaufen haben, ergibt sich in der Regel eine einzelne Zahl als Kriterium für die Entscheidung, ob das Resultat des Tests signifikant ist oder nicht, d. h. ob die Hypothese abzulehnen ist oder nicht. In jedem Fall ist die Entscheidung vorläufig und kann aufgrund weiterer Untersuchungen revidiert werden. 4.6.5. Interpretation Der letzte Schritt besteht in der Rückübersetzung des Ergebnisses aus dem statistischen Test in die linguistische Ausgangssprache, man kehrt also zu der linguistischen Fragestellung zurück und interpretiert das mathematische Resultat in Form einer linguistischen Antwort auf die gestellte Frage. Hier wird die Rolle der Statistik als Werkzeug zur Überprüfung einer Vermutung deutlich, als deduktives Hilfsmittel, das der linguistischen Forschung untergeordnet ist. Der generalisierende Schluss von der Stichprobe, die man untersucht hat, auf die allgemeine Fragestellung, die die ganze Sprache (oder alle Texte) betreffen kann, ist natürlich induktiv. So sieht man, wie sich die deduktive und die induktive Denkmethode ergänzen und zusammen das wichtigste Werkzeug der empirischen Wissenschaft bilden.
5.
Methodologische Probleme der statistischen Struktur von Texten und Korpora
Die Verwendung von Textkorpora als Gegenstand quantitativer Untersuchungen ist weit vielfältiger und vielschichtiger, als es auf den ersten Blick den Anschein haben mag, umfasst dieser doch prinzipiell alle Eigenschaften und Zusammenhänge, die lin-
guistischen Einheiten und ihren Zusammenhängen zukommen bzw. zugeschrieben werden können: phonetisch/phonologische, morphologische, lexikalische, syntaktische, semantische, pragmatische, syntagmatischdistributionelle, stilistische u. a. K und damit sowohl Charakteristika der Verwendung, die nur im einzelnen, konkreten Kontext definiert sind, als auch Eigenschaften, die von der einzelnen Verwendung abstrahieren (wie z. B. die Polysemie). Gerade die Gewinnung solcher abstrakten Eigenschaften und die Arbeit mit ihnen machen K wie vielleicht kein anderer linguistischer Untersuchungsaspekt K die Konsequenzen des Verhältnisses zwischen beobachtbaren Instanzen sprachlicher Äußerungen einerseits und linguistischen Konstrukten andererseits deutlich, bei dem also Rede (Text) K als Reales (Realisiertes) K Sprache K als Potenziellem (bzw. als Konstrukt) K gegenübersteht. Trotz der auf der Hand liegenden Analogie zwischen diesem Verhältnis und dem zwischen Stichprobe und Population in der Statistik gibt es grundlegende methodologische und epistemologische Vorbehalte, die eine einfache, naive Anwendung inferenzstatistischer Verfahren zum Schließen von einem Text(korpus) auf ein anderes oder auf die „Sprache als Ganzes“ höchst problematisch machen. Um nur ein methodologisches Problem zu nennen: Es ist kein einziger Fall einer linguistischen Untersuchung bekannt geworden, bei dem die in anderen empirischen Wissenschaften vielfach automatisch als gegeben vorausgesetzten Bedingungen erfüllt gewesen wären. Ebenso ist es unzulässig, in Analogie zum induktiven Schluss von Stichproben auf eine Population von einem (oder mehreren) Text(en) auf ein Korpus zu schließen. Texte sind alles andere als Stichproben aus einem Korpus. Zu den wichtigen methodologischen Problemen bei der Arbeit mit Sprachdaten gehören außerdem: (1) Inferenzprobleme (a) Repräsentativität: Keine Stichprobe (auch keine nach den Regeln der Statistik erhobene) kann repräsentative Sprachdaten in dem Sinne liefern, dass in dem in der Statistik üblichen Sinne gültige Schlussfolgerungen auf die Population, das „Sprachganze“, möglich wären. Durch Vergrößerung der Stichprobe, z. B. durch Erweiterung eines
1. Gegenstand und Arbeitsweise der Quantitativen Linguistik
(b)
(c)
(d)
(e)
Textkorpus um weitere Texte, vergrößert sich dagegen die Diversität der Daten im Hinblick auf viele Parameter (Thematik, Stilistik, Genre/Funktionalstil etc.) und damit die Inhomogenität der Daten (s. Punkt b). Die Homogenität der Daten: Nur homogene Stichproben sind für viele der meistverwendeten statistischen Verfahren geeignet. Diese Bedingung ist für Sprachdaten nur selten erfüllt, möglicher Weise z. B. im Fall von Briefen, die spontan, ohne Unterbrechung und ohne nachträgliche Überarbeitung geschrieben wurden und nicht zu lang sind, sodass über den gesamten Prozess der Textgenerierung konstante Randbedingungen angenommen werden können. Solche einzelnen, kurzen Texte sind allerdings gerade wegen ihrer Kürze nur bedingt aussagefähig (vgl. Punkt a). Die Normalverteiltheit der Zufallsvariablen und der Abweichungen: Die wichtigsten Testverfahren, auf denen eine Schlussfolgerung von der Stichprobe auf die Grundgesamtheit ja beruht, setzen voraus, dass die beobachteten Abweichungen von den erwarteten Werten der Zufallsvariablen normalverteilt sind. Diese Voraussetzung ist in der Sprache jedoch nicht erfüllt, so dass eigentlich für jeden einzelnen Fall gesonderte Tests abgeleitet werden müssten (eine mathematisch äußerst unbequeme und in der Praxis nicht durchführbare Forderung). Die Homöoskedastizität: Auch diese Bedingung, die gleichbleibende Varianz über alle Werte der betrachteten Zufallsvariablen, wird von Sprachdaten nicht generell erfüllt und muss besonders sorgfältig überprüft werden, bevor übliche Verfahren der Statistik angewendet werden dürfen. Gültigkeitsbedingungen für Gesetzmäßigkeiten: Von einigen Zusammenhängen und Gesetzen ist bereits bekannt, dass zu ihrer Erfüllung bestimmte Bedingungen erfüllt sein müssen. So kann in der Sprache K im Gegensatz zu anderen Phänomenbereichen K nicht vom Gesetz der großen Zahlen ausgegangen werden. Das bekannte ZipfMandelbrot-Gesetz gilt z. B. nur für komplette Einzeltexte K nicht aber für Textfragmente oder Textkorpora. Es ist
11 zu vermuten, dass noch viele unbekannte Abhängigkeiten ähnlicher Art existieren, deren Kenntnis für korrekte Schlussfolgerungen unabdingbar wären.
(2) Verteilungsprobleme (f) Die extreme Schiefe der Häufigkeitsverteilungen: Dieses zentrale und für die Sprache typische Phänomen z. B. von Lauten, Silben, Wörtern (Formen und Bedeutungen) und auch von syntaktischen Konstruktionen in Texten führt dazu, dass im Bereich der seltenen Einheiten stets K wie groß die analysierte Textbasis auch sei K eine nicht vernachlässigbare Unterrepräsentation vorliegt. Ein zweites Beispiel betrifft Stichproben aus Wörterbüchern oder Textvokabularen, die zwangsläufig eine Unterrepräsentation kurzer Wörter mit sich bringen. (g) Direkte und indirekte funktionale Abhängigkeiten zwischen den linguistischen Größen wie Länge, Polysemie, Polytextie etc. (vgl. Art. 23, 34, 53) bewirken, dass sich die entsprechenden Besonderheiten von Sprachdaten auf jede linguistische Untersuchung auswirken können. Dies gilt für Signifikanztests von Verteilungsanpassungen und Regressionen ebenso wie für Verfahren des Textvergleichs u. a. Für die korrekte Anwendung statistischer Verfahren auf Sprachdaten (bzw. die Entwicklung neuer Methoden für solche Daten) ist daher außer einer guten Kenntnis der mathematischen Statistik allgemein auch immer die genaue Prüfung der jeweiligen Randbedingungen im Einzelnen erforderlich. Verbreitete Lehrbücher über statistische Verfahren in der Korpuslinguistik suggerieren die problemlose Möglichkeit, Standardmethoden der Statistik auf die Arbeit mit Sprachdaten zu übertragen. Tatsächlich stellen manche von ihnen nichts anderes dar als eine unbedachte Adaption anderer StatistikEinführungen. Hier soll allen Praktikern der Korpusanalyse dringend geraten werden, sich intensiv mit der quantitativ-linguistischen Literatur vertraut zu machen oder Fachleute aus diesem Gebiet zu Rate zu ziehen. Die Anwendung ungeeigneter oder unzulässiger Methoden auf Sprachdaten kann leicht zu völlig wertlosen Ergebnissen und zu falschen Schlussfolgerungen führen.
12
6.
I. Allgemeines / General
Sprachtheorie, Gesetze und Erklärung
Wissenschaft erschöpft sich nicht im Beobachten von Erscheinungen, und auch nicht in deren Beschreibung und (gegebenenfalls) Anwendung. Das höchste Ziel jeder Wissenschaft ist die Erklärung der Phänomene (und damit auch die Möglichkeit zu ihrer Vorhersage). Wenn wir uns also bemühen, allgemeine Gesetze der Sprache und des Texts zu finden, um mit ihrer Hilfe Erklärungen für die beobachteten Phänomene und Zusammenhänge geben zu können, bedeutet das eigentlich, dass wir universelle Muster suchen, aus denen ableitbar ist, welche Phänomene, Ereignisse und Zusammenhänge prinzipiell möglich sind und welche nicht, bzw. unter welchen Bedingungen sie auftreten. Es gibt sicher nicht nur eine von vornherein erfolgversprechende Strategie für diese Suche, und so sind im Laufe der Zeit verschiedene Ansätze verfolgt worden. Historisch ist wohl der erste Versuch, sprachliche Erscheinungen mit Hilfe von Gesetzen in Analogie zu den Naturwissenschaften zu erklären („nach der Methode des Euklid“), die faszinierende Arbeit des Benediktinermönchs Martin Sarmiento (1695K1737, vgl. Pensado 1960). Bekannter sind die Bemühungen der Junggrammatiker, allgemeingültige Lautgesetze zu formulieren, die aus methodologischen Gründen scheitern mussten, da ihnen die nötigen quantitativen Begriffe (besonders das Konzept des stochastischen Gesetzes) noch fehlten und sie so vor der mangelnden Ausnahmslosigkeit der Phänomene kapitulieren mussten. Zu denjenigen, die ebenfalls den Bedarf der Erklärung gesehen haben, gehört auch N. Chomsky, der allerdings lediglich einen formalen Beschreibungsapparat entwickelt hat, darüber hinaus aber keinen überzeugenden explanativen Ansatz vorweisen kann. Denn in dieser Schule endet die Suche nach Erklärungen, bevor sie recht begonnen hat; die Frage nach dem Warum? wird hier sehr schnell mit einer „angeborenen universellen Grammatik“ beantwortet, deren Herkunft dann nicht mehr Gegenstand linguistischer Forschung sein soll, sondern in den Bereich der biologischen Evolution falle (vgl. etwa Chomsky 1986). Dieser Versuch, zu einer linguistischen Erklärung vorzudringen, hinterließ die bekannte Klassifikation in „beobachtungsadäquate“, „beschreibungsadäquate“ und „erklärungsadäquate“ Beschreibungen. Zur Kritik
der Chomsky’schen Linguistik in Bezug auf grundsätzliche Mängel des theoretischen Gebäudes und auf die Immunisierung gegen empirische Gegenevidenz vgl. z. B. die ausgezeichnete Darlegung von Jan Nuyts (1992). Weitere Beispiele für sprachwissenschaftliche Ansätze, die sich um Erklärungen bemühen, finden sich bei den Vertretern der „Natürlichkeitstheorie“ (vgl. Dressler et al. 1987), die jedoch K jedenfalls im heutigen Stadium dieses Ansatzes K ebenfalls nicht zum Ziel kommen können. Hier liegt das Hauptproblem im Status der angesetzten Erklärungsinstanzen: Man beruft sich auf postulierte Eigenschaften wie die „Natürlichkeit“ K nicht auf Gesetze, so dass kein logischer Schluss möglich ist, mit dem sich die beobachteten Phänomene als Resultate ergeben würden. Strebt man nach Modellen mit Erklärungskraft, nach allgemeinen Gesetzen, so kann man prinzipiell zwei entgegengesetzten Forschungsstrategien folgen: Man kann einerseits induktiv vorgehen, wie es in der Universalienforschung und der Sprachtypologie geschieht: Man sucht nach Eigenschaften, die allen bekannten Sprachen gemeinsam sind (vgl. Croft 1990; Greenberg 1966) und die dann als Ausgangspunkt für die Erforschung der für sie verantwortlichen Gesetze dienen könnten. Auch die heute hauptsächlich etablierte Form der Linguistik, die auf den Gedanken von Chomsky und anderen beruht, leitet teilweise aus beobachteten und für allgemeingültig gehaltenen Eigenschaften untersuchter Sprachen ein universelles Prinzip ab, nach dessen Muster alle Sprachen gebaut seien und gebaut sein müssen. Allerdings bringt diese Vorgehensweise entscheidende Nachteile mit sich: Selbst wenn man eine große Zahl von Sprachen untersucht hat und alle diese Sprachen ohne Ausnahme eine bestimmte Eigenschaft aufweisen, kann man nicht sicher sein, ob nicht eine (oder sogar alle) der nicht untersuchten Sprachen sich anders verhalten. Niemals aber kann man sämtliche Sprachen (einschließlich aller heute nicht mehr zugänglichen Sprachen der Vergangenheit und aller in Zukunft entstehenden) untersuchen. Folglich haben induktive Schlussfolgerungen auf der bloßen Grundlage vorhandener Daten nur geringen Wert; jederzeit muss mit einem falsifizierenden Befund aus einer neuen Untersuchung gerechnet werden, mit dem das
13
1. Gegenstand und Arbeitsweise der Quantitativen Linguistik
ganze auf Induktion aufgebaute Gebäude zusammenbrechen würde. Eine andere Strategie ist die deduktive: Man geht von gesicherten Aussagen bzw. vernünftig erscheinenden Annahmen aus (das sind solche, die nicht isoliert im Raum stehen, sondern sich in Zusammenhang mit dem Wissen befinden, über das wir in einem Forschungsbereich bereits verfügen, und ihm zumindest nicht widersprechen), sucht möglichst interessante Konsequenzen aus diesen Annahmen (das sind solche, die K wenn sie wahr sind K möglichst viel Neues zu unseren Forschungen beitragen und/oder K wenn sie falsch sind K möglichst eindeutig zeigen, dass und an welcher Stelle die zugrunde liegenden Annahmen irren und gerade dadurch unser Wissen erweitern), überprüft ihre Gültigkeit an der Realität und zieht dann die entsprechenden Schlussfolgerungen für die theoretischen Annahmen. Eine Sprachtheorie gibt es bis heute nicht. Unter einer „Theorie“ versteht man in der Wissenschaftstheorie allgemein ein System zusammenhängender, allgemeingültiger Gesetze und universaler Hypothesen (und einiger weiterer Elemente; vgl. Altmann 1993, 3K10; Bunge 1967) über einem Gegenstandsbereich, mit dessen Hilfe Erklärungen für die Phänomene des Bereichs abgeleitet werden können. Im Gegensatz dazu ist es in der Linguistik aber üblich geworden, den Terminus „Theorie“ nach Belieben als Bezeichnung für verschiedenste Zwecke zu verwenden: für Beschreibungsansätze (z. B. Phonem„theorie“, einzelne Grammatik„theorien“), für einzelne oder mehrere zusammenhängende Begriffe (z. B. Bühlers Sprach„theorie“), für formale Apparate („Theorie“ im Sinne axiomatischer Systeme wie für die Mengentheorie in der Mathematik), für Definitionen (z. B. die Sprechakt„theorie“) usw. Es wäre nichts gegen eine spezielle, Linguistik-eigene Terminologie in dieser Hinsicht einzuwenden, wenn sie wenigstens systematisch wäre. Leider ist sie es gar nicht, und darüber hinaus führt sie sehr oft zu Verwechslungen und Irrtümern. Denn allzu oft glauben (die im Unterschied zu Naturwissenschaftlern in der Regel nicht mit den Grundlagen der Wissenschaftstheorie vertrauten) Sprachwissenschaftler fälschlich, mit einer dieser „Theorien“ tatsächlich erklären zu können. Eine Sprachtheorie im Sinne der allgemeinen wissenschaftstheoretischen Terminologie existiert, wie gesagt, noch nicht; eine
Reihe von Sprachgesetzen dagegen ist in neuerer Zeit K im Rahmen der quantitativen Linguistik K gefunden, formuliert und überprüft worden; Beispiele sind in den Artikeln 44, 46 und 47 beschrieben. Einige von diesen Gesetzen konnten sogar in einen systematischen Modellzusammenhang gebracht werden, wodurch immerhin der erste Schritt auf dem Weg zu einer Theorie getan ist.
7.
Zusammenfassung
Es wurden die wichtigsten Gründe dafür angesprochen, in den Sprach- und Textwissenschaften quantitative Begriffe, Modelle und Methoden einzuführen und zu verwenden, so wie sie die fortgeschritteneren naturwissenschaftlichen Disziplinen seit Langem einsetzen. Außer den allgemeinen, wissenschaftstheoretisch begründeten und überdisziplinär gültigen Argumenten sind speziell für unseren Bereich folgende Erwägungen zentral: (1) Die Erscheinungen der Sprache und des Texts sind mit qualitativen Mitteln allein nicht genau und vollständig beschreibbar. Diese erfassen lediglich die Extremfälle, die für den gegebenen Zweck mit ja/nein-Dichotomien hinlänglich erfasst werden können. (2) Beschränkt man sich auf das Instrumentarium qualitativer Hilfsmittel, ist der größte Teil der sprachlichen und textuellen Eigenschaften und Zusammenhänge nicht einmal zu entdecken. (3) Das Vordringen auf höhere Forschungsstufen durch präzisere und tiefergehende Analysen, durch Modellierung von Zusammenhängen und Mechanismen und schließlich durch die Formulierung universeller Gesetze und damit zum Aufbau einer Theorie der Sprache und des Texts, die die beobachteten Erscheinungen erklären kann, setzt einen voll ausgebauten begrifflichen und methodologischen Apparat voraus. (4) Selbst wenn auf der Gegenstandsebene der linguistischen Einheiten qualitative Verfahren angemessen wären bzw. ausreichten, kämen spätestens bei der Theoriebildung, also beim Vordringen zur Erklärung, die quantitativen Charakteristiken Sprach-externer Instanzen zur Geltung. So sind Kriterien wie kommunikativer Erfolg, Eignung sprachlicher Mittel für einen gegebenen
14
I. Allgemeines / General
Zweck, Gedächtniskapazität, Störgrößen im akustischen Übertragungskanal, auditive Differenzierungsfähigkeit, kommunikative Effizienz (Ökonomie gegenüber Übertragungssicherheit) u. ä. zweifellos mindestens komparativ, wodurch automatisch die Wirkungszusammenhänge zwischen den äußeren Bedingungen, den globalen und den lokalen Systemgrößen der Sprache quantitativ sein müssen. Auch vielen Sprachzugehörigen Größen wie Lexikonumfang, Textlänge, Phonemzahl und Wortlänge kann niemand ihren nummerischen Charakter absprechen. Dass all dies nicht nur relevant, sondern fundamental für den Forschungsgegenstand Sprache ist, das zeigen, so hoffen wir, die folgenden Kapitel zu ausgewählten Teilbereichen der quantitativen Linguistik.
8.
Literatur (in Auswahl)
Altmann, Gabriel (1991), Science and Linguistics. In: Contributions to Quantitative Linguistics. Proceedings of the First International Conference on Quantitative Linguistics, QUALICO (eds. Köhler, Reinhard/Rieger, Burghard B.) Trier: Dordrecht/ Boston/London: Kluwer, 3K10. Altmann, Gabriel/Beőthy, Erzsébeth/Best, KarlHeinz (1982), Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz. In: Zs. für Phonetik, Sprachwissenschaft und Kommunikationsforschung 35, 537K543. Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. München: Fink. Altmann, Gabriel/Lehfeldt, Werner (1980), Einführung in die Quantitative Phonologie. Bochum: Brockmeyer. Altmann, Gabriel/Grotjahn, Rüdiger (1988), Linguistische Messverfahren. In: Sociolinguistics. Soziolinguistik (eds. Ammon, U./Dittmar, N./Mattheier, K. J.). Berlin/New York: W. de Gruyter. Arapov, Michail Viktorovič (1988), Kvantitativnaja lingvistika. Moskva: Nauka. Arapov, Michail Viktorovič/Cherc, Maja Markovna (1983), Mathematische Methoden in der historischen Linguistik. [Übers. aus dem Russischen]. Bochum: Brockmeyer.
Bunge, Mario (1967), Scientific Research I, II. Berlin u. a.: Springer. Bunjakovskij, Viktor Iakovlevič (1947), O vozmožnosti vvedenija opredelennych mer doverija k rezul’tatam nekotorych nauk nabludatel’nych i preimuščestvenno statistiki. In: Sovremennik 3, 36K49. Chomsky, Noam (1986), Knowledge of Language. Its Nature, Origins and Use. New York u. a.: Praeger. Condon, Edward Uhler (1928), Statistics of vocabulary. In: Science 67, 300. Croft, William (1990), Typology and Universals. Cambridge: Cambridge University Press. Dressler, Wolfgang/Mayerthaler, Willi/Panagl, Oswald/Wurzel, Wolfgang (1987), Leitmotifs in Natural Morphology. Amsterdam, Philadelphia: Benjamins. Drobisch, M. V. (1866), Ein statistischer Versuch über die Formen des lateinischen Hexameters. In: Berichte über die Verhandlungen der Königlichsächsischen Gesellschaft der Wissenschaften zu Leipzig, Philologisch-historische Klasse 18, 73K 139. Estoup. Jean-Baptiste (1916), Gammes sténographiques. Méthode et exercices pour l’acquisition de la vitesse. Paris: Institut sténographique. Förstemann, Ernst (1846), Ueber die numerischen Lautverhältnisse im Deutschen. In: Germania. Neues Jahrbuch der Berliner Gesellschaft für deutsche Sprache und Alterthumskunde 7. Bd., 83K90. Förstemann, Ernst (1852), Numerische Lautverhältnisse im Griechischen, Lateinischen und Deutschen. In: Zeitschrift für vergleichende Sprachforschung 1, 163K179. Frumkina, Revekka Markovna (1973), Rol’ statističeskich metodov v sovremennych lingvističeskich issledovanijach. In: Matematičeskaja lingvistika (eds. Piotrovskij, R. G.;/Bektaev, K. B./Piotrovskaja, A. A.). Moskva: Nauka, 166. Fucks, Wilhelm (1955), Mathematische Analysen von Sprachelementen, Sprachstil und Sprachen. Köln, Opladen: Westdeutscher Verlag. Greenberg, Joseph Harold (1960), A quantitative approach to the morphological typology of languages. In: International Journal of American Linguistics 26, 178K194. Greenberg, Joseph Harold (1966), Language Universals. The Hague: Mouton.
Bourdon, Benjamin (1892), L’expression des émotions et des tendances dans le langage. Paris: Alcan.
Guiter, Henri (1974), Les relations fréquence K longueur K sens des mots (langues romanes et anglais). In: XIV Congresso Internazionale di linguistica e filologia romanza. Napoli, 15K20.
Brants, Thorsten (1999), Tagging and Parsing with Cascaded Markov Models. Saarbrücken: Deutsches Forschungszentrum für Künstliche Intelligenz.
Hempel, Carl Gustav (1952), Fundamentals of concept fromation in empirical science. In: International Encyclopedia of Unified Science II 7. Chicago.
1. Gegenstand und Arbeitsweise der Quantitativen Linguistik Herdan, Gustav (1954), Informationstheoretische Analyse als Werkzeug der Sprachforschung. In: Die Naturwissenschaften 41. Herdan, Gustav (1960), Type-token mathematics. A textbook of mathematical linguistics. The Hague: Mouton. Herdan, Gustav (1962), The Calculus of Linguistic Observations. The Hague: Mouton. Herdan, Gustav (1956), Language as Choice and Chance. Groninger: Noordhoff. Herdan, Gustav (1966), The Advanced Theory of Language as Choice and Chance. Berlin u. a. Springer. Herdan, Gustav (1964), Quantitative Linguistics. Berlin u. a.: Butterworth. Herdan, Gustav (1969), About some controversial results of the quantitative method in linguistics. In: Zeitschrift für Romanische Philologie 85, 376K384. Karush, W. (1963), On the use of mathematics in behavioural research. In: Natural Language and the Computer (ed. Garvin, P.). New York: McGrawHill, 67K83. Köhler, Reinhard (1990), Linguistische Analyseebenen. Hierarchisierung und Erklärung im Modell der sprachlichen Selbstregulation. In: Glottometrika 11, 1K18. Kutschera, Franz von (1972), Wissenschaftstheorie Bd. 1. München: Fink. Mandelbrot, Benoît (1959), A Note on a Class of Skew Distribution Functions. Analysis and Critique of a Paper by H. Simon. In: Information and Control 2, 90K99.
15
Orlov, Jurij Konstantinovič (1982b), Ein Modell der Häufigkeitsstruktur des Vokabulars. In: Sprache, Text, Kunst (eds. Orlov, Ju. K., Boroda, M. G., Nadarejšvili, I. Š.). Bochum: Brockmeyer, 118K192. Pensado, José Luís (1960), Fray Martín Sarmiento: Sus ideas linguísticas. Oviedo: Cuadernos de la Catédra Feijóo. Piotrovskij, Raijmund Genrichevič (1959), The Place of Information Carrying Elements in a Word. In: Abstracts of the Conference on Mathematical Linguistics April 51K21, 1959. Washington, 36K37. Piotrovskij, Raijmund Genrichevič (1968), Informacionnye izmerenija jazyka. Leningrad: Nauka. Piotrovskij, Raijmund Genrichevič (1979), Inženernaja lingvistika i teorija jazyka. Leningrad: Nauka. Popper, Karl R. (31971), Das Elend des Historizismus. Tübingen: Mohr. Prün, Claudia, Zipf, Robert (2002), Biographical notes on G. K. Zipf. In: Glottometrics 3, 1K10. Shannon, Claude E., Weaver, W. (1949), The mathematical theory of communication. Urbana: Univ. of Illinois Press. Sherman, Lucius Adelno (1888), Some observations upon the sentence-length in English prose,. In: University of Nebraska studies 1, 119K130. Tuldava, Juhan (1995), Methods in Quantitative Linguistics. Trier: Wissenschaftlicher Verlag Trier. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systemischen Lexikologie. Trier: Wissenschaftlicher Verlag Trier.
Mariotti, Filippo (1880), Dante e la statistica delle lingue. Firenze.
Wildgen, Wolfgang; Mottron, Laurent (1987), Dynamische Sprachtheorie. Bochum: Brockmeyer.
Markov, Andrej Andreevič (1913), Primer statističeskogo issledovanija nad tekstom ,Evgenija Onegina‘ iljustrirujuščij svjaz’ ispytanij v cep’. In: Bulletin de l’académie des sciences de St. Pétersbourg, Série 6, 7, 153K162.
Williams, Carrington B. (1946), Yule’s ,Characteristic‘ and the ,Index of Diversity‘. In: Nature 157, 482.
Meyer-Eppler, Werner (1959, 21969), Grundlagen und Anwendungen der Informationstheorie. Berlin, Heidelberg, New York: Springer. Muller, Charles (1973), Eléments de statistique linguistique. In: Linguistica, Matematica e Calcolatori. Atti del convegno e della prima scuola internazionale Pisa 1970. Firenze: Zampolli, 349K378. Muller, Charles (1979), Langue française et linguistique quantitative. Genève: Slatkine repr. Nuyts, Jan (1992), Aspects of a cognitive pragmatic theory of language: on cognition, functionalism, and grammar. Amsterdam: Benjamins. Orlov, Jurij Konstantinovič (1982a), Dynamik der Häufigkeitsstrukturen. In: Sprache, Text, Kunst (eds. Orlov, Jurij K., Boroda, Moisei G., Nadarejšvili, Isabella Š.). Bochum: Brockmeyer, 82K117.
Williams, Carrington B. (1956), Studies in the history of probability and statistics IV. A note on early statistical study of literary style. In: Biometrika 43, 248K256. Williams, Carrington B. (1964), Literature and statistics. In: Listener 71, 960K961. Yule, George Udny (1924), A mathematical theory of evolution, based on the conclusions of Dr. J. C. Willis, F.R.S. In: Philosophical Transactions of the Royal Society of London Ser. B 213, 21K87. Yule, George Udny (1938), On sentence length as a statistical characteristic of style in prose: with application to two cases of disputed authorship. In: Biometrika 30, 363K390. Yule, George Udny (1944), The statistical study of literary vocabulary. Cambridge: Cambridge University Press.
16
I. Allgemeines / General
Zipf, George Kingsley (1935), The Psycho-Biology of Language. An Introduction to Dynamic Philology. Boston: Houghton-Mifflin. (21968) Cambridge: M.I.T. Press.
Zipf, George Kingsley (1949), Human Behavior and the Principle of Least Effort. Cambridge: Addison-Wesley. (21972) New York: Hafner reprint.
Reinhard Köhler, Trier (Deutschland)
2. Quantitative Linguistik in Deutschland und Österreich 1. 2. 3.
6. 7. 8.
Einleitung Anfänge und Vorläufer: QL bis etwa 1950 Aufschwung: Die fünfziger und sechziger Jahre Strukturierung und Etablierung der QL: Die siebziger und achtziger Jahre Festigung und Globalisierung: Die neunziger Jahre QL in der DDR und in Österreich Schlussbemerkung /Ausblick Literatur (in Auswahl)
1.
Einleitung
4. 5.
Im Folgenden soll ein Überblick über die Entwicklung der Quantitativen Linguistik (QL) im deutschen Sprachraum seit etwa 1900 gegeben werden. Eine Vielzahl einzelner Forscher und Werke, die einen Beitrag zur QL geleistet haben, könnten genannt werden, jedoch muss im Rahmen eines solchen Überblicks eine Beschränkung auf die wesentlichen Entwicklungslinien und Tendenzen vorgenommen werden. Für das intensivere Studium sei auf das Literaturverzeichnis, hierbei insbesondere auf die aufgeführten Bibliographien (Guiraud 1954, Billmeier/Krallmann 1969, Sabourin 1994, Köhler 1995), und auf die übrigen Beiträge innerhalb dieses Bandes verwiesen.
2.
Anfänge und Vorläufer: QL bis etwa 1950
Programmatisch und vorausschauend forderte der Indogermanist und Psychologe Thumb bereits 1911 eine stärkere Berücksichtigung statistisch-experimenteller Methoden in der Sprachwissenschaft. Er untermauerte seine Forderung mit dem Beispiel der Grammatikschreibung für das Griechische, wo aufgrund eines qualitativ-subjektiven Eindrucks die Satzendstellung des Verbs fälschlicherweise als Standard angegeben wurde, wohingegen die quantitative Untersuchung eine höher frequente Mittelstellung
belegte. Der Schwerpunkt von Thumbs quantitativen Arbeiten lag auf dem Gebiet der Analogiebildung und sprachlichen Assoziationsforschung, die er für den Fremdsprachlernprozess und zur Erklärung von sprachlichen Fehlleistungen, wie z. B. Versprechern, fruchtbar einsetzen wollte. Unabhängig von Thumbs Wunsch nach vermehrtem Einsatz quantitativer Methoden in der Sprachwissenschaft gab es bereits eine Reihe von Bemühungen, konkrete und praktische linguistische Aufgaben mit Hilfe der Statistik zu lösen. Häufigkeitszählungen von Phonemen, Buchstaben, Silben dienten beispielsweise bei Standardisierungsversuchen für das Tastaturfeld von Schreib- und Setzmaschinen (Gießzettel), und sie wurden für die Chiffrier- und Dechiffrierpraxis nutzbar gemacht. Wegen der zeitlichen Nähe und der besonderen Bedeutung soll an dieser Stelle eine Arbeit erwähnt werden, die noch im 19. Jahrhundert abgeschlossen wurde, jedoch bis ins 20. Jahrhundert hineinwirkte. Die um die Mitte des 19. Jahrhunderts im Rahmen der Entwicklung und Verfeinerung des Stenographiesystems begonnenen Buchstabenund Silbenzählungen gipfelten nämlich 1898 in dem nach mehrjähriger Arbeit erschienen Häufigkeitswörterbuch Friedrich Wilhelm Kaedings. Als Datengrundlage dienten ihm und seinen Mitarbeitern, die auf Deutschland verteilt in mehr als 100 Zählstellen arbeiteten, ca. 300 belletristische sowie andere Texte mit einem Gesamtumfang von beinahe 11 Millionen Wörtern oder 20 Millionen Silben. Neben den eigentlichen Frequenzergebnissen wurde für das Deutsche unter anderem auch die durchschnittliche Wortlänge in Silben mit 1,83 ermittelt (Synsemantika: 1,27; 2/3 aller Wörter, Autosemantika: 2,95; 1/3 aller Wörter). Auch wenn sich Kaeding von seiner Arbeit als Nebeneffekt Antworten auf offene Fragen der Sprachforschung erhoffte, so ist sein Werk trotz entsprechender Ankündigungen in einschlä-
2. Quantitative Linguistik in Deutschland und Österreich
gigen Fachorganen in sprachwissenschaftlichen Kreisen seinerzeit auf keine große Resonanz gestoßen und später erst wieder von Helmut Meier (1964) aufgegriffen worden. Ein weiteres praktisches Anwendungsgebiet der Sprachstatistik war der muttersprachliche Unterricht. Wort-, Wortlängenund Wortklassenhäufigkeiten wurden für die Konzeption der im Leseunterricht der Grundschule verwendeten Fibeln berücksichtigt. In der Sprachpsychologie wurden statistische Untersuchungen beispielsweise zum Wortschatz von Kindern durchgeführt, und die Phonetik erhielt durch die von Eberhard und Kurt Zwirner in den 30er Jahren als quantitative Hilfswissenschaft ins Leben gerufene Phonometrie wichtige Anregungen. Auf dem Gebiet der Stilistik schließlich fanden seit Ende des 19. Jahrhunderts immer wieder vereinzelte quantitative Untersuchungen statt, bei denen einzelne sprachliche Merkmale, vorwiegend auf der Ebene der Lexik, statistisch erfasst und intuitiv interpretiert wurden (vgl. hierzu Meiers Zeittafel sprachstatistischer Arbeiten, 1964, 349). Erst in den fünfziger Jahren kombinierte Wilhelm Fucks (vgl. Art. 11 und 11a) mehrere Stilcharakteristika miteinander und stellte sie auf eine fundiertere statistische Basis, um so exaktere Aussagen über Epochen-, Autoren- und Werkstil sowie über die Verfasserschaft anonymer Werke treffen zu können. Charakteristisch für die Jahrzehnte bis etwa 1950 K teilweise auch später noch K ist, dass von einem einheitlichen erkenntnistheoretischen Ziel und einer wissenschaftlichen Hypothesenbildung in den allermeisten Fällen wenig zu erkennen ist; die Daten wurden oft intuitiv interpretiert, und eine echte statistische Analyse fehlte (vgl. Altmann 1972, 6).
3.
Aufschwung: Die fünfziger und sechziger Jahre
Für die fünfziger und sechziger Jahre sind für die deutsche QL vor allem die Werke von Paul Menzerath, Hans Arens, Wilhelm Fucks und Helmut Meier von Bedeutung. Der Thumb-Schüler und Phonetiker Menzerath befasste sich zusammen mit seinem Mitarbeiter Werner Meyer-Eppler (1950) auf morphologischer Basis mit vergleichender Sprachtypologie. Im Rahmen seiner Untersuchungen zur Silbenstruktur
17
und -klassifikation im Deutschen gelangte er (Menzerath 1954) zu der Erkenntnis, dass bei steigender Silbenzahl im Wort die relative Lautzahl pro Silbe abnimmt, d. h. je größer das Ganze, um so kleiner die [unmittelbaren] Teile“ (a. a. O. 1954, 101) oder je komplexer und aus mehr Teilen bestehend ein sprachliches Konstrukt ist, desto weniger komplex oder einfacher sind die Teile beschaffen. Diese Entdeckung, die von Altmann (1980b) mathematisch als Differentialgleichung formuliert werden konnte K Länge der Bestandteile einer Struktur als Funktion der Länge der Gesamtstruktur K und daher Menzerath-Altmann-Gesetz heißt, wurde sowohl auf anderen linguistischen Untersuchungsebenen als auch in weiteren Wissenschaftsfeldern (z. B. Biologie) überprüft und bestätigt und gehört heute zu den am besten belegten Sprachgesetzen (vgl. hierzu Artikel Nr. 67). Der Physiker Fucks trug seit den frühen fünfziger Jahren durch seine interdisziplinären und populärwissenschaftlichen Werke auf den Gebieten der Kunst, Literatur, Musik und Gesellschaft zu einem stärkeren Bewusstsein für quantitative Methoden auch in der breiteren Öffentlichkeit bei. Die von ihm ermittelte Wortlängenverteilung wirkt bis heute nach. Im Gegensatz zu Eggers’ Stilanalysen auf Syntaxebene, der die Satzlängen von 50.000 Sätzen aus der Taschenbuchreihe „Rowohlts deutsche Enzyklopädie“ auszählte (1962), erfolgten Fucks’ Untersuchungen zu Stilfragen durchweg wertfrei. Er kann neben Helmut Meier vor allem wegen seiner Suche nach übergreifenden Zusammenhängen und Gesetzen als einer der Wegbereiter der QL in Deutschland gelten (Vgl. Artikel Nr. 19 und die dort aufgeführte Literatur). Parallel zu Fucks befand sich auch Arens (1965) auf der Suche nach innersprachlichen Regelhaftigkeiten. Nach seinen Zählungen an mehr als 100 belletristischen deutschen Texten des 17. bis 20. Jahrhunderts mit einem Gesamtumfang von 500.000 Wörtern nimmt bei steigender Satzlänge in Wörtern die Wortlänge in Silben ebenfalls zu. Der vordergründige Widerspruch zum Menzerathschen Gesetz besteht insofern nicht, als dieses Gesetz den Zusammenhang von unmittelbaren Konstituenten beschreibt, bei der Satzlänge wäre also nicht die Wortlänge, sondern die Phrasenlänge zu betrachten. Wie bei Fucks, dessen Arbeiten er erst nach Fertigstellung seiner eigenen Untersuchun-
18 gen kennen lernte, deuten größere Wortlängen für Arens in stilistischer Hinsicht auf einen Sachtext hin. Der Lehrer Helmut Meier schließlich knüpfte an Kaedings Häufigkeitswörterbuch von 1898 an, indem er die Lücken und Benutzungsschwierigkeiten des Kaedingschen Werkes zu überwinden suchte. Seine in mehr als 40-jähriger Einzel- und Freizeitarbeit ohne Computerunterstützung entstandene Schrift (Meier, 1964) sollte, wie Lutz Mackensen im Vorwort andeutete, das letzte Werk dieser Art im 20. Jahrhundert sein. Als Würdigung seiner Arbeit erhielt Meier 1964 die Ehrendoktorwürde der Universität Hamburg. Neben einem alphabetischen Verzeichnis der häufigsten deutschen Wörter fügt Meier nicht nur eine umfangreichere, nach Rang geordnete Wortliste bei, sondern berücksichtigt auch Wörter mit geringen Vorkommenshäufigkeiten, die Kaeding nicht aufgeführt hatte. Wie Fucks wünschte sich Meier im Prinzip eine geschlossene planvolle Bearbeitung sprachstatistischer Aufgaben im Rahmen einer „künftigen deutschen Sprachstatistik“ (Meier, 1964, 1), die über Einzeluntersuchungen hinausgeht, und er versuchte diesem Ziel durch die Darstellung und Umarbeitung bisheriger Forschungen sowie durch eigene Fragestellungen und umfangreiche Zählungen näher zu kommen. Die fünfziger und sechziger Jahre können sowohl international (vgl. unter anderem auch Herdan, Guiraud) als auch für Deutschland als eine Phase des Aufschwungs im Bereich quantitativ-linguistischer Untersuchungen bezeichnet werden. Hierzu dürften nicht zuletzt auch die Weiterentwicklung und Bereitstellung von elektronischen Datenverarbeitungsanlagen und Programmiersprachen (z. B. FORTRAN seit 1953) sowie die Erkenntnis von deren Nutzbarkeit für nicht-numerische Aufgaben beigetragen haben. Neben den bereits genannten Forschungsschwerpunkten hielten quantitative Methoden auch bei der Textindexierung (Inhaltsanalyse und Dokumentationswesen), bei der Konkordanzerstellung und bei der Analyse von Fachsprachen Einzug. Wenngleich die in dieser Zeit verstärkte Einführung quantitativer Methoden in den Geisteswissenschaften noch sehr stark von der Diskussion über die zu messenden sprachlichen Elemente und Merkmale, von der Rechtfertigung des Vorgehens überhaupt und der Suche nach geeigneten Methoden und der Frage nach der Aussagekraft
I. Allgemeines / General
einer konkreten Messung geprägt war, so ist andererseits die Tendenz, umfassendere sprachliche Zusammenhänge und Gesetzmäßigkeiten aufzudecken, punktuell erkennbar (z. B. Menzerath, Fucks). Die Verknüpfung quantitativer Einzeluntersuchungen und die Visionen von Fucks und Meier bezogen auf die QL als eigene linguistische Teildisziplin wurden jedoch erst seit den siebziger Jahren Realität.
4.
Strukturierung und Etablierung der QL: Die siebziger und achtziger Jahre
Das gesteigerte Interesse an der mathematischen Beschreibung von Sprache und Literatur wird in den siebziger Jahren nicht zuletzt durch eine Reihe von Sammelbänden dokumentiert, die seit Mitte der sechziger Jahre z. T. in mehreren Auflagen erschienen sind (z. B. Kreuzer/Gunzenhäuser 1971, Schanze 1972, Kreuzer/Viehoff 1981). Stellvertretend für quantitative Bemühungen in einzelnen geisteswissenschaftlichen Disziplinen sei hier die Anglistik mit den Arbeiten von Barbara Kreifelts in Köln und Peter Nübold in Braunschweig genannt. Auch wenn es hierbei wie bei den zuvor erwähnten Sammelbänden primär um die Bezüge der mathematischen Methoden zur Literatur bzw. Literaturwissenschaft geht, so ist die sprachwissenschaftliche Relevanz dort gegeben, wo auf der Basis von Stilfragen weitergehende Aussagen über sprachliche Elemente an sich getroffen werden. 1969 und damit 15 Jahre nach Guiraud erschien die aus der Arbeit am Institut für Kommunikationsforschung und Phonetik der Universität Bonn entstandene erste deutschsprachige quantitativ-linguistische Bibliographie von Günther Billmeier und Dieter Krallmann. Sie umfasst etwa 1000 Einträge mit dem Schwerpunkt Wortfrequenzuntersuchungen und wurde ein wichtiges Nachweisinstrument auf diesem Gebiet. Mehrere statistische Grundlagenwerke für Sprachwissenschaftler (z. B. Muller 1972, Nikitopoulos 1973, Altmann 1980) ergänzten das Spektrum der Publikationen und eröffneten interessierten Geisteswissenschaftlern den Zugang zu statistischen Methoden. Entscheidende Fortschritte in der QL konnten jedoch erst durch Systematisierungs- und Strukturierungsbemühungen erfolgen.
2. Quantitative Linguistik in Deutschland und Österreich
Waren die Jahrzehnte bis etwa 1970 überwiegend von isolierten quantitativen Arbeiten geprägt, die durchaus fruchtbare, jedoch meist unverbunden nebeneinander stehende Ergebnisse hervorbrachten, so setzte seit den siebziger Jahren eine stärkere Strukturierung innerhalb der Quantitativen Linguistik ein, ja man kann sagen, dass seit 1970 die QL in Deutschland als eigenständige linguistische Teildisziplin überhaupt erst ins Leben gerufen wurde. Das Verdienst der eigentlichen Etablierung der QL als Fach kommt im Wesentlichen dem Bochumer Linguisten und Mathematiker Gabriel Altmann zu, der seit Anfang der siebziger Jahre systematisch die Disziplin der Quantitativen Linguistik in Deutschland aufbaute, indem er einen Kreis von Studierenden und Mitarbeitern sowie von Stipendiaten aus anderen Ländern dazu anleitete, klare wissenschaftliche Zielsetzungen, statistische Methoden und linguistische Fragestellungen eng miteinander zu verknüpfen. Deskriptive Arbeiten, so wichtig sie sind, waren nicht mehr Ziel, sondern Mittel zum Zweck der Theoriebildung. So schreibt ein finnischer Forscherkollege Altmanns: „Gerade in dieser Bezogenheit auf die moderne linguistische Theoriebildung liegt der Unterschied zwischen den ,statistischen‘ Arbeiten früheren Datums und den linguistisch-quantitativen Untersuchungen der Gegenwart und Zukunft. Als Ziel sind nicht interpretierbare Zählergebnisse über isolierte Phänomene, sondern theoretisch einwandfreie linguistische Modelle anzustreben.“ (Piirainen, 1972, 96). Folgerichtig propagierte Altmann ein klar gegliedertes, schrittweises Vorgehen für quantitative Untersuchungen. Zunächst sollte auf deduktivem Wege eine Hypothese gewonnen werden, die in einem nächsten Schritt formalisiert, d. h. in mathematische Formeln und Modelle gefasst wird. In einem dritten Schritt werden große Mengen linguistischer Daten erhoben, anhand derer die im ersten Schritt aufgestellte Hypothese zu überprüfen und im vierten Schritt zu verfeinern ist. Das wissenschaftliche Fernziel ist die Aufdeckung verborgener Zusammenhänge und Gesetzmäßigkeiten, letztendlich die Entwicklung einer umfassenden Sprachtheorie als System von gut bestätigten und allgemeingültigen sprachlichen Gesetzen K der Weg von der Deskription zur Explanation also. Aufgrund seiner beharrlichen und vielfältigen Bemühungen kann Altmann un-
19
zweifelhaft als eigentlicher Begründer der QL in Deutschland gelten. Durch eigene Arbeiten hat er sowohl im methodologischen und methodischen (z. B. 1980c) als auch im linguistischen Bereich, etwa in der Sprachtypologie (1973), der Phonologie (1980a) und der Textwissenschaft (1988), um nur einige wenige zu nennen, ganz entscheidend zum Fortschritt der Disziplin beigetragen, und es gibt fast keine linguistische Untersuchungsebene, auf die er quantitative Methoden nicht angewandt hätte. Seit 1978 erscheint die von Gabriel Altmann ins Leben gerufene interdisziplinär und international ausgerichtete Buchreihe Quantitative Linguistics mit ihren Unterreihen Glottometrika und Musikometrika. Sie dient als wichtige internationale Publikationsplattform der Quantitativen Linguistik, umfasst bislang 60 Bände K Monographien und Sammelbände K und hat entscheidend dazu beigetragen, dass die Ergebnisse osteuropäischer Forscher eine größere Verbreitung fanden. Zu den übrigen Publikationen des inzwischen emeritierten Wissenschaftlers vergleiche u. a. die Festschrift zu seinem 60. Geburtstag (Grotjahn, Kempgen, Köhler u. a. 1991) und die einschlägigen Bibliographien (vgl. Art. 71). Um die Mitte der achtziger Jahre flossen verstärkt systemtheoretische Aspekte in die QL ein. Neben der vor allem von Wolfgang Wildgen verfolgten Richtung der Katastrophentheorie zur Erfassung sprachlicher Veränderungsabläufe ist das die aus der Physik bekannte Theorie der kooperativen Phänomene oder der selbstorganisierenden und selbstregulierenden Systeme, die Synergetik. Der synergetische Ansatz erleichtert die Suche nach einer adäquaten Sprachtheorie, indem er es ermöglicht, gegenseitige Abhängigkeiten von einzelnen Gesetzen in einem Modell miteinander zu verknüpfen. So wurde auf Initiative Altmanns und mit Unterstützung der Volkswagenstiftung 1986 in Bochum das Projekt „Sprachliche Synergetik, Teil 1: Quantitative Lexikologie“ aus der Taufe gehoben. In diesem internationalen und interdisziplinären Projekt, an dem mehr als 60 Institute und Einzelwissenschaftler (Linguisten, Mathematiker und Informatiker) aus mehreren Ländern beteiligt waren, wurde anhand mehrerer Sprachen die Struktur und Dynamik der Lexik untersucht. Hauptziel war die wissenschaftliche Beschreibung und Erklärung multivariater sprachlicher Relationen zwischen verschiedenen Eigenschaften lexikalischer Einhei-
20 ten, letztendlich ein umfassendes dynamisches Lexikmodell natürlicher Sprachen. Im Rahmen dieses Projektes ist bereits eine Fülle von Publikationen zu synergetischen Aspekten von Sprache erschienen, und es sind weitere Veröffentlichungen zu erwarten, auch wenn das Projekt als solches inzwischen nicht mehr finanziert wird und daher eingestellt worden ist. Als grundlegend und wegweisend ist hier vor allem die Arbeit Reinhard Köhlers zu nennen. Angeregt durch Altmann ist es Köhler (1986) gelungen, ein synergetisches und damit auf dem Axiom der Selbstorganisation und -regulation beruhendes Modell der Lexik zu erarbeiten und an deutschen Daten des LIMAS-Korpus zu testen. Die Lexemeigenschaften Länge, Frequenz, Polylexie und Polytextie werden innerhalb eines Regelkreises unter Berücksichtigung von Systembedürfnissen (z. B. principle of least effort), von konkurrierenden und kooperierenden Prozessen (z. B. Diversifikation K Unifikation), von sprachlichen Funktionen (z. B. Länge-Frequenz) und Randbedingungen in Beziehung zueinander gesetzt. Auf dem Axiom der Selbstorganisation beruhend kann die Entstehung sprachlicher Phänomene bezogen auf die Anforderungen aus der Systemumwelt oder auf systeminterne Ordnungsparameter funktional erklärt werden, weswegen man hier von funktionalanalytischen Modellen und Erklärungsansätzen spricht, die seit Beginn der achtziger Jahre verstärkt verfolgt werden. Eine wichtige Rolle spielen hier die funktionalen Äquivalente, d. h. die Möglichkeit einem bestimmten Bedürfnis durch verschiedene gleichwertige Alternativen Rechnung zu tragen. Wurden bis zur Mitte der achtziger Jahre verschiedene Sprachgesetze ohne deren Relationen zueinander untersucht, so verknüpft Köhler erstmals mehrere Abhängigkeiten zwischen K in diesem Fall lexikalischen K Variablen in einem einheitlichen Modellierungsansatz miteinander. Sein Lexik-Modell enthält bereits Schnittstellen zu anderen linguistischen Ebenen und Gesetzen (z. B. zum Menzerathschen Gesetz) und gab den Anstoß für zahlreiche weitergehende Untersuchungen. In den neunziger Jahren folgten Teilmodelle für morphologische und syntaktische Zusammenhänge (vgl. Art. Nr. 53 und 20). Aus dem Kreis um Altmann sind neben Köhler vor allem noch zu nennen KarlHeinz Best, Rüdiger Grotjahn, Rolf Ham-
I. Allgemeines / General
merl, Werner Lehfeldt, Ursula Rothe, Michael Schwibbe, Peter Zörnig und andere mehr, auf deren Arbeiten hier im Einzelnen nicht eingegangen werden kann. Viele ihrer Publikationen sind im Rahmen des Projekts „Sprachliche Synergetik“ innerhalb der QLReihe erschienen. Stellvertretend sei kurz der Germanist Best erwähnt, der 1993 zusammen mit Altmann an der Universität Göttingen das Projekt „Quantitative Linguistik“ ins Leben gerufen hat, in dessen Zentrum Untersuchungen zu Häufigkeitsverteilungen von Wort- und Satzlängen und von Wortarten in verschiedenen Textsorten und Sprachen stehen. Die Einbeziehung weiterer Aspekte wie Morph- und Silbenlängen sowie Überlegungen zum Sprachwandel im Deutschen hat begonnen. Auch innerhalb dieses Projektes spielt der synergetische Ansatz eine wesentliche Rolle (vgl. Art. 14, 18, 19 und 22).
5.
Festigung und Globalisierung: Die neunziger Jahre
Die neunziger Jahre sind vor allem durch Tendenzen zur Festigung des Erreichten sowie zur Internationalisierung und Professionalisierung geprägt. Ein wichtiger Schritt zur Internationalisierung der Quantitativen Linguistik war die Konstituierung der Quantitative Linguistics Conference (QUALICO) als Treffpunkt und Podium international ansässiger Forscher, die 1991 erstmals in Trier, 1994 in Moskau, 1997 in Helsinki, 2000 in Prag und 2003 in Athens, Georgia, USA stattfand. Für 2006 ist eine weitere Konferenz geplant. Anlässlich der 2. QUALICO kam es 1994 zur Gründung der International Quantitative Linguistics Association (IQLA), die den weltweiten wissenschaftlichen Austausch auf dem Gebiet der QL durch Veranstaltungen, Förderprogramme und Publikationen befördern will. Als Publikationsorgan der IQLA und als ständiges internationales Diskussionsforum fungiert seit 1994 das Journal of Quantitative Linguistics (JQL), das die seit 1978 existierende Buchreihe Quantitative Linguistics insbesondere um aktuellste Forschungsergebnisse ergänzt. Für den möglichst umfassenden Nachweis quantitativ-linguistischer Literatur existiert eine eigene Bibliographie (Bibliography of quantitative linguistcs, BQL), die unter Federführung von Köhler an der Universität Trier fortlaufend gepflegt und aktualisiert
2. Quantitative Linguistik in Deutschland und Österreich
wird. Erste Arbeiten an dieser Bibliographie wurden 1981 in Bochum aufgenommen. Das Werk ist 1995 in gedruckter Form erschienen und wird als Datenbank laufend aktualisiert. Die jeweils aktuellsten Neuzugänge zur BQL erscheinen als „Current bibliography“ innerhalb der Glottometrika-Bände der QL-Reihe. Als wichtiges Hilfsmittel zur Anpassung theoretischer Funktionen und Verteilungen an empirische Daten steht seit Anfang der neunziger Jahre das von Altmann und Köhler entwickelte und stets in der Weiterentwicklung befindliche Softwarepaket „Fitter“ zur Verfügung, das es erlaubt, mehrere hundert diskrete Wahrscheinlichkeitsverteilungen iterativ optimierend an vorhandene Daten anzupassen. Wenngleich es inzwischen an mehreren Hochschulen im deutschsprachigen Raum, sei es innerhalb der Allgemeinen Sprachwissenschaft, der Phonetik, der Psychologie oder der einzelnen Philologien, vereinzelte Veranstaltungen und Arbeiten zum Einsatz quantitativer Methoden in der Sprach- und Literaturwissenschaft gibt, so sind vor allem die Universitäten Bochum, Göttingen (Best; http://www.gwdg.de/~kbest/projekt.htm) und Trier (Köhler; http://www.ldv.uni-trier.de: 8080/unter Reinhard Köhler) als die Zentren der QL in Deutschland zu nennen. Neben den Arbeiten der bekannten Protagonisten der QL sind dort zahlreiche Einzelund Teilprobleme im Rahmen von Staatsexamen-, Magister- und Doktorarbeiten bearbeitet worden. Von hier gehen die entscheidenden Impulse zur Organisation und Weiterentwicklung des Faches in Deutschland aus.
6.
QL in der DDR und in Österreich
Für die ehemalige DDR und für Österreich sollen hier beispielhaft nur die herausragenden und international bekanntesten Vertreter vorgestellt werden, wenngleich es K wie auch in Deutschland K darüber hinaus weitere quantitative Forschungen gegeben hat und gibt. In der ehemaligen DDR begann im Jahre 1967 die Forschungsgruppe „Fachsprachen“ an der Universität Leipzig unter der Leitung von Lothar Hoffmann mit der systematischen statistischen Untersuchung der sprachlichen Besonderheiten wissenschaftlicher Texte. Als Datengrundlage dienten wissen-
21
schaftliche Standardwerke, Lehrbücher und Fachzeitschriften allgemeinerer Natur. Das Ziel der Untersuchungen war es, Minimalwortschätze zu erstellen, die in der fachbezogenen Fremdsprachausbildung an den Hochschulen eingesetzt werden konnten. Darüber hinaus dienten die Bemühungen der Erforschung der fachsprachlichen Syntax und der Erstellung von Thesauri für das Dokumentationswesen. Als Ergebnis wurden ab Anfang der siebziger Jahre dreisprachige (Russisch, Englisch, Französisch) Häufigkeitswörterbücher für verschiedene Fächer (z. B. Bauwesen, Medizin, Physik u. a.) publiziert. Hoffmann befasste sich neben der rein praktischen Lexikographie auch mit den theoretischen Grundlagen und Prinzipien der Erstellung von Häufigkeitswörterbüchern. Durch die Herausgabe und Bearbeitung von Charles Mullers Initiation à la statistique linguistique (1968) ermöglichte Hoffmann erstmals den Zugriff auf eine systematische deutschsprachige Einführung in die Sprachstatistik (Muller 1972). Ein eigenes Einführungswerk zur Sprachstatistik war das 1979 in Zusammenarbeit mit Piotrowski erschienene Buch (Hoffmann, Piotrowski 1979), in dem Piotrowski den allgemeinen Stand quantitativer Linguistik darstellt und Hoffmann die praktische Anwendung statistischer Methoden veranschaulicht. Die Dialektometrie (vgl. Art. 37) oder auch Quantitative Dialektgeographie ist eines der Hauptarbeitsgebiete des Salzburger Romanisten Hans Goebl. Der Begriff geht auf Séguy zurück und meint zunächst einmal die Messung dialektaler Merkmale. Goebl entwickelte eine auf der numerischen Taxonomie basierende Methodologie, die auf der Grundlage von aus Sprachatlanten gewonnenen Daten die Klassifizierung von Dialekten unter gleichzeitiger Berücksichtigung mehrerer sprachlicher Merkmale ermöglicht. Eine solche auf der numerischen Taxonomie gegründete polythetische Klassifikation ermittelt ihre Klassen durch Ähnlichkeitsmessungen unvoreingenommen aus den Daten selbst sozusagen a posteriori und nicht durch eine a priori vorgenommene Klasseneinteilung. Die Klassifikation ist jedoch nicht Selbstzweck, sondern es geht auch hier um die Ermittlung von inhärenten Ordnungsstrukturen und tieferliegenden Zusammenhängen. Im Bereich der Anglistik verfolgt Wolfgang Viereck den gleichen Ansatz. Für die allgemeine Sprachtypologie wurde bereits in Altmann und Lehfeldt
22
I. Allgemeines / General
(1973) die Möglichkeiten dieses Verfahrens aufgezeigt. K Seit 2002 läuft auch in Österreich ein Projekt zur Wortlängenforschung. Unter der Leitung von Peter Grzybek wird die Verteilung von Wortlängen in slawischen Sprachen intensiv untersucht (http://wwwgewi.uni-graz.at/quanta).
7.
Schlussbemerkung /Ausblick
Im Verlauf der letzten 100 Jahre ist es durch verschiedene Impulse und Bemühungen gelungen, sprachstatistische Einzeluntersuchungen in Deutschland einerseits zu bündeln, andererseits eine fundierte wissenschaftstheoretische Grundlage für künftige Forschungen zu schaffen und schließlich systematische Strukturen und Rahmenbedingungen herauszubilden, so dass man von der QL inzwischen faktisch als eigenständiger linguistischer Teildisziplin mit interdisziplinärer und internationaler Ausrichtung sprechen kann. Aufgrund der in den letzten Jahren und Jahrzehnten erfolgten Entwicklung ist zu erwarten, dass ein Schwerpunkt künftiger Untersuchungen weiterhin im Bereich der Synergetik und einer fortschreitenden Theoriebildung liegen wird. Da sie sich lediglich in der Methodik, nicht jedoch in ihrem Forschungsgegenstand und -ziel, von der traditionellen qualitativen Linguistik unterscheidet, wäre die Überwindung des noch vielfach in den Köpfen verankerten Gegensatzes qualitativ-quantitativ eine weitere Herausforderung für das nächste Jahrhundert.
8.
Literatur (in Auswahl)
Altmann, Gabriel (1972), Status und Ziele der quantitativen Sprachwissenschaft. In: Linguistik und Statistik. (Hrsg. S. Jäger). Braunschweig, Vieweg, 1K9. Altmann, Gabriel (1980a), Prolegomena to Menzerath’s law. In: Glottometrika 2, 1K10. Altmann, Gabriel (1980b), Statistik für Linguisten. Bochum: Brockmeyer. (Neuauflage: Wissenschaftl. Verlag Trier, 1995). Altmann, Gabriel (1988), Wiederholungen in Texten. Trier: Wissenschaftlicher Verlag. Altmann, Gabriel/Köhler, Reinhard/Rieger, Burghard (Hrsg.), Quantitative linguistics. Bd. 1. 1978K51. 1992 Z Bochum: Brockmeyer; Bd. 52. 1993 ff. Z Trier: Wissenschaftlicher Verlag. Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. München: Fink. Altmann, Gabriel/Lehfeldt, Werner (1980), Einführung in die Quantitative Phonologie. Bochum: Brockmeyer.
Altmann-Fitter. 1994. Lüdenscheid: RAM-Verlag (Z Software). Arens, Hans (1965), Verborgene Ordnung. Düsseldorf: Schwann. Best, Karl-Heinz (1999), Quantitative Linguistik: Entwicklung, Stand und Perspektive. In: Göttinger Beiträge zur Sprachwissenschaft 2 (Hrsg. H. Gutschmidt/C. Peust). Göttingen: Peust und Gutschmidt, 7K23. Best, Karl-Heinz (2003), Quantitative Linguistik: eine Annäherung. Göttingen: Peust und Gutschmidt. 2. Aufl. Billmeier, Günther/Krallmann, Dieter (1969), Bibliographie zur statistischen Linguistik. Hamburg: Buske. Eggers, Hans (1962), Zur Syntax der deutschen Sprache der Gegenwart. In: Studium Generale 15 (1), 49K59. Goebl, Hans (Hrsg.), Dialectology. Bochum: Brockmeyer, 1984. Grotjahn, Rüdiger/Kempgen, Sebastian/Köhler, Reinhard/Lehfeldt, Werner (Hrsg.), Viribus unitis. Festschrift für Gabriel Altmann zum 60. Geburtstag. Trier: Wissenschaftlicher Verlag, 1991. Guiraud, Pierre/Whatmough, Joshua (1954), Bibliographie critique de la statistique linguistique. Utrecht. Hoffmann, Lothar (Hrsg.), Fachsprachen und Sprachstatistik. Berlin: Akademie-Verlag, 1975. Hoffmann, Lothar/Piotrowski, Rajmund G. (1979), Beiträge zur Sprachstatistik. Leipzig: Verlag Enzyklopädie. Kaeding, Friedrich Wilhelm (1898), Häufigkeitswörterbuch der deutschen Sprache. Steglitz bei Berlin: Selbstverlag. Köhler, Reinhard (1986), Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, Reinhard (1995), Bibliography of Quantitative Linguistics. Amsterdam/Philadelphia: Benjamins. Kreifelts, Barbara (1972), Eine statistische Stilanalyse zur Klärung von Autorenschaftsfragen. Diss., Univ. Köln. Kreuzer, Helmut/Gunzenhäuser, Rul (Hrsg.), Mathematik und Dichtung. 4. Aufl. München: Nymphenburger, 1971. Kreuzer, Helmut/Viehoff, Reinhold (Hrsg.), Literaturwissenschaft und empirische Methoden. Göttingen: Vandenhoeck & Ruprecht, 1981. Meier, Helmut (1964), Deutsche Sprachstatistik. 2. Aufl. Hildesheim: Olms. (Nachdruck 1978). Menzerath, Paul / Meyer-Eppler, Werner (1950), Sprachtypologische Untersuchungen. Lund. Menzerath, Paul (1954), Die Architektonik des deutschen Wortschatzes. Bonn u. a.: Dümmler.
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft Muller, Charles (1972), Einführung in die Sprachstatistik. München: Hueber. Nikitopoulos, Pantelis (1973), Statistik für Linguisten. Tübingen: Narr. Nübold, Peter (1974), Quantitative Methoden zur Stilanalyse literarischer Texte. Braunschweig. Piirainen, Ilpo Tapani (1972), Quantitative Vorgehensweisen in der automatischen Analyse der älteren deutschen Trivialliteratur. In: Schanze 1972, 88K106. Sabourin, Conrad F. (1994), Quantitative and statistical linguistics, bibliography. Montréal: Infolingua.
23
Schanze, Helmut (Hrsg.), Literatur und Datenverarbeitung. Tübingen: Niemeyer, 1972. Thumb, Albert (1911), Experimentelle Psychologie und Sprachwissenschaft. Ein Beitrag zur Methodenlehre der Philologie. Teil 1 und 2. In: Germanisch-Romanische Monatsschrift 3, 1K15; 65K 74. Zwirner, Eberhard/Zwirner, Kurt (Hrsg.), Grundfragen der Phonometrie. 3 Bände. 2., erw. u. verb. Aufl. Basel u. a.: Karger, 1966K1969. (1. Auflage Berlin: Metten, 1936).
Dieter Aichele, Worms (Deutschland)
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprachund Literaturwissenschaft 1. 2. 3. 4. 5.
Einleitung Anfänge Mathematik in der Literatur Resümee Literatur (in Auswahl)
1.
Einleitung Wissenschaft erfordert Kontinuität, und nicht nur Hoffnung auf eine Perspektive, sondern auch Kenntnis der Retrospektive. A. A. Reformatskij (Frumkina 1987, 80)
Im vorliegenden Beitrag soll, aufbauend auf synoptischen Darstellungen wie denen von Papp (1966) oder Kempgen (1995; 1999), ein Überblick über die Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft in Russland geboten werden. Der zeitliche Rahmen, um den es dabei geht, erstreckt sich im Wesentlichen von der zweiten Hälfte des 19. Jh.s bis in die 30er Jahre des 20. Jh.s K ein Zeitraum also, der in Russland von weitreichenden kulturellen und politischen Veränderungen geprägt war. Die Notwendigkeit, diesem Zeitraum gesonderte Aufmerksamkeit zu schenken, ergibt sich zum einen aus der Tatsache, dass gerade in Russland bereits zu dieser Zeit zahlreiche quantitative Fragestellungen in einem Maße verfolgt wurden, wie dies anderswo nicht der Fall war (bzw. nicht bekannt ist). Zum anderen weist gerade der russische Bereich K und das ist natürlich
nicht isoliert von den politischen Rahmenbedingungen zu sehen K eine sehr eigene Geschichte von Kontinuitäten und Kontinuitätsbrüchen auf, deren Auswirkungen sich nicht auf den genannten Zeitraum beschränken, sondern mitunter bis in unsere Gegenwart reichen. Im Hinblick auf die genannte Fragestellung gilt es K vor allem auch im Vergleich zu anderweitigen Darstellungen K insbesondere darauf hinzuweisen, dass die folgenden Ausführungen sich nicht auf den engeren Bereich der quantitativen Linguistik (QL) beschränken, sondern allgemein den Bereich der Quantifizierung sprachlicher und textlicher Strukturen, also unter Einschluss auch literaturwissenschaftlicher (so etwa metrischer, versanalytischer, u. a.) Ansätze umfassen. Ebenso gilt es, einleitend auf die Notwendigkeit einer Präzisierung des Gegenstandsbereiches im Zusammenhang mit geschichtlichen und politischen Faktoren hinzuweisen: So wäre es im Hinblick auf die Anfänge der QL im Russland des 19. Jh.s aus historischer Sicht unzulässig, dem damaligen Russischen Zarenreich angehörige, heute jedoch selbständige Nationalstaaten (wie etwa Polen oder die Ukraine) aus dem Kreis der Betrachtung auszublenden. Ohne Frage ist jegliche diesbezügliche Ein-, Aus- oder Abgrenzung überaus problematisch; ungeachtet dessen sollen im vorliegenden Beitrag solche Arbeiten als dem Gegenstandsbereich der QL in Russland zugehörig angesehen werden, die in weiterem Sinne dem russischen Be-
24
I. Allgemeines / General
reich zugerechnet werden können. Die zur Sprache kommenden Arbeiten können sich somit, müssen sich aber nicht auf die russische Sprache beziehen, und sie können, aber müssen nicht auf russisch publiziert worden sein. Der aufgezeigten Erweiterung des Gegenstandsbereichs steht somit eine Einschränkung gegenüber, die den vorliegenden Beitrag der Pflicht enthebt, weltweite quantitative Forschungen zur russischen Sprache zu berücksichtigen.
2.
Anfänge
Sowohl ältere (vgl. Struve 1918) als auch neuere Darstellungen zur Geschichte der QL in Russland beziehen sich gern auf den Mathematiker Viktor Ja. Bunjakovskij (1804K1889), der K immerhin als damaliger Vizepräsident der Russischen Akademie der Wissenschaften K 1847 die Anwendung statistischer Verfahren auf grammatische, etymologische und sprachhistorisch-vergleichende Fragestellungen und somit die Etablierung einer Linguostatistik [статистика языка] forderte (vgl. Bunjakovskij 1847; Grzybek 2003). Zwar verwies Bunjakovskij auf eigene Forschungen in dem genannten Bereich K diese sind jedoch entweder nie durchgeführt worden, oder aber sie sind nie erschienen bzw. nicht erhalten. Somit werden häufig die ersten sprachstatistischen Untersuchungen in Russland zeitlich gegen Ende des 19. Jh.s angesetzt K eine Zeit also, als der Linguistik im Wesentlichen noch die Entwicklung synchron ausgerichteter Verfahren zur strukturellen Beschreibung von Sprache(n) bevorstand, und als auch die Statistik noch lange nicht ihre Methoden im heutigen Verständnis ausgearbeitet hatte. Bei diesen in Betracht gezogenen Arbeiten handelt es sich um Graphemoder Laut-Statistiken. Eine erste solche Graphemstatistik findet sich z. B. bei Anton S. Budilovič (1846K1908), einem Schüler des in Petersburg lehrenden Izmail I. Sreznevskij (1812K1880) K der übrigens 1839 eine von der Universität Charkov zunächst (1833) abgelehnte Dissertation über den Zusammenhang von Nationalökonomie und Statistik (Opyt o predmete i ėlementach statistiki i političеskoj ėkonomii sravnitel’no) vorgelegt hatte. Die in seiner Grammatik des Kirchenslawischen enthaltene Graphemstatistik von Budilovič (1883) K der später (1892K1902) Rektor der Universität in
Tartu (Dorpat, bzw., nach der Russifizierung Anfang der 90er Jahre, Jur’ev) werden sollte K basierte allerdings nicht, wie mitunter angenommen wird, auf eigenen Auswertungen; vielmehr übernahm er sie aus der Formenlehre des Kirchenslawischen (Schleicher 1852) des damals in Prag lebenden und lehrenden August Schleicher, der seinerseits damit frühere Angaben von Förstemann (1846; 1852) zum Deutschen, Griechischen, Lateinischen und Gotischen ergänzen wollte; genauere Darstellungen dieses Sachverhalts finden sich bei Grzybek/Kelih (2003; 2004). In Anbetracht dieses Umstandes sind es also die 90er Jahre des 19. Jh.s, aus denen die ersten originellen, quantitativ ausgerichteten Untersuchungen zum Russischen vorliegen. So legte 1891 der ukrainische Ethnologe Mitrofan A. Dikarev (1854K1902) eine erste Lautstatistik vor (vgl. Dikarev 1891); er hatte sich als Sekretär des statistischen Komitees im Gouvernement Voronež unter der Anleitung von F. A. Ščerbina (1849K 1936), einem ausgewiesenen Statistiker und Begründer der Volkswirtschaftsstatistik (vgl. Ščerbina 1925), mit statistischen Methoden vertraut gemacht. Dikarevs Arbeit ist insofern bemerkenswert, als sie bewusst auf der Basis von Texten und nicht von Wörterbuchmaterial erstellt wurde. Offenbar wollte Dikarev so dem systemischen Charakter sprachlicher Erscheinungen Rechnung tragen: Individuelle Wörter betrachtete er in Analogie zu einzelnen Bauernhöfen K so wie letztere in Dorfgemeinschaften organisiert sind, sind es Wörter in Sätzen, und so wie die Dörfer den Gouvernements unterstehen, folgen Sätze den Regeln eines vollständigen Textes. Es ist also weniger der Faktor der Frequenz, den Dikarev als distinktiv zwischen Wörterbuch- und Textmaterial hervorhob, als vielmehr der intrinischsystemische Charakter, den er offenbar erkannte. Ein erstes Frequenzwörterbuch wurde 1894 in Kiev von V. N. Kunickij vorgelegt, zeitlich also noch vor dem Häufigkeitswörterbuch der deutschen Sprache von Kaeding (1897/98), das üblicherweise als das erste seiner Art angesehen wird (vgl. Kunickij 1894). Allerdings bezog sich das Werk von Kunickij „nur“ auf den Text der Komödie Gore ot uma von A. S. Griboedov (unter Auslassung der sprechenden Personen, Textund Regieanweisungen, u. ä.). Eingang fanden so 3370 verschiedene Wörter, basierend auf 13246 Wortverwendungen, die in alpha-
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
betischer Reihenfolge angeordnet wurden; den einzelnen Einträgen folgten neben der jeweiligen Vorkommenshäufigkeit die Nummern der Akte des Vorkommens (vgl. Ermolenko 1974). Während es sich bei diesen ersten Arbeiten im Grunde genommen also um mehr oder weniger rein empirische Datenerhebungen handelte, wurden Anfang des 20. Jh.s quantitative Ansätze auch bereits in linguistische, vor allem sprachhistorische Argumentationszusammenhänge gestellt. Das gilt z. B. für Dmitrij N. Kudrjavskij (1867K 1920); auch Kudrjavskij war, ebenso wie Budilovič, Absolvent der Petersburger Universität, und auch er lehrte später an der Universität Tartu [Jur’ev]. Kudrjavskij, der aufgrund seiner sprachpsychologischen Arbeiten mitunter als Nachfolger von Aleksandr A. Potebnja (1835K1891) angesehen wird, wandte in verschiedenen Arbeiten (vgl. Kudrjavskij 1909; 1911; 1912) extensiv statistische Verfahren an, mit dem Ziel, im Bereich der Linguistik zur objektivierenden Beschreibung sprachlicher Gesetzmäßigkeiten gelangen zu können. Dies formulierte Kudrjavskij (1909, 53) explizit, seiner Auffassung Ausdruck gebend, „dass die statistische Methode die Möglichkeit gibt, Erscheinungen zu bemerken, die sich normalerweise der Aufmerksamkeit des Forschenden entziehen.“ Für ihn lag die Bedeutung statistischer Methoden darin, „dass sie unserer Forschung eine Richtung verleiht. Und diese Richtung wird nicht durch unsere subjektiven Sichtweisen, sondern durch unerschrockene Ziffern bestimmt“ (Kudrjavskij 1909, 54). Die Tatsache, dass sich im damaligen Dorpat/Jur’ev ein frühes Zentrum quantitativer Linguistik herausbildete, ist mitnichten zufällig. Die Querbezüge dieser historischen Grundlagen der QL in Tartu K wie sie sich mit dem 1976 erschienenen 1. Band der Arbeiten zur Sprachstatistik [Töid keelestatistika alalt / Trudy po lingvostatistike], herausgegeben von der Gruppe für Sprachstatistik an der Philologischen Fakultät der Universität Tartu unter der Leitung von J. Tuldava, herausbildete K wären eigens zu untersuchen. Jedenfalls kamen zu Beginn des 20. Jh.s die entscheidenden Personen von der Petersburger Universität, die seinerseits zu einem erheblichen Maße von der Sprachwissenschaft der sog. Kazaner Schule geprägt war, welche nachhaltig den Boden für
25
die Herausbildung einer QL in Russland bereitete. Die sog. Kazaner Schule hatte sich gegen Ende des 19. Jh.s unter der Leitung von Ivan A. [Jan Ignacy Niecislaw] Baudouin de Courtenay (1845K1929) herausgebildet. In seinem konstruktiv-kritischen Umgang mit den Prinzipien des Junggrammatikalismus legte Baudouin die Grundlagen zu dessen Überwindung und warf den Schatten auf Konzeptionen voraus, die später dann allerdings eher mit dem Namen von Ferdinand de Saussure verbunden werden sollten (mit dem er übrigens in engem persönlichen Kontakt stand). Nach seinem Studium in Warschau und nach seiner Dissertation 1870 in Petersburg bei Sreznevskij war Baudouin 1875 nach Kazan, also an die östlichste Universität des damaligen russischen Reiches, berufen worden, wo er zunächst bis 1883 blieb. Auch wenn Forderung und Anwendung mathematisch-statistischer Methoden in der Sprachwissenschaft nicht im Vordergrund seines Denkens standen, durchziehen doch entsprechende Hinweise das gesamte Œuvre Baudouins schon seit seinen ersten Kazaner Vorlesungen der Jahre 1877/78, in denen er die qualitative und quantitative Beschreibung sprachlicher Systeme forderte. Gerade in Kazan musste ein solches Postulat auf offene Ohren stoßen: Denn Kazan war im 19. Jh. vor allem im Bereich der Mathematik eine der führenden russischen Universitäten. So lehrte hier seit 1874 K also zeitgleich mit Baudouin K Aleksandr V. Vasil’ev (1853K1929), ein Mathematiker höchsten Ranges und Herausgeber der Werke des herausragenden Mathematikers Nikolaj I. Lobačevskij (1792K1856), der seinerseits selbst in Kazan studiert hatte, wo er dann auch 1822 eine ordentliche Professur erhielt und 1827K1846 Rektor der Universität war. Zu den bedeutendsten Kazaner Studenten Baudouins zählten u. a. Mikołai Kruszewski (1851K1887) und Vasilij A. Bogorodickij (1857K1941), die später beide Baudouin auf dem Kazaner Lehrstuhl folgten: zunächst Kruszewski 1883 bis zu seinem frühen Tod 1887, dann Bogorodickij. Letzterer bezeichnete sein 1908 in Kazan erschienenes (stark von der Mathematik Lobačevskijs beeinflusstes) Buch Osnovy arifmetičeskogo sčeta [Grundlagen des arithmetischen Rechnens] (vgl. Bogorodickij 1908) als induktive Philologie; 1913 legte er umfangreiche Daten aus Studien zu Lautfrequenzen des Rus-
26 sischen vor, deren Ergebnisse u. a. in seinem Obščij kurs russkoj grammatiki [Allgemeinen Kurs der russischen Grammatik] (vgl. Bogorodickij 1935, 26 ff.) zu finden sind. Ebenfalls in Kazan erschienen um eben diese Zeit eine ganze Reihe von sprachstatistischen, vor allem lautstatistischen Arbeiten, so etwa von G. A. Aleksandrov (1911), V. Petrov (1911), oder V. Ermolaev (1915), der in seinen mathematisch-statistischen Bemühungen explizit auf die Anregungen seines Lehrers Bogorodickij verwies. De facto aber handelte es sich bei all diesen Untersuchungen um die Realisierung eines Postulats, das schon zuvor Baudouin in seinen frühen Kazaner Vorlesungen aufgestellt hatte, als er dazu aufforderte, die „Procentnyja otnošenija količestva otdel’nych zvukov v dannom jazyke“ [die Prozentsätze der Laute in einer gegebenen Sprache] statistisch zu untersuchen und zu bewerten. Baudouin selbst war 1883 zunächst an die Universität in Tartu übersiedelt, wo er neben seinen sprachwissenschaftlichen Studien auch höhere Mathematik studierte. Daran anschließend K nach der Russifizierung der Universität K ging er 1894 zunächst nach Krakau, bevor er 1900 nach Petersburg zurückkehrte, um dann schließlich vor Erlangen der politischen Selbständigkeit Polens (1918) bis zu seinem Tod nach Warschau zu gehen. Auch während seiner Petersburger Zeit wies er wiederholt dezidiert auf die Bedeutung der Mathematik für die Linguistik hin: Seiner Vorstellung nach sollte „die Linguistik sich mehr und mehr den exakten Wissenschaften annähern“ und „mehr und mehr quantitatives Denken nach dem Modell der Mathematik“ einführen (Baudouin 1909, 267). Vor diesem Hintergrund forderte er eine neue Mathematik [nowa matematyka], eine Mathematik der Zukunft [matematyka przyszłości]: Für Baudouin (1909, 268) ging es primär darum, dass die Untersuchung sprachlicher Fakten eine objektive Angelegenheit werden muss. Deswegen erwartete er von der Linguistik K ebenso wie von der Mathematik K, „unendliche Quantitäten auf endliche zu reduzieren, die dem analytischen Denken unterworfen werden können“ (Baudouin 1909, 267 f.). Noch zwei Jahre vor seinem Tod setzte Baudouin (1927) sich explizit mit dem Problem der Quantität im sprachlichen Denken auseinander: „Die einzige Methode, die eine mathematische Grundlage hat und die bislang in der Sprachwissenschaft anwendbar
I. Allgemeines / General
ist, ist die statistische Methode, d. h. die empirische Definition des wechselseitigen prozentualen Verhältnisses der verschiedenartigen Erscheinungen des sprachlichen Lebens (prozentuale Relationen in der beschreibenden und historischen Phonetik, in der Morphologie usw.). Andere mathematische Begriffe [.] werden bislang noch nicht angewendet“ (Baudouin 1927, 323). Er forderte deshalb abermals eine Mathematik der Zukunft, um im Sinne einer exakten Wissenschaft die „Gesetze der Welt der Sprache“ beschreiben zu können, welche die Abhängigkeit verschiedener Größen voneinander formal ausdrücken können (Baudouin 1927, 324). Zu den Hörern der Petersburger Vorlesungen von Baudouin gehörten zahlreiche Sprach- und Literaturwissenschaftler, von denen sich ohne Übertreibung sagen lässt, dass sie alle in den folgenden Jahren bzw. Jahrzehnten nachhaltig das Profil (nicht nur) der russischen Sprach- und Literaturwissenschaft verändern und ausnahmslos zu führenden Personen des akademischen Betriebs werden sollten, so u. a. Sergej I. Bernštejn ˙ jchenbaum (1886K (1892K1970), Boris M. E 1959), Lev P. Jakubinskij (1892K1945), Evgenij D. Polivanov (1891K1937/38?), Viktor B. Šklovskij (1893K1984), oder Lev V. Ščerba (1880K1944). Sie alle stellten auch, gemeinsam mit Jurij N. Tynjanov (1894K 1943) und Boris V. Tomaševskij (1890K 1957), das personelle Gerüst der 1916 gegründeten Petersburger „Gesellschaft zur Erforschung der poetischen Sprache“ (Opojaz) dar. In dem Bestreben, die Sprache der Literatur mit Hilfe linguistischer Methoden zu untersuchen, hatte diese Gruppe einen gemeinsamen Interessensschwerpunkt mit den Angehörigen des Moskauer Linguistischen Kreises (MLK). Der 1915 auf die Initiative von Roman O. Jakobson (1896K 1982) K damals noch Student K und Pëtr G. Bogatyrëv (1893K1971) gegründete MLK bestand bis 1924; erster Präsident war Jakobson (1915K20), 1920 gefolgt von Michail N. Peterson (1885K1962), dann 1921 von A. A. Buslaev, einem Enkel von Fedor I. Buslaev, und schließlich 1922K24 von Grigorij O. Vinokur (1896K1947), der 1915 erster Sekretär des MLK gewesen war. Im Vergleich zum Petersburger Opojaz war der MLK in methodologischer Hinsicht stärker linguistisch als literaturwissenschaftlich ausgerichtet, so dass bei der Erforschung der Literatur primär die Sprache in
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
ihrer ästhetischen Funktion im Vordergrund stand. Bei der Gründung hatte man sich aus Gründen der formalen Legitimation mit der Moskauer Dialektologischen Kommission an der Akademie der Wissenschaften assoziiert. Federführend waren dort Aleksej A. Šachmatov (1864K1920) und Dmitrij N. Ušakov (1873K1942), beide Schüler von Filipp F. Fortunatov (1848K1914), dem Begründer der sog. Moskauer Schule der Linguistik. Diese hatte sich nahezu zeitgleich mit der Kazaner Schule etwa ab den 70/80er Jahren des 19. Jh.s herausgebildet, und auch mit ihr hatte sich wesentlich der Junggrammatikalismus in Russland etabliert. Interessanterweise entstanden die Arbeiten sowohl der Moskauer als auch der Kazaner Schule vor dem Hintergrund eines allgemein-semiotischen Verständnisses von Sprache (vgl. Grzybek 1999): So war etwa in der Kazaner Schule für Bogorodickij Sprache ein „Zeichen für den Ausdruck von Begriffen und Gedanken“, und auch für Kruszewski war nicht nur das Wort allgemein ein „Zeichen des Dinges“, sondern er verstand Sprache als ein „System von Zeichen“, was ihn mit der (späteren) Linguistik Saussures vereinen sollte. Und auch Fortunatov (1956) deklarierte in seinen Vorlesungen Sprache als eine „Menge von Zeichen“, „Zeichen dessen, was absolut nicht unmittelbar in unserem Denken repräsentiert sein kann“ (Fortunatov 1956, 111 f.). In der unmittelbaren Tradition Fortunatovs K der zufolge es Sprache vor allem in ihrem formalen Aspekt zu untersuchen galt K standen später dann führende russische Linguisten wie Aleksandr M. Peškovskij (1848K1933), Michail N. Peterson (1885K 1962), Viktor K. Poržežinskij [Porzezin´ski] (1870K1929), oder eben die bereits erwähnten Šachmatov und Ušakov. Das Kazaner Bemühen um wissenschaftliche Exaktheit einerseits, und die streng formale Ausrichtung der Moskauer Schule andererseits stellten somit seitens der Linguistik essentielle Grundlagen für die Herausbildung der sog. Russischen Formalen Schule (Russischer Formalismus) dar, wie die Zusammenarbeit des Petersburger Opojaz und des MLK bezeichnet wurde. Genährt durch das gemeinsame Interesse an insbesondere auch synchron ausgerichteten Fragen, und in enger (personeller und sachbezogener) Verwobenheit mit der damaligen Avantgardekunst stand im Fokus dieser sprach-, literatur- und kunsttheoretischen Richtung die Untersu-
27
chung der künstlerischen Form. Form wurde hierbei nicht als Gegensatz, sondern als dialektisches Komplementat zum Inhalt verstanden, so dass ganz zwangsläufig die Frage nach der semantischen Funktion formaler Elemente in den Vordergrund rückte K was bei der formal-grammatischen Linie Fortunatovs so übrigens nicht der Fall war, so dass es den Begriff des Formalismus hier sehr differenziert zu sehen gilt. Ungeachtet dessen liegt es auf der Hand, dass die strikte Trennung von Sprach- und Literaturwissenschaft im Russischen Formalismus aufgebrochen und de facto auch nicht aufrecht zu halten war. Im gemeinsamen Streben nach der Entwicklung und Etablierung einer synchronen Sprach- und Literaturwissenschaft als einer exakten Wissenschaft war der Rückgriff auf (damals verfügbare) mathematisch-statistische Verfahren zur Beschreibung sprachlicher und poetischer Strukturen mehr als nahe liegend und wurde in der Tat auch vollzogen. Während es sich im Bereich der Sprachwissenschaften allerdings überwiegend um die oben bereits genannten, in der Tradition der Kazaner und Moskauer Schule stehenden Linguisten handelte, war die Diskussion quantitativer Verfahren im Bereich der Literaturwissenschaft stärker durch ein weiteres, nicht unbedingt zum personellen Kernbestand der Formalen Schule zählendes Umfeld geprägt. Dieser Umstand erklärt auch die Tatsache, warum entsprechende historische Darstellungen des Russischen Formalismus (vgl. Erlich 1973; Hansen-Löve 1978; Steiner 1984) diesem Aspekt bestenfalls sporadisch gerecht werden; eine Aufarbeitung der Diskussion quantitativer Verfahren insbesondere im literaturwissenschaftlichen Bereich steht bis heute noch aus und kann im Folgenden auch nur ansatzweise geleistet werden.
3.
Mathematik in der Literatur
Angeregt waren zahlreiche Arbeiten in dieser Richtung nicht zuletzt von Dichtern, die sich auch theoretisch mit den Grundlagen der poetischen Sprache und formalen Aspekte der Poesie beschäftigten. In erster Linie sind hier Andrej Belyj (1880K1934) und Valerij Ja. Brjusov (1873K1924) zu nennen. Belyj, mit eigentlichem Namen Boris N. Bugaev, war ein Sohn von Nikolaj Vasil’evič Bugaev (1837K1903), einem Mathematiker,
28
I. Allgemeines / General
der Dekan der physikalisch-mathematischen Fakultät der Moskauer Universität war. Belyj war nicht nur einer der wichtigsten symbolistischen Dichter seiner Zeit, sondern auch ein einflussreicher Literatur- und Kulturtheoretiker. In seinem 1910 erschienenen literatur- und kulturtheoretischen Sammelband Simvolizm (Belyj 1910) waren unter anderem eine Reihe statistischer Untersuchungen zur Rhythmik und Metrik poetischer Texte enthalten. Für diese Arbeiten erhielt Belyj später K ungeachtet der Tatsache, dass sie mitunter heftig kritisiert wurden K die ungeteilte Anerkennung, statistische Verfahren in die Analyse poetischer Texte eingeführt zu haben. Ausgangsziel Belyjs war ohne Frage eine wissenschaftliche Beschäftigung mit Literatur bzw. Poesie. So ging er in seiner 1909 als Vortrag gehaltenen Studie „Лирика и эксперимент“ [Lyrik und Experiment] davon aus, dass die Grenzen exakten Wissens nicht durch das Objekt gegeben seien, sondern durch eine bestimmte Perspektive auf das Objekt (Belyj 1910, 231). Zwar sei es im Bereich der Ästhetik nicht zur Herausbildung einer solchen (eigenständigen) exakten Wissenschaft gekommen (Belyj 1910, 236) K diese sei auch nur als System von Wissenschaften denkbar K dennoch sei durchaus die wissenschaftliche Betrachtung eines poetischen Objekts möglich. So sei eine der Aufgaben der zeitgenössischen Poetik die exakte Bestimmung des Rhythmus, vor allem dessen Abgrenzung vom Metrum (Belyj 1910, 254). Als ein erstes Beispiel zur Veranschaulichung dessen, worauf er hinaus will, dienten Belyj (Belyj 1910, 259) die ersten beiden Verszeilen aus Puškins Evgenij Onegin, einem in vierfüßigem Jambus geschriebenen Versroman:
Jambus (gK) durch eine Pyrrhichie (gg) ersetzt werde. Когда K не в шут K ку за K немог gK K gK K gg K gK K Diese Pyrrhichien, deren Vorkommen Belyj als einen Beschleunigungsfaktor ansieht, können zwar in jedem der vier Takte vorkommen; die Art des Vorkommens aber ist von Dichter zu Dichter verschieden. So lautet jedenfalls das Ergebnis statistischer Berechnungen von Belyj, der Texte von 24 Dichtern im Hinblick auf diese Fragestellung verglichen hat und aufgrund der Ergebnisse die Poeten intuitiv in drei Gruppen einteilte (Belyj 1910, 262); versucht man mit modernen Methoden wie etwa Cluster-Analysen eine solche Gruppenbildung zu reproduzieren, so erweisen sich immerhin 20 der 24 Zuordnungen als haltbar. Abgesehen von seinen auf den genannten Berechnungen beruhenden Schlussfolgerungen hat Belyj jedoch noch einen anderen Weg der Bearbeitung eingeschlagen, nämlich die Erarbeitung spezifischer Graphiken, die ihm als Grundlage weiterer Berechnungen dienen. Verbindet man nämlich wie in Abb. 3.1a (Belyj 1910, 260) die jeweiligen Pyrrhichien miteinander, so ergeben sich bestimmte geometrische Figuren wie z. B. die in Abb. 3.1b dargestellten:
Мой дядя самых честных правил, Когда не в шутку занемог, [.] Mein Onkel, brav und hoch zu preisen, scheint nun doch ernsthaft krank zu sein Die erste Zeile nähere sich, so Belyj, aufgrund des Zusammenfallens der Betonungen in den Wörtern mit den langen Silben der jambischen Struktur an: Мой дя K дя са K мых че K стных пра K вил
Abb. 3.1a: Visualisierung von Pyrrhichien nach Belyj (1910, 260)
Die zweite Zeile hingegen weiche von der reinen jambischen Struktur ab, weil das Wort занемог eine zweite Betonung bzw. eine Nebenbetonung annehme, so dass der
Aufgrund der Art und Häufigkeit des Vorkommens dieser Figuren unterschied Belyj einen „armen“ und einen „reichen“ Rhyth-
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft Dach
umgekehrtes Dach
Quadrat
Leiter
Rhombus
29
Kreuz
Abb. 3.1b: „Figuren“ nach Belyj (1910)
mus, verglich abermals die Vorkommenshäufigkeit in den Texten der 24 Autoren je nach Vorkommensstelle in der Verszeile, usw. Während Belyj (1910, 331) seine „graphischen und statistischen Tabellen“ allerdings noch als einen Beitrag zur „Anatomie des Stils“ (Belyj 1910, 286) ansah, und sie im Gegensatz zu subjektiven Wertungen als „unvoreingenommene Strukturbeschreibung“ betrachtete, betonte er später, seine Untersuchungen seien „experimentell, nicht theoretisch“ (Belyj 1929, 25). Ungeachtet dessen bezeichnete er sich selbst explizit als „Formalist vor den Formalisten in Russland“ (Belyj 1929, 28). Diese rückblickende Aussage lässt sich fraglos als Abgrenzung gegen die russischen Formalisten werten, insbesondere als Angriff gegen Viktor M. Žirmunskij (1891K1971), der seit 1920 Leiter der Abteilung für Literaturgeschichte am Petersburger Staatlichen Institut für Kunstgeschichte war, und der sich in seinem Buch Vvedenie v metriku (1925) u. a. kritisch mit Belyj auseinandergesetzt hatte. Ähnlich hatte auch Tomaševskij (1923b, 3) betont, dass es in Russland keine Wissenschaft vom Vers gebe: die Arbeiten von Belyj seien zwar durchaus wissenschaftlichen Charakters, ergäben aber kein wissenschaftliches System. Genau solche Stellungnahmen veranlassten Belyj dann offenbar, sich selbst insofern als „formalistischer als die Formalisten selbst“ (Belyj 1929, 25) zu nennen, da er die formale Untersuchung der Poesie bis an ihre Grenzen, nämlich bis zur Mathematik, geführt habe (Belyj 1929, 25). Damit weist Belyj allerdings genau auf den Punkt hin, welcher die methodologische Kritik auf sich zog K die Tatsache nämlich, dass er es nicht bei mathematisch basierten Strukturbeschreibungen beließ, sondern die auf den Berechnungen basierenden geometrischen Figuren spekulativ interpretierte und bewertete. So sah es auch Žirmunskij (1929, 204) in seiner Reaktion auf Belyjs (1929) Ritm kak dialektika: Berechnungen und Graphi-
ken, die eigentlich Hilfsmittel zur größeren Anschaulichkeit abstrakter Schlussfolgerungen sein sollten, würden bei Belyj zu einer Art statistischer Gesetze des Rhythmus, zu einer Art Zahlenmystik. Ungeachtet aller (berechtigten und unberechtigten) Kritik, die Belyj entgegen gebracht wurde, folgten dem von ihm in seinem Buch Simvolizm (1910) eingeschlagenen Weg recht bald eine Reihe von Literaten und Verstheoretikern. Als erstes zu nennen sind hier Sergej M. Luk’janov (1855K 1935) und Valerian A. Čudovskij (1891K 1938?). Luk’janov veröffentlichte 1914 eine Studie des Gedichts „Angel’ Smerti“, das von dem zeitgenössischen, ein Jahr zuvor verstorbenen Poeten Arsenij A. Goleniščev-Kutuzov (1848K1913) stammte. Mit dieser Studie stellte Luk’janov, Medizin-Professor, Literat und Biograph des bedeutenden russischen Religionsphilosophen Vladimir S. Solov’ëv (1853K1900), im Prinzip Fragen, die erst sehr viel später K dann freilich auf höherem Niveau K die quantitative Stilistik beschäftigen sollten. Für Luk’janov (1914) bestand der Wert seiner Untersuchungen insbesondere darin, „dass sie zur Erhellung der äußeren und technischen Mittel beitragen können, derer sich ein gegebener Dichter zum Ziel des künstlerischen Ausdrucks bedient“ (Luk’janov 1914, 351). Für ihn öffnete sich damit ein wissenschaftliches Feld, das bis dato noch kaum ausgearbeitet sei K nämlich die Physiologie und Psychologie des Unbewussten. Luk’janov bezog sich hierbei in erster Linie auf die damals aktuellen (und teilweise auch ins Russische übersetzten) Schriften von Eduard von Hartmann (Die Philosophie des Unbewussten, 1869), von William James (The Varieties of Religious Experience, 1902), oder Joseph Grasset (Introduction physiologique à l’étude de la philosophie, 1908). In seinen eigenen Analysen untersuchte Luk’janov u. a. die (in Silben berechnete) Vorkommenshäufigkeit von Wortlängen innerhalb der einzelnen Stro-
30 phen und im Gesamttext, und verglich sie mit einem Text von A. S. Puškin. Dabei stellte er fest, dass der Anteil ein- und zweisilbiger Wörter in dem untersuchten Text mit 73 % im Vergleich zu 70 % nur unbedeutend höher sei; auch den prozentualen Anteil von Verben und Substantiven untersuchte er und stellte keine wesentlichen Unterschiede fest; einer detaillierten Analyse des Konsonanten- und Vokalbestandes ließ er Untersuchungen zum lexikalischen Reichtum folgen und arbeitete heraus, dass im „Angel’ Smerti“ von den 96 Wörtern 55 nur ein einziges Mal vorkommen, 41 hingegen zwei- oder mehrmals, so dass seiner Meinung nach von „lexikalischem Geiz“ keine Rede sein könne (Luk’janov 1914, 330); schließlich ordnete er den Text aufgrund eines Vergleichs der Textlänge in das Gesamtwerk des Autors ein. Čudovskij, für den die Untersuchung des Verses als einer formalen Erscheinung in erster Linie eine Frage der Klassifikation ist (Čudovskij 1915, 57), ging es in einer Reihe von Aufsätzen (Čudovskij 1914; 1915; 1917) in erster Linie um „eine Theorie über den Zusammenhang von Form und Inhalt“ (Čudovskij 1914, 110), die er im Wesentlichen allerdings als eine „Angelegenheit der Zukunft“ betrachtete. Bei der Vertiefung der von Belyj aufgeworfenen Frage nach einer adäquaten Differenzierung von Rhythmus und Metrum wirft Čudovskij (1914, 116) im ersten der drei Texte die Frage auf, wie viel Prozent der Silben im Russischen überhaupt eine Betonung aufweisen. Da seines Wissens diesbezüglich keinerlei sprachwissenschaftliche Untersuchungen vorliegen, führte er selbst Analysen an der Prosa von Turgenev durch, deren Unvollständigkeit er durchaus selbst einräumte. In der Tat sollte erst Jahre später Šengeli (1923) diese Frage noch einmal aufgreifen und in größerem Maßstab untersuchen (s. u.). Jedenfalls kam Čudovskij K ungeachtet der Problematik der Behandlung von Neben-Betonungen, für die bis dato noch keine Klassifikation erarbeitet worden sei K auf einen Prozentsatz von 35K42 %. Der Schluss liege deshalb auf der Hand, dass in einem fünffüßigen Jambus theoretisch nicht mehr als 4½ Betonungen pro Verszeile zu erwarten seien. Die Bestätigung einer solchen Schlussfolgerung bedürfe jedoch, so Čudovskij (1914, 116), einer „kolossalen statistischen Arbeit“. So sei es zum Beispiel in Anbetracht des genannten Pro-
I. Allgemeines / General
zentsatzes nicht angebracht, davon auszugehen, dass in einem Text mit fünffüßigem Jambus 3½ Betonungen pro Verszeile vorkämen. Vor dem Hintergrund dieses zu erwartenden Minimums einerseits und der ein Vorkommen von fünf Betonungen voraussetzenden Norm andererseits finde offensichtlich seitens des Dichters eine spezifische lexikalische Auswahl statt. Während Čudovskij (1914, 117 ff.) solche Schwankungen innerhalb eines Textes exemplarisch aufzeigte, forderte er in Weiterentwicklung dieser Überlegungen später die „vergleichende Berechnung der relativen Häufigkeit von Wörtern nach verschiedenen logometrischen Typen, d. h. nach Stelle der Betonung und Anzahl der Silben“ (Čudovskij 1917, 69). Als Ergebnis entsprechender Untersuchungen kam er zu dem Schluss, „dass Puškin zu einem gewissen Grad ein eigenes Lexikon für jedes Versmaß hatte [...], auf bestimmte Art vielleicht ein Art Determinante des Rhythmus ...“ (Čudovskij 1917, 69). Čudovskij (1915, 61) entwickelte ein Verfahren zur Beschreibung der Versstruktur, das er selbst als „mathematisch“ bezeichnete, und dessen Basisschema wie folgt aussah: Jambus Trochäus Anapäst Daktylus Amphybrachys
2n 2nC1 3n 3nC1 3nC2
Zur detaillierten Beschreibung eines Verses verwendete er das Plus- und Minuszeichen (C bzw. K) zur Bezeichnung von Erweiterungen bzw. Kürzungen des Versschlusses (sog. hyperkatalektische bzw. katalektische Versschlüsse), gab in eckigen Klammern zusätzlich die Stelle des Ausfalls von Betonungen an, und führte die Anzahl der Wörter pro Verszeile inkl. Anzahl der Betonungen (in Form von hochgestellten Indizes) bei Wörtern mit zwei oder mehr Betonungen an. Eine Verszeile wie Морозой пылю серебрится erhielt demnach die folgende Form: 4 (2n) C 1 [3] 3, 2, 42 Auf dieser Grundlage berechnete Čudovskij (1915, 84) die Vorkommenshäufigkeiten der verschiedenen Möglichkeiten in verschiedenen Texten Puškins und nahm damit methodologisch Untersuchungen vorweg, die V. Nabokov erst Jahrzehnte später in seinem
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
Kommentar zu Evgenij Onegin zur Anwendung bringen sollte. Ungeachtet seiner eigenen Berechnungen forderte Čudovskij (1917, 58) allerdings die genaue Berechnung der Abweichung von Durchschnittswerten; die Behandlung dieser Frage werde jedoch durch das Problem des Verhältnisses von Norm und spezifischem Text kompliziert: es stelle sich nämlich die grundsätzliche Frage, welche genauen Berechnungen eigentlich auf der Basis einer falsch gewählten Norm möglich seien. Sowohl Luk’janov als auch Čudovskij entwickelten die von Belyj aufgeworfenen Fragen auf die eine oder andere Art weiter. Überaus positiv schätzte später deshalb auch der Statistiker Setnickij (s. u.) die Arbeiten von Luk’janov und Čudovskij ein. Die Arbeit von Luk’janov war für ihn ein Beispiel der Art von Daten, über die man für jeden einzelnen Dichter und für die russische Poesie insgesamt verfügen sollte (Setnickij 1922, 24). Und die Arbeiten von Čudovskij nannte er „den Moment, ab dem man von einer seitens der Verstheoretiker klar erkannten Notwendigkeit der ernsthaften, auf entsprechender statistischer Bearbeitung des Materials begründeter Erforschung des Verses“ sprechen könne (Setnickij 1922, 25). Insofern sei Čudovskij zweifellos als „Impuls für die breite, methodologisch fundierte und durchdachte Anwendung der statistischen Methode in der Verswissenschaft“ anzusehen (Setnickij 1922, 26). Diese positive Entwicklung bemerkten auch zeitgenössische Rezensenten. So kritisierte etwa Bobrov in seiner 1916 erschienenen Aufsatzsammlung Zapiski stichotvorca (Bobrov 1916) an einem ebenfalls in Anlehnung an Belyj geschriebenen Beitrag von Nedobrovo (1912), dass dieser sich „in direkter Abhängigkeit von Belys Simvolizm befindliche Text“ faktisch „nicht der Rede wert“ (Bobrov 1916, 75) sei, da er nicht über das dort Dargestellte hinausgehe K hingegen seien die Beiträge von Luk’janov und Čudovskij immerhin darum bemüht, etwas Neues zu bieten, auch wenn sie im Prinzip nach dem Modell von Belyj arbeiteten. Sergej Pavlovič Bobrov (1889K1971) trat wiederholt ebenso als Poet wie auch als Literaturtheoretiker in Erscheinung. Nachdem er eine Zeit lang Mitglied des sog. Rhythmischen Kreises von A. Belyj gewesen war, sagte Bobrov sich recht bald von dem zunächst von ihm bewunderten Belyj los und
31
wurde selbst Vordenker und führender Kopf einer bedeutenden literarischen Gruppe, nämlich der futuristisch ausgerichteten Centrifuga (aus der u. a. auch Boris Pasternak hervorging). Neben seinen literarischen und literaturtheoretischen Beschäftigungen wurde Bobrov später ein anerkannter Spezialist für ökonomische Statistik, der in den 50er Jahren u. a. populäre Mathematiklehrbücher für Kinder schrieb, so z. B. Das ZauberZweihorn [Volšebnyj dvurog, 1949] und Der Archimedische Sommer [Archimedovo leto, 1959K 62]. Bobrov war interessanterweise eine derjenigen Personen, die fast ein halbes Jahrhundert später, in den 60er Jahren, abermals mit Untersuchungen zur quantitativen Literaturwissenschaft prominent in Erscheinung traten (Bobrov 1964a; 1964b; 1965; 1967). So stellte er z. B. 1964 in der Zeitschrift Teorija verojatnostej i ee primenenie [Wahrscheinlichkeitstheorie und ihre Anwendungen] eine quantifizierende Versanalyse vor, in der er u. a. auf seine eigenen frühen Arbeiten (Bobrov 1915) ebenso wie auf die von B. V. Tomaševskij (1916a) verwies, mit dem er seit 1916 in engem Briefkontakt gestanden hatte (s. u.). Einen anderen Aufsatz leitete Bobrov (1965) in der Zeitschrift Russkaja literatura mit den programmatischen Worten ein: „Jeder Literaturwissenschaftler muss in unserer Zeit die Verdienste und Errungenschaften der statistischen Methode verstehen und anerkennen.“ (Bobrov 1965, 109). In diesem Text verwies er auch hier ein weiteres Mal auf Tomaševskij, der als Erster wahrscheinlichkeitstheoretische Verfahren in die Versforschung eingeführt habe.
Bobrov war seit 1916 in engem Kontakt und Briefwechsel mit Boris V. Tomašеvskij (1890K1957), einem der wichtigsten Literaturtheoretiker des Russischen Formalismus, der später Leiter des Puškin-Instituts der Akademie der Wissenschaften der UdSSR wurde. Die Arbeiten Tomaševskijs nehmen im Kontext des Russischen Formalismus, vor allem im Hinblick auf die Anwendung mathematisch-statistischer Verfahren auf Sprache und Literatur, einen besonderen Stellenwert ein und vermitteln einen lebendigen Eindruck vom Status mathematischer Ansätze insbesondere in der Literaturwissenschaft der 10er und 20er Jahre. Da Tomaševskij nach Abschluss des Gymnasiums aufgrund politischer Aktivitäten der Zugang zu den höheren Bildungsinstitutionen in Russland versperrt war, absolvierte er in Belgien (Lie`ge) ein Studium der Elektrotechnik (1908K1912), in dem er sich grundlegende mathematische Kenntnisse aneignete. Wie aus im Jahre 1990 publizierten Erinnerungen hervorgeht, ging es ihm schon
32 in seinen ersten wissenschaftlichen Arbeiten (ab 1915) „um die Anwendung von Methoden der mathematischen Statistik und der Wahrscheinlichkeitstheorie auf konkretes Material“ (Bobrov 1916, 143). Hierin deckten sich die Interessen von Tomaševskij und Bobrov, in dessen Tagebuchaufzeichnungen sich in ähnlicher Weise wie bei Tomaševskij bereits im Jahre 1912 die Absicht formuliert findet, „höhere Mathematik zu studieren, und mit ihr Fakten des Rhythmus zu bearbeiten“ (Bobrov 1916, 143) K in der Tat sollte Bobrov 1919 ein Studium der mathematischen Statistik aufnehmen. Tomaševskij legte noch in den 10er Jahren eine Reihe statistischer Arbeiten zur Elektrotechnik mit praktischer Ausrichtung vor, so etwa 1918 eine „Statistik der Beschädigungen von Telegraphenleitungen“ (Tomaševskij 1918a) oder 1919 eine „Statistik der Post- und Telegraphenämter“ (Tomaševskij 1919a), die im Zusammenhang mit den „neuen Aufgaben des staatlichen Aufbaus“ erarbeitet wurden. Obwohl er in den 30er Jahren an einem Leningrader SchiffsbauInstitut höhere Mathematik lehrte, ist doch gerade der Bereich der poetischen Sprache als dominanter Anwendungsbereich seiner statistischen Arbeiten anzusehen. Eine der ersten Arbeiten, in denen Tomaševskij (1916a) dieses Programm in Angriff nahm, war seine Rezension zu dem Buch Novoe o stichosloženii A. S. Puškina (Moskva 1915) von Bobrov, dessen Untersuchung eine kritische Auseinandersetzung mit Analysen Brjusovs zur Verstechnik Puškins enthielt. In der Folge entwickelte sich zwischen Bobrov, der 1916 auch eine statistische Untersuchung zur Vorkommenshäufigkeit verschiedener Konsonantentypen in poetischen Texten vorgelegt hatte (vgl. Bobrov 1916), und Tomaševskij ein Briefwechsel. In diesem kam insbesondere die beiden gemeinsame Ablehnung des Herangehens von Belyj zum Ausdruck. So schrieb Tomaševskij 1916 in einem Brief an Bobrov: „Ich muss bei Belyj das völlige Fehlen von mathematischem Takt feststellen. Auch wenn er, vielleicht, über einen ausreichenden Vorrat an mathematischen Kenntnissen verfügt, so hat Belyj doch deutlich eine Unfähigkeit an den Tag gelegt, mathematische Untersuchungsverfahren zu beherrschen“ (vgl. Tomaševskij 1916b, 142 f.). Wie Tomaševskij (1919b) in einem 1919 im MLK gehaltenen und 1923 erstmals publizierten Vortrag bemerkte, machte er
I. Allgemeines / General
durchaus keinen Hehl daraus, dass er die prinzipielle Fruchtbarkeit von Belyjs Vorgehen „in der Anwendung der statistischen und deskriptiven Methode, im Unterschied zur nomenklatorischen und normativen Methode anderer Forscher“ (Tomaševskij 1919b, 139) schätzte; auch sah Tomaševskij Belyj objektiv als Begründer einer statistischen Theorie des russischen Verses an: „[.] тем не менее создал статистическую теорию русского стиха“ (Tomaševskij 1924, 324). Das versperrte ihm allerdings nicht den Blick, dessen Ansatz äußerst kritisch zu beurteilen. Was Tomaševskij an Belyj insbesondere kritisierte, war die seiner Meinung nach „voreilige Bewertung individueller Erscheinungen [.], welche die Strenge der Untersuchung zerstört“ (Tomaševskij 1919b, 139). In einem 1922 als Vortrag gehaltenen Beitrag bezog Tomaševskij (1923a, 35) seine Auffassung, die statistische Methode werde ad absurdum geführt, wenn ungeübte Philologen sie dazu verwendeten, von ihnen berechnete Koeffizienten verschiedener Art wie Bewertungsnoten zu handhaben, explizit auf Belyj. In diesem Falle würden statistische Verfahren nur mit dem Ziel eingesetzt, evaluative Koeffizienten zu erhalten, damit ein Qualitätsurteil über den Untersuchungsgegenstand getroffen werden könne K so etwa ließe sich eine vermeintliche Überlegenheit von Puškin über andere Dichter feiern, weil in dessen Texten irgendein Koeffizient 20 und nicht etwa nur 5 betrage. Es war insbesondere diese Vermengung quantitativer Verfahren mit dem Anspruch, aus ihnen unmittelbare qualitative Schlussfolgerungen zu ziehen, die Tomaševskij nachhaltig kritisierte: „Man darf nicht vergessen, dass man auch bei einer korrekt durchgeführten Berechnung als Ergebnis eine Zahl erhält, die lediglich die Häufigkeit einer Erscheinung charakterisiert, aber mitnichten ihre Qualität. Aber auch der Umgang mit einer solchen nackten Zahl verlangt, wenn man sie nicht nur als groben Index bezüglich der Vorkommenshäufigkeit oder -seltenheit verwendet, große Sorgfalt. Das Wichtigste ist es, ihren Grad an Exaktheit zu bestimmen. Hier überschreiten wir die Grenze der elementaren Aufgabenstellung der Berechnung und gehen zu speziell statistischen Fragen über (.)“ (Tomaševskij 1923a, 36). Doch Tomaševskijs Skepsis richtete sich keineswegs nur gegen Belyj. Ein anderes
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
Objekt seiner Kritik waren die Arbeiten von Georgij A. Šengeli (1894K1956), die trotz aller Einwände, die sich ihnen gegenüber vorbringen lassen, Ecksteine der russischen Verstheorie darstellen: Sein zunächst 1921 erschienener Traktat o russkom stiche kam 1923 in zweiter, erweiterter Auflage heraus (Šengeli 1923), und auch sein später entstandenes Buch Technika sticha (Šengeli 1940) K welches vom Gegenstand her ausschließlich verstheoretisch ausgerichtet ist und daher im hier gegebenen Kontext nicht ausführlicher besprochen werden muss K erlebte 1960 eine zweite Auflage. In seiner ersten verstheoretischen Arbeit, der 1916 fertig gestellten, 1918 eigenständig erschienenen Studie Dva Pamjatnika (Šengeli 1918), untersuchte Šengeli zwei gleich lautende Gedichte mit dem Titel „Pamjatnik“: das fünfstrophige Gedicht von Puškin sowie das sechsstrophige von Brjusov. Beide Texte weisen jeweils vierzeilige Strophen mit jambischem Metrum und Paarreim auf. Neben verschiedenen inhaltlichen stellte Šengeli auch eine Reihe quantitativer Vergleiche an: So berechnete er u. a. für die einzelnen Strophen und Texte die Anzahl der Worte und die Wortlängen in der Anzahl der Silben pro Wort. Auch die Häufigkeit der Konsonanten und Vokale berechnete er für beide Texte: Demnach kommen in dem Puškin-Text bei 306 Konsonanten und 230 Vokalen auf einen Vokal im Durchschnitt 1,33 Konsonanten, in dem Brjusov-Text bei 397 Konsonanten und 276 Vokalen sind es 1,44. Weiterhin berechnete Šengeli die mittlere Wortlänge in der Anzahl der Buchstaben pro Wort K dividiert man nun für beide Texte jeweils die Gesamtzahl der Worte durch die Summe der Buchstaben, so ergibt sich für den Puškin-Text bei 117 Wörtern und 536 Buchstaben eine mittlere Wortlänge von 4,58, für den Brjusov-Text bei 137 Wörtern und 673 Buchstaben eine mittlere Länge von 4,91 Buchstaben pro Wort. Aufgrund dieser Werte hat Šengeli K davon ausgehend, dass sich kürzere Wörter und Wörter mit einer (wie er meinte) günstigeren Konsonanten-Vokale-Relation leichter aussprechen lassen K so etwas wie eine Transparenz beider Texte berechnet: Dividiert man zunächst die Summe der Buchstaben des Brjusov-Textes durch die des Puškin-Textes (673 : 536 Z 1,26), dividiert sodann die mittlere Wortlänge des BrjusovTextes durch diejenige des Puškin-Textes (4,91 : 4,58 Z 1,07), und multipliziert schließ-
33
lich die beiden Quotienten miteinander, so ergibt sich ein Wert von 1,35, den Šengeli (1918, 11) als Indiz einer um den Faktor 1,35 größeren Leseschwierigkeit interpretiert. Als wesentliches Ergebnis seiner Formanalysen kam Šengeli (1918) zu der Schlussfolgerung, dass sich in fast allen Bereichen herausgestellt habe, dass Brjusov über „меньшее мастерство распрояжения словом“ [weniger Meisterschaft im Umgang mit dem Wort] verfüge als Puškin: „Der Rhythmus ist ärmer, die Wörter sind schwerer, die Armut an Alliterationen ist größer, die Menge von für das Gehör unangenehmen Lauten ist größer, Stauungen, Kakophonie“ (Šengeli 1918, 13). Tomaševskij empfand das Vorgehen Šengelis als einen „zum Himmel schreienden Verstoß gegen das Grundgesetz der induktiven Statistik, das Gesetz der großen Zahlen“; die statistischen Untersuchungen seien aus diesem Grunde zwar „reich an Material“, aber „arm an Rückschlüssen“ und brächten „keinerlei unmittelbare Ergebnisse“ (Tomaševskij 1918b, 104 f.). Vor allem aber sahen Kritiker wie Bobrov oder Tomaševskij in solchen auf den Berechnungen fußenden Bewertungen eine nicht zulässige Vermengung von quantitativem und qualitativem Herangehen. Ähnlich kritisch äußerten sich in dieser Hinsicht auch andere Forscher. In dieselbe Richtung ging z. B. auch die Kritik von Arkadij G. Gornfel’d (1867K 1941), einem Vertreter der sog. Charkover Linguistischen Schule, die ihre Ursprünge bei Sreznevskij hatte und dann vor allem von A. A. Potebnja, dem Lehrer Gornfel’ds, geprägt wurde. Gornfel’d (1922, 164) kommentierte die wesentliche Schlussfolgerung Šengelis über die geringere Meisterschaft Brjusovs wie folgt: „Es ist vollkommen klar, dass hier die Objektivität der Statistik durch reinste Subjektivität überdeckt ist“. Gornfel’d (1922) ging in seiner Kritik noch weiter; für ihn zeigten die von Šengeli aufgrund seiner statistischen Untersuchungen erhaltenen Schlussfolgerungen vor allem, „dass die Statistik dort schädlich ist, wo sie übel angewendet wird“ (Gornfel’d 1922, 164), was ihn zu der zusammenfassenden (nicht mehr nur auf Šengeli) bezogenen Einschätzung führte: „Unterdessen ist eine gewisse Kenntnis der Literatur ausreichend, um zu sehen, dass bei unserer neuen Zusammenarbeit von Poetik und Statistik die Statistik sehr gelitten hat, und von daher hat bislang auch die Poetik ein wenig verloren“ (Gornfel’d 1922, 164).
34 Diese verallgemeinernde Kritik an den Studien von Šеngeli gilt es allerdings in mehrerer Hinsicht zu relativieren: Zum einen hatte Šеngeli seiner Studie die Bemerkung vorausgeschickt, dass diese 1916 abgeschlossen worden sei, und dass sich seither die theoretischen Grundlagen erheblich geändert, nämlich kompliziert hätten; zum zweiten fand die Studie von 1918 nicht, wie zunächst geplant, Eingang in Šеngelis 1921 erschienene umfangreichere Monographie Traktat o russkom stiche, die zudem Gornfel’d bei seiner Pauschalverurteilung nicht vorlag. Und abgesehen davon finden sich im Traktat praktisch keinerlei wertende Schlussfolgerungen mehr K was freilich nicht bedeutet, dass das Buch nicht aus anderen Gründen Kritik hervorrufen sollte. Zu Beginn des Traktats erklärt Šengeli (1923, 15) ohne Umschweife, dass mit den Arbeiten von Belyj eine neue Periode der russischen Verswissenschaft begonnen habe. Auch wenn dessen Arbeiten in keiner geschlossenen Theorie gemündet seien, hätten sie die Grundlage für eine vollkommen neue Methode, die statistische Methode, gelegt. Die von Belyj initiierte Suche nach „immanenten Gesetzen“ des Verses sei allerdings nur „durch die Anhäufung einer großen Anzahl statistischer Daten“ möglich. Šengeli (1923, 15) folgt Belyj keineswegs blind, der ohne Frage der Vater der Verswissenschaft [стиховедение] als einer Wissenschaft [наука] sei, selbst wenn bei ihm eine ganze Reihe von Schlussfolgerungen unbegründet bleibt, und auch wenn es bei ihm in der Datenerhebung und mathematischen Anwendung methodologische Fehler gebe. In seinem Traktat konzentrierte sich Šengeli großteils auf die schon von Čudovskij angesprochene Frage nach dem Anteil betonter und unbetonter Silben in der russischen Sprache. Šengeli weist eingangs auf das Ergebnis von dessen Studie hin, der zufolge der Anteil betonter Silben bei etwa 35 % liege. Dies decke sich in etwa mit Daten von Kagarov, die dieser in einer nicht publizierten, 1918 in Charkov als Vortrag gehaltenen Studie vorgestellt, dabei aber auf Unterschiede in künstlerischer, wissenschaftlicher und journalistischer Prosa aufmerksam gemacht habe. Kagarovs Studie wurde vier Jahre später, also 1922 und somit nach dem Erscheinen der ersten, jedoch vor dem Erscheinen der zweiten Auflage von Šengelis Traktat, veröffentlicht (vgl. Kagarov 1922).
I. Allgemeines / General
Šengeli selbst hat vor diesem Hintergrund umfangreiche Analysen durchgeführt; dabei kam er bei seiner Analyse von 135.983 Wörtern auf 50.000 betonte Silben, was einem Anteil von 36,77 % entspricht K mit anderen Worten: auf 1,72 unbetonte Silben kommt eine betonte. Den Umstand, dass Čudovskij im Vergleich dazu auf 1,86 unbetonte Silben gekommen war, erklärt Šengeli mit der unterschiedlichen Zählweise von Hilfswörtern (wie er sie bezeichnete): Während Čudovskij in dem Puškin’schen Vers Когда не в шутку занемог nur auf zwei Betonungen gekommen sei, rechnet Šengeli hier (korrekterweise) drei. Šengeli lässt es jedoch nicht bei diesen simplen Berechnungen bewenden. Vielmehr analysiert er des Weiteren im Detail K unter Berücksichtigung verschiedener Textsorten K wie sich die Betonungen auf Wörter mit verschiedener Silbenanzahl verteilen, und an welchen Positionen innerhalb dieser Wörter die Betonungen vorkommen. Damit gelangt Šengeli sozusagen en passant auch erstmals zu einer umfangreichen Häufigkeitsverteilung eines russischen Textkorpus, auf die er jedoch nicht näher eingeht. Im Hinblick auf die für ihn im Vordergrund stehende Frage stellt Šengeli in einer Analyse von zehn Ausschnitten aus Prosatexten verschiedener russischer Schriftsteller des 19. und 20. Jh.s fest, dass bei Wörtern mit ungerader Silbenzahl eine Tendenz besteht, dass die Betonung genau auf der Wortmitte liegt, bei Wörtern mit gerader Silbenzahl auf dem mittleren Silbenpaar (Šengeli 1923, 21). Diese Regularität interpretiert Šengeli als „наличие в языке естественных слогоударных констант“ [Existenz natürlicher silbenbetonender Konstanten in der Sprache] (Šengeli 1923, 22). Deren Einfluss auf die Formgebung sei jedoch nicht unbegrenzt; vielmehr gebe es auch „автономные законы ритма“ [autonome Gesetze des Rhythmus] (Šengeli 1923, 22), so dass die Verskonstruktion in der Praxis dem Einfluss sowohl sprachlicher als auch rein rhythmischer Normen unterliege. Den Nachweis dieser Hypothese erbringt Šengeli durch analog angelegte Untersuchungen zum Vorkommen der Betonungen in Texten verschiedener Versmaße. So stellt er in Stichproben à 3.000 Wörter aus in Hexametern geschriebenen Texten von vier verschiedenen Autoren fest, dass die Ergebnisse sich von denen der Prosatexte nur unwesentlich unterscheiden. Vollkommen andere Bilder ergeben sich je-
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
doch aus den Analysen von Texten mit vieroder fünffüßigem Jambus: Während in den Texten mit vierfüßigem Jambus insbesondere einsilbige und trochäische Wörter abnehmen, fehlen in den Texten mit fünffüßigem Jambus fast vollständig drei- und viersilbige Wörter mit Betonung auf der ersten Silbe. Diese Beobachtung interpretiert Šengeli so, dass sich einerseits einige Metren im Hinblick auf den Wortgebrauch den natürlichen Konstanten annähern und andere (interessanterweise häufiger verwendete) Metren davon entfernen, dass andererseits die natürlichen Konstanten auf die Gebräuchlichkeit der jeweiligen Formen einwirkten. Dies sei insgesamt so zu verstehen, „dass sich im Vers ein rein sprachliches und ein rein rhythmisches Element in ständiger Wechselbeziehung befinden“ (Šengeli 1923, 28). Im Anschluss an weitere Detailanalysen zu einzelnen Versfüßen und weiterführende Überlegungen zur Fundierung der Strophe als einer wesentlichen Texteinheit überführt Šengeli (1923, 177 ff.) die dargestellten Überlegungen in die Berechnung eines von ihm so genannten Vorkommenskoeffizienten: Da das Vorkommen eines bestimmten rhythmischen Komplexes dem Einfluss zweier Faktoren unterliege (den sprachlichen und den rhythmischen Normen), lasse sich die Wahrscheinlichkeit dieses Vorkommens unter Rückgriff auf die Vorkommenshäufigkeit der dem Komplex zugrunde liegenden Komponenten bestimmen. Während sich allerdings üblicherweise die gemeinsame Vorkommenswahrscheinlichkeit zweier Elemente, von denen das eine die Wahrscheinlichkeit m / n, das andere die Wahrscheinlichkeit p / q hat, durch Multiplikation der einzelnen Wahrscheinlichkeiten ergibt, lässt sich der Vorkommenskoeffizient im gegebenen Fall nicht als mp / nq berechnen; vielmehr sei die Wahrscheinlichkeit des Vorkommens einer Verbindung von zwei oder mehr Elementen deswegen höher, weil ein bestimmtes metrisches Schema realisiert werden müsse, so dass eine Wahl vorliege. Deswegen sei die gemeinsame Vorkommenswahrscheinlichkeit zweier oder mehrerer Elemente durch die Berechnung des geometrischen Mittels der Koeffizienten der einzelnen Komponenten zu bestimmen. Habe man zum Beispiel ein Schema wie: gK K gK K gggK K und gKg K K K gggK K , und seien die Vorkommenshäufigkeiten der Komponenten, die in dieses Schema Eingang finden,
35
0,165, 0,165, 0,110 sowie 0,135, 0,155, 0,0100, so berechne sich die Wahrscheinlichkeit des Vorkommens der beiden ersten Paare als O0,165 $ 0,165 bzw. O0,135 $ 0,155; man erhält somit ein Verhältnis von 33 : 29, d. h. von 1,14 : 1. De facto habe sich, so Šengeli (1923, 178), in seinen empirischen Untersuchungen bei den vierfüßigen Jamben ein Verhältnis von 304 : 236, d. h. von 1,29 : 1 ergeben (was er als recht gute Annäherung an die Erwartung interpretiert). Überaus harsch äußerte sich Bobrov (1921) zu Šengelis Traktat, der seiner Meinung nach „mit Berechnungen operierte, denen er die laute Bezeichnung ‚statistisch‘ zueignete, ohne auch nur die geringste Vorstellung von der statistischen Methode zu haben“ (Bobrov 1921, 268). Weiterhin betonte Bobrov (1921), Šengeli sei „in der Statistik nicht über das geometrische Mittel hinausgekommen, das er mit unklaren Zielen und ebenso nebelhaften Resultaten anwende“ (Bobrov 1921, 268). Das einzig gute Haar, das Bobrov in seinem Verriss an der Arbeit von Šengeli ließ, war der Umstand, dass „möglicherweise ein gebildeter Mensch irgendetwas aus dessen Tabellen nicht ohne interessante Resultate verwenden könnte“ (Bobrov 1921, 268). Auch Tomaševskij forderte in seiner Rezension des Traktats nachdrücklich „ostorožnost’ i kriticizma“ [Vorsicht und kritische Haltung] (Tomaševskij 1923b, 52) bei der Anwendung statistischer Verfahren K genau das sah er bei Šengeli ganz offensichtlich nicht gewährleistet: „Šengeli wendet auf breiter Ebene die statistische Methode an. Diese Methode, die in philologischen Kreisen auf Widerstand stößt, hat das Ziel, Fakten und Beziehungen zu erhellen, aber sie liefert verständlicherweise niemals ‚Erklärungen‘. Wenn man sich ihr zuwenden will, so erfordert das eine vorsichtige und kritische Haltung, die nur solche Personen haben, die der mathematischen Kultur nahe sind. Bei dem Autor ist von dieser Vertrautheit mit der Mathematik nichts zu bemerken, und seine ‚Beweise‘ der ‚Koeffizienten von Vorkommensformen‘ sind ein bedauerliches Missverständnis.“ (Tomaševskij 1923b, 52). In der Tat sind solche Koeffizienten oder Indizes so lange unbrauchbar, wie sie nicht standardisiert sind K so lange man nicht Erwartungswert und Varianz solcher Indizes (wie sie auch heute noch in verschiedenen Bereichen verwendet werden) kennt, sind
36
I. Allgemeines / General
sie schlicht und einfach nicht zuverlässig interpretierbar. Vermutlich würde man heute die Vorkommenshäufigkeit benachbarter Ereignisse eher in Form von Übergangswahrscheinlichkeiten bestimmen, ein Verfahren, das ja gerade im damaligen Kontext von A. A. Markov entwickelt und an poetischem Material demonstriert worden war, und auf dessen Bedeutung schon Tomaševskij (1923a, 36) nachdrücklich hingewiesen hatte. Andrej A. Markov (1856K1922), seit 1886 Professor an der Universität Petersburg und seit 1896 Mitglied der Petersburger Akademie der Wissenschaften, hatte die diesbezüglichen Überlegungen im Wesentlichen in zwei seiner Arbeiten dargelegt (Markov 1913; 1916). In der ersten Studie legte Markov (1913) eine statistische Untersuchung an Puškins Versepos Evgenij Onegin vor. Über erste Ergebnisse dieser Untersuchung hatte er schon im Januar 1913 in einem Brief an den bedeutenden Mathematiker Aleksandr A. Čuprov (1874K1922) berichtet, mit dem er seit 1910 in intensivem Briefkontakt stand, und der ebenfalls in Petersburg lebte und arbeitete (vgl. Ondar 1981). Aus dem genannten Brief vom 15. 1. 1913 geht hervor, dass Markov seine Untersuchung im Kontext von Arbeiten zum Gesetz der großen Zahlen durchführte, das Bernoulli ja genau 200 Jahre zuvor in seiner Ars Coniectandi aufgestellt hatte. Während die Gültigkeit dieses Gesetzes in der bis dahin akzeptierten Form allerdings auf unabhängige Variablen beschränkt gewesen war, lag es im Interesse Markovs, eine Erweiterung auch auf abhängige Variablen vorzunehmen. Markov (1913) analysierte K unter Auslassung der Leerzeichen sowie der weichen und harten Zeichen (also ь und ъ) K die ersten 20.000 Buchstaben von Puškins Evgenij Onegin. Was ihn interessierte, war das Aufeinanderfolgen von Vokalen und Konsonanten (wobei er das й allerdings als Vokal zählte). Markov untergliederte den von ihm untersuchten Textausschnitt in 200 Blöcke à 100 Buchstaben und ordnete diese zeilenweise fortlaufend in einer Matrix von 10 ! 10 Buchstaben an. Die auf diese Art erhaltenen 200 Blöcke betrachtete er als unabhängige Variablen, wobei jede Variable als das Ergebnis von 100 ab-
1
2
3
4
5
6
7
8
9
10
м ы р н н ж т е м е
о х а е е а а в о р
й ч в в м т в ы г д
д е и ш о с и д е р
я с л у г е л у г у
д т к т о б и м о г
я н о к н я л а п и
с ы г у у з у т р м
а х д з в а ч н и н
м п а а а с ш е м а
3
7
2
5
5
3
5
4
3
5
hängigen Versuchen anzusehen sei. Im nächsten Schritt addierte Markov die Anzahl der Vokale, zunächst in den einzelnen senkrechten Spalten, dann in den Spaltenpaaren 1 C 6, 2 C 7, 3 C 8, 4 C 9, 5 C 10. Im obigen Beispiel (dem Textanfang des Evgenij Onegin) ergibt sich so 6 C 12 C 6 C 8 C 10 Z 42. Die Gesamtsumme aller Vokale beläuft sich auf 8638, so dass das arithmetische Mittel über alle 200 Blöcke 43,2 beträgt K die Wahrscheinlichkeit, dass ein Buchstabe ein Vokal ist, macht somit p Z 0,432 aus. Die Summe aller Konsonanten beträgt entsprechend 20000 K 8638 Z 11362, was einer relativen Häufigkeit von q Z p K 1 Z 0,568 entspricht. Die Wahrscheinlichkeiten für Sequenzen (Ketten) von Vokalen (V) bzw. Konsonanten (C) bezeichnete Markov des weiteren wie folgt. Da die Summe der quadratischen Abweichungen insgesamt 1022.78 beträgt, beläuft sich das von Markov als Dispersionskoeffizient bezeichnete Abweichungsmaß auf 1022,78 / 20000 Z 0,5114. Außerdem berechnete Markov mit den relativen Häufigkeiten der Vokal- und Konsonantenvorkommnisse einen von ihm als Dispersionsindex bezeichneten Wert von 0,051 / [0,432 % (1 K 0,432)] Z 0,208. Im Weiteren ging es Markov um die Art der Aufeinanderfolge von Konsonanten und Vokalen. Dazu stellte er folgende Überlegung an: Die Anzahl von Vokalen, die auf einen Vokal folgen beträgt 1104; dividiert man nun die Anzahl der Vokale, die auf einen Vokal folgen, durch die Summe aller Vokale, so erhält man p1 Z 1104 / 8638 Z
p
q Z 1Kp
p1
p0
p1,1
p1,0
p0,1
p0,0
V
C
V-V
C-V
V-V-V
V-C-V
C-V-V
C-C-V
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
0.128. Entsprechend berechnet sich die Anzahl der Konsonanten, die auf einen Vokal folgen, als 8638 K 1104 Z 7534. Dividiert man diese Anzahl durch die um 1 reduzierte Anzahl aller Konsonanten, erhält man p0 Z 7534 / (20000 K 1K 11362) Z 0,663. Die Differenz der beiden erhaltenen Quotienten bezeichnet Markov als δ, so dass δ Z 0,128 K 0,663 Z K0,535. Berechnet man mit dem Wert den theoretischen Dispersionskoeffizienten, so ergibt sich 1Cδ
0,465 Z
1Kδ
1,535
Z 0,303
Markovs Schlussfolgerung aus dieser Berechnung ist, dass dieser Erwartungswert zwar nicht mit dem beobachteten von 0,208 übereinstimmt, diesem aber dennoch deutlich näher ist als dem Wert 1, der vollständige Unabhängigkeit der Stichproben bedeuten würde. Ausgehend davon, dass sich die Vermutung der Abhängigkeit noch besser nachweisen lässt, wenn man nicht von einfachen, sondern von komplexen Ketten ausgeht (d. h. nicht nur Sequenzen aus zwei, sondern aus drei und mehr Buchstaben in Betracht zieht), berechnete Markov die Anzahl von drei aufeinander folgenden Vokalen bzw. Konsonanten. Im ersten Fall beläuft sich die Summe auf 115, im zweiten auf 505. Damit ergeben sich die Wahrscheinlichkeiten für p1,1 Z 115 / 1104 Z 0,104 bzw. für q0,0 Z 505 / 3827 Z 0,132. p
qZ 1Kp
p1
p0
p1,1
p0,0
0,432
0,568
0,128
0,663
0,104
0,132
Mit diesen Werten lassen sich in Analogie zur Berechnung von δ aufgrund der entsprechenden Differenzen ε und η berechnen, als deren Werte man ε Z K0,024 / 0,872 Z K0,027 und η Z K0,025 / 0,663 Z K0,309 erhält. Setzt man diese Werte zur Berechnung des theoretischen Dispersionskoeffizienten in die Formel
ein, so erhält man einen Wert von 0,195, der in der Tat dem empirisch beobachteten von 0,208 recht nahe kommt. Markov (1913) führt in der Folge noch weitere Berechnungen durch, doch kann man allein aufgrund dieser Tatsache ihm zufolge kaum in Zweifel ziehen, „dass die beobachtete Übereinstimmung der Zahlen nicht zufällig ist“ (Markov 1913, 160). Damit war Markov einerseits der Nachweis gelungen, dass das Gesetz der großen Zahlen auch für abhängige Variablen gültig ist; abgesehen davon hatte er allerdings einen nachhaltigen Riesenschritt im Hinblick auf die Anwendung mathematischer Verfahren auf sprachliches Material geleistet. Der zweite Aufsatz von Markov (1916) war im Wesentlichen eine Reaktion auf eine Untersuchung von Nikolaj A. Morozov (1854K1946), ein ehemaliger, dem Terror nahe stehender Volkstümler [narodnik], der nach mehrjähriger Haft zu verschiedensten Themen arbeitete (von Chemie, Physik, Mathematik über Astronomie und Astrologie bis hin zu Geschichte und Theologie), und der 1932 zum Ehrenmitglied der Akademie der Wissenschaften der UdSSR wurde. In Morozovs Aufsatz aus dem Jahre 1915 lag sein Hauptinteresse zwar auf der Bestimmung individual-stilistischer Merkmale, dies aber K seinen Aussagen zufolge schon seit Mitte der 80er Jahre des 19. Jh.s K vor dem Hintergrund „allgemeiner stilometrischer Gesetze“ (Morozov 1915, 97). Wenn, so seine Überlegung, in der Natur und im gewöhnlichen Leben die vielfältigsten, scheinbar zufälligen, Erscheinungen zu einem ziemlichen Maße „gesetzmäßigen Charakter“ haben K warum soll das nicht auf den Bereich der Sprache zutreffen? Morozov (1915, 97) war fest davon überzeugt, dass „in unserer menschlichen Sprache all deren Elemente eine bestimmte Proportion haben“, und dass „statistische Gesetzmäßigkeiten nicht nur in sich häufig wiederholenden Erscheinungen der Natur und des öffentlichen Lebens, sondern auch in den Erscheinungen unserer Umgangs- und Schriftsprache existieren“ (Morozov 1915, 110). In dieser Überzeugung führte Morozov als eine erste
{q (1 K 3ε) (1 K η) C p (1 K 3η) (1 K ε) K 2 (1 K ε) (1 K η)} (1 K δ) C 2 (1 K εη) 1Cδ Z
{
(1 K δ) (1 K ε) (1 K η) 1Cη
1Cε
1 K δ 2 (1 K ε)
C
}
2 (1 K η)
(q K p) (η K ε) C
37
(1 K ε) (1 K η)
38
I. Allgemeines / General
Veranschaulichung eine Häufigkeitsliste russischer Buchstaben an, allerdings ohne Angabe, woher die entsprechenden Zahlen stammen bzw. worauf sie basieren. Dennoch ist dies vor Proskurnin (1933) die früheste Graphemstatistik des Russischen, wenn man von der Untersuchung von Ol’chin (1907) absieht, die aufgrund ihrer Zielsetzung nicht das gesamte Graphemsystem in Betracht zieht (vgl. Grzybek/Kelih 2003; eine theoretische Modellierung russischer Graphemhäufigkeiten allgemein findet sich bei Grzybek/Kelih/Altmann 2004). In expliziter Analogie zur Technologie der Spektralanalyse schwebten Morozov als Ergebnis seiner linguistischen Analysen von Texten individueller Autoren sog. linguistische Spektren vor; darunter verstand er Graphiken, welche die autorenspezifische Stilistik aufgrund unterschiedlicher Vorkommenshäufigkeiten von linguistischen Einheiten wie ausgewählten Präpositionen, Konjunktionen u. a.m. veranschaulichen sollten. Als ein Beispiel stellt Abb. 3.2 einen Vergleich der Vorkommenshäufigkeit der drei Präpositionen в, на und с in den ersten 1000 Wörtern aus verschiedenen Texten von Gogol’ und Turgenev dar.
Markov (1916) leitete seine Kritik an der Untersuchung von Morozov mit der Bemerkung ein, dass ein entsprechendes Vorgehen im Prinzip von großer Bedeutung sei K allerdings „nur unter der Bedingung, dass die Konstanz der Schlussfolgerungen, mit anderen Worten: ihre Stabilität, nicht auf Glauben basiert, sondern sich in der Untersuchung selbst herausstellt, wobei auch das Maß der Schwankungen geklärt werden muss“ (Markov 1916, 239). Worauf Markov mit diesen Bemerkungen abzielt, ist zweierlei: auf der einen Seite fordert er die Berücksichtigung nicht nur absoluter oder relativer Häufigkeiten, sondern auch die Angabe dazugehöriger Streuungsmaße, auf der anderen bemängelt er den zu geringen Stichprobenumfang. Um bei dem obigen Beispiel von в und на zu bleiben: In den ersten 1000 Wörtern von Puškins Kapitanskaja dočka, Baryšnjakrest’janka und Dubrovskij ist das Verhältnis der beiden Präpositionen zueinander nach Morozov 32 : 11, 40 : 12, und 46 : 13. Markovs ergänzende Analyse der ersten 1000 Wörter des 2. Kapitels von Kapitanskaja dočka ergibt allerdings ein ganz und
45 40 35 30
30
25
25
20
20
15
15
10
10
5
5
0
0
Abb. 3.2: Frequenz russischer Präpositionen nach Morozov (1915)
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
gar anderes Verhältnis von 15 : 21, welches gemäß den Analysen Morozovs eher dem Stil Gogol’s entsprechen müsste, denn Morozov (1915, 111) ist das Verhältnis der beiden Präpositionen in Majskaja noč’, Strašnaja mest’ und Taras Bulba 15 : 24, 16 : 26, 23 : 20. Auch in diesem Fall führen Markovs Zusatzberechnungen allerdings dazu, Morozovs Schlussfolgerungen in Frage zu stellen, da seine Analyse der ersten 1000 Wörter aus dem 9. Kapitel der Toten Seelen mit einem Verhältnis von 37 : 12 de facto dem vermeintlichen Stil Puškins, nicht aber Gogol’s entspricht. Markovs (1916, 241) Fazit lautete deshalb: „Nur eine bedeutende Erweiterung des Untersuchungsfeldes (nicht 5 Tausend, sondern hundert Tausende Wörter) kann den Schlussfolgerungen einen gewissen Grad an Grundlage verleihen.“ Das Postulat, linguo-statistische Untersuchungen jedweder Art insgesamt auf eine möglichst breite Basis zu stellen, war auch das Fazit des oben bereits erwähnten Nikolaj A. Setnickij (1888K1937). Setnickij war ein stark von den Religionsphilosophen N. F. Fëdorov und V. S. Solov’ëv beeinflusster Philosoph und Ökonom, der nach Abschluss seines Studiums an der juridischen Fakultät in Petersburg 1912 zunächst als Ökonom und Statistiker arbeitete, 1925 nach China emigrierte, und zwei Jahre nach seiner Rückkehr in die UdSSR 1935 verhaftet und 1937 erschossen wurde. In seiner K zuvor auch in der Zeitschrift Statističkij Vestnik abgedruckten K Studie Statistik, Literatur und Poesie geht Setnickij (1923, 18) davon aus, dass die Statistik „einer der Wege ist, das Wesen des Wortes zu erhellen und in außergewöhnliche Höhen zu erheben“. Vor dem Hintergrund der Annahme, seine Zeit sei durch eine „außergewöhnliche Entwicklung und Erweiterung der Anwendungsbreite der statistischen Methode“ (Setnickij 1923, 3) charakterisiert, wendet sich Setnickij gegen das Postulat, dass die Statistik primär „den Interessen des gegenwärtigen Moments entsprechen“ und „auf die Bedürfnisse des gegenwärtigen sozialen Aufbaus“ reagieren müsse K ein solches Postulat hatte nämlich kurz zuvor der Führer der staatlichen Statistik, P. I. Popov, auf der III. Statistischen Konferenz in Moskau (Januar 1921) vorgetragen. Gegen eine solche von ihm als pragmatizistisch bezeichnete Sichtweise wendet Setnickij (1923) ein, „dass die Statistik bzw. die statistische Methode an und für sich kein Werkzeug ist, das
39
ausschließlich dafür vorgesehen sei, praktische Ziele zu erreichen, die durch den heutigen Tag gesteckt würden“. Und weiter: „Wie in jeder Wissenschaft und im wissenschaftlichen Denken überhaupt, droht auch der Statistik durch das ausschließliche Stellen und Erfüllen von tagesaktuellen Aufgaben fast unausweichlich Blutleere und Schwächung des theoretischen Gedankenflugs, und in der weiteren Folge einer entsprechenden Wertminderung [.].“ (Setnickij 1923, 4). Die einzig sinnvolle Art und Weise, dem entgegenzuwirken, sei „die Konzentration der Aufmerksamkeit auf solche Bereiche und die Arbeit in solchen Bereichen, die nicht durch die offiziell berufene Charakteristik des Sozialen, Unaufschiebbaren und Unausweichlichen gekennzeichnet sind.“ In diesem Zusammenhang zählt Setnickij unter anderem explizit die Literatur im weiten Sinne des Wortes zu diesen Bereichen, „wo die Anwendung statistischer Methoden in der Gegenwart gereift ist und überaus fruchtbare Ergebnisse zeitigen kann“ (Setnickij 1923, 5). Für die hauptsächlichen Objekte der statistischen Forschung im Bereich der Literatur hält Setnickij (1923, 6) den Autor und das Werk, die beide ihre statistischen Charakteristika haben; statistische Methoden versteht Setnickij dabei in breitestem Sinne des Wortes. So meint er zum einen damit durchaus die Anlage statistischer Kartotheken zur Erfassung von autor- und werkbezogenen Daten. Zum anderen eröffnet sich für Setnickij (1923, 10) „eine Reihe neuer Arbeiten, wo ein speziell statistischer Zugang zu dem entsprechenden Material und dessen Erforschung mit Hilfe statistischer Methoden möglich ist“ K damit meint er die Erforschung sowohl von Poesie als auch von künstlerischer Prosa, deren Formen, Verfahren des Gebrauchs, grammatische und syntaktische Besonderheiten. Seiner Meinung nach ist „nur die in exakten Zahlen ausgedrückte Erforschung der Sprache und ihrer Tendenzen geeignet, eine Grundlage für seriöse und begründete Urteile in diesem Gebiet zu bereiten“ (Setnickij 1923, 11); allerdings muss er bedauernd einräumen, „dass die Theorie der künstlerischen Prosa noch relativ wenig ihre grundlegenden Elemente und Begriffe ausgearbeitet und geklärt habe“ (Setnickij 1923, 11). Wenn Letzteres allerdings der Fall wäre, „dann wäre die fruchtbare Grundlage für die Anwendung der statistischen Methode zur Erforschung
40 dieser Elemente und der mit ihnen verbundenen Ausdrucksverfahren der künstlerischen Prosa unzweifelhaft offenbar“ (Setnickij 1923, 11). Etwas besser sei die Lage im Bereich der Poesie, d. h. im Bereich der Theorie und Technik der Versfügung. Da es hier eine Reihe von Pionieren gebe, welche die statistische Methode auf Fragen der russischen Versfügung angewendet haben, sei auch bereits eine bedeutende Anzahl von herauskristallisierten Elementen bekannt, die als Grundlage für weitere Forschungen dienen können. Als Beispiele werden Metrum, Reim, Strophik genannt. In diesem Kontext führt Setnickij (1922, 21K28) auch, ohne Anspruch auf Vollständigkeit, eine Reihe von Hinweisen auf entsprechende Vorarbeiten an. So erwähnt er u. a. Ja. Denisovs (1888) Grundlagen der Metrik bei den Alten Griechen und Römern. Die von Denisov (1888, 92; 107) angeführten Untersuchungen könnten zwar nicht im strengen Sinne des Wortes als eine Statistik der Versfügung bezeichnet werden; immerhin aber gehe es um Berechnungen der Vorkommenshäufigkeit verschiedener Versformen, die, auch wenn sie keinen eigenständigen Wert hätten, als Anstoß für weiterführende Untersuchungen dienen könnten. Ebenfalls nennt Setnickij in diesem Zusammenhang Fedor E. Korš (1843K1915), den späteren Vorsitzenden der Moskauer Dialektologischen Kommission; dieser habe in seinen Untersuchungen zur Authentizität von Puškins Rusalka zwar keine eigenen Berechnungen angestellt, dennoch aber sei für die gesamte Arbeit „charakteristisch, dass sie unwillkürlich auf die Notwendigkeit und Vernünftigkeit aufmerksam mache, die gesamte Beweisführung nach dem Gesetz der großen Zahlen umzugestalten“ (Setnickij 1922, 22). Während also Mathematiker bzw. Statistiker wie Markov oder Setnickij mit Recht auf das Problem der Stichprobengröße hinwiesen und sich für die Orientierung am Gesetz der großen Zahlen aussprachen, sah ein mathematisch gebildeter Literaturwissenschaftler wie Tomaševskij dies differenzierter. Allerdings nahm Tomaševskij unter allen, die in den 10er und 20er Jahren auf irgendeine Art und Weise mathematisch-statistische Verfahren zur Analyse künstlerischer Texte zur Anwendung brachten, eine Sonderstellung ein. Und im Gegensatz zu den meisten anderen war es insbesondere Tomaševskij, der methodologisch verallgemeinernde Über-
I. Allgemeines / General
legungen hinsichtlich der Anwendung solcher Verfahren anstellte. So klassifizierte er in K im Grunde genommen heute noch K zutreffender Art und Weise die in der Analyse poetischer Texte angewandten Verfahren in zwei Grundprinzipien: „исследование на примерах и статистический метод“ [die Forschung anhand von Beispielen und die statistische Methode] (Tomaševskij 1923a, 34): Während ersterem Vorgehen zufolge eine bestimmte Erscheinung isoliert und dann an weiteren Beispielen verfolgt werde, werde bei der zweiten die Berechnung einer ganzen Reihe von Erscheinungen an mehr oder weniger umfangreichem, kompakten Material durchgeführt. Tomaševskij zufolge kann die isolierend-individualisierende Methode lediglich einen Weg für die vorbereitende Klassifikation von Erscheinungen darstellen (Tomaševskij 1923a, 34) K genau das war ja eines der Probleme, das auch Setnickij (1922, 11) angesprochen hatte, nämlich die operationale Bestimmung der Einheiten, die einer quantifizierenden Analyse unterworfen werden sollen. Die ausschließlich isolierend-individualisierende Methode aber sei K so Tomaševskij (1923a, 34) weiter K bei dem Versuch, Beziehungen zwischen den beschriebenen Erscheinungen herzustellen, zum Scheitern verurteilt, weil das nur an umfangreichem Material gelingen könne. Insofern begrüßte Tomašеvskij K bei aller Sympathie für mathematische Zugänge zu Sprache und Literatur K auch keineswegs jeglichen Versuch in dieser Richtung. So verurteilte er z. B. 1922 in einer Rezension von B. Ėjchenbaums Melodika russkogo liričeskogo sticha dessen „willkürliches Operieren mit mathematischen Relationen“ (vgl. Tomaševskij 1990, 143). Und in einer anderen Besprechung setzte Tomaševskij (1922) sich kritisch mit einem Versuch von A. A. Bobrik auseinander, in der damaligen Literaturwissenschaft verwendete Begriffe wie Funktion, Relation, Vergleich u. a. mit den entsprechenden mathematischen Termini gleichzusetzen und zu symbolisieren. Bobriks Abhandlung mit dem Titel Nemnogo matematiki v teorii slovesnosti (Bobrik 1921) kanzelte Tomaševskij schlichtweg als eine pathologische Erscheinung ab. Im Gegensatz zu den oben dargestellten Versuchen, im Bereich der Poesie insbesondere Fragen von Rhythmus und Metrum mathematisch zu bearbeiten, geht auf Bobrik (1921) ein mitunter abstrus anmutender
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
Versuch zurück, zeitgenössische literaturwissenschaftliche Überlegungen zur Erzählforschung „in die Sprache der Mathematik zu übersetzen“ (Bobrik 1921, 4). Der in Gel’singfors publizierte Text steht mit Fragen der schon im 19. Jh. diskutierten, sog. historischen Poetik im Zusammenhang, wie sie von Potebnja und vor allem auch Aleksandr N. Veselovskij (1838K1906) entwickelt worden war. Insbesondere geht es dabei um die erzähltheoretischen Konzepte Motiv und Sujet, die später dann vor allem durch Vladimir Ja. Propps Untersuchungen an russischen Zaubermärchen präzisiert wurden, die als Vorläufer der strukturalistischen Narratologie angesehen werden können. Im Kontext der genannten Arbeiten ist unter einem Motiv die einfachste narrative Einheit zu verstehen, deren Gesamtheit innerhalb eines Textes dessen Sujet verkörpert. Bobriks (1921) Abhandlung stellt nun einen Versuch dar, unter direkter Bezugnahme auf eine diesbezügliche Darstellung von Al’fred L. Bem (1918/21) diese Überlegungen aus dem Bereich der Geschichte und Theorie der Literatur in die Sprache mathematischer und logischer Symbolik umzuformulieren. Al’fred L. Bem (1881K1945), dessen Text übrigens niemand anderem als Bobrik gewidmet war, war ein Schüler von Sreznevskij und Vengerov. Er emigrierte nach der Oktoberrevolution und lebte, nach mehrjährigem Aufenthalt in Warschau (1920K22), in Prag, wo sich seine Spuren verlieren, nachdem er 1945 unmittelbar nach Einmarsch der Roten Armee vom NKWD verhaftet wurde.
Die Annahme, dass sich das Sujet (S) als Summe der in einem Text vorkommenden Motive (mk) verstehen lässt, erhält somit nach Bobrik (1921, 7) die folgende Form: kZn
SZ
∑ mk.
(1)
kZ1
Weiterhin greift Bobrik auch die Frage des von Bem diskutierten Verhältnisses zwischen dem Inhalt eines Werks und dessen Sujet (S) auf und folgt der Argumentation von Bem, der zufolge man bei einem einzelnen Werk (P1), das nicht mit anderen Werken (P2, P3, ... Pn) in Relation steht, nur von dessen Inhalt (I) sprechen könne, während die Begriffe Sujet (S) und Motiv (M) nur als Ergebnis eines Vergleichs oder einer Verallgemeinerung mit anderen Werken anzusehen seien. Bobrik, der solche Begriffe wie Vergleich, Relation, Verallgemeinerung als
41
mathematische Begriffe identifiziert bzw. mit solchen gleichsetzt, formuliert entsprechend um: Demnach verhalte sich der Inhalt (I) zum Sujet (S) wie eine einzelne Vorstellung zu einer allgemeinen Vorstellung, was sich mathematisch als P1 / P Z 1 / n
(2)
ausdrücken lasse. Die ein Sujet konstituierenden Motive lassen sich nach Bobrik weiter differenzieren; dabei geht er von der Existenz eines Hauptmotivs (iM) und mehrerer diesem Hauptmotiv zu- bzw. untergeordneter Nebenmotive verschiedener Ordnung (m1, m2, . mk) aus. Nimmt man etwa in Erzählungen wie Puškins oder Lermontovs Kavkazskij Plennik als Hauptmotiv (iM) „Liebe eines Mädchens zu einem Gefangenen“, so ergeben sich als mögliche Motive zweiter Ordnung (im1) zwei Varianten: (a) auch der Gefangene liebt das Mädchen, (b) er liebt sie nicht. Als Motive dritter Ordnung (im2) ergeben sich sodann, ausgehend von der Oberkategorie „Befreiung des Gefangenen“, die Optionen (a) es findet ein Befreiungsversuch statt, (b) es findet kein Befreiungsversuch statt. Auf der Basis einer solchen binären Erzähllogik ergibt sich somit bei einem gegebenen Hauptmotiv (iM) als Summe möglicher Motive kZn
Nm Z 1 C
∑ 2k,
(3)
kZ1
was in entwickelter Form der Summe der Glieder einer geometrischen Reihe entspricht. Im Ergebnis erhält man unter diesen Voraussetzungen somit ein „Schema von Bifurkationen des Grundmotivs“ (Bobrik 1921, 18), welches in vielerlei Hinsicht spätere Konzepte der strukturalistischen Erzählforschung vorwegnimmt (vgl. Abb. 3.3). Auf dieser Grundlage hat Bobrik (1921, 24 ff.) auch einen (konstruierten) Vergleich von Texten zweier Autoren vorgenommen. Gegeben sei das Schema A von Text A mit dem Schema iS1 Z i (M C m22 C m33 C m64) sowie Schema B von Text B mit dem Schema iS2 Z i (M C m74 C m44 C m63 ). Dann lässt sich nach Bobrik zum Vergleich zweier Texte ein Koeffizient als Quotient aus der Anzahl aller in beiden Texten gemeinsam vorkommenden und der Anzahl aller vorkommenden Motive überhaupt berechnen; im obigen Beispiel wäre das konkret
42
I. Allgemeines / General
Abb. 3.3: Narrative Bifurkationen nach Bobrik (1921, 18)
Schema A
Schema B
iM
iM
m12
m13
m14
m23
m24
m45
m22
m33
m34
m44
m43
m54
m64
m74
m84
m53
m94 m104
m12
m24
m34
m74
m23
m13
m14
m44
m63
m32
m104
m54
m53
m94
m64
m22
m34
m124 m134
m33
m14
m144 m164
Abb. 3.4: Vergleichende Motivschemata nach Bobrik (1921, 24)
KZ
iM C iM 2iM C m22 C m33 C m64 C m74 C m44 C m63 2
Z 8
Z 0,25.
Entsprechend hat Bobrik (1921, 25) auch einen Index zur Berechnung des Zusammenhangs zwischen den Schemata zweier Texte vorgeschlagen, der sich als Quotient aus der Anzahl der in beiden Schemata zusammenfallenden Motive und der Anzahl der insgesamt vorkommenden Motive berechnet, im gegebenen Fall also als LZ
18 C 18
36 Z
18 C 25
43
Z 0,8372.
Der Versuch von Bobrik mutet mitunter recht kurios an K in der Tat muss ein solcher Versuch zum Scheitern verurteilt sein, solange die zur Disposition stehenden Motive bzw. die zur Beschreibung solcher Motive geeigneten semantischen Kategorien nicht in ein logisches kohärentes und konsistentes System gebracht werden können (was auch der strukturalistischen Erzählforschung in der zweiten Hälfte des 20. Jhd.s nicht überzeugend gelang). Ungeachtet dessen ist Bobriks Intention und Art des Herangehens, eine literaturwissenschaftliche Meta-Sprache an der Exaktheit mathemati-
scher Konzepte auszurichten und zu messen, im Kontext der damaligen Zeit von großer Bedeutung, so dass die Abqualifikation von Tomaševskij (1922, 84), der Bobriks Versuch schlichtweg als pathologische Erscheinung bezeichnete, in gewissem Sinne zu relativieren ist. Doch Tomaševskij sah sich auch selbst in seinen eigenen Versuchen, mathematische Verfahren im Bereich der Literatur anzuwenden, kritischen Reaktionen ausgesetzt. Einer dieser Kritiker war z. B. Grigorij O. Vinokur (1896K1947), ein Schüler von Ušakov und Gründungsmitglied des MLK. Er bemerkte in einer Rezension zu Tomaševskijs (1923 in Berlin publizierter, 1919 zuvor im Moskauer Linguistischen Kreis vorgestellter) Untersuchung zum 5-füßigen Jambus, es handle sich dabei um „keine philologische Untersuchung“, sondern um einen Versuch, „Fragen der poetischen Sprache mit Mitteln der Mathematik und Statistik zu lösen“ (Vinokur 1924, 263; zit. nach Tomaševskij 1929, 275). Während sich also auf der einen Seite mathematisch ausgebildete (und kompetente) Wissenschaftler um die Qualität poetologischer Ergebnisse sorgten, die aufgrund mathematischer Inkompetenz in diesem Bereich zustande kamen, gab es andererseits die (auch heutzutage noch nicht minder ver-
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
breitete) Befürchtung, dass die Poetik als philologische Disziplin aufgrund der Anwendung mathematischer Methoden um ihren genuinen Gegenstandsbereich gebracht würde. Tomaševskij (1929) entgegnete Einwänden wie dem von Vinokur in einer Art, die nicht nur an Klarheit nichts zu wünschen übrig lässt, sondern auch seine methodologische Weitsicht zum Ausdruck bringt: „Man darf die Philologie nicht der Statistik gegenüberstellen, da erstere sich durch das Forschungsobjekt definiert (die Sprache), und zweitere durch die Methode, Fakten zu bestimmen [...]. Eine Zahl, eine Formel, eine Kurve K all das sind im Wesentlichen eben solche Symbole wie ein Wort K verständlich nur für diejenigen, die das entsprechende System von Symbolen verstehen. Die Angst der Philologen vor der Zahl ist größtenteils durch die falsche Vorstellung von ihrer Rolle in der wissenschaftlichen Arbeit zu erklären. Denn die Zahl ,entscheidet‘ nichts, d. h. sie interpretiert nicht, sondern dient nur als Verfahren, ein Faktum festzustellen und zu beschreiben. Man darf nur nicht glauben, dass die Zahlen in dieser Rolle nur im ersten Zehntel gesetzmäßig sind. Das, was mit Zahlen und Graphiken an Missbrauch getrieben worden ist, bringt nicht die Methode in Verruf: schuldig ist derjenige, der den Missbrauch treibt, nicht das, was er missbraucht.“ (Tomaševskij 1929, 276). Die hier angesprochene Frage des unreflektierten Einsatzes statistischer Verfahren thematisierte Tomaševskij (1923a) auch an anderer Stelle in verallgemeinerter Form: „Bei uns ist die Ansicht weit verbreitet, dass man zählen kann, was man will K in der Annahme, die Zahlen selbst würden schon zeigen, ob das Material zur Berechnung richtig ausgewählt ist. Und wenn die Berechnung irgendeine numerische Harmonie ergibt, irgendeine numerische Gesetzmäßigkeit, dann wird daraus entschieden der Schluss gezogen, dass die für die Berechnung ausgewählte Grundlage gerechtfertigt war. Aber die Zahl hat ihre eigene Gesetzmäßigkeit.“ (Tomaševskij 1923a, 35). In seiner 1917 publizierten, seinen eigenen Angaben nach in den Jahren 1909K15 entstandenen Untersuchung, beschäftigte Tomaševskij (1917) sich mit der Rhythmik des vierfüßigen Jambus in Puškins Evgenij Onegin [EO]. Bezeichnenderweise ging es ihm dabei nicht darum, die eine oder andere Sichtweise auf den Jambus zu verteidigen,
43
sondern vielmehr objektives Material zur Beurteilung des vierfüßigen Jambus zur Verfügung zu stellen und eine exakte(re) Klassifikation rhythmischer Erscheinungen zu ermöglichen. Tomaševskij unterschied K ähnlich wie das später Šengeli im Sinne einer sprachlichen und rhythmischen Norm tun sollte K zwei Faktoren der rhythmischen Gestaltung: einen statischen und einen organisierenden Faktor. Vor dem Hintergrund dieser Unterscheidung stellte Tomaševskij umfangreiche Berechnungen der lexikalischen und metrischen bzw. rhythmischen Struktur des EO an: In den von ihm ausgezählten 5320 Versen, die 17300 Wörter aufweisen, kommen seinen Angaben zufolge 2022 trochäische Wörter (Kg) vor, was einer relativen Häufigkeit von 0,117 entspricht; der Anteil jambischer Wörter (gK) betrage 0,268, amphybrachischer Wörter (gKg) betrage 0,265, und einsilbige (betonte) Wörter kommen auf einen Anteil von 0,1085. Auf dieser Basis lasse sich die erwartete Häufigkeit eines Verses wie В волненьи бурных дум своих (gKg, Kg, K, gK) als Produkt dieser Häufigkeiten berechnen: 0,265 ! 0,117 ! 0,1085 ! 0,268 Z 0,0009. Summiert man diese Erwartungswerte für alle möglichen Wortverbindungen im vierfüßigen Jambus auf, kommt man nach Tomaševskij auf eine Summe von 0,103. Bei 5230 Verszeilen kommt man somit für einen Vers der oben angeführten Art auf 0,00090 ! 5320 / 0,103 z 46 erwartete Vorkommnisse. De facto komme der obige Verstyp im EO jedoch 90 mal, also fast doppelt so häufig vor. Dass dies nicht zufällig, sondern durch (bewusste oder unbewusste) Gestaltung bedingt ist, versuchte Tomaševskij durch quantitative Vergleiche mit anderen Texten zu belegen. Bei einem Vergleich der Vorkommenshäufigkeit von Wörtern verschiedener metrischer Typen in den Oden Lomonosovs (1746K54) und dem Demon von Lermontov kommt Tomaševskij (1917) zu dem Schluss, „dass der rhythmische Reichtum der Sprache Puškins sich wenig von der Sprache Lomonosоvs und Lermontovs unterscheidet“. (Tomaševskij 1917, 104). Dabei versteht Tomaševskij (1917) unter rhythmischem Reichtum die „relative Vorkommenshäufigkeit von Wörtern mit einheitlicher rhythmischer Struktur“, und ein Wort definiert er als eine „jede selbständige Gruppe von Silben, die unter eine Betonung fallen (d. h. Proklitika und Enklitika werden dem entsprechenden
44
I. Allgemeines / General
Tab. 3.1: Relative Häufigkeiten verschiedener Versfüße
gK gKg Kg K ggK ggKg Kgg gKgg
Puškin EO
Lomonosov Oden
Lermontov Demon
Puškin Pikovaja dama
26,8 26,5 11,7 10,9 6,3 4,5 3,6 3,3
23,3 29,4 11,3 11,5 4,9 7,3 2,8 5,6
27,3 28,6 9,1 11,1 6,5 4,0 3,9 3,6
17,7 14,6 15,4 8,6 9,4 8,3 7,2 7,5
betonungstragenden Wort zugerechnet)“ (Tomaševskij 1917, 102). Ganz anders stellen sich die Verhältnisse nach Tomaševskij (1917, 104) jedoch in einem prosaischen Text dar, was er an einem Vergleich mit dem Text von Puškins Pikovaja dama belegt, der sich vor allem durch eine höhere Anzahl einsilbiger Wörter und von Wörtern, die mit einer ungeraden Anzahl unbetonter Silben beginne, unterscheide (vgl. Tab. 3.1). Der hier angesprochenen Frage nach rhythmischen Strukturen in prosaischer Sprache ist Tomaševskij an anderer Stelle gerade unter Bezugnahme auf Puškins Pikovaja dama detaillierter nachgegangen, nämlich in seiner Untersuchung Ritm prozy (Tomaševskij 1920, 254 ff.), die auf einen Anfang 1920 im MLK und Mitte 1921 am Russischen Institut für Kunstgeschichte (RIII) gehaltenen Vortrag zurückgeht. Tomaševskij, der davon überzeugt ist, dass der Prosarhythmus prinzipiell mit der statistischen Methode K sei es mit Hilfe von Zahlentabellen oder auf andere Art und Weise K untersucht werden muss (Tomaševskij 1920, 275), geht davon aus, dass die erste zu lösende Frage darin besteht, eine geeignete Untersuchungseinheit zu bestimmen, die er als „zvukovoj period“ bezeichnet (Tomaševskij 1920, 262). Als erstes untersucht Tomaševskij die Ebene des Satzes als eine solche möglicherweise geeignete Einheit, weil für ihn die Berechnung einer solchen Lautperiode, die nach der Wortzahl bestimmt würde, keine Basis sein kann: „Die Berechnung nach Quantität der Worte trägt in die Sphäre der lautlichen Erscheinungen Vorstellungen aus der semantischen Reihe hinein, d. h. es überlagern sich zwei Reihen der Wahrnehmung“ (Tomaševskij 1920, 272). Möglich hingegen sei es, dass ein Satz einer solchen Lautperiode entspreche, da es sich bei einem Satz um einen „syntak-
tisch abgeschlossenen Redeausschnitt“ (Tomaševskij 1920, 262) handle. Als konkretes Untersuchungsmaterial dienen ihm die beiden ersten Kapitel aus Puškins Pikovaja dama, Tab. 3.2 und Abb. 3.5 repräsentieren Vorkommenshäufigkeiten (fi) der entsprechenden Silbenanzahl pro Satz (i). Tab. 3.2: Satzlängen in Pikovaja Dama i
fi
i
fi
i
fi
i
fi
i
fi
3 4 5 6 7 8 9 10 11 12 13
2 3 4 8 5 12 13 10 13 10 7
14 15 16 17 18 19 20 21 22 23 24
8 7 10 7 6 8 7 6 5 7 4
25 26 27 28 29 30 31 32 33 34 35
6 6 6 3 5 3 4 2 2 1 3
36 38 39 40 41 43 44 45 47 49 50
1 1 2 2 1 1 3 5 2 1 2
51 59 67 71 78 79 82
1 1 1 1 1 2 1
Nach Tomaševskij (1920, 264) ergibt sich eine hinreichend gleichmäßige, schnell ansteigende und langsam fallende Kurve. Das Maximum von 11 Silben sei aber nicht charakteristisch, da der Mittelwert von 20 Silben zweimal so groß sei wie das Maximum. Tomaševskij hat sich in Anbetracht dieses Ergebnisses weniger an der Streuung (die sich gegebenenfalls durch Gruppenzusammenfassungen reduzieren ließe) als vielmehr an der Abweichung von der offenbar erwarteten Symmetrie der Verteilung orientiert, da sich für ihn „jegliche Beziehung, jegliche Analogie zwischen der Länge der verschiedenen Perioden verliert“. Unter Bezugnahme auf die sprachwissenschaftlichen Arbeiten zur Syntax K vor allem die in mehreren Auflagen erschienene Grammatika russkogo jazyka von Bogorodickij, Peškovskijs Russkij Sintaksis v nauč-
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
45
14 12 Häufigkeit
10 8 6 4 2 0 1
11
21
31
41
51
61
71
81
Anzahl der Silben
Abb. 3.5: Satzlängen in Pikovaja Dama
nom osveščenii (1914) und einschlägige Überlegungen von Ščerba K analysiert Tomaševskij (1920, 266 ff.) im weiteren Verlauf, inwiefern sich die Einheit des (von Ščerba als Syntagma bezeichneten) Kolons als lautliche Periode eignet. Ein Kolon ist demnach definiert als ein „gesondertes, durch abgrenzende Intonationen abgegrenztes Satzglied“ (Tomaševskij 1920, 266). Dabei sieht sich Tomaševskij (1920) zwar gehalten einzuräumen, dass das Fehlen einer strikten Definition des Kolons es unmöglich mache, das Material mit strenger Objektivität zu untersuchen und den Einfluss eines gewissen Grades an Subjektivität bedinge; er ist sich jedoch sicher, dass dieser Umstand letztendlich keinen entscheidenden Einfluss auf die Schlussfolgerungen habe. In der Tat erweist sich die Silbenlänge der Kola als wesentlich robuster, wie der Tab. 3.3 bzw. Abb. 3.6 zu entnehmen ist: fi 1 2 9 12 14 16 14 13 10 5 3 1
20
Anzahl der Kolons
i 3 4 5 6 7 8 9 10 11 12 13 14
15
10
5
0 1
2
3
4
5
6
7
8
9
10
11
12
13
14
Silben pro Kolon
Tab. 3.3 / Abb. 3.6: Silbenanzahl pro Kolon in Pikovaja dama
Die offenbare Symmetrie der Verteilung K die sich darin äußert, dass sowohl Mittelwert als auch Maximum bei acht Silben liegen K
interpretiert Tomaševskij als Anzeichen einer korrekt gewählten Einheit zur Bestimmung dessen, was er ,lautliche Periode‘ nannte. Dieser Befund decke sich im Übrigen mit Beobachtungen von Aleksandr Chr. Vostokov (1781K1864), der bereits 1817 in seinem Versuch über die Russische Versfügung den Begriff der „prosodischen Periode“ ausführlich diskutiert und den Umfang einer solchen Periode bei sieben bis acht Silben veranschlagt hatte (Vostokov 1817, 100 ff.). Den Grund für eben diesen Umfang einer Periode K die Tomaševskij mit der Periode innerhalb einer Phrasenbetonung bei Peškovskij gleichsetzte K hatte Vostokov aus physiologischer Sicht in einer „natürlichen Begrenzung“ gesehen, die seiner Meinung nach darin bestand, „dass man bei einer erhöhten oder betonten Silbe nicht mehr erniedrigte oder unbetonte Silben aussprechen kann als die menschliche Brust aushält, die keine Atmung ausübt“ (Vostokov 1817, 100). Tomaševskij (1920) stellt in diesem Zusammenhang klar, dass die von ihm getroffene Feststellung der Konstanz der rhythmischen Periode „nur das Faktum des normalen Umfangs ist und keinesfalls ein obligatorischer Umfang, d. h. Faktum einer normativen rhythmischen Verstärkung“ (Tomaševskij 1920, 273). Auch oder gerade deswegen stellt sich für ihn die Frage, ob und inwiefern sich ein (kausaler) Zusammenhang ergibt zwischen dem im Durchschnitt achtsilbigen Prosarhythmus und dem zur Entstehungszeit der Pikovaja dama gebräuchlichsten Metrum, dem vierfüßigen Jambus (mit eben dieser Silbenanzahl). Obwohl im Prinzip eine solche Beeinflussung in beide Richtun-
46
I. Allgemeines / General
gen denkbar wäre, spricht Tomaševskij (1920) sich dafür aus, „die Konstanz der syllabischen Länge des rhythmischen Prosakolons außerhalb jeglicher prinzipiellen Verbindung mit der Struktur der dichterischen Rede anzusehen“ (Tomaševskij 1920, 274): Während sich im Vers der metrische Umfang als „Merkmal einer konstruktiven ästhetischen Norm“ erweise, seien die „Normen des Prosarhythmus kein konstruktives Gesetz“ (Tomaševskij 1920, 274). In weiteren Schritten hat Tomaševskij an den ersten drei Kapiteln der Pikovaja dama die Verteilung der unbetonten Silben in bestimmten Positionen genauer untersucht und mit dem Gesamtvorkommen im Text verglichen. Als erstes hat Tomaševskij den Auftakt (začin) untersucht, und zwar sowohl im Hinblick auf den Satzanfang als auch im Hinblick auf das Kolon innerhalb eines Satzes. Konkret stellt sich also die Frage, wie viele Silben der ersten betonten Silbe an der entsprechenden Position vorausgehen. Wie die Daten in Tab. 3.4 deutlich zeigen (vgl. Abb. 3.7 [1]), ist die Satzanfangsposition im Vergleich zum Gesamtvorkommen durch eine klare Dominanz trochäischer Auftakte und eine ebenso deutliche Abnahme jambischer Auftakte charakterisiert; im Durchschnitt sind es 0,81 Silben, die der ersten betonten Silbe vorangehen. Eine andere Tendenz ergibt sich im zweiten Fall, beim Kolon in der Satzmitte: hier nimmt insbesondere die Zahl kurzer Auftakte ab und die Zahl mehrsilbiger unbetonter Auftakte zu K im Durchschnitt gehen an dieser Position 1,35 Silben der betonten Silbe voraus. Tab. 3.4: Positionsabhängige Verteilung von Betonungen gesamt (positionsunabhängig) trochäisch jambisch anapästisch paiononisch hyperpaionisch
0 32,7 1 41,3 2 20,8 3 4,5 4 0,7 5
Satzanfang
Anfang mittl. Kolon
45,8 29,8 22,6 1,3 0,5
19,9 39 29,9 8,2 2,8 0,2
Ein weiterführender Vergleich dieser Befunde mit der Verspraxis Puškins zeigt nach Tomaševskij (1920, 292) die K für ihn nicht unbedingt zu erwartende K Tendenz, dass die beobachteten Konstruktionen sich in
Vers und Prosa nicht wesentlich unterscheiden. Anders hingegen ist das bei einer Untersuchung der Satz- bzw. Kolaendungen. Denn bei einer entsprechenden Untersuchung der Endungen (koncovka) der rhythmischen Perioden am Satzende stellt sich eine klare „Tendenz zur Verlängerung“ (Tomaševskij 1920, 295) heraus: während an dieser Position der Anteil weiblicher Endungen im Vergleich mit dem gesamten Material abnimmt, steigt der Anteil weiblicher und vor allem daktylischer Endungen K hier gibt es keinen wesentlichen Unterschied im Vergleich zur Endung der satzinternen Kola. Im Gegensatz zur Struktur der Auftakte sind somit die Endungen der Kola sowohl am Satzende als auch satzintern eher einförmig. Allerdings gibt es nach Tomaševskij (1920, 296) hierbei keine Analogie zur Struktur im Vers, insofern sich die im Vers ausdrückende Tendenz zur männlichen Beendigung einer Periode nicht in der Prosa spiegelt K für Tomaševskij (1920, 296) ein zentraler Hinweis darauf, „wie gefährlich es ist, im Allgemeinen eine Analogie zwischen Vers und Prosa anzuführen, ohne vorher das Verhältnis beider zueinander zu prüfen“ (Tomaševskij 1920, 296). Abb. 3.7 stellt die Befunde in anschaulicher Form dar: in der linken Graphik (Abb. 3.7 [1]) die Relationen der Auftakte, in der rechten die Kadenzen (Abb. 3.7 [2]). Jeweils punktiert sind die positionsunabhängigen Häufigkeiten, mit durchgezogener Linie die auf den Satz, mit gestrichelter Linie die auf die Kola bezogenen Relationen. In dem selben Text ist Tomaševskij (1920, 302 ff.) der Frage der Intervalle, d. h. der Anzahl unbetonter Silben zwischen zwei betonten Silben, nachgegangen. Dabei ist er von den beobachteten Häufigkeiten ausgegangen, mit denen im untersuchten Text unbetonte Silben unmittelbar aufeinander Silben aufeinander folgen; nach Tomaševskij lassen sich (1920, 302) „nach dem Prinzip der Wahrscheinlichkeitstheorie die Vorkommenshäufigkeit der verschiedenen Intervalle berechnen“. Tomaševskij führt leider nicht an, wie er zu diesen theoretischen Werten gelangt ist; es ist jedoch am naheliegendsten, dass er die Binomialwahrscheinlichkeiten berechnet hat, die sich nach Px Z
()
n x nKx p q x Z 0, 1, ..., n x
(4)
berechnen lassen, wobei sich p recht gut aus den beobachteten Daten als pˆ Z x¯ / n schät-
47
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft 1
50
2
40
30
20
10
0
1
2
3
4
5
0
1
2
3
4
Abb. 3.7: Auftakte und Kadenzen nach Tomaševskij (1920, 289)
zen lässt und qˆ Z 1 K pˆ ist. Die entsprechenden Binomialwahrscheinlichkeiten sind in Prozenten den von Tomaševskij (1920, 302) angeführten Werten in der Tab. 3.5 hinzugefügt. Die Werte der von Tomaševskij angegebenen Wahrscheinlichkeiten lassen sich, wie eine Re-Analyse seiner Daten zeigt, im Übrigen nur dann reproduzieren, wenn man bei der Berechnung der Binomialwahrscheinlichkeiten von n Z 9 ausgeht (womit sich aufgrund von x¯ Z 1,87 ein Wert von p Z 0,0208 ergibt); eine Anpassung der Binomialverteilung an die Daten mit n Z 6 (was ja dem tatsächlichen Klassenumfang entspricht) führt im Übrigen zu noch besseren Ergebnissen und bestätigt die Binomialverteilung als ein ausgezeichnetes Modell (C Z χ 2 / N Z 0,0005). Tab. 3.5 enthält ebenfalls die Werte für die Länge derjenigen Intervalle, die unmittelbar auf ein einsilbiges Intervall folgen, welche sich vor allem durch einen deutlich erhöhten Anteil einsilbiger Intervalle auszeichnen (was im Anschluss an mehrsilbige Intervalle Tomaševskij zufolge nicht der Fall ist). Abb. 3.8 veranschaulicht die Ergebnisse in graphischer Form: die punktierte Linie ist die relative Häufigkeit unabhängig von der
Position, die dünne Linie stellt die theoretischen Häufigkeiten dar, die dicke Linie symbolisiert die relativen Häufigkeiten nach einem einsilbigen Intervall. 50
40
30
20
10
0
1
2
3
4
5
0
Abb. 3.8: Relative Häufigkeiten der Intervalle nach Tomaševskij (1920, 302)
Tomaševskij (1920, 305) weist abschließend einschränkend darauf hin, dass die von ihm beobachteten Erscheinungen noch keine Grundlage für weitreichende Verallgemeinerungen darstellen K lediglich (weitere) vergleichende Analysen könnten zeigen, was für das untersuchte Material spezifisch sei und was fehlerlos verallgemeinert werden könne.
Tab. 3.5: Beobachtete und theoretische Intervalle zwischen betonten Silben Länge des Intervalls (Anzahl unbetonter Silben zwischen betonten Silben) beobachtet theoretisch (nach Tomaševskij) binomial (Re-Analyse) n. 1-silbigem Intervall
0
1
2
3
4
5
6
10,3 12,2 10,6 9,4
29,8 28,7 28,8 37,5
32,1 30,6 32,7 25,1
19,7 18,8 19,8 20,7
6,8 7,4 6,7 5,9
0,8 1,9 1,2 1,3
0,5 0,3 0,1 0,3
48 Einen Versuch dieser Verallgemeinerung hat Tomaševskij selbst in seiner oben bereits erwähnten Untersuchung zum fünffüßigen Jambus bei Puškin unternommen, die auf einen Vortrag im MLK (Juni 1919) zurückgeht; diese Untersuchung wurde 1923 unter dem Titel Očerki po poėtike Puškina zusammen mit weiteren Analysen von P. G. Bogatyrev und V. B. Šklovskij in Berlin veröffentlicht und dann im Buch O stiche (Tomaševskij 1929, 138 ff.) wiederabgedruckt. Tomaševskij skizziert eingangs kurz die Entstehungsgeschichte der Fragestellung nach dem Verhältnis von betonten und unbetonten Silben in Poesie und Prosa: Erstmals aufgeworfen wurde sie in der Zeitschrift Sovremennik 1855 von dem bekannten Literaturkritiker und Schriftsteller Nikolaj G. Černyševskij (1828K89). Aus Anlass der Besprechung einer Puškin-Ausgabe von Annenkov hinterfragte Černyševskij (1906a) die Dominanz der zweisilbigen jambischen und trochäischen Versfüße dahingehend, ob nicht der Jambus „das für die russische Sprache natürlichste Metrum“ (Černyševskij 1906a, 286) sei (vgl. Grzybek 2004a). Als erste Vermutung, dass dies nicht der Fall sei, führte er an, dass im Russischen (im Vergleich zum Deutschen) die Wörter eher mehrsilbig seien, und dass Präpositionen und Pronomina in der Regel keine, alle anderen Wörter nur jeweils eine Betonung tragen. Diese Beobachtung versuchte Černyševskij (1906a, 287) an ausgewählten Stichproben zu überprüfen. So zählte er in einem Textausschnitt von A. F. Pisemskij (1821K 1881) 66 betonte von insgesamt 193 Silben, in zwei anderen Textausschnitten waren 25 von 75 bzw. 27 von 83 Silben unbetont. In allen drei Fällen (sowie in den drei aufsummierten Stichproben) lag somit die Relation betonter und unbetonter Silben in „erstaunlicher Nähe“ zueinander bei 1:3, was Černyševskij (1906a) veranlasste, „den unumgänglichen Schluss zu ziehen, dass Jambus und Trochäus, die bei 30 Silben 15 Betonungen verlangen, in der russischen Sprache bei weitem nicht so natürlich sind wie Daktylus, Amphibrachys, Anapäst, die bei 30 Silben 10 Betonungen verlangen.“ (Černyševskij 1906a, 287) In einer anderen Besprechung aus dem selben Jahr wünschte Černyševskij (1906b, 359) sich, dass die mathematischen Wissenschaften mit dem von ihnen erreichten Stand in vielerlei Hinsicht als Beispiel dafür dienen sollten, wohin auch die übrigen Wissenschaften streben sollten. Er bezog das
I. Allgemeines / General zum einen auf die klare Strukturierung des Fachs und die damit verbundene Ausbildung auf verschiedenen Niveaus, lobte aber auch die Klarheit der Begriffsbildung, die er in einem konstruierten Beispiel veranschaulichte, indem er für die Kategorie des Dativs die folgende fiktive Darstellungsform notierte:
[(a √b3 C c4 K d 2 / e3) / (a C b2)]2 5
In seinen 1877/78 in der Zeitschrift Russkij Vestnik veröffentlichten, später wiederholt in Buchform erschienenen Ausführungen O drame setzte sich Dmitrij V. Averkiev (1836K1905) harsch mit den Überlegungen von Černyševskij auseinander. Averkiev war ein bekannter Dramaturg, der 1859 die physikalisch-mathematische Fakultät der Universität Petersburg absolviert hatte; er stand seit jener Zeit in engem Kontakt mit zwei zentralen Figuren des literarischen Lebens, Apollon A. Grigor’ev (1822K64) und Nikolaj N. Strachov (1828K96), der übrigens ebenfalls in Sankt Petersburg Mathematik studiert und zunächst in Odessa, später in Sankt Petersburg Mathematik unterrichtet hatte.
Averkiev wies darauf hin, dass im vier- bzw. fünffüßigen Jambus oder Trochäus vier bzw. fünf realisierte Betonungen eine Seltenheit seien; vielmehr kämen auf 8K9 Silben in der Regel zwei oder drei, auf 10K11 Silben drei oder vier, auf 12K13 Silben vier oder fünf realisierte Betonungen K d. h. in etwa so viele, wie in Černyševskijs Prosa-Studien angegeben. Ungeachtet aller Kritik, die sich in Anbetracht der Überlegungen von Černyševskij und Averkiev aufdrängt (vgl. Tomaševskij 1919b, 162 f.), war damit bereits Anfang der zweiten Hälfte des 19. Jh.s darauf hingewiesen worden, die Metrik der Verssprache nicht als isoliertes Problem, sondern im Lichte der praktischen Prosasprache zu sehen. Genau vor diesem Hintergrund lokalisiert Tomaševskij seine Untersuchungen. Bei einem einleitenden Vergleich der Vorkommenshäufigkeit unbetonter Silben in jambischen Versen verschiedener Länge kommt er dabei auf die in Tab. 3.6 angeführten Prozentzahlen. Die Darstellung in Abb. 3.9 macht für Tomaševskij deutlich, „dass man eine gerade Linie erhält, die von einer Proportionalität der Zunahme des Verses und der Anzahl unbetonter Silben zeugt“ (Tomaševskij 1919b, 167). Fast noch wichtiger aber ist die in diesem Zusammenhang von ihm gemachte Be-
49
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft Tab. 3.6: Verslänge und Anzahl unbetonter Silben nach Tomaševskij (1919b, 172) Anzahl gerader Silben pro Vers Prozentuale Häufigkeit unbetonter Silben
1
2
3
(beobachtet) (theoretisch)
4
5
6
Abb. 3.9: Zusammenhang von Verslänge und Anzahl unbetonter Silben nach Tomaševskij (1919b, 172)
obachtung, „dass die Gesamtmenge der unbetonten geraden Silben nicht zur Gesamtzahl der geraden Silben eines Verses (der „Anzahl der Takte“) proportional ist, sondern nur zu der um 1 verminderten Zahl“ (Tomaševskij 1919b, 167). Dies drückt sich auch in der Formel für die theoretisch berechneten Werte aus, die auf der Gleichung y Z 0,28 $ (x K 1)
(5)
basieren, was in der Tat einen nahezu perfekten linearen Zusammenhang ergibt. Dies sei die unmittelbare empirische Widerlegung der Annahme von Averkiev, dass die nicht realisierte Betonung gerader Silben die Verssprache in die praktische Sprache überführe: Träfe diese Annahme nämlich zu, dann müsste eine exakte Proportionalität zwischen Nicht-Realisierung der Betonung und der vollständigen syllabischen Verslänge vorliegen. De facto aber liege eine solche Proportionalität zwischen Anzahl der Betonungen und Silbenzahl nur bis zur konstanten Betonung des Reims vor. Insofern komme gerade den letzten Silben eines Verses, da sie eine konstante Betonung aufweisen, besondere Bedeutung zu. Daraus wiederum folgt für Tomaševskj (1919b), dass man das „Gesetz der Anzahl von Betonun-
1
2
3
4
5
6
0 0
24 28
63 56
84 84
107 112
142 140
gen“ kenne, sobald man das „Gesetz der Verteilung der unbetonten Silben“ (Tomaševskj 1919b, 169), kenne. In der Tat lässt sich K da die Wahrscheinlichkeit dafür, dass eine der inneren geraden Silben betont ist, 0,72 beträgt K die Anzahl der zu erwartenden Betonungen (abgesehen von der letzten) in einem Vers berechnen, so etwa für einen 5-füßigen Jambus als 0,72 ! 4 Z 2,88. Allerdings ist die Verteilung der Betonungen bei diesen inneren geraden Silben nicht gleichmäßig: Abgesehen vom zweifüßigen Jambus K der nur eine freie Silbe aufweist, so dass die durchschnittlichen 0,72 Betonungen nur auf die zweite Silbe fallen können K weist vor allem die letzte gerade Silbe vor dem Reim eine Konstanz auf, die darin besteht, dass diese Silbe unabhängig von der Verslänge in nur ca. 40 % der Fälle betont ist (vgl. Tab. 3.7). Eine ähnliche Konstanz weist die erste gerade, also die zweite Silbe eines Verses auf K eine Ausnahme stellt hier der dreifüßige Jambus dar, von dessen 144 (für die inneren geraden Silben) zu erwartenden Betonungen 40 auf der vierten Silbe liegen, so dass alle übrigen auf die zweite fallen (vgl. Tab. 3.8). Tab. 3.8 enthält die entsprechenden Daten, wobei Tomaševskij (1929, 174) die Prozentzahlen für den 6-füßigen Jambus von Šengeli übernommen hat, was gegebenenfalls aufgrund unterschiedlicher Zählweisen die Abweichungen erklärt. Mit Ausnahme des dreifüßigen Jambus weist also die zweite Silbe im Durchschnitt in 85 % der Fälle Betonungen auf, so dass an dieser Stelle statt der zu erwartenden 28 % nur 15 % unbetonter Silben zu erwarten sind. Nach einer Reihe detaillierter Einzelberechnungen kommt Tomaševskij so zur theoretischen Verteilung der Betonungen in verschiedenen jambischen Verstypen. Im
Tab. 3.7: Zusammenhang zwischen Verslänge und Betonungsanzahl Anzahl der Takte (Verslänge)
3
4
5
6
x¯
Anzahl der Betonungen der letzten geraden Silben vor dem Reim (in %)
39
43
40
38
40
50
I. Allgemeines / General
Tab. 3.8: Zusammenhang zwischen Verslänge und Betonungsanzahl Anzahl der Takte (Verslänge)
4
5
6
x¯
Anzahl der Betonungen der letzten geraden Silben vor dem Reim (in %)
84
84
90
85
4-füßigen Jambus z. B. sollten bei 100 Versen im Durchschnitt 216 Betonungen (400 K 100 K 56 Z 216) vorkommen; zu erwarten wäre, dass 85 Betonungen auf der zweiten und 40 auf der sechsten Silbe liegen, so dass für die vierte Silbe 91 Betonungen übrig bleiben; nach Tomaševskij (1919b, 177) liegen die im Evgenij Onegin zu beobachten100
1
2
3
4
3
4
5
4
6
90
80
80
80
70
70
70
60
60
60
50
50
50
40
40
40
30
30
30
20
20
20
10
10
10
2
3
4
7
8
8
5
6
2
7
3
4
5
6
100
9
10
8
9 100 90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
10 2
11
3
4
5
6
7
8
100
9
10 11
12 13 100
7
90
10
7
5
90
6
2
100
3
90
5
6
100
2
90
4
2
den Häufigkeiten bei 84, 43 und 90. Da die Ergebnisse auch für die anderen aufgezeigten Typen gleich gut sind, ist Tomaševskij (1919b) überzeugt, „dass das gefundene Zahlengesetz von der Verteilung der Betonungen im Jambus richtig ist“ (Tomaševskij 1919b, 177).
90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
10 2
3
4
5
6
7
8
9
10
11
Abb. 3.10: Beobachtete und theoretische Häufigkeiten verschiedener jambischer Typen nach Tomaševskij (1919b, 179)
51
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft Tab. 3.9: Relative Frequenz von Wortlängen Silben pro Wort
Prosa
Jambus 2-füßig
3-füßig
4-füßig
5-füßig m. Zäsur
o. Zäsur
1 2 3 4 5 6 7
8,55 33,09 31,25 18,71 6,30 1,81 0,27
17,81 49,31 20,54 8,90 3,42
11,31 32,41 38,95 15,17 2,15
10,84 38,44 36,40 10,44 2,88 0,94 0,07
15,72 34,63 29,50 18,37 1,74 0,01 0,01
14,49 36,76 31,91 13,47 3,13 0,21 0,01
x¯
2,88
2,31
2,64
2,59
2,56
2,55
Abb. 3.10 zeigt die beobachteten und theoretischen Häufigkeiten für die verschiedenen jambischen Typen: (1) 2-füßig, (2) 3füßig, (3) 4-füßig, (4) 5-füßig mit Zäsur, (5) 6-füßig, (6) und (7) 5-füßig ohne Zäsur (m. unterschiedlichen Wortgrenzen); die beobachteten Betonungen sind mit durchgezogener, die theoretischen mit punktierter Linie dargestellt. Abb. 3.11 stellt zusätzlich die Wortgrenzen für die einzelnen Verstypen dar, deren 60 50 x x x x x x x x x x x x xxxxx-x -xx-
x
x
x
-
x
-
x
x
x
-
x
x
x
x
-
x
x
x
x
x
-
-
x
x
-x -x -x x x x x -x x x -x x x- x x -xx x- x xx-x xxx -xxx- x x x - xx-x xx x -x x x x -x x-x- x x x x x x x x x x x - x - x - x - x - x - x -x
x
x
Prosa 0 1
-
x
x
x
x
x
10
-
x
x xx x x x x x xx x-
-
x
x
x
20
-
x
x
x
x x -x xx x
x
30
x
-x xx - x x x -
x
40
2
3
2
3
4
5 m.
4
5 o.
5
7
6
Abb. 3.11: Häufigkeiten der Wortgrenzen in verschiedenen Verstypen nach Tomaševskij (1919b, 197 ff.)
Verteilungen im Vers Tomaševskij (1919b, 197 ff.) im Detail untersucht. Die Ergebnisse einer akribischen Darstellung der Vorkommenshäufigkeiten von Betonungsstellen in Wörtern K differenziert nach der Wortlänge einerseits, nach Texttyp andererseits (in der Prosa und in fünf verschiedenen jambischen Verstypen) K hat Tomaševskij (1919b, 197 ff.) in drei resümierenden Tabellen zusammengefasst. Tab. 3.9 enthält die relativen Häufigkeiten aller Wortlängenvorkommnisse, getrennt nach Text- bzw. Verstyp. Deutlich zu sehen ist zum einen, wie sich die mittlere Wortlänge, zum anderen das Verteilungsmodell in Abhängigkeit vom Texttyp ändert K besonders auffällig im Vergleich zur Prosa ist der hohe Anteil 2silbiger und der niedrige Anteil 3-silbiger Wörter beim 2-füßigen Jambus, sowie der hohe Anteil 3-silbiger Wörter beim 3-füßigen Jambus. Tab. 3.10 zeigt die Häufigkeit der Silbenanzahl, mit der unbetonte Silben der Betonung eines Wortes vorausgehen. Hier ist im Vergleich zur Prosa zum einen der Anstieg
Tab. 3.10: Relative Häufigkeit der Silbenanzahl vor der 1. Betonung unbetonte Silben vor Wortbetonungen
Prosa
0 1 2 3 4 5 6 x¯
Jambus 2-füßig
3-füßig
4-füßig
5-füßig m. Zäsur
o. Zäsur
32,67 41,27 20,82 4,54 0,68 0,01
26,71 60,27 3,42 9,58
20,72 63,07 13,40 2,80
26,29 56,83 10,99 5,88 0,01 0,01
24,67 61,91 8,24 5,11 0,01 0,01
30,01 54,31 9,73 5,83 0,12 0,01
0,99
0,96
0,98
0,97
0,94
0,92
52
I. Allgemeines / General
Tab. 3.11: Relative Häufigkeit der Silbenanzahl nach der Wortbetonung unbetonte Silben nach Wortbetonungen
Prosa
Jambus 2-füßig
3-füßig
4-füßig
5-füßig m. Zäsur
o. Zäsur
0 1 2 3 4
37,45 40,61 18,38 3,28 0,28
65,06 34,94
42,87 46,68 7,85 0,59
46,36 45,14 8,00 0,51
50,93 36,58 12,05 0,42
47,56 42,73 8,93 0,69
x¯
0,88
0,35
0,64
0,63
0,62
0,63
von Wortformen, die mit einer ungeraden Zahl unbetonter Silben beginnen, auffällig, zum anderen die Tatsache, dass die mittlere Anzahl unbetonter Silben vor einer Wortbetonung insgesamt relativ konstant ist. Anders ist das im Fall der Häufigkeit der Silbenanzahl, mit der unbetonte Silben der Betonung eines Wortes folgen (vgl. Tab. 3.11). Hier sind die deutlichsten Veränderungen im Vergleich zur Prosa zu beobachten, was sich insbesondere im extremen Abfall der Mittelwerte äußert. Tomaševskij (1919b) sieht deshalb aufgrund der Beobachtung, „dass die Zahlen der Wortanfänge und -endungen größeren Abweichungen unterliegen als die mittleren Wortlängen“, die Schlussfolgerung bestätigt: „Für den Vers ist nicht so sehr die Anzahl der Silben im Wort wichtig als die Position der Betonung.“ (Tomaševskij 1919b, 200). Damit stellt sich als Nächstes die Frage, inwiefern ein Vers als eine in sich geschlossene Einheit anzusehen ist oder ob es zwischen den einzelnen Versen Beziehungen in Form von bestimmten Konfigurationen gibt. Solche Figuren hatte ja A. Belyj in den Vordergrund seines Interesses gestellt K Tomaševskij (1919b, 182 ff.) geht es nun darum, dieses Problem wahrscheinlichkeitstheoretisch zu betrachten. So stellt er als erstes die Frage nach der Wahrscheinlichkeit des Vorkommens eines bestimmten Typs von Betonungsverteilung innerhalb eines Verses in Isolation oder in Gruppen von n identischen Typen in unmittelbarer Aufeinanderfolge. Zur Berechnung geht er davon aus, dass ein solcher Verstyp die Vorkommenswahrscheinlichkeit α habe, so dass β die Summe der Wahrscheinlichkeiten aller anderen Typen sei, womit α C β Z 1. Die Wahrscheinlichkeit pn, dass ein Verstyp in einer Gruppe von n identischen Verstypen in unmittelba-
rer Aufeinanderfolge vorkommt, berechnet sich dann als: pn Z α n $ β 2
(7)
Nimmt man als Beispiel aus Puškins Boris Godunov mit seinen 1579 im fünffüßigen Jambus geschriebenen Verszeilen den Verstyp, in dem auf der 4. und 8. Silbe die Betonung nicht realisiert ist, so beläuft sich deren Frequenz auf 301, was einem Prozentsatz von 19,1 % entspricht. Die Wahrscheinlichkeit, dass dieser Verstyp in Isolation vorkommt, beträgt somit p1 Z 0,191 ! 0,812, was nach Multiplikation mit N Z 1579 insgesamt 197 Vorkommnisse erwarten ließe K de facto sind es 182; für zwei bzw. drei direkt aufeinander folgende Verstypen sind die theoretischen und beobachteten Werte 38 und 43 bzw. 7 und 8. Auf ähnliche Weise berechnet Tomaševskij die Vorkommenswahrscheinlichkeit von Figuren à la Belyj. So berechnet er die theoretische Vorkommenshäufigkeit eines Dachs im Boris Godunov K einer Kombination also, bei der im ersten Vers nur die 6. und im zweiten Vers die 4. und 8. Silbe unbetont sind K als 10, in der Realität sind es 9; die Häufigkeit eines Kreuzes berechnet Tomaševskij mit 2, was genau der Beobachtung entspricht, usw. Insgesamt sind die Ergebnisse für Tomaševskij (1919b, 187) dermaßen überzeugend, dass er die Notwendigkeit einer weiteren Behandlung der Frage für erledigt erklärt K und zwar aufgrund von objektiven Fakten, und nicht von willkürlichen Erklärungen. Belys Figuren sind für Tomaševskij (1919b) das mechanische Resultat einer zufälligen Verbindung unterschiedlicher Verstypen, deren „scharfsichtige Erläuterungen“ seines Erachtens „nicht mit den objektiven Vorzügen der Methode, sondern ausschließlich mit den herausragenden intuitiven Fähigkeiten
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
des Autors zu erklären sind“ (Tomaševskij 1919b, 188). Der Ansatz Tomaševskijs, die Auslegungen von Belyj auf wahrscheinlichkeitstheoretischer Ebene zu behandeln, kann historisch gesehen gar nicht hoch genug eingeschätzt werden. Das schützt Tomaševskij freilich nicht vor Kritik, die es im Hinblick auf die von ihm angestellten Berechnungen vorzubringen gilt: Zum ersten beträgt die Summe aller Wahrscheinlichkeiten seiner Formel nicht 1, was die Formel de facto für das von Tomaševskij angestrebte Ziel unbrauchbar macht; wenn man seine Formel auf an$b korrigiert, wären zwar die Wahrscheinlichkeiten korrigiert, aber jeweils nur für einen einzigen Typ von Vorkommnissen gleichzeitig.
Tomaševskij stellt weitere Berechnungen an, auf die hier nicht im Detail eingegangen werden kann. So berechnet er etwa im Hinblick auf den Reim zum einen die Anzahl der in einer sog. Reim-Kette verbundenen Reime, zum anderen die Größe und Häufigkeit der Intervalle zwischen den Gliedern eines Reims (Tomaševskij 1919b, 211 ff.). Auch stellt er Vergleiche von Puškin-Texten mit Texten anderer Autoren (in anderen Sprachen) an, um die Frage der Spezifik von Autor, Sprache und Metrum zu klären (Tomaševskij 1919b, 220); er vergleicht die Dichtung Puškins verschiedener zeitlicher Perioden miteinander (Tomaševskij 1919b, 231 ff.) und setzt die beschriebenen Verfahren zur Bestimmung strittiger Autorschaft ein (Tomaševskij 1919b, 249 f.). Damit lässt sich zusammenfassend die Schlussfolgerung ziehen, dass es Tomaševskij nicht nur gelungen ist, erstmals wahrscheinlichkeitstheoretische Überlegungen in die Versanalyse einzuführen, sondern die Grundlagen für quantitative Verfahren in Sprach- und Textwissenschaft schlechthin zu legen. Bezeichnend ist dabei, dass die disziplinären Grenzen zwischen philologischen und mathematischen Ansätzen dabei ebenso verschwimmen wie jene zwischen Sprachund Literaturwissenschaft. Nicht zufällig bezieht er sich in seinen Versuntersuchungen immer wieder auf die zeitgenössischen linguistischen Arbeiten nicht nur von Baudouin-Schülern wie Bogorodickij oder Ščerba, sondern auch auf die Arbeiten des aus der Moskauer Fortunatov-Tradition stammenden Peškovskij. Mit dem Verweis auf dessen Arbeiten schließt sich insofern zum einen der Kreis zwischen quantitativen Ansätzen in der Sprach- und Literaturwissenschaft; zum an-
53
deren zeigt sich deutlich, wie die von Baudouin de Courtenay und Fortunatov geschaffenen Grundlagen der Kazaner und der Moskauer Schule nunmehr ihre Früchte trugen. Tomaševskij, der selbst ja BaudouinSchüler war, ist nur eines von vielen Beispielen dafür. Die erste breite sprachstatistische Darstellung erschien Ende der 20er Jahre; es handelt sich um den Versuch der Anwendung der statistischen Methode auf die Sprachwissenschaft (Čistjakov/Kramarenko 1929) von V. F. Čistjakov und B. K. Kramarenko, der 1929 in 350 Exemplaren in Krasnodar erschien. Das Buch stellt erstmals in der Geschichte der Quantitativen Linguistik K nicht nur in Russland K ein breites Spektrum des sprachstatistischen Feldes dar. Dies wurde auch zur damaligen Zeit so gesehen: so wies etwa Kopeckij (1931, 169) in seiner Rezension darauf hin, dass sich durchaus auch schon zuvor Forscher wie (die im Übrigen auch im Anhang des Buches von Čistjakov/Kramarenko genannten) Bogorodickij, Peškovskij, u. a. mit sprachstatistischen Fragen beschäftigt hätten, dass aber niemand zuvor in einem derartigen Umfang statistische Methoden auf die Sprache angewendet habe. Ziel dieses Buches war es, wie im Vorwort dargelegt wird (Kopeckij 1931, 4): (1) die prinzipielle Anwendungsmöglichkeit der statistischen Methode auf sprachwissenschaftliche Fragen darzulegen; (2) eine Reihe von linguistischen Problemen aufzuweisen, deren Lösung entsprechender Verfahren bedarf; (3) die Anwendung der statistischen Methode an konkretem Material zu demonstrieren. In einleitender Auseinandersetzung mit dem (junggrammatischen) Gesetzesbegriff der Sprachwissenschaft, und unter Bezugnahme auf diesbezügliche kritische Aussagen, wie sie etwa Aleksandr I. Tomson (1860K1935), ein Schüler Fortunatovs, in seinem Werk Obščee jazykoznanie (Tomson 1910) oder Ferdinand de Saussure getroffen hatten, sprechen die Autoren von „ideographischen Gesetzen“, zu deren Beschreibung die Anwendung statistischer Verfahren nahe liege. Auf Saussures Cours de linguistique générale, der erst 1933 erstmals in russischer Übersetzung von A. M. Suchotin erschien, hatte in Russland in schriftlicher Form erstmals Peterson in den 20er
54
I. Allgemeines / General
Abb. 3.12: Differenzierende Häufigkeitsverteilung der Wortlängen nach Čistjakov/Kramarenko (1929) Jahren aufmerksam gemacht (vgl. Grzybek 1989, 21 ff.; 1999, 1290 ff.).
Dies schließe nicht die Existenz natur-historischer Gesetze auch im Bereich der Sprache aus; allerdings dürfe man die Rolle der Statistik im Bereich der Sprachwissenschaft nicht überschätzen, da man mit ihr nur statistische Gesetzmäßigkeiten aufzeigen könne K zu deren Erklärung seien hingegen spezifische Methoden der Linguistik notwendig (Kopeckij 1931, 7). Im Anschluss an die einleitenden theoretischen Überlegungen werden zunächst „Formeln des Lautbestands“ (Kopeckij 1931, 9 ff.) analysiert, in denen es in erster Linie um statistische Analysen des Bestands der verschiedenen Laute und Lauttypen, deren Häufigkeiten und Kombinationen geht. Dabei ergeben sich jedoch durchaus auch über diesen engeren Bereich hinausgehende relevante Ergebnisse, die von den Autoren allerdings nicht weiter verfolgt werden. So analysieren sie z. B. alle Wörter aus dem Wörterbuch von V. I. Dal’ mit der orthographischen Endung -чик, bzw. -счик und -зчик (was in phonetischer Hinsicht den Endungen -чьк bzw. -щьк entspricht) im Hinblick auf die den Akzent tragenden Vokale. Es handelt sich dabei um insgesamt 694 Wörter, von denen die Autoren jeweils die Laute pro Wort zählen, und dies getrennt nach den einzelnen betonten Vokalen und insgesamt. Damit ergibt sich gleichzeitig auch eine Häufigkeitsverteilung der Wortlängen, die in Abb. 3.12 dargestellt ist. Unter Hinweis darauf, dass die Kurven unabhängig vom jeweils betonten Vokal ei-
nen überaus ähnlichen Verlauf aufweisen, der aufgrund der linksgipfligen Verschiebung eine deutliche Abweichung von einer Normalverteilung aufweist, haben Čistjakov/ Kramarenko (1929, 43) zum einen Kenngrößen wie Schiefe und Kurtosis angegeben; darüber hinaus haben sie auch versucht, den Kurvenverlauf mit der folgenden Formel zu modellieren, die sie als Typ III des PearsonSystems bezeichnen. Demnach würde die Formel wie folgt aussehen: y Z (1 C x / b)c $ eKγx
(8)
Allerdings lassen sich bei einer entsprechenden Re-Analyse weder mit dieser Formel noch mit der von Čistjakov/Kramarenko (1929, 43) dargestellten einigermaßen befriedigende Ergebnisse erzielen. Lediglich die Ergänzung um eine weitere (also vierte) Variable führt mit der sich dann ergebenden Formel y Z a $ (1 C x / b)c $ eKγx
(9)
2
zu einem guten Ergebnis (R Z 0,98). Ein ebenso gutes Ergebnis lässt sich allerdings auch mit einer sehr viel einfacheren Formel erzielen (vgl. Altmann 1980), nämlich y Z a $ x b eKcx
(10)
Das Ergebnis ist in der Abb. 3.13a dargestellt. Abgesehen davon, dass das Ergebnis der theoretischen Anpassung nicht wirklich befriedigend ist und sich de facto nur durch eine andere Kurve erfassen lässt als die beschriebene, würde man heute eher eine diskrete, keine stetige Verteilung an die Daten
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
55
y-Achse
Fit Unified Derivation
x-Achse
Kontinuierliche Anpassung y = a . xb . e-cx
cist.dat. - Hyperpoisson
f (x)
Altmann Fitter 2.1
NP (x)
f (x), NP (x)
Diskrete Anpassung der Hyperpoisson-Verteilung Abb. 3.13a/b: Kontinuierliche und diskrete Anpassung von Wortlängenhäufigkeiten
anzupassen versuchen. Führt man eine solche Re-Analyse durch, so stellt sich dabei interessanterweise heraus, dass die zu diesem Zweck für die Verteilung russischer Wortlängenhäufigkeiten in letzter Zeit wiederholt herangezogene Hyperpoisson-Verteilung überaus gut geeignet ist, die spezifischen Daten von Čistjakov/Kramarenko zu modellieren (a Z 1,7847, b Z 0,0005; χ 52 Z 8,02, P Z 0,16). Weiterhin werden auch quantitative Fragen der Morphologie diskutiert: im Detail
analysiert wird unter anderem die relative Vorkommenshäufigkeit russischer Präpositionen, Suffixe und Präfixe, wobei deren Vorkommenshäufigkeiten zur Produktivität von Wurzelmorphemen in Beziehung gesetzt werden. Ebenfalls enthalten sind statistische Untersuchungen zur Vorkommenshäufigkeit verschiedener Wortarten. So werden u. a. diesbezügliche Angaben auf der Basis von ca. 25.000 Wortvorkommnissen angeführt, differenziert nach vier verschiedenen (historischen) Stiltypen, die in Bezie-
56 hung zu entsprechenden (weniger umfangreichen) Untersuchungen zum Französischen, Deutschen, Englischen und (Alt-)Hebräischen gestellt werden. Das Buch von Čistjakov/Kramarenko (1929) sollte eigentlich der erste von zwei geplanten Bänden sein K vorgesehen war ursprünglich auch ein zweiter, nie erschienener Band mit weiterführenden Untersuchungen zur Silbenstruktur, Syntax und Semasiologie. Doch auch das nur als erster Band geplante Buch von 1929 ist in der Folgezeit nahezu vergessen worden. Einer der beiden Autoren, Čistjakov, der Ende der 30er Jahre mit dem Slovar’ komedii „Gore ot uma“ A. S. Griboedova (Čistjakov 1939) das erste erklärende Wörterbuch dieser Art veröffentlichte, beschäftigte sich auch später noch bis in die 70er Jahre mit quantitativen Fragen wie etwa dem Verhältnis von Konsonanten und Vokalen in verschiedenen Sprachen (Čistjakov 1971; 1972a) oder dem Häufigkeitsvorkommen von Präpositionen (Čistjakov 1972b) K Fragen, die im Prinzip auch schon 1929 angesprochen und behandelt worden waren. Insofern wies Čistjakov (1964) vor dem Hintergrund der sich in den 60er Jahren in Russland zunehmend etablierenden Quantitativen Linguistik in einem Brief an die Redaktion der Zeitschrift Filologičeskie nauki mit ambivalent bedauernder Genugtuung auf die Ergebnisse seines 34 Jahre zuvor erschienenen Frühwerks hin. Deutlichere Töne ließ Čistjakov (1965) in einer akribischen Darstellung anklingen, in der er Passagen aus dem Werk von 1929 aktuellen Arbeiten von L. P. Zinder vergleichend gegenüberstellte, um zu belegen, dass Zinder sich in vielem auf die Arbeit dieses Werks stützte, ohne dies freilich angemessen kenntlich zu machen. Zinder hatte 1962 an der Universität Petersburg den ersten Lehrstuhl für Mathematik eingerichtet, und zwar an der 1958 ins Leben gerufenen Abteilung für Angewandte Linguistik.
Interessant ist allerdings, dass sich ab Mitte der 20er Jahre verstärkt auch FortunatovSchüler mit mathematischen Methoden in Anwendung auf Sprache und Literatur beschäftigten. So geht eine der ersten, immer wieder zitierten Lautstatistiken auf Peškovskij (1925) zurück, der sich schon zuvor (Peškovskij 1924) zur Frage von Prosa und Vers aus linguistischer Sicht geäußert hatte. Seine nachhaltig einflussreiche Studie „Zehntausend Laute“ entstand vor dem Hintergrund zahlreicher Arbeiten zum Problem der Lautinstrumentierung in poetischen Texten; die damit verbundenen Fragen zielten nach Peškovskij (1925, 167) entweder (a) auf die Dominanz oder (b) auf die Verteilung eines bestimmten Lautes bzw. einer Lautgruppe
I. Allgemeines / General
in einem gegebenen Text. Peškovskij (1925, 167) verstand seine Studie als einen Beitrag für eine objektive Grundlage entsprechender Untersuchungen. Als Material dienten ihm Aufzeichnungen mündlicher Rede, aufgeteilt in 10 Stichproben à 1000 Laute; diese Stichprobengrößen sah Peškovskij als hinreichend für die anzustrebende Konstanz der Ergebnisse an. Die Ergebnisse betrachtete Peškovskij (1925, 181) durchaus als über das Russische hinausgehend relevant, so den größeren Anteil von Vokalen im Vergleich zu den Konsonanten (bzw. der silbenbildenden Laute im Vergleich zu den nicht-silbenbildenden), der unbetonten Vokale im Vergleich zu den betonten, der kurzen und harten im Vergleich zu den langen und weichen, usw. Gerade in den konkreten Proportionen aber könne das Überwiegen der einen oder anderen Kategorie Unterschiede zwischen verschiedenen Sprachen, verschiedenen literarischen Sprachen oder verschiedenen literarischen Genres manifestieren. So habe z. B. eine Berechnung der ersten 1000 Laute aus Puškins Evgenij Onegin, Goethes Faust und Dantes Divina Commedia ergeben, dass der Anteil stimmloser Konsonanten im ersten Text ca. 20 %, im Faust ca. 24 %, und in der Divina Commedia ca. 18 % beträgt. Auf der einen Seite unterscheide sich also der klangliche Evgenij Onegin deutlich von der russischen gehobenen Umgangssprache, die mit 25,5 % geräuschvoller sei, auf der anderen Seite unterscheide sich die russische Sprache ebenfalls deutlich vom Deutschen und Italienischen K was Anlass zu analogen Berechnungen in weiteren Sprachen und Genres gebe. Ein weiterer unmittelbarer FortunatovSchüler war M. N. Peterson, der dann nicht nur Lehrer u. a. von G. O. Vinokur war, sondern z. B. auch von Vjačeslav Vs. Ivanov und Vladimir N. Toporov, die in den späten 50er und 60er Jahren maßgeblich an der Herausbildung von Semiotik und Strukturalismus beteiligt waren. Peterson war nach Absolvierung des Studiums an der Moskauer Universität dort seit 1919 als Professor tätig. Sein Schwerpunkt lag auf der vergleichend-historischen Grammatik der indoeuropäischen Sprachen, insbesondere Syntax und Morphologie. 1928 stellt er eine Studie zu „Konstruktionen mit der Präposition ,iz‘ bei Lermontov“ (Peterson 1928) an. De facto handelt es sich hierbei um die erste quantitative Untersuchung
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
57
Tab. 3.12: Lautfrequenzen nach Peškovskij (1925)
zur russischen Syntax. Peterson zufolge lässt sich ein umfassendes Bild der russischen Syntax nur durch die detaillierte Beschreibung spezieller syntaktischer Erscheinungen erhalten; dies wiederum sei nicht ohne Kenntnis der Verbreitung dieser syntaktischen Phänomene möglich, was seinerseits die Anwendung statistischer Verfahren notwendig mache (Peterson 1928, 410). Nachdem er in der erwähnten Studie 579 Vorkommnisse der Präposition з in prosaischen und poetischen Texten von Lermontov untersucht und deren syntaktische Einbettung quantitativ bestimmt hatte, stellte sich für ihn abschließend die Frage nach einem synchronen und diachronen Vergleich, die sich wiederum eben durch die Methode der statistischen Beschreibung lösen lasse. Etwa zehn Jahre später erstellte Peterson (1936/37) eine zweite quantitative Studie, in der es um eine Analyse der russischen Satzstruktur ging. Peterson unterstellt dabei zunächst, dass ein Satz (a) aus einem einzigen Wort, (b) aus der Verbindung von zwei oder mehreren Wörtern, oder (c) aus der Verbindung von zwei oder mehreren Wortfügungen bestehen kann. Weiterhin ging er von der Annahme aus, dass der quantitative Bestand eines Satzes um so geringer sei, je einfacher, ungekünstelter die Rede sei, und ge-
langte so zu der Hypothese, dass die Satzstruktur in Hinsicht auf ihren quantitativen Bestand in Texten der Alltagssprache einfacher sei als in schriftlichen, literarischen Texten. Um diese Hypothese zu testen, verglich er den syntaktischen Bestand des Igorlieds [Slovo o polku Igoreve] mit demjenigen in Texten vorrevolutionärer Klassiker sowie in mündlichen Texten russischer Dorfbewohner. Im Ergebnis stellte sich heraus, dass 1-WortSätze in der mündlichen Rede (8 %) deutlich häufiger vorkommen als in den schriftlich-literarischen Texten (1,5 % bzw. 0,6 %). In der mündlichen Rede hingegen kamen syntaktische Strukturen in Form von Wortverbindungen deutlich häufiger vor (79 % im Intervall von 2 bis 5 Wörtern) als in den literarischen Texten (42 % bzw. 44,2 % im Intervall von 2 bis 20 Wörtern), während komplexere Verbindungen von Wortfügungen wiederum in der mündlichen Rede deutlich seltener vorkamen (13 % im Umfang von zwei bis vier Wortfügungen) als in den literarischen Texten (56,5 % bzw. 55,2 % im Umfang von zwei bis 10 Wortfügungen). Zusammenfassend hält Peterson (1936/37, 592) fest, dass die Syntax des Igorlieds als Syntax der Literatursprache synthetischen Charakters sei und insofern „Züge von großer Künstlichkeit“ (Peterson 1936/37, 592) trage.
58 Ein weiterer unmittelbarer FortunatovSchüler war der bereits erwähnte Kaukasiologe Nikolaj F. Jakovlev (1892K1974). Er veröffentlichte 1928 einen Aufsatz mit dem Titel „Eine mathematische Formel zur Konstruktion des Alphabets“ (Jakovlev 1928). Jakovlev, Gründungsmitglied des MLK, war aus der Fortunatov-Tradition hervorgegangen und hatte 1916 die Moskauer Universität abgeschlossen. Seine Arbeiten waren von großer Bedeutung für die Herausbildung der Moskauer Phonologischen Schule, als einer deren Mitbegründer er neben R. I. Afanesov, P. S. Kuznecov, V. N. Sidorov und A. M. Suchotin angesehen wird; gemeinsam mit N. S. Trubeckoj und R. O. Jakobson gilt er als einer der Begründer der strukturellen Phonologie. In der genannten Studie ging es um die Konstruktion eines wissenschaftlich begründeten Alphabets, d. h. um die Bestimmung des optimalen Verhältnisses zwischen der Graphem- und der Phonemzahl einer Sprache. Eine solche Frage hatte auch schon früher Baudouin de Courtenay (1912, 67) aufgeworfen, als er die Bestimmung des Zusammenhangs von Graphemen und Phonemen als Grundfrage einer Theorie der Graphik bezeichnet und erklärt hatte, dass der Zusammenhang in einer mathematischen Formel auszudrücken sei. Jakovlev (1928) ging in seiner Darstellung davon aus, dass es nicht ökonomisch sei, wenn eine Sprache ein Alphabet mit genau so vielen Graphemen wie vokalischen und konsonantischen Phonemen habe. Statt dessen sei es möglich und sinnvoll, das Grapheminventar zu reduzieren; dazu ging er von den folgenden Grundgrößen aus: A Anzahl der Zeichen des Alphabets (Inventarumfang) C Anzahl der (selbständigen) Konsonantenphoneme V Anzahl der (selbständigen) Vokalphoneme C# Anzahl der in einem bestimmten Merkmal voneinander verschiedenen konsonantischen Phonempaare V# Anzahl der in einem bestimmten Merkmal voneinander verschiedenen vokalischen Phonempaare Die quantitative Optimierung eines Grapheminventars (im Vergleich zum Phoneminventar) lässt sich nach Jakovlev dadurch erreichen, dass die Anzahl der Zeichen für die selbständigen Phoneme um die Diffe-
I. Allgemeines / General
renz zwischen den vokalischen und konsonantischen Phonempaaren reduziert wird. Das notwendige Grapheminventar lässt sich nach Jakovlev somit nach der folgenden Formel berechnen, die er als „maximal ökonomische Konstruktionsformel“ bezeichnete: A Z (C C V) K (G C# G V#) C 1
(11)
In Anwendung auf das Russische erhält man nach Jakovlev die folgenden Daten: (1) Die selbständigen Konsonanten und Vokale belaufen sich auf C Z 33 bzw. V Z 5. (2) In die Berechnung von C# gehen die harten und weichen Konsonanten ein, die sich durch das Merkmal der Palatalisierung voneinander unterscheiden; da Jakovlev sich bei der Behandlung von g-g#, k-k# sowie x-x# nicht sicher war, bezifferte er C#Z 12 (b-b#, v-v#, d-d#, z-z#, f-f#, p-p#, r-r#, s-s#, t-t#, l-l#, m-m#, n-n#). (3) Unter der Annahme, dass die Buchstaben и und ы Varianten ein und desselben Phonems bezeichnen und dass das Phonem /e/ nur jeweils einem der beiden Glieder der 12 C#-Paare folgen kann, ergibt sich V# Z 4 (a, i, o, u). (4) Die zusätzliche C 1 am Ende der Formel soll für ein graphematisches Zeichen stehen, das dann ins Spiel kommt, wenn der zu bezeichnende Konsonant nicht von einem Vokal gefolgt wird, d. h. also, wenn dieser Konsonant vor einem anderen Konsonanten innerhalb eines Wortes oder aber am Ende eines Wortes steht; konkreter geht es um den Ausdruck der Palatalität von Konsonanten vor anderen Konsonanten bzw. am Wortende, d. h. um das Weichheitszeichen ь. Somit ergibt sich für das Russische: Aruss Z (33 C 5) K (12 K 4) C 1 Z 31. Nach Jakovlev sollte also ein phonemisches Alphabet für das Russische mit 31 Zeichen, d. h. mit einem im Vergleich zum Phoneminventar von 38 Phonemen um sieben Zeichen geringeren Grapheminventar auskommen. Interessanterweise ergibt sich dasselbe Ergebnis, wenn man auch g-g#, k-k#, x-x# zu den paarigen Konsonantenphonemen zählt, allerdings auf Basis einer anderen Berechnung: A Z (36 C 5) K (15 C 4) C 1 Z 31. Diese Anzahl darf allerdings, wie auch Kempgen (1995, 18) zu Recht bemerkt, nicht als verbindlich angesehen werden, da sie aus
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
verschiedenen Gründen in Frage zu stellen ist; die wichtigsten Einwände dürften die beiden folgenden sein: (1) Berücksichtigt wird von Jakovlev nur eine einzige Sprachebene, nämlich der Inventarumfang des Alphabets K dass dieser Inventarumfang sich innerhalb einer strukturell bzw. synergetisch gedachten Konzeption auf andere sprachliche Einheiten (Wortlänge) mit ihren eigenen Systembedürfnissen auswirkt, bleibt also unberücksichtigt; (2) Graphem- und Lautebene werden nicht konsequent unterschieden K sonst wäre neben der Palatalitätskorrelation auch diejenige von Stimmhaftigkeit/ Stimmlosigkeit zu berücksichtigen (gewesen). Die Frage nach der Konstruktion von Alphabeten stand in den 20er Jahren in einem ganz konkreten kulturpolitischen Kontext: In Folge der Oktoberrevolution von 1917 und den anschließenden (nicht zuletzt ideologisch motivierten) Alphabetisierungsbestrebungen standen Fragen der Schrift wiederholt im Vordergrund K sei es im Hinblick auf erstmalige Verschriftlichung von Sprachen der expandierenden UdSSR, die modernisierende Modifikation schon vorhandener Schriftsprachen, oder deren akkultivierende Unifizierung. Nachdem 1922 auf Initiative der aserbaidsanischen Sowjetrepublik ein Komitee des Neuen Türkischen Alphabets [Komitet novogo tjurskogo alfavita / NTA] gegründet worden war, und nachdem 1923 das zuvor geschaffene lateinische Alphabet als „staatlich und obligatorisch“ deklariert worden war, fand 1926 in Baku der 1. Turkologische Allunionskongress statt. Auf diesem Kongress hatte Jakovlev seinen zwei Jahre später veröffentlichten Beitrag als zentralen Vortrag gehalten, den er im übrigen explizit als Beitrag zur Angewandten Linguistik bzw. zu einer Theorie der Angewandten Linguistik bezeichnet hatte. Auf dem Kongress in Baku wurde auch das Zentralkomitee des Neuen Türkischen Alphabets [Central’nyj komitet novogo tjurskogo alfavita / CK NTA] gegründet, das 1929 in Allunions-Zentralkomitee des Neuen Alphabets (VCK NA) beim Präsidium des Sowjets der Nationalitäten des Zentralen Exekutivkomitees der UdSSR umbenannt wurde. Auch beim (damals noch von A. A. Lunačarskij geleiteten) Volkskommissariat für
59
Bildung war eine Subkommission unter dem Vorsitz von Jakovlev eingesetzt worden, deren Ziel die Latinisierung des russischen Alphabets war. Ein ähnliches Schicksal erlebte auch die Redaktionskommission zur Erarbeitung von Vorschlägen bezüglich einer Reform der russischen Orthographie [Redakcionnaja kommissija po predloženijam o reforme russkoj orfografii] beim Wissenschaftlichen Forschungsinstitut für Sprachwissenschaften [NIJaz]. Die Arbeit dieser Kommission, der u. a. A. A. Reformatskij, V. N. Sidorov, A. M. Suchotin angehörten, wurde wegen der vermeintlichen Radikalität der unterbreiteten Vorschläge (wie etwa der Einführung des Buchstaben j ins russische Alphabet) gestoppt. Hintergrund dieser Eingriffe war letztendlich der Stalin’sche Schwenk weg von der internationalistischen Idee hin zur russisch dominierten Revolution in einem Lande. Reformatskij war im Übrigen auch Vorsitzender einer erfolgreicheren Kommission, der sog. UFT-Kommission (Kommission zur Herausarbeitung einer unifizierten phonetischen Transkription), die von 1929 bis 1931 am Wissenschaftlichen Forschungsinstitut der Vereinigung der staatlichen Verlage [NII Ogiz] unter Mitarbeit von Peterson, Vinokur u.a wirkte. Aleksandr A. Reformatskij (1900K1978), der u. a. bei Peterson und Ušakov studiert hatte, war zu Beginn der 20er Jahre aktives Mitglied bei Opojaz und MLK gewesen und hatte in diesem Zusammenhang u. a. strukturelle Analysen von Literatur und Musik vorgelegt. Die Arbeit an der Orthographiereform bezeichnete er, ähnlich wie Jakovlev, explizit als „angewandte Tätigkeit“. Am NIJaz arbeitete übrigens auch Pёtr S. Kuznecov (1899K 1968), ein Jugendfreund des bedeutenden Mathematikers Andrej N. Kolmogorov (1903K1987). Zusammen mit dessen Schüler V. A. Uspenskij und Vjač. Vs. Ivanov sollte Reformatskij 1956 dann an der Moskauer Universität das erste Seminar zur mathematischen Linguistik in der UdSSR anbieten (Некоторые применения математических методов исследования в языкознании), und gemeinsam mit Kuznecov und A. A. Ljapunov (1911K73), ebenfalls Kolmogorov-Schüler (und Leiter des sich seit ca. 1954 mit Fragen der Sprachstatistik beschäftigenden Steklov-Instituts für Mathematik an der AN SSSR), sollte er 1956 in Voprosy jazykoznanija den programmatischen Artikel „Grundprobleme der maschinellen Übersetzung“ zur Diskussion bringen. Reformatskij, zu dessen Schülern u. a. T. M. Nikolaeva und R. M. Frumkina gehörten, war von 1958K70 dann Leiter des Sektors für strukturelle und angewandte Linguistik an der AN der UdSSR.
60 Von dieser Gruppe wurde wesentlich der Vserossijskij s’ezd po reforme orfografii 1931 vorbereitet, an dem noch Marristen und Etymologisten gemeinsam teilnahmen und diskutierten. Ebenfalls in diesem Kontext sind zahlreiche Arbeiten des bereits erwähnten E. D. Polivanov anzusiedeln. Polivanov, Schüler von Baudouin und Ščerba (selbst Schüler von Baudouin), studierte in Petersburg (1908K1912) und war Teilnehmer an den frühen Aktivitäten des Opojaz. Während und nach der Revolution engagierte er sich politisch in der russischen KP und wurde in den 20er Jahren zu einem der wichtigsten Sprachwandeltheoretiker. In Anlehnung an Baudouins Unterscheidung von äußeren und inneren Kräften als Einflussfaktoren auf den Sprachwandel trennte Polivanov strikt zwischen äußeren und inneren Gesetzen der Sprachentwicklung und dem unmittelbaren Einfluss sozialer Faktoren auf die Sprache. Gerade letzterer wurde jedoch zunehmend von dem immer mehr Einfluss nehmenden sog. Marrismus verabsolutiert: Der Schöpfer dieser sog. Neuen Lehre des Marrismus, Nikolaj Ja. Marr (1864K1934), vertrat, ebenso wie nach seinem Tode sein wichtigster Nachfolger (Ivan I. Meščaninov, 1883K1967), die Auffassung, dass Entstehung und Entwicklung von Sprache in unmittelbarer Abhängigkeit von den (jeweiligen) sozio-ökonomischen Verhältnissen zu sehen sei, so dass sich je nach sozio-ökonomischer Entwicklungsstufe einer Gesellschaft auch die typologische Struktur einer Sprache ändere K der klassenhafte Charakter der Sprache wurde so mit einer Stadialtheorie der Sprache (in Anlehnung an die Stadialtheorie der Gesellschaftsentwicklung) verknüpft. Es liegt auf der Hand, dass diese Konzeption weniger durch wissenschaftliche Überzeugungskraft als vielmehr aufgrund der politischen Aktivität ihrer Anhänger zur herrschenden Doktrin und zu einem unantastbaren Dogma der 30er und 40er Jahre werden konnte. Dabei war der Marrismus K natürlich K extrem empiriefern bzw. empiriefeindlich; entsprechende Forschungen wurden vollständig unterdrückt und bekämpft. Der Streit um die vermeintlich wahre marxistische Sprachwissenschaft wurde zunehmend politisiert, bis hin zur persönlichen Denunzierung der ideologischen (!) Gegner. Die Gefahr dieser Tendenz wurde durchaus schon Mitte der 20er Jahre gesehen; so hatte z. B. der
I. Allgemeines / General seit 1922 in Wien lebende und lehrende, als Porzeziński-Schüler ursprünglich in der Tradition der Moskauer Schule stehende Nikolaj S. Trubeckoj (1890K1938) unmittelbar nach der Lektüre von Marrs Aufsatz „O jafetičeskoj teorii“ (1924) am 6.11.1924 an Jakobson geschrieben: „Der Aufsatz von Marr übersteigt das Maß dessen, was er bis jetzt geschrieben hat . Ich bin fest davon überzeugt, daß eine kritische Besprechung dieses Aufsatzes nicht von einem Linguisten, sondern von einem Psychiater gemacht werden müßte. Zum Schaden für die Wissenschaft ist Marr noch nicht verrückt genug, um in eine Anstalt gesperrt zu werden, aber mir ist klar, daß er verrückt ist.“ (Jakobson 1977, 281). In Trubetzkoys 1939 erschienener Einführung in die Phonologie (Trubetzkoy 1939) ist im übrigen ein ganzes Kapitel mit dem Titel „Zur phonologischen Statistik enthalten“, in der er nicht nur zwischen der Statistik der Buchstaben, der Laute und der Phoneme sowie Phonemverbindungen differenzierte, sondern auch Angaben zu Vorkommenshäufigkeiten von (in der Anzahl der Silben pro Wort berechneten) Wortlängen machte. K Im hier gegebenen Zusammenhang würde es allerdings zu weit führen, auch quantitativen Arbeiten von aus Russland bzw. aus der UdSSR Emigrierten nachzugehen, was in gleicher Weise für Jakobson und andere gilt.
Das betraf K neben anderen Sprachforschern wie Peškovskij, Peterson, Ščerba, Ušakov, u. a. K auch und gerade Polivanov, der mehr als 20 Jahre aktiv in die Frage der Latinisierung des Alphabets involviert war. 1927 zum Vorsitzenden der Linguistischen Sektion des Instituts für Sprache und Literatur (RANION) ernannt, nahm er u. a. auch an dem oben genannten Kongress in Baku teil und wurde 1928 in den Wissenschaftlichen Rat des CK NTA aufgenommen. Nachdem Polivanov sich schon 1929 in einem Vortrag mit dem Titel „Das Problem einer marxistischen Sprachwissenschaft und die japhetitische Theorie“ kritisch mit dem Marrismus auseinandergesetzt hatte, enthielt auch sein K in einem Sammelband mit dem Titel Für eine marxistische Sprachwissenschaft 1931 veröffentlichter K Aufsatz „Auch die Mathematik kann nützlich sein“ (Polivanov 1931) entsprechende methodologische Kritik. Durchaus eingestehend, dass die Mathematik nicht gerade seine Disziplin sei, räumte Polivanov statistischen Methoden wichtige Funktionen in drei Bereichen der Sprachwissenschaft ein: (1) in der Experimentalphonetik (2) in der dialektologischen Statistik (3) in der Etymologie.
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft
Insbesondere im Bereich der Etymologie war der Konflikt mit dem Marrismus vorprogrammiert, ging dieser doch im Rahmen seiner sog. Vier-Elemente-Theorie davon aus, dass alle Wörter sämtlicher Sprachen der Erde auf vier Wurzeln (*sal, *ber, *jonb, *roš) zurückgeführt werden können: Einen wahrscheinlichkeitstheoretischen Ansatz sowohl auf die centum-çatám-Frage als auch allgemein auf das Prinzip des japhetidologischen Ansatzes bei der etymologischen Rekonstruktion anwendend, kam Polivanov (1931) zu der Schlussfolgerung, „dass die gegebene marr’sche Etymologie offenkundig unrichtig ist“ (Polivanov 1931, 294). Seither hatte Polivanov zunehmend Schwierigkeiten, seine Arbeiten zu publizieren; 1937 wurde er verhaftet, 1938 zum Tode verurteilt und erschossen. Erst 1963 wurde er vollständig rehabilitiert. Die sowjetische Sprachwissenschaft jedoch war seit den 30er Jahren großteils von der internationalen Linguistik isoliert. Als Stalin selbst 1950 mit seiner Abhandlung Marxismus und Fragen der Sprachwissenschaft in die Diskussion eingriff und den Marrismus als falsch verurteilte, befreite er zwar die sowjetische Sprachwissenschaft von dem einen Dogma, schuf aber gleichzeitig ein neues, indem er jegliche soziologisch bedingte Heterogenität der Sprache kategorisch ablehnte. So wurde erst nach seinem Tod (1954) bzw. nach dem XX. Parteitag der KPdSU (1956) prinzipiell eine Neu-Diskussion der „Aktuellen Aufgaben der sowjetischen Sprachwissenschaft“ möglich, bei der insbesondere im Zusammenhang mit der sog. Strukturalismus-Diskussion von 1957 auch quantitativen Methoden eine neue Entfaltungsmöglichkeit eingeräumt wurde (vgl. Art. Nr. 4).
4.
Resümee
61
(2) die (Vor-)Geschichte der Anwendung quantitativer Verfahren auf Sprache und Literatur weist in der russischen Tradition einen Reichtum an Arbeiten auf, wie er andernorts in dieser Vielfalt kaum zu beobachten ist; (3) nicht zuletzt aufgrund der Vielfalt der seit Ende des 19., insbesondere Anfang des 20. Jh.s geleisteten Arbeiten sind in der russischen Sprach- und Literaturwissenschaft Grundlagen für quantitative Untersuchungen gelegt worden, die einen Bezugs- und Anknüpfungspunkt für spätere Untersuchungen darstellen, wie sie auf internationaler Ebene ab Mitte der 50er Jahre die sich dann herausbildende quantitative Linguistik und quantitative Stilistik charakterisieren; (4) aufgrund der äußeren Umstände stellt die russische Tradition keine gradlinige Entwicklung dar; sie weist zwar inhaltliche und personelle Kontinuitäten auf, ist aber ebenso von Schwankungen und Kontinuitätsbrüchen gekennzeichnet, im Zusammenhang mit denen verlorenes Terrain immer wieder neu erarbeitet werden musste. Die sich aus der historischen Darstellung ergebenden Fakten und Zusammenhänge lassen bestimmte Entwicklungen und gegenwärtige Trends in einem deutlicheren Licht erscheinen K sie weisen aber auch auf die Notwendigkeit hin, die historiographische Archäologie quantitativer Verfahren in Sprach- und Literaturwissenschaft weiterhin zu vertiefen.
5.
Literatur (in Auswahl)
Altmann, Gabriel (1980), Prolegomena to Menzerath’s Law. In: Glottometrika 2. (Hrsg. R. Grotjahn). Bochum: Brockmeyer, 1K10.
Aus der obigen Darstellung ergeben sich eine Reihe von Befunden, Schlussfolgerungen und Perspektiven, die sich im Wesentlichen wie folgt resümieren lassen:
Baudouin de Courtenay, Jan (1877), Otčety komandirovannago Ministerstvom Narodnago Prosveščenija za granicu s učenoju celju I. A. Boduėnade-Kurtenė o zanjatijach po jazykovedeniju v tečenie 1872 i 1873 gg. Kazan’.
(1) Die Anwendung quantitativer Verfahren bezieht sich in Russland seit den ersten, ab Mitte des 19. Jh.s entstandenen Arbeiten nie nur auf den engeren Bereich der Sprache bzw. Sprachwissenschaft, sondern von jeher gleichermaßen auch auf den Bereich der Literatur(wissenschaft);
Baudouin de Courtenay, Jan (1909), Zarys historiji językoznawstwa czyli lingwistyki (glottologiji). Warszawa. Baudouin de Courtenay, Jan (1912), Ob otnošenii russkago pis’ma k russkomu jazyku. S.-Peterburg. Baudouin de Courtenay, Jan (1927), Ilościowość w myśleniu językowym. In: Symbolae Grammaticae in honorem Joannis Rozwadowski, t. 1. Kra-
62 ków, 1929, 3K18. [Zit. n.d. russ. Übersetzung: Količestvennost’ v jazykovom myšlenii. In: Boduėn de Kurtene, I. A. (1963), Izbrannye trudy po obščemu jazykoznaniju. Tom II. Moskva, 311K324.] Belyj, Andrej (1910), Simvolizm. Moskva. [Repr.: München, 1969] Belyj, Andrej (1929), Ritm kak dialektika, Moskva. [Repr.: Chicago 1968] Bem, Al’fred L. (1918/21), K ujasneniju istorikoliteraturnych ponjatij. In: Izvestija otdelenija russkogo jazyka i slovesnosti Rossijskoj akademii nauk, XXIII/1, 225K245. Bobrik, A. A. (1921), Nemnogo matematiki v teorii slovesnosti. Gel’singfors. Bobrov, Sergej P. (1915), Novoe o sticholoženii Puskina. Moskva. Bobrov, Sergej P. (1916), Zapiski stichotvorca. Moskva. [Repr.: Letchworth (GB), 1973] Bobrov, Sergej P. (1921), [Rez.:] G. Šengeli, Traktat o stiche. Odessa, 1921. In: Pečat’ i revoljucija 3, 268K269. Bobrov, Sergej P. (1964a), Opyt izucenija vol’nogo sticha Puškinskich „Pesen zapadnych slavjan“. In: Teorija verojatnostej i ee primenenija, IX/2, 262K 272. Bobrov, Sergej P. (1964b), K voprosu o podlinnom stichotvornom razmere puškinskich „Pesen zapadnych Slavjan“. In: Russkaja literatura 3, 119K 137. Bobrov, Sergej P. (1965), Tesnota stichovogo rjada (Opyt statističeskogo analiza literaturovedčeskogo ponjatija, vvedennogo Ju. N. Tynjanovym). In: Russkaja literatura 3, 109K124. Bobrov, Sergej P. (1967), Russkij toničeskij stich s ritmom neopredelennoj četnosti i var’irujuščej sillabikoj. In: Russkaja literatura 3, 42K64. Bogorodickij, Vasilij A. (1908), Osnovy arifmetičeskogo sčeta. Kazan’. Bogorodickij, Vasilij A. (1935), Obščij kurs russkoj grammatiki (iz universiteskich čtenij). Moskva. Budilovič, Anton S. (1883), Načertanie cerkovnoslavjanskoj grammatiki primenitel’no k obščej teorii russkago i drugich rodstvennych jazykov. Varšava. Bunjakovskij, V. Ja. (1847), O vozmožnosti vvedenija opredelitel’nych mer doverija k rezul’tatam nekotorych nauk nabljudatel’nych i preimuščestvenno statistiki. In: Sovremennik IIII/2, 36K49. Černyševskij, Nikolaj G. (1906a), [Rez.:] Sočinenija Puškina. In: Polnoe sobranie sočinenij. Tom I: Kritika i bibliografija. (Hrsg. N. G. Černyševskij). Sankt Peterburg, 1906, 245K330. [1. Aufl. 1855] Černyševskij, Nikolaj G. (1906b), [Rez.:] Grammatičeskija zametki. In: Polnoe sobranie sočinenij. Tom I: Kritika i bibliografija. (Hrsg. N. G. Černyševskij). Sankt Peterburg, 1906, 359K364. [1. Aufl. 1855]
I. Allgemeines / General Čistjakov, Vasilij F. (1939), Slovar’ komedii „Gore ot uma“ A. S. Griboedova. Smolensk. Čistjakov, Vasilij F. (1964), Pis’mo v redakciju. In: Filologičeskie nauki 2, 208K209. Čistjakov, Vasilij F. (1965), K istorii primenenija statističeskich metodov v jazykoznanii. Voronež. Čistjakov, Vasilij F. (1971), Častoti glasnych i soglasnych v jazykach raznych sistem. In: Slavia. Časopis pro slovanskou filologii 40, 204K205. Čistjakov, Vasilij F. (1972a), Častotnosti glasnych i soglasnych v 50 jazykach raznogo grammatičeskogo stroja. In: Lingua Posnaniensis 16, 45K48. Čistjakov, Vasilij F. (1972b), Predlogi v russkom jazyke. In: Materialy po russko-slavjanskomu jazykoznaniju. Voronež, 171K179. Čistjakov, Vasilij F./Kramarenko, B. K. (1929), Opyt priloženija statističeskogo metoda k jazykoznaniju. Vyp. I. Krasnodar. Čudovskij, Valerian (1914), O ritme puškinskoj „Rusalki“ (Otryvok). In: Apollon 1K2, 108K121. Čudovskij, Valerian (1915), Neskol’ko myslej k vozmožnomu učeniju o stiche (s primernym, razborom stichosloženija v I glave „Evgenija Onegina“). In: Apollon 7K8, 55K95. Čudovskij, Valerian (1917), Neskol’ko utverždenij o russkom stiche. In: Apollon 4K5, 58K69. Denisov, Ja. (1888), Osnovy metriki u drevnich grekov i rimljan. Moskva. Dikarev, Mitrofan A. (1891), Voronežski ėtnograficeskij sbornik. Voronež. Erlich, Viktor (1973), Russischer Formalismus. Frankfurt/M.: Suhrkamp. [1. Aufl. 1955] Ermolenko, Georgij V. (1974), O prologe k komedii A. S. Griboedova „Gore ot uma“. In: Voprosy statističeskoj stilistiki. Kiev, 251K262. Förstemann, Ernst (1846), Über die numerischen Lautverhältnisse im Deutschen. In: Germania. Herausgegeben von der Berlinischen Gesellschaft für deutsche Sprache und Altherthumskunde 7, 83K90. Förstemann, Ernst (1852), Numerische Lautverhältnisse im Griechischen, Lateinischen und Deutschen. In: Germanische Zeitschrift für Vergleichende Sprachforschung auf dem Gebiete des Deutschen, Griechischen und Lateinischen 1, 163K179. Fortunatov, Filipp F. (1956), Sravnitel’noe jazykovedenie Obščij kurs. In: Izbrannye trudy. Tom I. (Hrsg. F. F. Fortunatov). Moskva, 21K197. Frumkina, Revekka M. (1987), Moj učitel’ A. A. Reformatskij. In: Znanie K sila 7, 78K82. Gornfel’d, Arkadij (1922), Chudožestvennoe slovo i naučnaja cifra. In: Literaturnaja mysl 1, 163K170. Grzybek, Peter (1989), Studien zum Begriff der sowjetischen Semiotik (Moskauer und Tartuer Schule). Bochum: Brockmeyer.
3. Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft Grzybek, Peter (1999), Sowjetische und russische Konzepte der Semiotik. In: Handbuch der sprachwissenschaftlichen Russistik und ihrer Grenzdisziplinen. (Hrsg. H. Jachnow). Wiesbaden: Harrassowitz, 1274K1305. Grzybek, Peter (2003), Viktor Ja. Bunjakovskij (1804K1889) K A Forerunner of Quantitative Linguistics in Russia. In: Glottometrics 6, 103K106. Grzybek, Peter (2004), Nikolaj Gavrilovič Černyševskij (1828K1889) K A Forerunner of Quantitative Stylistics in Russia. In: Glottometrics 7, 91K93. Grzybek, Peter/Kelih, Emmerich (2003), Graphemhäufigkeiten (Am Beispiel des Russischen). Teil I: Methodologische Vor-Bemerkungen und Anmerkungen zur Geschichte der Erforschung von Graphemhäufigkeiten im Russischen. In: Anzeiger für Slavische Philologie 31; 131K162. Grzybek, Peter/Kelih, Emmerich (2004), Anton Semënovič Budilovič (1846K1908) K A Forerunner of Quantitative Linguistics in Russia? In: Glottometrics 7, 94K100. Grzybek, Peter/Kelih, Emmerich/Altmann, Gabriel (2004), Graphemhäufigkeiten. Teil II: Theoretische Modelle der Häufigkeitsverteilung (mit einer empirischen Untersuchung russischer Graphemhäufigkeiten). In: Anzeiger für Slavische Philologie 32, 25K54. Hansen-Löve, Aage (1978), Der russische Formalismus: Methodologische Rekonstruktion seiner Entwicklung aus dem Prinzip der Verfremdung. Wien: Verlag der Österr. Akademie der Wiss. Jakobson, Roman O. (1977), Autobiographische Notizen von N. S. Trubetzkoy. In: Grundzüge der Phonologie. (Hrsg. N. S. Trubetzkoy) 6. Aufl. Göttingen: Vandenhoeck & Ruprecht, 273K288. Jakovlev, Nikolaj F. (1928), Matematičeskaja formula postroenija alfavita. In: Kul’tura i pis’mennost’ Vostoka, kn. I. Moskva, 41K64. [Repr.: Reformatskij, A. A. (Hrsg.), Iz istorii otečestvennoj fonologii. Moskva, 1970, 123K148]. Kaeding, Friedrich W. (1897/98), Häufigkeitswörterbuch der deutschen Sprache. Berlin-Steglitz: Selbstverlag. Kagarov, Evgenij (1922), O ritme russkoj prozaičeskoj reči. In: Nauka na Ukraine 4, 324K332. Kempgen, Sebastian (1995), Russische Sprachstatistik. Systematischer Überblick und Bibliographie. München: Sagner. Kempgen, Sebastian (1999), Quantitative Aspekte. In: Handbuch der sprachwissenschaftlichen Russistik und ihrer Grenzdisziplinen. (Hrsg. H. Jachnow). Wiesbaden: Harrassowitz, 525K550. Kopeckij, Leontij (1931), [Rez.:] Čistjakov, V. F./ Kramarenko, B. K. (1929): Opyt priloženija statističeskogo metoda k jazykoznaniju. Krasnodar. In: Slavia 10, 169K171.
63
Kudrjavskij, Dmitrij (1909), K statistike glagol’nych form v Lavrent’evskoj letopisi. In: Izvestija otdelenija russkago jazyka i slovesnosti Imperatorskoj Akademii Nauk, t. XIV, č 2, 49K56. Kudrjavskij, Dmitrij (1911), K istorii russkago prošedšago vremeni. In: Russkij filologičeskij vestnik LXV, 119K139. Kudrjavskij, Dmitrij (1912), Drevne-russkija pričastija nastojaščago vremeni dejstvitel’nago zaloga na -a. In: Russkij filologičeskij vestnik LXVIII, 119K139. Kunickij, V. N. (1894), Jazyk i slog komedii „Gore ot uma“. Kiev. Luk’janov, S. M. (1914), „Angel’ smerti“ gr. A. A. Goleniščeva-Kutuzova. In: Žurnal ministerstva narodnago prosveščenija XLIX, 316K352. Markov, Andrej A. (1913), Primer statističeskogo izsledovanija nad tekstom „Evgenija Onegina“ illjustrirujuščij svjaz’ ispytanij v cep’. In: Izvestija Imperatorskij Akademii Nauk / Bulletin de l’Académie Impériale des Sciences de St.-Pétersbourg, ser. VI, t. 7, no. 3, 153K162. Markov, Andrej A. (1916), Ob odnom primenenii statističeskogo metoda. In: Izvestija Imperatorskoij Akademii Nauk / Bulletin de l’Académie Impériale des Sciences, ser. VI, t. 10, no. 4, 239K242. Morozov, Nikolaj A. (1915), Lingvističeskie spektry. In: Izvestija otdelenija russkago jazyka i slovesnosti imperatorjskoj akademii nauk XX(1K4), 95K127. Nedobrovo, N. V. (1912), Ritm, metr i ich vzaimootnošenie. In: Trudy i dni 2, 14K23. Ol’chin, P. (1907), Pervaja opora pri postroenii racional’noj stenografii. In: Stenograf. Ežemesjačnyj žurnal, posvjaščennyj voprosam naučnoj i praktičeskoj stenografii, no. 4K5, 114K118. Ondar, Kh. O. (Hrsg.), The Correspondence Between A. A. Markov and A. A. Chuprov on the Theory of Probability and Mathematical Statistics. New York u. a: Springer, 1981. Papp, Ferenc (1966), Mathematical Linguistics in the Soviet Union. London u. a.: Mouton. Peškovskij, Aleksamdr M. (1914), Russkij Sintaksis v naučnom osveščenii. Moskva, 51935. Peškovskij, Aleksandr M. (1924), Stichi i proza [s lingvističeskoj točki zrenija]. In: Svitok. Al’manach 3. Moskva/Leningrad, 197K223. Peškovskij, Aleksandr M. (1925), Desjat’ tysjač zvukov. (Opyt zvukovoj charakteristiki russkogo jazyka, kak osnovy dlja eufoničeskich issledovanij). In: Metodika rodnogo jazyka, lingvistika, stilistika poėtika. Sbornik statej. (Hrsg. A. M. Peškovskij). Leningrad/Moskva, 167K191. Peterson, Michail N. (1928), Konstrukcii s predlogom „iz“ u Lermontova. In: Sbornik statej v čest’ akademika Alekseja Ivanoviča Sobolevskogo. Leningrad, 410K412. [Z Sbornik otdelenija russkogo jazyka i slovesnosti 101, 3]
64 Peterson, Michail N. (1936/37), Sintaksis „Slova o polku Igoreve“. In: Slavia. Časopis pro slovanskou filologii 14, 547K592. Polivanov, Evgenij D. (1931), I matematika možet byt’ poleznoj. In: Za marksistkoe jazykoznanie. Moskva, 173K181. [Repr.: Stat’i po obščemu jazykoznaniju. Moskva, 287K294.] Proskurnin, N. (1933), Podsčety častoty liter i komplektovka šrifta. In: Revoljucija i pis’mennost’. Sbornik I. Moskva-Leningrad, 72K82. Schleicher, August (1852), Die Formenlehre der kirchenslawischen Sprache, erklärend und vergleichend dargestellt. Bonn: König. Setnickij, Nikolaj (1922), Statistika, literatura i poėzija. K voprosu o plane issledovanija. Odessa. Setnickij, Nikolaj (1923), Statistika, literatura i poėzija. K voprosu o plane issledovanija. Odessa. Steiner, Peter (1984), Russian Formalism. A Metapoetics. Ithaca/London: Cornell University Press. Struve, Petr B. (1918), Kto pervyj ukazal na primenenie statistiki k filologičeskim izsledovanijam? In: Izvestija Rossijskoj Akademii Nauk [Bulletin de l’Académie des Sciences de Russie], t. XII, VI ser., no. 12K18, čast’ 2, 1317K1318. Ščerbina, Fedor A. (1925), Statistika. Istorija statistiki i statističnich ustanov. Praga. Šengeli, Georgij (1918), Dva „Pamjatnika“. Sravnitel’nyj razbor ozaglavlennych ėtim imenem stichtvorenij Puškina i Brjusova. Petrograd. Šengeli, Georgij (1923), Traktat o russkom stiche. Moskva, 11921. Šengeli, Georgij (1940), Technika sticha. Moskva, ²1960. Tomaševskij, Boris V. (1916a), [Rez.:] S. Bobrov (1915), Novoe o stichoslozenii A. S. Puskina. Moskva. In: Apollon 10, 72K74. Tomaševskij, Boris V. [1916b](1990), Pis’ma B. V. Tomaševskogo k S. P. Boborvu. [Publikacija, vstupitel’naja stat’ja i primečanija K. Ju. Postoutenko]. In: Pjatye Tynjanovskie čtenija. Riga, 133K148. Tomaševskij, Boris V. (1917), Ritmika četyrechstopnogo jamba po nabljudenijam nad stichom „Evgenija Onegina“. In: Tomaševskij 1929, 94K137. Tomaševskij, Boris V. (1918a), Statistika kratkosti povrežedenij telegrafnych provodov. In: Počtovo-
I. Allgemeines / General telegrafnyj žurnal 5K8 [čast’ neoficial’naja], 33K44. Tomaševskij, Boris V. [1918b](1977), O šestistopnom jambe u Puškina. In: Trudy po znakovym sistemam 9. Tartu, 103K112. Tomaševskij, Boris V. (1919a), Statistika počt i telegrafov v svjazi s novymi zadačami gosudarstvennogo stroitel’stva. In: Proletarij svjazi 1, 23K24. Tomaševskij, Boris V. (1919b), Pjatistopnyj jamb Puškina. In: Tomaševskij 1929, 138K253. Tomaševskij, Boris V. (1920), Ritm prozy. In: Tomaševskij 1929, 254K318. Tomaševskij, Boris V. (1922), [Rez.:] Bobrik, A. A. (1921), Nemnogo matematiki v teorii slovesnosti. Gel’sinfgors. In: Kniga i revoljucija 3/15, 84. Tomaševskij, Boris V. (1923a), Problema stichotvornogo ritma. In: Literaturnaja mysl 2, 124K 140. [Repr in.: Tomaševskij, Boris V. (1929), O stiche. Leningrad, 3K36.] Tomaševskij, Boris V. (1923b), Russkoe stichosloženie. Petrograd. [Repr. München: Fink, 1971] Tomaševskij, Boris V. (1923b), [Rez.:] Šengeli, G. A. (1921), Traktat o russkome stiche. Odessa. [2. Aufl. 1923]. In: Kniga i revoljucija, 1/25, 51K 52. Tomaševskij, Boris V. (1924), Valerij Brjusov kak stichoved. In: Tomaševskij 1929, 319K325. Tomaševskij, Boris V. (1929), O stiche. Leningrad. [Repr.: München: Fink, 1970] Tomson, Aleksandr I. (1910), Obščee jazykoznanie. Odessa. Trubetzkoy, Nikolaj S. (1939), Einführung in die Phonologie. Prague. [Grundzüge der Phonologie. Göttingen: Vandenhoeck & Ruprecht, 61977]. Vinokur, Grigorij O. (1924), [Rez.:] (1923) Očerki po poėtike Puškina. Berlin. In: Russkij Sovremennik 3, 263K264. Vostokov, Aleksandr Ch. (1817), Opyt o russkom stichosloženii. Sankt Peterburg. Žirmunskij, Viktor M. (1929), Po povodu knigi „Ritm kak dialektika“. In: Zvezda 8, 203K208.
Peter Grzybek / Emmerich Kelih, Graz (Österreich)
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 65
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjetischen Sprach- und Literaturwissenschaft (1956K1962) 1. 2.
7. 8.
Einleitung Wissenschaftsgeschichtlicher Rahmen von quantitativen Forschungen in der Sprachwissenschaft Quantitative Methoden im Kontext des Strukturalismus Konferenzen zur mathematischen (quantitativen) Linguistik 1957K1960 Quantitative Untersuchungen im Kontext der maschinellen Übersetzung Quantitative Untersuchungen im Kontext der Kybernetik und Semiotik Resümee Literatur (in Auswahl)
1.
Einleitung
3. 4. 5. 6.
Während im Beitrag „Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literaturwissenschaft“ (vgl. Art. Nr. 3) die Anfänge der quantitativen Linguistik (QL) in Russland aus chronologischer Sicht vom 19. Jh. bis in die dreißiger Jahre des 20. Jh.s behandelt wurden, konzentriert sich der vorliegende Beitrag auf die Entwicklung dieser Disziplin in der UdSSR im Zeitraum von 1956 bis 1962. (Der Begriff Quantitative Linguistik hat sich im deutschsprachigen Bereich, ähnlich wie auch die Bezeichnung Quantitative Linguistics im Anglo-Amerikanischen, weitgehend etabliert. Im Russischen sind traditionell eher andere Bezeichnungen üblich, wie etwa lingvističeskaja statistika, lingvostatistika, statistika reči, statistika teksta. Insbesondere die beiden letzten Bezeichnungen weisen deutlich darauf hin, dass der Anwendungsbereich statistischer bzw. quantitativer Verfahren wesentlich breiter ausgerichtet und nicht nur auf linguistische Fragestellungen im engeren Sinne dieses Wortes beschränkt ist. Deshalb ist im vorliegenden Artikel die Bezeichnung Quantitative Linguistik in eben diesem breiteren Sinne zu verstehen.) Der angesprochene zeitliche Rahmen ergibt sich aus der Tatsache, dass gerade zu diesem Zeitpunkt die Weichen für eine nachhaltige und fruchtbare Entwicklung der quantitativen Linguistik in Russland bzw. der Sowjetunion gestellt wurden. Wie noch zu zeigen sein wird, ist diese Entwicklung K zumindest in den Anfängen K engstens mit der Diskussion um strukturalistische, kybernetische und semiotische Methoden sowie mit
Fragen der maschinellen Übersetzung und der Anwendung mathematischer Methoden in der Sprachwissenschaft verbunden. An dieser Stelle sei auf zentrale Nachschlagewerke und Bibliographien zu diesem allgemeinen Themenbereich verwiesen: die umfassenden Bibliographien „Strukturnoe i prikladnoe jazykoznanie. Bibliografičeskij ukazatel’ literatury, izdannoj v SSSR s 1918 po 1962 g.“ [Z Strukturelle und angewandte Sprachwissenschaft. Bibliographisches Verzeichnis der in der UdSSR von 1918 bis 1962 herausgegebenen Literatur] (1965) und den nachfolgenden Band unter dem Namen „Obščee i prikladnoe jazykoznanie. Ukazatel’ literatury, izdannoj v SSSR s 1963 po 1967 god“ [Z Allgemeine und angewandte Sprachwissenschaft. Bibliographisches Verzeichnis der in der UdSSR in den Jahren 1963 bis 1967 herausgegebenen Literatur] (1972); weiterhin von unmittelbarer Relevanz sind vor allem die Überblicksartikel von Eimermacher (1971) zum Strukturalismus in der Literaturwissenschaft, die allgemeine Arbeit von Segal (1974) zum Strukturalismus in den philologischen Disziplinen, der Beitrag von Jachnow (1971) zum Strukturalismus in der Sprachwissenschaft, sowie die Monographie von Seyffert (1985) über den Strukturalismus in der Literaturwissenschaft unter besonderer Berücksichtigung der sowjetischen Strukturalismusdebatten in der Sprachwissenschaft und Literaturwissenschaft. Für die bibliographische Erschließung des zur Diskussion stehenden Zeitraums sind im Hinblick auf das relevante Material vor allem die folgenden Quellen von besonderer Bedeutung: (a) Zwei Arbeiten von Ermolenko (1967; 1970) mit dem Titel „Tematičeskaja bibliografija rabot po lingvističeskoj statistike na russkom jazyke“ bzw. „Lingvističeskaja statistika. Kratkij očerk i bibliografičeskij ukazatel’“, (b) die umfassende Bibliographie von Čižakovskij/Bektaev (1986) „Statistika reči 1957K1985“, (c) darstellende Arbeiten zur mathematischen (bzw. quantitativen) Linguistik von Papp (1964; 1966), ein Beitrag von Spitzbardt (1967) zur Entstehung der
66
I. Allgemeines / General
Sprachstatistik in der Sowjetunion, die thematische Bibliographie von Kempgen (1995) sowie sein Überblick zur russischen quantitativen Linguistik unter dem Titel Quantitative Aspekte (Kempgen 1999). Die eingangs angesprochene Fokussierung der vorliegenden Überblicksdarstellung auf den Zeitraum von 1956 bis 1962 ist primär dadurch motiviert, dass die QL in der Sowjetunion in eben diesem zeitlichen Rahmen einen enormen Aufschwung erfährt. Dabei wird zum Teil an die seit dem 19. Jh., vor allem seit Anfang des 20. Jh.s geleistete Arbeit angeknüpft, die jedoch ungeachtet der Breite der verschiedenen Ansätze und trotz des vielfältigen Reichtums quantitativer Untersuchungen im Bereich von Sprachund Literaturwissenschaft zu keinerlei Institutionalisierung geführt hatten. Genau das aber geschieht in dem zeitlichen Abschnitt zwischen 1956K62, weshalb bei dessen Aufarbeitung eine Reihe von Aspekten von besonderer Bedeutung und insofern im Folgenden detaillierter darzulegen sind: Vor dem Hintergrund der Tatsache, dass sich auf wissenschaftspolitischer Ebene für die sowjetische Linguistik eine spezifische Verflechtung von wissenschaftsexternen (ideologisch-politischen) und inhaltlichen Forderungen zeigt, erscheint es notwendig, den Status der quantitativen Linguistik in dieser Hinsicht näher zu untersuchen. Es kann davon ausgegangen werden, dass der quantitativen Linguistik ab 1956 ein von offiziell-staatlicher Seite förderungswürdiger Status zuerkannt wird, was sich anhand folgender Faktoren nachweisen lässt: (a) den in diesen Jahren publizierten programmatischen Artikeln zur inhaltlichen Richtung der sowjetischen Linguistik, in denen auch und gerade der quantitativen Linguistik eine besondere Rolle zugesprochen wird; (b) der nachhaltigen Förderung und Organisation von wissenschaftlichen Konferenzen und Symposien mit quantitativen sprachwissenschaftlichen Schwerpunkten, (c) der Schaffung von entsprechenden Publikationsorganen, und (d) an der Institutionalisierung und Verankerung der quantitativen Linguistik im offiziellen sowjetischen Wissenschaftsbetrieb in Form der Gründung von ent-
sprechenden Instituten und Institutionen. Unter Berücksichtigung des wissenschaftshistorischen Rahmens ist davon auszugehen, dass bis ca. 1962 die wichtigsten Weichen der weiteren produktiven Entwicklung der sowjetischen quantitativen Linguistik gelegt worden sind. Deshalb scheint es im Hinblick auf die durchaus umfangreichen quantitativen Untersuchungen der sowjetischen Linguistik überaus angebracht, eine detaillierte Analyse der quantitativen Neuanfänge und Weiterentwicklungen im genannten Zeitraum zu präsentieren.
2.
Wissenschaftsgeschichtlicher Rahmen von quantitativen Forschungen in der Sprachwissenschaft
Mit dem Erscheinen der populärwissenschaftlichen Monographie „Za marksistskoe jazykoznanie“ von E. D. Polivanov (1931) und der darauf folgenden verschärften Diskussion um die Konzeptionen einer marxistischen Sprachwissenschaft setzte sich in der damaligen sowjetischen Linguistik als die im Grunde genommen einzige diskutierbare Richtung die sogenannte Neue Lehre des Kaukasiologen N. Ja. Marr durch. Die Monographie von Polivanov ist vor allem deshalb erwähnenswert, weil hier unter dem Titel „I matematika možet byt’ poleznoj .“ (Polivanov 1931, 173 ff.) ein offensichtlich letzter programmatischer Beitrag zur Frage der Anwendung von mathematischen (quantitativen) Methoden in der Sprachwissenschaft im Sinne einer exakten Wissenschaft zu finden ist. Konkret ist das Interesse von Polivanov dabei auf die Anwendung von mathematischen Methoden in der experimentellen Phonologie, der deskriptiven Statistik, in der Dialektologie und der auf wahrscheinlichkeitstheoretischen Annahmen basierenden etymologischen Untersuchung ausgerichtet. Im Anschluss daran ist eine über 20 Jahre dauernde Phase im Lichte der erwähnten Marr’schen Neuen Lehre (wie die Japhetitische Theorie und Überbautheorie der Sprache genannt wurde) zu konstatieren. Ein direkter Eingriff in Fragen der Sprachwissenschaft in Form einer Diskussion und Verwerfung der Neuen Lehre von N. Ja. Marr durch Stalin im Jahre 1950 bewirkt K wie nicht anders zu erwarten K noch keinen signifikanten
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 67
Neuaufbruch hinsichtlich der Methoden und Konzeptionen der sowjetischen Linguistik. Erst nach Stalins Tod im Jahre 1953 und im Zuge des XX. Parteitages der KPdSU und der damit zusammenhängenden Entstalinisierung und beginnenden Tauwetterperiode wird 1956 die wissenschaftsgeschichtlich wichtige und die weiteren Jahre beeinflussenden programmatische Schrift in der zentralen sprachwissenschaftlichen Zeitschrift Voprosy jazykoznanija (VJa) (1952 ff.) unter dem Titel: „O nekotorych aktual’nych zadačach sovremennogo sovetskogo jazykoznanija“ (1956, 3K13) veröffentlicht. Darin werden der Status quo und die Perspektiven der sowjetischen Linguistik diskutiert; es werden Forderungen nach einer notwendigen prinzipiellen Methodendiskussion in der Sprachwissenschaft erhoben und die Weichen für einen Neuanfang in der sowjetischen Linguistik gestellt. Neben einer allgemeinen Befürwortung der Beschäftigung mit exakten Methoden in der Sprachwissenschaft wird an dieser Stelle konkret auf die Notwendigkeit von strukturellen, mathematischen (statistischen) Methoden in der Sprachwissenschaft verwiesen. Bezeichnenderweise findet sich in diesem Artikel K unter dem Hinweis auf mehrere ausländische Arbeiten zur quantitativen Linguistik K die für die damalige Zeit bemerkenswerte Aussage, dass „Meždu tem v sovetskom jazykoznanii za poslednye gody ne pojavilos’ ni odnogo issledovanija po lingvističeskoj statistike.“ [Währenddessen in der Sowjetunion in den letzten Jahren keine einzige Untersuchung zur linguistischen Statistik publiziert worden ist.] (vgl. „O nekotorych aktual’nych zadačach sovremennogo sovetskogo jazykoznanija“ 1956, 6). Eine derartige Aussage ist nicht ausschließlich als geschichtliches Resümee zu verstehen; sie spiegelt in gewisser Weise auch den Wunsch der sowjetischen Linguistik, nach einer ca. 20-jährigen Unterbrechung den Anschluss an aktuelle linguistische Strömungen vor allem auch auf internationaler Ebene (wieder) zu erlangen. Global bewertet kann dieser programmatische Artikel aus dem Jahre 1956 somit zumindest als Startpunkt für die weitere (und im folgenden darzustellende) turbulente Diskussion um strukturelle und mathematische Methoden in der Linguistik angesehen werden. So bilden sich bis Ende der fünfziger Jahre erste Strömungen und Schulen eines sowjetischen Strukturalismus heraus, die ge-
nügend Platz und Foren für die Diskussion vor allem sprachwissenschaftlicher Fragestellungen im Lichte mathematischer und quantitativer Methoden zulassen. In einem etwas erweiterten Bezugsrahmen werden dann die quantitativen Studien dieser Frühphase (aus der letztendlich auch eine allmähliche Etablierung der quantitativen Linguistik resultiert) im Kontext verschiedener wissenschaftlicher Disziplinen und Richtungen zu bewerten sein, insbesondere jedoch im Zusammenhang mit: (a) auf strukturalistischen Methoden basierenden Forschungen in der Linguistik und Literaturwissenschaft, (b) der sich in den fünfziger Jahren rasant entwickelnden maschinellen (automatischen) Übersetzung, und (c) der innerhalb der Sowjetunion ab Mitte der fünfziger Jahre rehabilitierten Kybernetik sowie der sich entwickelnden Semiotik.
3.
Quantitative Methoden im Kontext des Strukturalismus
Ausgehend von den einleitend dargestellten Überlegungen ist ab Mitte der fünfziger Jahre ein methodologischer und inhaltlicher Neuanfang innerhalb der sowjetischen Linguistik zu konstatieren. Für die Entwicklung der mathematischen Linguistik ist K wie z. B. auch Papp (1966, 38) betont K festzustellen, dass die Fragen der Mathematisierung und Quantifizierung der Sprachwissenschaft in dieser Anfangsphase im engen Kontext der Strukturalismusdebatten zu Mitte bis Ende der fünfziger Jahre äußerst intensiv diskutiert werden. Im Folgenden soll daher einerseits in der gebotenen Kürze diese Diskussion um die Anwendung von strukturellen (und zugleich mathematischen und statistischen) Methoden der Linguistik, andererseits der wissenschaftshistorische Rahmen (Gründung von sprachwissenschaftlichen Institutionen, Organisation von Konferenzen) dargestellt werden. Als zentrale Eckpunkte der Strukturalismusdebatten Mitte bis Ende der fünfziger Jahre sind folgende Ereignisse und Publikationen zu nennen: (a) die Konferenz zur synchronen und diachronen Analyse von Sprachen aus dem Jahre 1957 (vgl. dazu die Publikation „O sootnošenii sinchronogo ana-
68 liza i istoričeskogo izučenija jazykov“, 1960), (b) die aus der oben genannten Synchronie-Konferenz resultierende dogmatische Schrift „Teoretičeskie voprosy jazykoznanija. Vvedenie“ (Budagov/Vinogradov/Gornung et al. 1959), (c) der Beschluss der Akademiekommission „Literatur und Sprache“ mit dem Titel „O rabotach po strukturnomu analizu jazyka“ aus dem Jahr 1959 (vgl. „O rabotach po strukturnomu analizu jazyka: Rešenie Bjuro Otdelenija literatury i jazyka ot 7K8 ijulja 1959 g“ 1960). Es ist hier nicht der Ort, im Detail auf den philosophischen und wissenschaftstheoretischen Hintergrund dieser Diskussion in Bezug auf strukturelle Methoden einzugehen K vgl. dazu exemplarisch die entgegengesetzten Standpunkte von Reformatskij (1960) oder Šaumjan (1956) bzw. Gornung (1960) K, sondern vielmehr die Position der mathematischen (quantitativen) Methoden innerhalb dieser Debatten näher zu beleuchten. Bereits auf der sogenannten Synchronie/ Diachronie-Konferenz 1957 hatte Vjač. Vs. Ivanov (1960, 79) gegenüber den restriktiven Opponenten von strukturellen Methoden (wie etwa Gornung 1960 oder Abaev 1960) damit argumentiert, dass besonders mathematische Methoden im Lichte von informationstheoretischen Untersuchungen ein strukturelles und exaktes Vorgehen bei der Analyse von sprachlichen Phänomenen erfordern. Wissenschaftsgeschichtlich bewirkte diese Konferenz K so sieht es auch Seyffert (1985, 100) K zwar eine Ablehnung der theoretischen Grundlagen des Strukturalismus, dennoch aber war damit eine wichtige Rezeption von strukturellen Methoden zu verzeichnen. Eine Gegenreaktion auf die bei der Synchronie/Diachronie-Konferenz 1957 recht pluralistisch geführte Methodendiskussion in der Sprachwissenschaft ließ jedoch nicht lange auf sich warten. Die allgemein als eine marxistische Doktrin angesehene Programmschrift „Teoretičeskie voprosy jazykoznanija. Vvedenie“ (Budagov/Vinogradov/ Gornung et al. 1959) brachte einen zwar mehr polemischen als argumentativ ausgerichteten Widerstand gegenüber strukturellen Methoden und die Forderung nach einer nicht näher spezifizierten, so genann-
I. Allgemeines / General
ten marxistischen Sprachwissenschaft. Diese restriktive Ablehnung von neuen, d. h. strukturellen Methoden ruft jedoch, wie dies in der Einleitung zum veröffentlichten Akademiebeschluss „O rabotach po strukturnomu analizu jazyka“ aus dem Jahr 1959 von Gornung (1960, 6 ff.) unter dem Titel „Obsuždenie voprosa o strukturnych metodach v jazykoznanii i o matematičeskoj i prikladnoj lingvistike“ erwähnt ist K eine ganze Reihe von Kritikern auf den Plan. Bemerkenswerterweise wird nun aus pro-strukturalistischer Sicht K wobei die Ansichten von Šaumjan (1960, 71K74) als grundlegend für die weitere Positionierung von mathematischen (quantitativen) Methoden referierend dargestellt werden können K folgendermaßen argumentiert: Mit aller Vehemenz werden einerseits die theoretischen Grundlagen von strukturellen Methoden verteidigt, andererseits wird jedoch auch auf die praktische Relevanz einer derartigen Vorgehensweise verwiesen. Es wird betont, dass die strukturelle Linguistik, die auf das Engste mit der Kybernetik verbunden ist und auf der Anwendung von mathematischen Methoden aufbaut, bei der Lösung einer Reihe von praktischen Aufgaben (wie der maschinellen Übersetzung, der automatischen Informationsverarbeitung u. a.) von immenser Bedeutung ist und daher eine zentrale Position innerhalb der sowjetischen Linguistik einnehmen muss. In ähnlicher Weise zeigt sich dies dann auch in der für das Ende der fünfziger und den Anfang der sechziger Jahre repräsentativen Programmschrift „O rabotach po strukturnomu analizu jazyka“ (1960). Abgesehen von der allgemeinen Verurteilung der philosophischen Grundlagen des Strukturalismus wird dennoch die Anwendung von strukturellen Methoden unter besonderer Berücksichtigung von mathematischen und mathematisch-statistischen Methoden für die Lösung von praktischen Aufgaben (maschinelle Übersetzung, Frage der technischen Optimierung von Kommunikationsübertragung, automatisierte Informationsund Sprachverarbeitung) zugelassen (O rabotach po strukturnomu analizu jazyka 1960, 75 ff.). Daneben werden noch eine Reihe von administrativen Beschlüssen getroffen, die eine Re-Strukturierung des sprachwissenschaftlichen Betriebs in der Sowjetunion betreffen. Insbesondere ist an dieser Stelle die Schaffung der Lehrstühle für strukturelle/
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 69
theoretische und angewandte Sprachwissenschaft an der Moskauer Staatlichen Universität (MGU) im Jahr 1960 zu nennen (vgl. Kibrik 2001). Dieser Umstand ist insofern von Bedeutung, als auf der philologischen Fakultät der MGU ein Seminar unter dem Titel „Nekotorye primenenija matematičeskich metodov v jazykoznanii“ [Einige Anwendungen von mathematischen Methoden in der Sprachwissenschaft] bereits ab dem Jahr 1956 unter der Federführung des Mathematikers V. A. Uspenskij und der Sprachwissenschaftler Vjač. Vs. Ivanov und P. S. Kuznecov zur Mathematisierung und Quantifizierung von linguistischen Fragestellungen gehalten wurde. Wie aus der Beurteilung von Uspenskij (1993, 122) hervorgeht, muss diesem Seminar eine hervorragende Rolle bei der Entwicklung der sowjetischen strukturellen Linguistik (unter besonderer Berücksichtigung von formalen Methoden, Mathematik und Statistik) beigemessen werden. Parallel zu dieser Moskauer Entwicklung wird an der damaligen Leningrader Staatlichen Universität (LGU) unter der Leitung von L. R. Zinder 1958 eine „Otdelenie strukturnoj lingvistiki“ [Abteilung für strukturelle Linguistik] geschaffen, welche vorrangig mit der statistischen Analyse von Sprache für praktische Bedürfnisse beschäftigt war (vgl. Gerd 1993). Dies ist dann u. a. auch die Basis für den im Jahre 1962 geschaffenen, offensichtlich in der Sowjetunion ersten Lehrstuhl für mathematische Linguistik, die K wie es die Arbeiten von MitarbeiterInnen aus dieser Zeit zeigen (vgl. Zinder 1957; Zinder 1958; Belousova 1964; Zasorina 1966) K in umfassender Weise auch die Behandlung von Fragen der quantitativen Linguistik einschließt. Des Weiteren kommt es K worauf im Folgenden noch näher einzugehen sein wird K zur institutionellen Förderung der maschinellen Übersetzung (s. u.) und zur Gründung des „Sovet po kibernetike“ [Rates für Kybernetik] unter der Leitung des Kybernetikers A. I. Berg, dem eine bedeutende Rolle bei der Etablierung von strukturellen und mathematischen Methoden in der Sprachwissenschaft zugewiesen wird (vgl. Ivanov 1998). Aus den bislang dargelegten Überlegungen zum äußeren wissenschaftsgeschichtlichen Rahmen ergibt sich somit die Schlussfolgerung, dass die Annahme und Institutionalisierung von strukturellen und mathema-
tisch-statistischen Methoden in der Sprachwissenschaft auf eine allmähliche Akzeptanz vor allem unter dem Hinweis auf die praktische Verwertbarkeit dieser Ideen hindeutet (vgl. Grigor’ev 1960). In Anbetracht der allgemein politischen und damit auch wissenschaftspolitischen Klimaveränderungen kam es ab Mitte bzw. Ende der fünfziger Jahre jedoch nicht nur zu allgemeinen Diskussionen wie etwa über den Strukturalismus u. a., sondern es änderten sich auch die institutionellen Voraussetzungen, was sich insbesondere in der Organisation von Fachtagungen sowie der Gründung relevanter Institutionen und Publikationsorgane äußerte. Im folgenden Kapitel werden deshalb als Nächstes anhand von Konferenzen zur mathematischen (quantitativen) Linguistik, die in den fünfziger Jahren und Anfang der sechziger Jahre stattfanden, einige Arbeiten und Perspektiven dieser Forschungsdisziplin vorgestellt.
4.
Konferenzen zur mathematischen (quantitativen) Linguistik 1957K1960
Parallel zu den universitären Anfängen der mathematischen (quantitativen) Linguistik wird in Leningrad vom 1.K4. Oktober 1957 die Konferenz „Soveščanie po statistike reči“ [Konferenz zur Sprachstatistik] von der Leningrader Sektion der Akustikkommission der Sowjetischen Akademie der Wissenschaften und der Leningrader Staatlichen Universität organisiert. Wie aus dem Titel ersichtlich ist, werden an dieser Stelle offensichtlich erstmals institutionell verankert im Rahmen einer größeren Konferenz in der Sowjetunion ausschließlich Fragen der statistischen Analyse der Sprache behandelt. Aus dem im darauf folgenden Jahr 1958 erschienenen Sammelband zu dieser Konferenz unter dem Namen „Voprosy statistiki reči (materialy soveščanija)“ [Fragen der Sprachstatistik (Konferenzmaterialien)] (1958) lässt sich ein recht gutes Gesamtbild der damals diskutierten Fragestellungen der quantitativen Linguistik rekonstruieren: Neben der allgemeinen Betonung der praktisch-technischen Relevanz von statistischen Untersuchungen von Varšavskij (1958), der Optimierung der automatischen Signalübertragung (Železnov 1958) und der Frage der auf Wahrscheinlichkeiten basierenden Er-
70 kennung von Phonemvarianten (Čistovič 1958) wird auf dieser Konferenz vor allem auch die theoretische Rolle der quantitativen Linguistik in besonderer Weise betont. So weist Revzin (1958, 45) darauf hin, dass die sowjetische QL an bestimmte Traditionen und Arbeiten bei F. F. Fortunatov und M. N. Peterson anknüpfen kann; nach resümierenden Zusammenfassungen verschiedener ausländischer Arbeiten zur quantitativen Linguistik (G. K. Zipf; G. U. Yule; B. Mandelbrot; P. Guiraud und P. Menzerath) gelangt er zu dem Schluss, dass strukturelle Linguistik und quantitative Methoden einander bedingen (vor allem die exakte Definition von Spracheinheiten und strukturelle Betrachtung sind die Grundvoraussetzungen der Quantifizierung), und dass nur das Zusammenspiel beider Herangehensweisen es ermögliche, aktuelle Fragen der Sprachwissenschaft zu lösen (vgl. Revzin 1958, 55). In ähnlicher Weise plädiert Ivanov (1958a) auf dieser Konferenz in Hinblick auf den oben behandelten Methodenstreit für die Ausweitung von statistischen Methoden auf das Gebiet von historisch-vergleichenden Untersuchungen und diskutiert sodann die Frage von Wahrscheinlichkeitsmodellen bei der Rekonstruktion sprachlicher Fakten. Des Weiteren werden auf dieser Konferenz Überlegungen von Padučeva (1958) zur Rolle der Entropie bei der Bestimmung von Silbengrenzen, die Erstellung und Notwendigkeit von Häufigkeitswörterbüchern (Volockaja/Šelimova/Šumilina et al. 1958), und die Notwendigkeit der Ausweitung von statistischen Untersuchungen auf die lexikalische Ebene unter Hinweis auf das Zipf’sche Gesetz diskutiert (Piotrovskij 1958). Die Konferenz zu Fragen der Sprachstatistik zeichnete sich durch eine enorme Resonanz aus (vgl. Uspenskij 1958). Daraus erfolgt unmittelbar die Einrichtung eines Komitees für angewandte Sprachwissenschaft im Rahmen der akustischen Sektion der Sowjetischen Akademie der Wissenschaften (vgl. Ivanov 1958b). Damit wird mathematischen und statistischen Methoden ein weiteres Mal auch von offizieller Seite die praktische Notwendigkeit eines derartigen Vorgehens beigemessen. Für die sogenannte statistische Linguistik werden dabei als Hauptaufgaben die Erstellung von Häufigkeitswörterbüchern, die Untersuchung der statistischen Struktur von Wort und Silbe, sowie weitere Forschungen zur sogenannten phonetischen Statistik genannt.
I. Allgemeines / General
Bereits zwei Jahre später (15.K21. April 1959) wird unter Federführung des eben erwähnten Komitees unter der Leitung von N. D. Andreev und der LGU die „I. Vsesojuznoe soveščanie po matematičeskoj lingvistike“ [I. Allunionskonferenz zur mathematischen Linguistik] organisiert. Diese Konferenz stellt nicht nur aufgrund der Teilnahme von 486 Wissenschaftlern aus 68 unterschiedlichen Institutionen (vgl. Lomkovskaja 1959) einen Meilenstein der sowjetischen Sprachwissenschaft dar; von besonderer Bedeutung ist vielmehr, dass der Begriff der mathematischen Linguistik erstmals eine überaus breite inhaltliche Auffassung erfährt. Diskutiert werden in diesem Zusammenhang Fragen von mathematischen Modellen der Sprache, der Erstellung von Algorithmen für die maschinelle Übersetzung, der Bedeutung von künstlichen Sprachen, der automatisierten Informationsverarbeitung, der Anwendung von statistischen Analysen in der Linguistik, u. a. m. Die Beiträge dieser Konferenz zeichnen sich vor allem dadurch aus, dass sie in programmatischer Weise die inhaltliche Entwicklung der quantitativen Linguistik in der Sowjetunion der sechziger Jahre in gewisser Weise vorwegnehmen: So betont V. N. Toporov (1959a; 1959b) die grundsätzliche Bedeutung der Wahrscheinlichkeit in der Linguistik und verweist allgemein auf die stochastischen Beschränkungen sprachlicher und semiotischer Systeme. In ähnlicher Weise präsentieren Zolotarëv (1959) und Frumkina/Zolotarëv (1959) erste grundsätzliche Überlegungen zur Einheit „Satz“, wobei dessen konstituierende Einheiten als Zufallsprozesse aufgefasst werden und sich sodann mit Hilfe von statistischen Verteilungsmodellen beschreiben lassen. Weiter werden die kombinierte Anwendung von mengentheoretischen und statistischen Konzeptionen bei der Modellierung von Sprache (vgl. Andreev 1959), die Frage der Stichprobengröße bei der Erstellung von Häufigkeitswörterbüchern (vgl. Frumkina 1959), oder die Vorkommenshäufigkeit von Leerstellen in Texten und deren theoretische Modellierung auf Grundlage der Poisson-Verteilung (vgl. Gačečiladze/Cercvadze/Čikodze 1959) diskutiert. Präsentiert wird auch das weiterhin in den sechziger und siebziger Jahren innerhalb der Informationstheorie ausgearbeitete Konzept der Entropie (Dobrušin/Jaglom 1959; Jaglom/Dobrušin/Jaglom 1960) und die Frage der Entropie auf Wortebene
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 71
(Piotrovskij 1959; Piotrovskaja/Piotrovskij/ Razživin 1962). Für die Entwicklung der quantitativen Linguistik ist ebenfalls auf das bedeutende Symposium von Černovcy (22.K28. September 1960) zur strukturellen und mathematischen Linguistik zu verweisen. Nach Uspenskij (1993) ist diese Konferenz die logische Fortsetzung der bisherigen Konferenzen, da sie sich vor allem durch eine vertiefte Theoriebildung auszeichnete. Entgegen der Ankündigung im Tagungsbericht von Širokov (1961) sind die Beiträge zu dieser Konferenz offensichtlich jedoch nie publiziert worden. Immerhin eignet sich eben dieser Tagungsbericht als Ausgangspunkt für eine resümierende Zusammenfassung der dort diskutierten Ergebnisse. Ähnlich wie bei den vorangehenden Konferenzen werden Fragen der statistischen Linguistik im weiteren Kontext von struktureller und angewandter Linguistik diskutiert. Dennoch stehen K wie Širokov (1961, 156 ff.) es darstellt K statistische Analysen von Sprache im Mittelpunkt der Konferenz; diese reichen von der Vorstellung von Häufigkeitswörterbüchern des Russischen, Fragen der quantitativen Stilanalyse bis zu Überlegungen einer quantitativen Sprachtypologie. Da die einzelnen Untersuchungen offensichtlich nicht publiziert worden sind, folgt an dieser Stelle die exemplarische Darstellung zweier Arbeiten, die ebenfalls im Rahmen dieser Konferenz präsentiert wurden, aber an anderer Stelle erschienen sind: Während Piotrovskij (1960) die Frage der distinktiven Valenz von Phonemen mit Hilfe von Korrelationsanalysen zu lösen versucht, problematisiert Frumkina (1960) das Problem der Anwendung von statistisch-wahrscheinlichkeitstheoretischen Methoden in der Linguistik und plädiert aufgrund der unzureichenden Methoden der qualitativen Linguistik für einen Ausbau der Sprachtheorie auf der Grundlage von statistischen Gesetzen. Somit kann K zumindest exemplarisch anhand dieser drei Konferenzen (Leningrad 1957; Leningrad 1959; Černovcy 1960) und der vorangehenden Bemerkungen zum Kontext von statistischen Methoden innerhalb der Strukturalismusdebatten K für die Entwicklung der quantitativen Linguistik bislang Folgendes zusammenfassend festgehalten werden: Von Anfang an stehen Versuche und Ansätze zur Quantifizierung von Sprache im engen Kontext von in der Sowjet-
union aufkommenden strukturellen Methoden. Während theoretische Ansätze des Strukturalismus aus dogmatisch-offizieller Sicht nicht gutgeheißen werden, kann für die sich entwickelnde (mathematische) statistische Linguistik gewissermaßen eine Sonderposition konstatiert werden. Unter Hinweis auf die wissenschaftliche und technische Relevanz von zu lösenden sogenannten angewandten Problemen werden K ausgehend von der strukturellen Analyse, die mit der exakten Definition von Spracheinheiten verbunden ist K insbesondere mathematische und statistische Methoden von offizieller Seite offensichtlich besonders gefördert. Daneben ist auch zu beobachten, dass von der anfänglichen eher technisch orientierten statistischen Sprachanalyse die Quantifizierung von Sprache inhaltlich allmählich auf verschiedene Sprachebenen (Phonem, Wort, Satz, Lexik) ausgedehnt wird. Weiterhin gibt es auch eine Reihe von theoretischen Anmerkungen zur Bedeutung von wahrscheinlichkeitstheoretischen Ansätzen in der Linguistik. Insofern kann man davon ausgehen, dass gerade in den fünfziger Jahren im Kontext des aufkommenden Strukturalismus die Grundsteine der sowjetischen quantitativen Linguistik gelegt worden sind.
5.
Quantitative Untersuchungen im Kontext der maschinellen Übersetzung
Seit etwa Mitte der fünfziger Jahre wird K bedingt durch die externe Neustrukturierung der Sprachwissenschaft und der neu entstandenen praktischen und technischen Bedürfnisse K die sogenannte maschinelle Übersetzung von Texten massiv gefördert und propagiert. Ohne an dieser Stelle genauer auf die interessante Frühgeschichte der maschinellen Übersetzung in der Sowjetunion bzw. Russland im Einzelnen eingehen zu können, sei an dieser Stelle auf Hutchins (2000) mit Beiträgen zur Entwicklung der sowjetischen maschinellen Übersetzung von Kulagina (2000), Mel’čuk (2000), Mološnaja (2000) und Piotrovskij (2000), sowie auf die entsprechenden Anmerkungen von Revzin (1997) verwiesen. Gerade die maschinelle Übersetzung ist als ein nicht wegzudenkender Stimulus für die Entwicklung der mathematischen und quantitativen Linguistik anzusehen, da eine der Grundan-
72 nahmen in diesem Bereich die Annahme beinhaltet, dass die Anwendung von formalen Methoden unabdingbar ist. So ist es auch nicht weiter verwunderlich, dass neben der Erstellung von Algorithmen und mengentheoretischen Konzeptionen auch die statistische Beschreibung von Sprache in dieser praktisch ausgerichteten Disziplin der maschinellen Übersetzung diskutiert und angewandt wird. Betrachtet man die maschinelle Übersetzung auch auf institutioneller Ebene als Ausgangspunkt für weiterführende quantitative Forschungen, so sind als zentrale Plattformen und Institutionen unter Berücksichtigung von quantitativen Methoden insbesondere die folgenden zu nennen: (a) Aus wissenschaftshistorischer Sicht wird der informellen Vereinigung „Ob’’edinenie po mašinnomu perevodu“ [Vereinigung für maschinelle Übersetzung] an der 1. Moskauer Staatlichen Pädagogischen Universität für Fremdsprachen unter organisatorischer Leitung von V. Ju. Rozencvejg eine bedeutende Rolle bei der Einführung und Förderung der maschinellen Übersetzung unter Zuhilfenahme von formalen Methoden zugestanden K vgl. Uspenskij (1993, 130 ff.), Mel’čuk (1998, 368), Ivanov (1998, 329). Wie noch näher zu zeigen sein wird, liegt in der Hand von Rozencvejg die Organisation von wissenschaftlichen Konferenzen (beispielsweise die Moskauer Konferenz zur maschinellen Übersetzung von 1958, vgl. „Tezisy konferencii po mašinnomu perevodu“ 1958). Rozencvejg ist auch verantwortlich für die programmatische Vorstellung erster Ergebnisse der sowjetischen maschinellen Übersetzung auf dem IV. Internationalen Slawistenkongress in Moskau (vgl. Rozencvejg 1958). Von zentraler Bedeutung für die Anfangsphase der maschinellen Übersetzung ist die Herausgabe der Zeitschrift „Bjulleten’ ob’’edinenija po mašinnomu perevodu“ [Bulletin der Vereinigung für maschinelle Übersetzung], die zuerst (1957K1959) unter diesem Namen erschien, und von der dann in den Jahren 1959K1980 unter dem Titel „Mašinnyj perevod i prikladnaja lingvistika“ [Maschinelle Übersetzung und angewandte Linguistik] 20 Bände herauskamen. Diese Zeitschrift spielte eine wichtige Rolle bei der Etablierung der quantita-
I. Allgemeines / General
tiven Linguistik und diente als Plattform für zahlreiche Publikationen auf diesem Gebiet. (b) Als weiteres Zentrum der maschinellen Übersetzung bildete sich bereits ab 1954 im Rahmen des Mathematischen Steklov-Instituts der Sowjetischen Akademie der Wissenschaften eine Gruppe von WissenschaftlerInnen (I. A. Mel’čuk; T. N. Mološnaja; O. S. Kulagina), die sich mit Fragen der Formalisierung von Sprachen beschäftigte. Als weitere Zentren für maschinelle Übersetzung und der Anwendung von quantitativen Methoden (Uspenskij 1993, 137 ff.) sind das Institut „Točnoj mechaniki“ und „Vyčislitelnoj techniki“ [Institut für Feinmechanik und Informatik] und das „Laboratorija ėlektromodelirovanija“ [Labor für elektronische Modellierung] zu nennen. Wie Kulagina (2000, 200) betont, war der Leiter dieser Gruppe, der Mathematiker A. A. Ljapunov (1911K 1973) ausdrücklich von der Wichtigkeit der Analyse der statistischen Struktur der Sprache (Häufigkeitsverteilungen linguistischer Einheiten) für die maschinelle Übersetzung überzeugt. Repräsentativ für den Status der quantitativen Linguistik innerhalb der maschinellen Übersetzung ist an dieser Stelle die Arbeit von Mel’čuk (1958) zu nennen, in der es um die Bestimmung des Kasus und der Kasusendungen von französischen Nomina auf der Basis statistischer Analysen geht. (c) In Leningrad/Sankt Petersburg entsteht im März 1958 das durch N. D. Andreev (1920K1997) gegründete „Ėksperimental’naja laboratorija mašinnogo perevoda“ [Experimentelle Laboratorium für maschinelle Übersetzung] (vgl. Piotrovskij 2000, 234), ein weiteres Zentrum für maschinelle Übersetzung. Die Ergebnisse der Leningrader Arbeiten aus den Jahren 1956K1958 sind in den „Materialy po mašinnomu perevodu“ (1958) zu finden. Abgesehen von theoretischen Arbeiten wie denen von Ivanov (1958c) und Andreev (1958), in denen es um die Frage einer linguistischen Metasprache geht, oder der Studie von Steblin-Kamenskij (1958) zur Rolle der maschinellen Übersetzung in der nachmarristischen Ära, sind darin hauptsächlich Überlegungen zur Erstellung von Algorithmen zu finden. Von Rele-
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 73
vanz für die QL sind in diesem Zusammenhang die Arbeiten von Leningrader WissenschaftlerInnen, die im unmittelbaren Zusammenhang mit dem oben erwähnten Laboratorium stehen: So beschäftigt sich Andreev (1959) mit theoretischen Fragen der Anwendung der Statistik und Kombinatorik auf sprachwissenschaftliche Fragestellungen (Erstellung von Algorithmen) sowie mit der Frage statistischer Gesetzmäßigkeiten in Texten (vgl. Andreev 1959; Andreev/Zinder 1963). Später erfahren diese Überlegungen zu einer statistischkombinatorischen Sprachbeschreibung eine Erweiterung auf Fragen der Morphologie, Syntax und Lexik, die allesamt in Sammelbänden erschienen sind (vgl. Andreev 1965; Andreev 1967; Andreeva 1969). Das erwähnte Laboratorium kann als Vorläufer des im Jahre 1962 gegründeten Lehrstuhls für mathematische Linguistik der LGU angesehen werden (vgl. Gerd 1993, 4 ff.). Neben der allgemeinen wissenschaftsgeschichtlichen Bedeutung des IV. Internationalen Slawistenkongresses in Moskau, die u. a. in der Überwindung der langjährigen Isolation von der internationalen Wissenschaftsszene zu sehen ist und sich nicht zuletzt in der aktiven Teilnahme des mittlerweile ja in den USA lebenden und lehrenden Roman Jakobson äußert, zeigt sich auf inhaltlicher Ebene eine gegenseitige Verflechtung exakter Methoden in der Linguistik, in der maschinellen Übersetzung und mathematischen (quantitativen) Linguistik. So plädiert der bereits erwähnte Rozencvejg (in ähnlicher Weise wie dies bereits bei der wechselseitigen Verbindung von Strukturalismus und mathematischer Linguistik festgestellt werden konnte) für eine weitere Ausweitung und Anwendung von streng formalen Methoden, d. h. für eine exakte Definition von linguistischen Einheiten, die für Zwecke der maschinellen Übersetzung angewendet werden können. Des Weiteren wird auf die wahrscheinlichkeits- und informationstheoretischen Ansätze von A. N. Kolmogorov und A. A. Ljapunov verwiesen, und es werden explizit quantitative Methoden der Lexikographie (Erstellung von Häufigkeitswörterbüchern) gefordert (vgl. Rozencvejg 1958, 9). Somit werden bereits zu diesem Zeitpunkt die Weichen für die Richtung der sowjetischen quantitativen Linguis-
tik gestellt, die dann freilich K wie noch zu zeigen sein wird K erst in den sechziger und siebziger Jahren bewältigt wird. Ein weiterer Meilenstein in der Entwicklung der maschinellen Übersetzung und der damit im engen Zusammenhang stehenden Anwendung von quantitativen Methoden in der Sowjetunion ist die „Vsesojuznaja konferencija po mašinnomu perevodu“ [Allunions-Konferenz zur maschinellen Übersetzung], die im Jahr 1958 (15.K21. Mai) in Moskau stattfand. Die 61 Vorträge K die einzelnen Beiträge sind als Abstracts in den „Tezisy konferencii po mašinnomu perevodu“ (1958) publiziert K sind zum größten Teil Arbeiten und Konzeptionen von Algorithmen für die maschinelle Übersetzung aus den unterschiedlichsten Sprachen in das und aus dem Russischen. Daneben finden sich allerdings auch zahlreiche Beiträge, die unmittelbar von Relevanz für die Entwicklung der quantitativen Linguistik sind. Aus programmatischer Sicht wird K wie auch auf allen bisher vorgestellten Konferenzen K die Notwendigkeit der Anwendung von exakten Methoden in der Linguistik im Allgemeinen und bei der maschinellen Übersetzung im Speziellen hingewiesen (vgl. Rozencvejg/Revzin 1958). In diesem Zusammenhang sei auf Ivanov (1958d) verwiesen, der bei dieser Konferenz ein weiteres Mal die wissenschaftstheoretische Forderung nach der Ausarbeitung und Anwendung formaler Methoden unter Einschluss von wahrscheinlichkeitstheoretischen Überlegungen in der Sprachwissenschaft erhebt. Die integrative und bedeutende Rolle von Vjač. Vs. Ivanov (vgl. insbesondere Ivanov 1957; 1958a; 1958b; 1958c; 1958d; 1958e; 1958f) innerhalb der strukturellen und formalen Linguistik (unter besonderer Berücksichtigung der maschinellen Übersetzung, Semiotik und QL) in den fünfziger und sechziger Jahren wird an anderer Stelle (s. Kelih [in Vorb.]) detaillierter dargelegt. Außerdem findet sich eine offensichtlich erste wissenschaftsinterne Differenzierung der Methoden der so genannten formalen bzw. mathematischen Linguistik, denn sowohl bei Dobrušin (1958) als auch bei Ljapunov/Kulagina (1958) werden drei Richtungen unterschieden: (a) mengentheoretische Konzeptionen der Sprache, vor allem grammatischer Strukturen (formale Grammatiken)
74
I. Allgemeines / General
(b) informationstheoretische Untersuchungen der Semantik, und (c) die Anwendung von statistischen Methoden (linguistische Statistik). Betrachtet man die der linguistischen Statistik zuzuordnenden Beiträge, so kann man feststellen, dass vor allem in Hinblick auf die maschinelle Übersetzung die Erstellung von Häufigkeitswörterbüchern (Häufigkeit als linguistisch relevante Kategorie) in den Vordergrund gestellt wird (Udarceva 1958; Grigorjan 1958; Kotov 1958 und Frumkina 1958). Ohne an dieser Stelle weiter auf die wissenschaftsgeschichtliche Relevanz dieser Konferenz und deren Bedeutung für die maschinelle Übersetzung eingehen zu können (vgl. Rozencvejg 1959; Uspenskij 1959; Uspenskij 1993, 130 ff.), zeigt sich für die QL in erster Linie eine aus praktischen Überlegungen abgeleitete Propagierung quantitativer Methoden in der maschinellen Übersetzung. Dies zeigt sich vor allem auch daran, dass in der Tat den statistischen Methoden ein fester Platz innerhalb der Sprachwissenschaft zugewiesen wird. Wenn auch die vorgestellten Arbeiten zum Teil nur explorativen Charakters sind, so bestätigt sich ungeachtet dessen, dass auch und gerade die Diskussion um die maschinelle Übersetzung als ein wesentlicher Baustein bei der Herausbildung der sowjetischen quantitativen Linguistik anzusehen ist.
6.
Quantitative Untersuchungen im Kontext der Kybernetik und Semiotik
Die Entwicklung der quantitativen Linguistik steht wissenschaftshistorisch weiterhin in engem Zusammenhang mit der Entwicklung der Kybernetik und Semiotik, die sich mit Begriffen wie Systemtheorie, Steuerungsmechanismen in Systemen, Automatisierung von unterschiedlichen Prozessen, Informationstheorie und allgemeiner Zeichentheorie umreißen lassen. Abgesehen von der recht turbulenten Anfangsgeschichte (die Hintergründe der allmählichen Rehabilitierung bzw. die Anfänge der Kybernetik sind in Poletaev (1998) ausführlich dargelegt; des Weiteren ist darin auch der in diesem Kontext erwähnenswerte Disput im Jahre 1959 zwischen den naturwissenschaftlichen und humanitären Disziplinen (Streit der Physiker und Lyriker) ausführlich dargelegt,) dieser
Disziplin in der Sowjetunion K die Kybernetik wurde aus ideologischen Gründen als Pseudowissenschaft disqualifiziert K zeichnet sich ab der Mitte der fünfziger Jahre ein etwas anderes Bild ab: Neben einigen zentralen kybernetischen Abhandlungen, die zu dieser Zeit erstmals ins Russische übersetzt wurden (vgl. Wiener 1948; Ashby 1956) zeugen erste sowjetische Publikationen zu diesem Themengebiet von der Dynamik dieser wissenschaftlichen Disziplin (vgl. Jaglom/Jaglom 1957; Poletaev 1958; Poletaev 1962). Allgemeine Fragen der Herausbildung und Entwicklung der Kybernetik in der Sowjetunion sind in den unlängst erschienenen „Očerki istorii informatiki v Rossii“ (1998) erschöpfend dargestellt, so dass an dieser Stelle unmittelbar auf die stimulierende Rolle der Kybernetik und Semiotik für die QL eingegangen werden kann. Es ist offenbar nicht davon auszugehen, dass die statistische Analyse von sprachlichen Phänomenen an und für sich von unmittelbarer Bedeutung für die frühe Kybernetik gewesen ist. Vielmehr zeigt sich K wie auch aus dem Artikel von Kolmogorov (1958, 149 ff.) in der 2. Auflage der „Bol’šaja sovetskaja ėnciklopedija“ deutlich wird K dass die Kybernetik u. a. in zentraler Weise den Begriff der Information (Kommunikationssysteme, automatische Verarbeitung und Speicherung sprachlicher Daten etc.) in Betracht zieht. Die sich daraus ergebende Forderung nach der automatischen Verarbeitung sprachlicher Zeichensysteme wird später nicht nur eine entscheidende Rolle bei der Entwicklung der Informatik und der Computerlinguistik (vyčislitel’naja lingvistika) spielen, sondern auch einen stimulierenden Einfluss auf die QL ausüben. Dies zeigt sich vor allem aufgrund der Tatsache, dass die statistische Linguistik an der automatischen Verarbeitung von größeren Datenmengen interessiert ist, wie dies dann beispielsweise bei der automatisierten Erstellung von Häufigkeitswörterbüchern in den sechziger und siebziger Jahren realisiert werden sollte. Betrachtet man den wissenschaftshistorischen Rahmen der Entwicklung und Institutionalisierung von kybernetischen und semiotischen Untersuchungen, so sind zwei Ereignisse als entscheidend für die weitere Entwicklung zu nennen: (a) Von zentraler Bedeutung für die Entwicklung der strukturellen, mathemati-
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 75
schen (quantitativen), kybernetischen Linguistik und in der unmittelbar dazu entstehenden Semiotik erweist sich die Tätigkeit von A. I. Berg (1893K1979), der auf wissenschaftspolitischer Ebene massives Interesse an derartigen Untersuchungen zeigte (vgl. Ivanov 1998, 257) und fördernd deren Entwicklung propagierte. So wird im Januar 1959 unter seiner Führung (als sein Stellvertreter fungierte der Mathematiker A. A. Ljapunov) bei der Akademie der Wissenschaften der UdSSR ein „Naučnyj sovet po kompleksnoj probleme Kibernetika“ [Wissenschaftlicher Rat zum komplexen Problem Kybernetik] eingeführt. Innerhalb dieses Kollegiums wird eine eigene linguistische Sektion unter der Leitung von Vjač. Vs. Ivanov und der Mitarbeit von Linguisten und Mathematikern wie O. S. Kulagina, A. A. Reformatskij, I. I. Revzin, Ju. D. Rozencvejg u. a. gebildet. Das zentrale Augenmerk ist dabei auf die Ausarbeitung der mathematischen, strukturellen und statistischen Linguistik (unter Betonung der allgemeinen Rolle dieser Richtungen für die theoretische Linguistik) für die Probleme der maschinellen Übersetzung und automatisierten Informationssuche ausgerichtet (vgl. Ivanov 1998, 259). (b) Der massiven Intervention von A. I. Berg ist es zu verdanken, dass neue Methoden der kybernetischen und semiotischen Linguistik auf wissenschaftspolitischer Ebene eine entsprechende Resonanz erlangten (vgl. Ivanov 1998, 257). Davon zeugt die Resolution des Präsidiums der Akademie der Wissenschaften der UdSSR mit dem Titel „O razvitii strukturnych i matematičeskich metodov issledovanija jazyka“ (vgl. Grigor’ev 1960) vom 2. Mai 1960, welche auf Initiative von A. I. Berg hin entstand. Daraus resultierte die Schaffung des Sektors für strukturelle Typologie im Rahmen des „Institut slavjanovedenija i balkanistiki“ [Instituts für Slawistik und Balkanistik] der Sowjetischen Akademie der Wissenschaften (vgl. Nikolaeva 1997), dem zunächst V. N. Toporov, dann Vjač. Vs. Ivanov vorstanden. Die Arbeit dieses Sektors war wesentlich auf strukturalistische und semiotische Forschungen ausgerichtet und zeitigte K insbesondere in den Anfängen
der sowjetischen Semiotik K auch ein ausgeprägtes Interesse an der statistischen und wahrscheinlichkeitstheoretischen Erforschung von sprachlichen Zeichensystemen. (Der Sektor für strukturelle Typologie sollte dann K unter wesentlicher Initiative von Vjač. Vs. Ivanov K u. a. 1962 das erste explizit semiotische Symposium in der UdSSR mitorganisieren. Aus diesen Beschäftigungen ging nur wenig später die berühmte Moskauer/Tartuer Schule hervor, die weltweit von Bedeutung bei der Herausarbeitung semiotischer, insbesondere kultursemiotischer Konzeptionen war. Insofern äußert sich hier eine überaus charakteristische K wenn auch aufgrund äußerer Umstände zeitweise unterbrochene K Tradition, der zufolge in der russischen Wissenschaftsgeschichte eine enge Verbindung zwischen der Propagierung exakt-wissenschaftlicher (unter Einschluss mathematischer) und semiotischer Ansätze (vgl. Grzybek 1999; vgl. Art. Nr. 3) im Bereich der Sprach- und Literaturwissenschaft zu beobachten ist.) Als bedeutsam für die Verbreitung von aus damaliger Sicht neuen Ideen der strukturellen und kybernetischen Linguistik ist vor allem auch eine vom 23.K27. September 1961 in Gor’kij abgehaltene Konferenz zu nennen. Dort wurden explizit Fragen der Anwendung von mathematischen Methoden bei der Analyse von poetischer Sprache vorgestellt. Was bereits für die Konferenz von Černovcy 1960 festgestellt wurde K nämlich die Nichtpublikation der Ergebnisse K gilt auch für diese Konferenz. Allerdings lässt sich zumindest aus der entsprechenden Zusammenfassung der dort diskutierten Themen in der Rezension von Revzin (1962) unter dem Titel „Soveščanie v g. Gor’kom, posvjaščennoe primeneniju matematičeskich metodov k izučeniju jazyka chudožestvennoj literatury“ [Konferenz in Gor’kij zu mathematischen Methoden der Erforschung von künstlerischer Literatur] und den Besprechungen der Konferenz von Žolkovskij (1962), Ermilova (1962), Eimermacher (1971, 12K15) und Seyffert (1985, 67K79) insgesamt ein zuverlässiges Gesamtbild dieser Konferenz rekonstruieren. Demnach wird im Gegensatz zu den bisher vorgestellten Konferenzen weniger über die prinzipiellen Möglichkeiten der mathe-
76 matischen und statistischen Analyse von Sprache und den allgemeinen Zusammenhang von Strukturalismus, Kybernetik und Mathematik in der Linguistik diskutiert, sondern es werden erstmals in einem derartigen Rahmen konkrete Untersuchungen literarischer Texte vorgestellt. Somit erfährt die statistische und kybernetische Linguistik zu diesem Zeitpunkt eine Erweiterung ihres Untersuchungsgegenstandes auf literaturwissenschaftliche Fragestellungen. Eine zentrale Rolle dabei spielte demnach in jeder Sicht das Auftreten des berühmten Mathematikers und Wahrscheinlichkeitstheoretikers A. N. Kolmogorov und seiner Schüler A. V. Prochorov, N. G. Ryčkova und A. M. Kondratov, die im Rahmen des Lehrstuhls für Wahrscheinlichkeitstheorie an der MGU an Fragen der statistischen Analyse von Sprache arbeiteten. So forderte Kolmogorov ganz im Lichte von kybernetischen und informationstheoretischen Überlegungen die streng formale Bestimmung einiger Begriffe der Verskunde, um der Frage von statistischen Gesetzmäßigkeiten in gebundener Sprache (Poesie, Lyrik) nachgehen zu können (vgl. Revzin 1962, 286 ff.). Ausgehend von dieser programmatischen Forderung ist auf einige in diesem Zusammenhang entstandene Arbeiten zu verweisen: So beschäftigten sich Kondratov (1962b), Kolmogorov/Kondratov (1962) und Kolmogorov (1963) im Rahmen von systematischen Versanalysen einer Reihe von Werken Majakovskijs mit der Frage, inwiefern dieser einen neuen Verstypus gegenüber der klassischen syllabo-tonischen Dichtung geschaffen hat. In zwei weiteren Arbeiten von Kolmogorov/Prochorov (1963; 1964) wird auf die statistische Analyse eines spezifisch russischen Versmaßes, des sog. dol’nik, in der russischen Poesie des 20. Jahrhunderts eingegangen. Neben diesen Arbeiten, die explizit an die versstatistischen Untersuchungen der zwanziger Jahre wie Belyj, Tomaševskij und Šengeli u. a. anschließen (vgl. Art. Nr. 3), war auf der Konferenz von Gor’kij ein weiterer thematischer Block der Informationstheorie im Sinne von Shannon und Weaver, angewandt auf poetische Texte, gewidmet. Wie aus der Rezension von Ermilova (1962, 75 ff.) ersichtlich ist, gehen Kolmogorov und Ryčkova dabei näher auf die Berechnung der Entropie als Maß für den Informationsgehalt von literarischen Texten ein, wobei darauf aufbauend K so wird es vorgeschla-
I. Allgemeines / General
gen K informationstheoretische Modelle der poetischen Sprache entworfen werden können. Das Interesse von Kolmogorov an poetischer Sprache und kybernetischer Linguistik ist in einem literaturwissenschaftlichen Kontext jedoch auch mit der allgemeinen Forderung nach einer exakten Literaturwissenschaft zu sehen. Die damit einhergehende Formalisierung und Quantifizierung ist aufs engste mit der Frage der genauen terminologischen Fixierung verbunden. Auf wissenschaftsgeschichtlicher Ebene spiegeln die Arbeiten von Kolmogorov in gewisser Weise den Geist der technisch-wissenschaftlichen Revolution in den sechziger Jahren wider K vgl. dazu auch die retrospektive Bewertung dieser Arbeiten in Ivanov (1998, 330 ff.) und insbesondere Uspenskij (1997). Als Beispiel dafür sei an dieser Stelle auch die populärwissenschaftliche Schrift von A. M. Kondratov (1962a), „Matematika i poėzija“ [Mathematik und Poesie], erwähnt. Als weiterer bedeutender Beitrag für die Entwicklung der quantitativen Linguistik ist die Arbeit von Segal (1961) zu bezeichnen, der auf der Grundlage des Zipf’schen Gesetzes und der daraus resultierenden Parameter offensichtlich erstmals im sowjetischen Kontext die Frage einer quantitativen Texttypologie behandelt. Ein weiterer Teilnehmer, B. N. Golovin, der auch in weiterer Folge intensiv an Fragen zur quantitativen Bestimmung des literarischen Stils arbeitete (Golovin 1965; 1968; 1971; 1974), stellt bei dieser Konferenz K so Revzin (1962) K erste Versuche einer statistischen Syntaxanalyse auf der Grundlage von Autosemantika bei L. N. Tolstoj und I. S. Turgenev vor. Zusammenfassend ist somit festzustellen, dass diese Konferenz gegenüber den bisher dargestellten Konferenzen als eine Weiterentwicklung anzusehen ist: Abgesehen von der Tatsache, dass allgemeine Forderungen nach formalen Methoden in der Literaturwissenschaft und der automatisierten Analyse von Literatur erhoben werden, werden vor allem erstmals kybernetische und informationstheoretische Untersuchungen von poetischen Texten vorgestellt. Somit zeigt sich an dieser Stelle explizit eine Übertragung von quantitativen Methoden der Linguistik auch auf literaturwissenschaftliche Fragestellungen. In diesem Zusammenhang ist auch K und damit lässt sich auch ein vorläufiger Zwischenstand der Entwicklung der quantitati-
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 77
ven Linguistik in der Sowjetunion festhalten K das vom erwähnten Sektor für strukturelle Typologie und dem Wissenschaftlichen Rat zum komplexen Problem Kybernetik organisierte „Simpozium po strukturnomu izučeniju znakovych sistem“ [Symposium zur strukturellen Erforschung von Zeichensystemen] im Jahre 1962 in Moskau zu nennen. Im Anschluss an die Gor’kij-Konferenz werden im Kontext von kybernetischen und semiotischen Überlegungen genuin literaturwissenschaftliche Fragestellungen in Angriff genommen. Den veröffentlichten Thesen zu diesem Symposium (vgl. „Simpozium po strukturnomu izučeniju znakovych sistem“ 1962) ist zu entnehmen, dass es in der speziell eingerichteten Sektion „Strukturnoe i matematičeskoe izučenie literaturnych proizvedenij“ [Strukturelle und mathematische Erforschung von literarischen Werken] u. a. von Žolkovskij/Ščeglov (1962, 138 ff.) prinzipiell um Fragen einer strukturellen Poetik ging, die sich als Übertragung von strukturellen Methoden auf die Literaturwissenschaft versteht. Des Weiteren wurden informationstheoretische Abhandlungen zu poetischen Fragen (vgl. Kondratov 1962c) und quantitative Untersuchungen des Kolmogorov-Schülers M. L. Gasparov vorgestellt (vgl. Gasparov 1962, u. a. weitere versstatistische Arbeiten Gasparov 1965; 1967; 1968; 1972). Es lässt sich somit als eine wesentliche Tendenz im Zuge der Entwicklung der quantitativen Linguistik in der Sowjetunion Anfang der 60er Jahre eine Ausweitung dominant sprachwissenschaftlich motivierter Fragestellungen und Herangehensweisen auf die Analyse auch literarischer Texte festhalten, die ja nicht zuletzt eines der wesentlichen Charakteristika der frühen russischen bzw. sowjetischen Ansätze war. Damit scheint der Punkt für eine umfassende Etablierung und gleichzeitige Diversifizierung dieser Disziplin erreicht.
7.
Resümee
Die in der vorliegenden Darstellung behandelten Neuanfänge der quantitativen Linguistik in der Sowjetunion konzentrieren sich auf die Jahre 1956 bis 1962. Diese chronologische Einengung ist bedingt durch die zahlreichen und komplexen Implikationen auf (wissenschafts-)politischer und kultureller Ebene, die in diesem Zeitraum nicht von der
Herausbildung der quantitativen Forschungen zu trennen sind. Die QL stellt sich dabei nicht als eine in sich geschlossene und klar abgegrenzte Disziplin dar, sondern als vielfach mit anderen Disziplinen (vor allem der Kybernetik, der Semiotik, der Theorie der maschinellen Übersetzung) verwoben. Im Unterschied zur Entwicklung der quantitativen Linguistik in anderen Ländern, wie etwa in Deutschland, Frankreich u. a. lassen sich für die sowjetische QL eine Reihe spezifischer Kennzeichen feststellen: (a) Die sowjetische QL erfährt in den Jahren 1956 bis 1962 einen immensen Aufschwung, der sich nicht zuletzt durch die besondere Lage der sowjetischen Sprachwissenschaft in diesen Jahren erklären lässt. Nach einem ideologisch motivierten Stillstand der sowjetischen Linguistik (Neue Lehre von Marr) und politischen, wissenschaftsexternen Eingriffen in methodologische und inhaltliche Fragen der Sprachwissenschaft kommt es zu einer dynamischen Diskussion struktureller Methoden. Obwohl weiterhin eine dogmatisch-ablehnende Auffassung gegenüber den philosophischen Implikationen des Strukturalismus vorherrscht, erlangen quantitative Methoden vor allem auch in Hinsicht auf die praktische Verwertbarkeit der Ergebnisse einen besonders förderungswürdigen Status. Diese Feststellung gilt im Allgemeinen auch für die in diesem Zeitraum aufkommende maschinelle Übersetzung, kybernetische und semiotische Ideen, die ebenfalls als Ausgangspunkt und Stimulus für quantitative Studien sprachlicher Phänomene anzusehen sind. (b) Dies zeigt sich auch an der umfangreichen institutionellen Förderung von quantitativen Methoden innerhalb eines strukturalistischen Grundrahmens: Charakteristisch ist für den genannten Zeitraum einerseits die Schaffung von wissenschaftlichen Institutionen mit einer expliziten Ausrichtung auf die quantitative Erforschung von Sprache, andererseits die Organisation einer ganzen Reihe von wissenschaftlichen Konferenzen in den Jahren 1956K1962, die ganz oder teilweise der quantitativen sprachwissenschaftlichen Problematik gewidmet sind. (c) Aus inhaltlicher Sicht präsentieren sich die Ergebnisse der sowjetischen quanti-
78
I. Allgemeines / General
tativen Linguistik K chronologisch gesehen K als eine sukzessive Erweiterung des Objektes: angefangen von Untersuchungen, die vor dem Hintergrund der Verbesserung der technischen Übertragung von Information, der Erstellung von Häufigkeitswörterbüchern zu Zwecken der maschinellen Übersetzung bis hin zu quantitativen Untersuchungen von literarischen Texten reichen. Anzumerken bleibt, dass in einer Reihe von Arbeiten bewusst auf russische Vorläufer der quantitativen Linguistik in den ersten Jahrzehnten des 20. Jh.s verwiesen wird. Dabei wird freilich keine systematische Auseinandersetzung mit, bzw. Aufarbeitung von den eigenen geschichtlichen Voraussetzungen geleistet (was die russische QL nicht wesentlich von der Tradition in anderen Ländern unterscheidet). Allerdings wird in der russischen QL der fünfziger und sechziger Jahre zum Teil explizit an die Tradition der zwanziger Jahre angeknüpft und somit eine eigentlich vorhandene Kontinuität (wieder-)hergestellt, zum Teil wird auch durch die Publikation von unveröffentlichtem oder Archivmaterial überhaupt erst einmal die Möglichkeit dieser Kontinuitätsbildung geschaffen. In diesem Sinne kann sich die russische quantitative Linguistik um die Mitte des 20. Jh.s in eine kontinuierliche K wenn auch durch zwanzigjährige Unterbrechung gekennzeichnete K Tradition innerhalb der russischen Sprach- und Literaturwissenschaft einordnen, was sie von vielen Vertretern dieser Disziplin in anderen Ländern unterscheidet.
8.
Literatur (in Auswahl)
Abaev, Vasilij I. (1960), Ob istorizme v opisatel’nom jazykoznanii. In: O sootnešenii [.] 1960, 56K63. Andreev, Nikolaj D. (1958), Meta-jazyk mašinnogo perevoda i ego primenenie. In: Materialy 1958, 1965, 40K60. Andreev, Nikolaj D. (1959), Modelirovanie jazyka na baze ego statističeskoj i teoretiko-množestvennoj struktury. In: Tezisy 1959, 15K22. Andreev, Nikolaj D. (Hrsg.) (1965), Statistikokombinatornoe modelirovanie jazykov. MoskvaKLeningrad. Andreev, Nikolaj D. (1967), Statistiko-kombinatornye metody v teoretičeskom i prikladnom jazykovedenii. Leningrad. Andreev, Nikolaj D./Zinder, Lev R. (1963), O ponjatijach rečevogo akta, reči, rečevoj verojat-
nosti i jazyka. In: Voprosy jazykoznanija 3, 15K 21. Andreeva, Lidia D. (1969), Statistiko-kombinatornye tipy slovoizmenenija i razrjady slov v russkoj morfologii. Leningrad. Ashby, W. Ross (1956), An introduction to cybernetics. London. [Übersetzung ins Russische: Ėšbi, U. Ross (1959), Vvedenie v kibernetiku. Pod red. V. A. Uspenskogo. Moskva.] Belousova, E. A. (1964), Statističeskij analiz glagol’nych form (Na materiale russkogo jazyka). In: Materialy konferencii „Aktual’nye voprosy sovremennogo jazykoznanija i lingvističeskoe nasledie E. D. Polivanova“, Tezisy dokladov i soobščenij mežvuzovskoj konferencii 9K15 sentjabrja 1964 g. Samarkand. Samarkand, 259K260. Bjulleten’ Ob’’edinenija po mašinnomu perevodu. Nr. 1 (1957) K Nr. 8 (1958) Moskva. Budagov, Ruben A./Vinogradov, Viktor V./Gornung, Boris V./Guchman, M. M./Desnickaja, A. V./ Serebrennikov, B. A. (1959), Teoretičeskie voprosy jazykoznanija. Vvedenie. In: Izvestija Akademii Nauk SSSR. Otdelenie literatury i jazyka. Tom XVIII, 209K216. Cižakovskij, Valentin A./Bektaev, Kaldybay B. (1986), Statistika reči: 1957K1985, Bibliografičeskij ukazatel’. Kišinev. Čistovič, L. A. (1958), Primenenie statističeskich metodov k opredeleniju fonetičeskoj prinadležnosti individual’nogo glasnogo zvuka. In: Voprosy statistiki reči 1958, 26K35. Dobrušin, Roland L. (1958), Značenie matematičeskich metodov v lingvistike. In: Tezisy konferencii [.] 1958, 14K15. Dobrušin, Roland L./Jaglom I. M. (1959), Teorija informacii i lingvistika. In: Tezisy soveščanija [.] 1959, 99. Eimermacher, Karl (1971), Entwicklung, Charakter und Probleme des sowjetischen Strukturalismus in der Literaturwissenschaft. In: (Hrsg. K. Eimermacher) Texte des sowjetischen literaturwissenschaftlichen Strukturalismus. München, 9K40. Ermilova, Elena (1962), Poėzija i matematika. In: Voprosy literatury 6(3), 71K82. Ermolenko, Georgij V. (1967), Tematičeskaja bibliografija rabot po lingvističeskoj statistike na russkom jazyke. Pod red. Ch. Ch. Mavhmudova. Alma-Ata. Ermolenko, Georgij V. (1970), Lingvističeskaja statistika. Kratkij očerk i bibliografičeskij ukazatel’. Pod red. Ch. Ch. Machmudova. Izd. 2-е, dop. Alma-Ata. Frumkina, Revekka M. (1958), Nekotorye problemy obrabotki glagolnych osnov s čeredovanijami pri sostavlenii algoritma mašinnogo perevoda dlja ispanskogo jazyka (statističeskoe obsledovanie). In: Tezisy konferencii [.] 1958, 62K63.
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 79 Frumkina, Revekka M. (1959), Metodika sostavlenija statističeskich slovarej. In: Tezisy soveščanija [.] 1959, 22K23. Frumkina, Revekka M. (1960), Primenenie statističeskich metodov v jazykoznaniju. In: Voprosy jazykoznanija 4, 129K133. Frumkina, Revekka M./Zolotarëv, V. M. (1959), K verojatnostnoj modeli predloženija. In: Tezisy soveščanija [.] 1959, 29. Gačečiladze, T. G./Cercvadze, G. N./Čikodze, G. B. (1959), Nekotorye zamečanija k metodu analiza probelov. In: Tezisy soveščanija [.] 1959, 34. Gasparov, Michail L. (1962), O ritmike russkogo trechudarnogo dol’nika. In: Simpozium 1962 [.], 143K149. Gasparov, Michail L. (1965), Vol’nyj chorej i vol’nyj jamb Majakovskogo. In: Voprosy jazykoznanija 3, 76K88. Gasparov, Michail L. (1967), Jamb i chorej sovetskich poėtov i problema ėvoljucii russkogo sticha. In: Voprosy jazykoznanija 3, 59K67. Gasparov, Michail L. (1968), Taktovik v russkom stichoslozenii XX v. In: Voprosy jazykoznanija 5, 79K90. Gasparov, Michail L. (1972), Metričeskij repertuar russkoj liriki XVIIIKXX vv. In: Voprosy jazykoznanija 1, 54K67. Gerd, Aleksandr S. (1993), Matematičeskaja i prikladnaja lingvistika v S.-Peterburgskom universitete. In: Strukturnaja i prikladnaja lingvistika, vyp. 4. Mežvuzovskij sbornik (pod redakciej A. S. Gerda). Sankt-Peterburg, 3K13. Golovin, Boris N. (1965), Opyt verojatnostno-statističeskogo izučenija nekotorych javlenij istorii russkogo literaturnogo jazyka XIXKXX vv. In: Voprosy jazykoznanija 3, 137K146. Golovin, Boris N. (1968), O stiljach jazyka i ich izučenii. In: Russkij jazyk v škole 4, 11K19. Golovin, Boris N. (1971), Jazyk i statistika. Moskva: Prosveščenie. Golovin, Boris N. (1974), Opyt primenenija korreljacionnogo analiza v izučenii jazyka. In: (Hrsg. B. N. Golovin) Voprosy statističeskoj stilistiki. Kiev, 5K16. Gornung, Boris V. (1960), Edinstvo sinchronii i diachronii kak sledstvie specifiki jazykovoj struktury. In: O sootnešenii [. . .] 1960, 5K21. Grigorjan, Vladimir M. (1958), O značenii faktora častotnosti dlja opredelenija stilističeskich funkcij slova. In: Tezisy konferencii [.] 1958, 36. Grigor’ev, Vladimir I. (1960), O razvitii strukturnych i matematičeskich metodov issledovanija jazyka. In: Voprosy jazykoznanija 4, 153K155. Grzybek, Peter (1999), Sowjetische und russische Konzeptionen der Semiotik. In: Handbuch der sprachwissenschaftlichen Russistik und ihrer Grenzdisziplinen. (Hrsg. H. Jachnow). Wiesbaden, 1274K1308.
Hutchins, John W. (2000), Early years in Machine Translation. Memoirs and Biographies of Pioneers. Amsterdam. [Z Amsterdam Studies in the Theory and History of Linguistic Sciences, Volume 97]. Ivanov, Vjačeslav Vs. (1957), Jazykoznanie i matematika. In: Bjulleten’ ob”edinenija po problemam mašinnogo perevoda 5, 5K10. Ivanov, Vjačeslav Vs. (1958a), Verojatnostnoe opredelenie lingvističeskogo vremeni (v svjzai s problemoj primenenija statističeskich metodov v sravnitel’no-istoričeskom jazykoznanii). In: Voprosy statistiki reči 1958, 62K72. Ivanov, Vjačeslav Vs. (1958b), Komitet po prikladnoj lingvistike. In: Voprosy jazykoznanija 3, 136K137. Ivanov, Vjačeslav Vs. (1958c), Lingvističeskie voprosy sozdanija mašinnogo jazyka dlja informacionnoj mašiny. In: Materialy 1958, 10K39. Ivanov, Vjačeslav Vs. (1958d), Teorema Gëdelja i lingvističeskie paradoksy. In: Tezisy konferencii [.] 1958, 42K43. Ivanov, Vjačeslav Vs. (1958e), Voprosy matematičeskoj i prikladnoj lingvistiki na VII meždunarodnom kongresse v Oslo. In: Bjulleten’ ob”edinenija po problemam mašinnogo perevoda 6, 3K26. Ivanov, Vjačeslav Vs. (1958 f.), Matematičeskaja lingvistika. In: Bol’šaja sovetskaja ėnciklopedija, t. 51. Moskva, 190. Ivanov, Vjačeslav Vs. (1960), Vystuplenija po dokladam. In: O sootnešenii [.] 1960, 77K80. Ivanov, Vjačeslav Vs. (1998), Iz prošlogo semiotiki, strukturnoj lingvistiki i poėtiki. In: Očerki 1998, 310K340. Jachnow, Helmut (1971), Der Strukturalismus in der sowjetischen Sprachwissenschaft. In: Šaumjan, S. (1971), Strukturale Linguistik. Hrsg., übersetzt sowie mit einem Vor- und einem Nachwort versehen von Wolfgang Girke und Helmut Jachnow. München, 9K29. Jaglom, Isaak M./Dobrušin, Roland L./Jaglom, A. M. (1960), Teorija informacii i lingvistika. In: Voprosy jazykoznanija 1, 100K110. Jaglom, A. M./Jaglom, Isaak M. (1957), Verojatnost’ i informacija. Moskva. [Deutsch: Wahrscheinlichkeit und Information. Berlin, 1960] Kelih, Emmerich (in Vorb.), Kulturwissenschaftliche Aspekte quantitativer Verfahren in der russischen Sprach- und Literaturwissenschaft. Diss., Universität Graz. Kempgen, Sebastian (1995), Russische Sprachstatistik. Systematischer Überblick und Bibliographie. München. [Z Vorträge und Abhandlungen zur Slavistik, Band 26]. Kempgen, Sebastian (1999), Quantitative Aspekte. In: Handbuch der sprachwissenschaftlichen Russistik und ihrer Grenzdisziplinen. (Hrsg. H. Jachnow) Wiesbaden 1999, 525K550.
80 Kibrik, Aleksandr E. (2001), Kafedra i otdelenie strukturnoj/teoretičeskoj i prikladnoj lingvistiki (OSIPL/OTIPL). In: Filologičeskij Fakul’tet Moskovskogo Universiteta: očerki istorii. (Hrsg. M. L. Remenova). Moskva, 349K372. Kolmogorov, Andrej N. (1958): Kibernetika. In: Bol’šaja sovetskaja ėnciklopedija, t. 51. Moskva, 149K151. Kolmogorov, Andrej N. (1963), K izučeniju ritmiki Majakovskogo. In: Voprosy jazykoznanija 4, 64K 71. Kolmogorov, Andrej N./Kondratov, Aleksandr M. (1962), Ritmika poėm Majakovskogo. In: Voprosy jazykoznanija 3, 62K74. Kolmogorov, Andrej N./Prochorov, Aleksandr V. (1963), O dol’nike sovremennoj russkoj poėzii (Obščaja charakteristika). In: Voprosy jazykoznanija 6, 84K95. Kolmogorov, Andrej N./Prochorov, Aleksandr V. (1964), O dol’nike sovremennoj russkoj poėzii (Statističeskaja charakteristika dol’nika Majakovskogo, Bagrickogo, Achmatovoj). In: Voprosy jazykoznanija 1, 75K94. Kondratov, Aleksandr M. (1962a), Matematika i poėzija. Moskva. Kondratov, Aleksandr M. (1962b), Ėvoljucija ritmiki V. V. Majakovskogo. In: Voprosy jazykoznanija 5, 101K108. Kondratov, Aleksandr M. (1962c), Teorija informacii i poėtika. In: Simpozium 1962, 142. Kotov, R. G. (1958), Lingvističeskaja statistika tekstov russkogo jazyka. In: Tezisy konferencii [.] 1958, 48K49. Kulagina, Ol’ga S. (2000), Pioneering MT in Soviet Union. In: Hutchins (Hrsg.) (2000), 197K204. Ljapunov, Aleksej A./Kulagina, Ol’ga S. (1958), O rabotach po mašinnomu perevodu matematičeskogo instituta AN SSSR. In: Tezisy konferencii [.] 1958, 18K19. Lomkovskaja, M. V. (1959), I vsesojuznoe soveščanie po matematičeskoj lingvistike. In: Uspechi matematičeskich nauk, t. XIV, vyp. 6 (90), 213K 222. Mašinnyj perevod i prikladnja lingvistika. Nr. 1 (1959) K Nr. 20 (1980). Materialy po mašinnomu perevodu. Sbornik 1. (1958). [Z Materialy 1958] Mel’čuk, Igor’ A. (1958), Statistika i zavisimost’ roda francuzskich suščevitel’nych ot ich okončanija. In: Bjulleten’ Ob’’edinenija po problemam mašinnogo perevoda. Moskva. Institut innostranych jazykov, 7; 13K40. [Übersetzung ins Englische: Mel’čuk, I. A. (1974), Statistics and the relationship between the gender of French nouns and their endings. In: Rozencvejg (1974), 11K42.] Mel’čuk, Igor’ A. (1998), Kak načinalas’ matematičeskaja lingvistika. In: Očerki 1998, 358K370.
I. Allgemeines / General Mel’čuk, Igor’ A. (2000), Machine translation and formal linguistics in the USSR. In: Hutchins (Hrsg.) 2000, 205K226. Mološnaja, Tat’jana M. (2000), My memoirs of MT in the Soviet Union. In: Hutchins 2000, 227K232. Nikolaeva, Tat’jana M. (1997), Vvedenie. In: Iz rabot moskovskogo semiotičeskogo kruga. (Sostavlenie i vystupitel’naja stat’ja T. M. Nikolaevoj). Moskva. (VIIKXLIX). O nekotorych aktual’nych zadačach sovremennogo sovetskogo jazykoznanija (1956). In: Voprosy jazykoznanija 4, 3K13. O rabotach po strukturnomu analizu jazyka: Rešenie Bjuro Otedelenija literatury i jazyka ot 7K8 ijulja 1959 g. (protokol Nr. 16). In: Izvestija Akademii Nauk SSSR. Otdelenie literatury i jazyka XIX, 1960, 74K77. [Z O rabotach (.)] O sootnešenii sinchronogo analiza i istoričeskogo izučenija jazykov. (Hrsg. M. M. Guchman/E. A. Bokarev). Moskva 1960. [Z O sootnešnii (. . .) 1960] Obščee i prikladnoe jazykoznanie. Ukazatel’ literatury, izdannoj v SSSR s 1963 po 1967 god. (Otvetstvennye redaktory R. R. Mdivani/A. A. Reformatskij). Moskva, 1972. Očerki (1998): Očerki istorii informatiki v Rossii. (Redaktory-sostaviteli Pospelov, D. A./Fet, Ja. I. ). Novosibirsk 1998. Padučeva, Elena V. (1958), Statističeskoe issledovanie struktury sloga. In: Voprosy statistiki reči 1958, 100K111. Papp, Ferenc (1964), Mathematische und strukturelle Methoden in der sowjetischen Sprachwissenschaft. In: Acta Linguistica Academiae Scientiarum Hungaricae XIV, 119K137. Papp, Ferenc (1966), Mathematical Linguistics in the Soviet Union. [Z Janua Linguarum, Series Minor, XL]. The Hague. Piotrovskaja, Anna A./Piotrovskij, Rajmond G./ Razživin, K. A. (1962), Ėntropija russkogo jazyka. In: Voprosy jazykoznanija 6, 115K130. Piotrovskij, Rajmond G. (1958), Nekotorye voprosy statističeskogo obsledovanija leksičeskich grupp. In: Voprosy statistiki reči 1958, 85K92. Piotrovskij, Rajmond G. (1959), Problema mesta v slove u ėlementov nesuščich informaciju. In: Tezisy soveščanija [.] 1959, 37K38. Piotrovskij, Rajmond G. (1960), Ešče raz o differencial’nych priznakach fonem. In: Voprosy jazykoznanija 6, 24K38. Piotrovskij, Rajmond G. (2000), Machine Translation in the former USSR and in the newly independent states (NIS) prehistory, romantic era, prosaic time. In: Hutchins (Hrsg.) 2000, 233K251. Poletaev, Igor’ A. (1958), Signal. Moskva. Poletaev, Igor’ A. (1962), Kybernetik. Eine Einführung in eine neue Wissenschaft. Berlin.
4. Neuanfang und Etablierung quantitativer Verfahren in der sowjet. Sprach- und Literaturwissenschaft 81 Poletaev, Igor’ A. (1998), Voennaja kibernetika, ili Fragment istorii otečestvennoj lženauki. In: Očerki 1998, 515K531. Polivanov, Evgenij D. (1931), I matematika možet byt’ poleznoj. In: Za marksistskoe jazykoznanie. Moskva, 173K181. Reformatskij, Aleksandr A. (1960), Principy sinchronnogo opisanija jazyka. In: O sootnešenii [.] 1960, 22K38. Revzin, Isaak I. (1958), O sootnešenii strukturnych i statističeskich metodov v sovremennoj lingvistike. In: Voprosy statistiki reči 1958, 45K57. Revzin, Isaak I. (1962), Soveščanie v g. Gor’kom, posvjaščennoe primeneniju matematičeskich metodov k izučeniju jazyka chudožestvennoj literatury. In: Strukturno-tipologičeskie issledovanija. Sbornik statej, otvetstvennyj redaktor Mološnaja, T. N. Moskva, 285K292. Revzin, Isaak I. (1997), Vospominanija (Publikacija O. G. Revzinoj). In: Iz rabot moskovskogo semiotičeskogo kruga. Sostavlenie i vstuplenie T. M. Nikolaevoj. Moskva, 791K838. Rozencvejg, Viktor Ju. (1958), Raboty po mašinnomu perevodu s inostrannych jazykov na russkij i s russkogo na inostranye v Sovetskom Sojuze. Moskva. Rozencvejg, Viktor Ju. (1959), Itogi raboty teoretičeskoj sekcii. In: Mašinnyj perevod i prikladnaja lingvistika. Vyp. 1. Moskva, 27K30. Rozencvejg, Viktor Ju. (Hrsg.), Machine translation and applied linguistics. Frankfurt am Main, [Z Soviet papers in formal linguistics 16] 11K 42, 1974. Rozencvejg, Viktor Ju./Revzin, Isaak I. (1958), Obščaja teorija perevoda v svjazi s mašinnym perevodom. In: Tezisy konferencii 1958, 26K27. Segal, Dmitrij M. (1961), Nekotorye utočnenija verojatnostoj modeli Cipfa. In: Mašinnyj perevod i prikladnaja lingvistika, Vyp. 5, 51K55. Segal, Dmitrij (1974), Aspects of Structuralism in Soviet Philology. Tel-Aviv. [Z Papers on Poetics and Semiotics 2]. Seyffert, Peter (1985), Soviet Literary Structuralism. Background. Debate. Issues. Columbus: Ohio. Simpozium 1962 [.]: Simpozium po strukturnomu izučeniju znakovych sistem. Moskva. Spitzbardt, Harry (1967), Zur Entwicklung der Sprachstatistik in der Sowjetunion. In: Wissenschaftliche Zeitschrift der Friedrich-Schiller-Universität Jena Gesellschafts- und Sprachwissenschaftliche Reihe, 16 (4); 471K490. Steblin-Kamenskij, M. I. (1958), Značenie mašinnogo perevoda dlja jazykoznanija. In: Materialy 1958, 3K9. Strukturnoe i prikladnoe jazykoznanie. Bibliografičeskij ukazatel’ literatury, izdannoj v SSSR c 1918
po 1962 g. (Hrsg. A. A. Reformatskij). Moskva, 1965. Šaumjan, Sebastian K. (1956), O suščnosti strukturnoj lingvistiki. In: Voprosy jazykoznanija 5, 38K54. Šaumjan, Sebastian K. (1960), O problemnoj zapiske „Teoretičeskie voprosy jazykoznanija“. In: Izvestija Akademii Nauk SSSR. Otdelenie literatury i jazyka. Tom XIX, 71K74. Širokov, Oleg S. (1961), Konferencija po strukturnoj i matematičeskoj lingvistike. In: Voprosy jazykoznanija 1, 155K159. Tezisy konferencii po mašinnomu perevodu (15K21 maja 1958 goda). Moskva. Tezisy soveščanija po matematičeskoj lingvistike (15K21 aprelja 1959 goda). Leningrad. Toporov, Vladimir N. (1959a), Vvedenie verojatnosti v jazykoznanie i ego posledstvija. In: Tezisy soveščanija [.] 1959, 12K15. Toporov, Vladimir N. (1959b), O vvedenii verojatnosti v jazykoznanie. In: Voprosy jazykoznanija 6, 28K35. Udarceva, M. G. (1958), Častotnost’ leksičeskich edinic v anglijskoj geologičeskoj literature. In: Tezisy konferencii [.] 1958, 60K61. Uspenskij, Vladimir A. (1958), Soveščanie po statistike reči. In: Voprosy jazykoznanija 1, 170K173. Uspenskij, Vladimir A. (1959), Itogi raboty sekcii algoritmov mašinnogo perevoda. In: Mašinnyj perevod i prikladnaja lingvistika. Vyp. 1 (8). Moskva, 31K62. [Repr.: Uspenskij, V. A. (2002), Trudy po Nematematike. S priloženiem semiotičeskich poslanij A. N. Kolmogorova k avtoru i ego druz’jam. Moskva, 314K333]. Uspenskij, Vladimir A. (1993), Serebrjanyj vek strukturnoj, prikladnoj i matematičeskoj lingvistiki v SSSR: Kak ėto načinalos’ (zametki očevidca). In: Wiener Slawistischer Almanach, Sonderband 33: Festschrift für Viktor Jul’evič Rozencvejg zum 80. Geburtstag, 119K162. Uspenskij, Vladimir A. (1997), Predvarenie dlja čitatelej „Novogo literaturnogo obozrenija“ k semiotičeskim poslanijam Andreja Nikolaeviča Kolmogorova. In: Novoe literaturnoe obozrenie 24, 22K215. Varšavskij, L. A. (1958), Značenie statističeskich issledovanij reči dlja techniki. In: Voprosy statistiki reči 1958, 5K11. Volockaja, Z. M./Šelimova, I. N./Šumilina, A. L./ Mel’čuk, Igor’ A./Mološnaja, T. N. (1958), O russkom slovare častotnosti na materiale matematičeskich tekstov. In: Voprosy statistiki reči 1958, 93K99. Voprosy statistiki reči (materialy soveščanija) (1958), (Hrsg. L. R. Zinder). Leningrad. Wiener, Norbert (1948), Cybernetics or control and communication in the animal and the machine. Paris. [Übersetzung ins Russische: Viner, N.
82
I. Allgemeines / General
(1958), Kibernetika, ili upravlenie i svjazi v životnom in mašine. Moskva.] Zasorina, Lidija N. (1966), Avtomatizacija i statistika v leksikografii. (Rabota nad častotnym slovarem russkogo jazyka). Leningrad. Zinder, Lev R. (1957), O lingvističeskoj verojatnosti. In: Voprosy statistiki reči 1958, 58K61. Zinder, Lev R. (1958), O lingvističeskoj verojatnosti. In: Voprosy jazykoznanija 2, 121K125. Zolotarëv, V. M. (1959), Verojatnostnaja model’ predloženija. In: Tezisy soveščanija [.] 1959, 28. Železnov, N. A. (1958), Ėnergetičeskie charakteristiki i interval korreljacii stochastičeskich meto-
dov k opredeleniju fonetičeskoj prinadležnosti individual’nogo glasnogo zvuka. In: Voprosy statistiki reči 1958, 12K25. Žolkovskij, Aleksandr K. (1962), Soveščanie po izučeniju poėtičeskogo jazyka. In: Mašinnyj perevod i prikladnaja lingvistika, Vyp. 7, 88K101. Žolkovskij, Aleksandr K./Ščeglov, Jurij K. (1962), O vozmožnostjach postroenii strukturnoj poėtiki. In: Simpozium 1962, 138K141.
Emmerich Kelih/Peter Grzybek, Graz (Österreich)
5. Quantitative linguistics in Japan 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Introduction The Middle Ages Before W. W. I (1850K1913) Before and during W. W. II (1914K1945) After W. W. II (1945K2002) Vocabulary Characters and orthography Text Sociolinguistics Conclusion Literature (a selection)
1.
Introduction
The Japanese people had advanced calculation capability from ancient times. The period from the 3rd century till the 9th century saw the construction of enormous graves, nearly 500 meters in length, extensive capital cities and huge temples, 45 to 55 meters in height. Money circulated widely, and the general public had the multiplication table memorized. Mathematics in Japan was in decline from the 10th till the 16th century, but higher mathematics began to develop in the 17th century. Seki Takakazu (1642K 1708) discovered methods of calculus and determinants before Leibnitz and Newton. Although Japanese people, as we have seen, had sufficient mathematical ability, the quantitative method was hardly adopted in linguistic research before the 19th century. However, since the level of mathematics in Japan was close to the level of the West, when the achievements of quantitative linguistics were transmitted from the West to Japan, the methods of investigation and analysis were easily understood. After 1945 mathematical statistics and multivariate analysis were speedily introduced into
Japan, leading to many groundbreaking achievements. Hereafter, I will survey Japanese quantitative linguistics.
2.
The Middle Ages
From ancient times to the 19th century, Japanese official documents were written in classical Chinese, so many kanji (Chinese character) dictionaries and Chinese-Japanese dictionaries have been produced from ancient times in Japan. The oldest existing Chinese-Japanese dictionary in the world is Shinsen Jikyou, which is in twelve volumes, edited 898K901. In this dictionary, the 21,400 headword kanji were divided into 160 groups based on radicals (distinctive component shapes of kanji), and the groups also were divided into twelve volumes based on semantic fields. Therefore, this dictionary can be regarded as a kind of thesaurus. This dictionary is noteworthy for giving the number of kanji in every group of every volume, as well as the total number of kanji. Therefore, it can also be regarded as a kanji frequency table organized according to semantic fields and form features. The same sort of kanji frequency tables are also found in other Chinese-Japanese dictionaries, e. g. Jikyooshuu, in twenty volumes, compiled around 1245.
3.
Before W. W. I (1850K1913)
3.1. Kanji In the 19th century, philologists began to study the total number of kanji (Chinese character) out of academic interest.
83
5. Quantitative linguistics in Japan
Ban Nobutomo (1773K1846) counted all kanji that appeared as headwords in a Chinese-Japanese dictionary Zoozoku Daikooekikai Gyokuhen Taizen (1691) and obtained the result of 39,567 kanji. However, he supposed that there must be more than this (Ban, 1850). Andoo Tsunemasa counted the total number of headword kanji in 15 kanji dictionaries edited from ancient times to modern times in China. And he observed the tendency of the number of kanji to increase over time (Andoo, 1909). There were 3,300 headword kanji in the first kanji dictionary Sookohen (B. C. 221). On the other hand, in the 15th kanji dictionary Kooki Jiten (1710K1716) the headword kanji had increased to 46,216 characters. And, furthermore, he studied a Chinese and Japanese dictionary Zootei Tenbun Shoochuu Nihon Daigyokuhen (1891) which was regarded as having the most headword kanji in the 19th century, and obtained the result of 49,450 characters. Then, although he presumed the total number of kanji to be about 50,000 characters, a figure which has not changed much to this day. 3.2. Vocabulary Quantitative studies of vocabulary are often believed to originate in the field of language education. However, in Japan, the study out of an academic interest has preceeded that of education. Ootsuki Fumihiko (1847K1928) edited the first modernistic dictionary of Japanese Genkai in 1884. He has studied the number of headwords in the dictionary, and appended a table giving the number of headwords according to source language to the back of the dictionary. The total number of the headwords is 39,103. In the table, there are loan words from Dutch, English, Spanish, Portuguese, French, and Korean. But, there are no loan words from German, Russian, and Italian. It shows the situation of extremely early modern Japanese. Even
from a global perspective, it is a quite early frequency distribution according to source language.
4.
Before and during W. W. II (1914K1945)
Terada Torahiko (1878K1935), a famous physicist, stated in an essay in the 1920s that mathematical statistics would certainly be useful to linguistics (Terada 1928). However, it was regrettable that his idea was not paid attention to Japanese linguists. 4.1. Phonemes In an investigation of the origin of the Japanese language, Kitazato Takeshi (1870K1960) investigated the number of Man’yoo-gana (ancient phonetic characters) and distinct syllables in 13 works of classical literature, and published frequency tables and graphs of them (Kitazato 1926, 1930). Although this investigation was the first sampling inspection of phonemes in Japan, it is uncertain whether it was based on the sampling method or not. Oonishi Masao conducted two frequency investigations. The subjects of the first investigation were single sounds and diphthongs of modern Japanese (Oonishi, 1932). The second subject was single sounds of ten languages (Oonishi, 1936). Oonishi’s investigations were influenced by Dewey (1923). 4.2. Kanji 4.2.1. Kanji in Chinese classics The first kanji investigation based on texts was Morimoto (1921) which investigated The four Chinese classics (B. C. 450KB. C. 305). In conjunction with the preparation of a index of The four Chinese classics, Morimoto counted total numbers of kanji types and tokens in the classics (Table 5.1). 4.2.2. Fundamental kanji The writing system in Japan is composed of three types: hiragana, katakana and kanji.
Table 5.1: The number of kanji in the four Chinese classics Material
Rongo (B. C. 450)
Daigaku (B. C. 433)
Chuuyoo (B. C. 431)
Mooshi (B. C. 305)
Shisho Total
Types Tokens
1,355 15,917
394 1,753
644 3,568
1,889 35,374
2,317 56,612
* Rongo: The Analects of Confucius, Mooshi: The Analects of Mencius, Shisho: The four Chinese classics
84 Hiragana and katakana are different versions of syllabic phonetic scripts. Both use some 72 characters to represent phonetic units. Kanji, which is morphographic script, has 50,000 or more characters. Kanji is used to represent semantic units, but not all are used in everyday life. Therefore, it was one of the main goals of reform of Japanese language to select fundamental kanji which are often used in everyday life. From the middle of the 19th century to the beginning the 20th century, there were many selections of fundamental kanji, which were not based on investigations of kanji in everyday life. Since the standards of selection were based on the scholar’s subjectivities, there were problems with each proposal. Finally, scholars who tried to obtain objective data by investigating kanji in many texts, appeared at the end of the 1920s. The fundamental vocabulary investigations of Kaeding (1897, 1898) and Thorndike (1921) became models of the investigating methods in Japan. Because kanji are morphophonemic characters, one kanji is mostly equivalent to one morpheme. Therefore, the vocabulary investigation methods were applicable as kanji investigation methods. In character surveys by the Cabinet Printing Bureau of the stenographic records of the Imperial Diet, the methods of descriptive statistics were introduced (the Cabinet Printing Bureau, 1929, 1935, 1941a, 1941b). In these investigations, not only kanji but also hiragana, katakana, alphabet letters, numerals and symbols were investigated. Therefore, it became the first in the world also as an investigation of the frequency ratio of kinds of Japanese characters and letters. Moreover, the frequency distribution graphs of kanji were also included for every investigation. When only kanji is counted, the number of tokens is some 3,280,000 and number of types is 3,948. Furthermore, when other characters and symbols are also counted, the number of tokens is some 6,100,000 and number of types is 4,067. After that, two large-scale kanji investigations were conducted. One was by Okazaki Jootaroo who studied 5 newspapers for 60 days (Okazaki, 1938). The number of kanjitokens was some 448,000 and the number of kanji-types was 3,542. Another was by Oonishi Masao who studied all sorts of sentence (Oonishi, 1941). The
I. Allgemeines / General
number of kanji-tokens was some 803,000 and the number of kanji-types was unknown. 4.3. Vocabulary In the early 20th century, vocabulary investigations were conducted for language education. 4.3.1. Passive vocabulary and lexical development The first investigation of passive vocabulary of juvenile was Sawayanagi/Tanaka/Nagata (1919). They investigated the passive vocabulary of the second graders in a primary school, and obtained an average of 4,000 words. After that, further investigations of passive vocabulary were performed, such as Naruhama Primary School in Chiba prefecture (1924) and the Primary School attached to the Normal School in Okayama prefecture (1935). The first investigation of lexical development in infants was by Kubo Yoshihide (1924). He observed the development process of his son’s vocabulary for every part of speech. The amount of his vocabulary was 295 words at the age of two, whereas it was increasing to 2,289 words by the age of six. After that, Ushijima/Moriwaki (1943) and the National Primary School attached to the Nagano Normal School (1944) were further investigations of lexical development. 4.3.2. Fundamental vocabulary In the 1930’s, investigations of Japanese fundamental vocabulary flourished as seen in Table 5.2. Quantitative studies of vocabulary in Japan were greatly influenced by the fundamental vocabulary studies of Kaeding (1897K1898) and Thorndike (1921). Consequently, when selecting a Japanese fundamental vocabulary, not only the frequency of use but also the range of use has been taken into consideration from the beginning. The first study to select a fundamental vocabulary based on an investigation of texts was Kiso Nihongo (Minami-Manshuu Kyooikukai, 1936) (Table 5.2K1). This study was also the first investigation of the fundamental vocabulary for teaching Japanese as foreign language. It was a total inspection based on primary school textbooks published in Japan and Japanese colonies, such as Manchuria, Korea and Taiwan.
85
5. Quantitative linguistics in Japan Table 5.2: Investigations of fundamental vocabulary materials
method
Tokens
Types
References
1 text books 2 magazines & books for children 3 magazines & books for adults
total sampling
300,000 150,000
9,000 12,568
Minami-Manshuu Kyooikukai (1936) Nihongo Kyooiku Shinkookai (1943)
sampling
250,000
22,000
Nihongo Kyooiku Shinkookai (1944)
4 text books of primary school 5 magazines & books for children
total
14,341
1,653
total
750,000
10,000
After that, there were two investigations of vocabulary by Nihongo Kyooiku Shinkookai (1943, 1944; the association for promoting Japanese language education) (Table 5.2K2, 3). One investigation was conducted for children and another for adults. These investigations were conducted in order to develop materials for teaching Japanese. Although they were the first sampling inspections of vocabulary in Japan, it is uncertain whether they were based on mathematical statistics or not. Kaito Matsuzoo (1938) and Sakamoto Ichiro (1943) were investigations of the fundamental vocabulary for primary school children. (Table 5.2K4, 5) 4.4. Text Stylometrics in Japan started from Text Psychology. Hatano Kanji, a psychologist, performed an analysis of textual features of novelists using stylometrics (Hatano, 1935). The style-features which he investigated were average sentence length, complexity of sentence structure, number of verbs, modifiers, similes, punctuations, etc. Kobayashi Hideo, a linguist influenced of Hatano, did quantitative style research from the standpoint of aesthetic stylistics (Kobayashi, 1943).
5.
After W. W. II (1945K2002)
The first sampling inspection to use mathematical statistics in Japan was the investigation of Japanese literacy conducted in 1948 (Yomi-kaki Nooryoku Choosa Iinkai, 1951). 16,820 males and females from 15 to 64 years old were investigated by random sampling. It became clear that 83.3 % of males and 73.1 % of females, i. e., an average of 78.3 % of Japanese were literate.
Kaito (1938) Sakamoto (1943)
5.1. The National Language Research Institute The era after W. W. II is notable for the activities of the National Language Research Institute (henceforth NLRI) and the Mathematical Linguistic Society of Japan (henceforth MLSJ). NLRI was established in December 1948 to conduct surveys for the scientific collection of data relevant to language policy formation. The NLRI has been referred to as the National Institute for Japanese Language (henceforth NIJL) since 2001. Since its establishment, NLRI has introduced the sampling method into survey research, and has contributed to the development of quantitative linguistics in Japan greatly through numerous investigations of vocabulary, characters, and social varieties. The results of the research activities have been published as reports, sources, occasional papers, annual reports and the Kokugo-Nenkan (Japanese Language Studies: Annual Survey and Bibliography). I will discuss the concrete activities of NLRI later. 5.2. The Mathematical Linguistic Society of Japan In Japan of around 1950, it was very popular in many fields of research to introduce mathematical statistics. Of course, linguistics was no exception. Such a study climate produced many linguists with a good background in mathematics, and was connected to the formation of MLSJ. Although MLSJ was formed in December 1956, as this kind of a society, it was the first in the world. The promoters were Mizutani Shizuo, Kabashima Tadao, Kenboo Gooki, Nomoto Kikuo, Miyaji Yutaka and Watanabe Osamu, most of whom were also the researchers at NLRI.
86
I. Allgemeines / General
In addition, the “mathematical linguistics” in the English name of this society means mathematical linguistics in a broad sense (mathematical linguistics1). Thus mathematical linguistics1 also includes quantitative linguistics, computational linguistics, and corpus linguistics as well as the mathematical linguistics in a narrow meaning (mathematical linguistics2) (Fig. 5.1).
mathematical linguistics1
5.3. The trend of mathematical linguistics1 in Mathematical Linguistics (1957K2002) Table 5.3 shows, in 5 year intervals, the number of articles carried by Mathematical Linguistics for each field. Of course, not all articles on mathematical linguistics are carried by Mathematical Linguistics. However, the bulletin’s articles indicate the main trends. Popular fields are as follows. (1) Words & Vocabulary (16.8 %), (2) Grammar (12.9 %), (3) Text & Style (11.1 %), (4) Method & Technique (9.5 %), (5) Characters & Orthography (9.4 %), (5) Sociolinguistics (9.4 %), (6) Language Processing (7.2 %), (7) Semantics (6.4 %) Among these, I will mention the following four fields beginning in the following section. (1) Words & Vocabulary, (3) Text & Style, (5) Characters & Orthography, (5) Sociolinguistics Therefore I would like to discuss mostly the other fields in this chapter. Through every period, there were consistently many articles on (1) Words & Vocabulary, (2) Grammar and (5) Characters & Orthography. Especially articles on Grammar have doubled since 1990. One reason given for this trend is that many papers about the principle for syntactic analysis were written. The fact
quantitative linguistics corpus linguistics mathematical linguistics2 computational linguistics
Fig. 5.1: The system of mathematical linguistics1 (Ito, 2002)
MLSJ started the quarterly bulletin Keiryoo Kokugogaku (Mathematical Linguistics) in May, 1957. Since then, the society has published 179 volumes of the bulletin, presenting 566 papers and reports by December, 2002. There is also an annual conference. The membership was 385 persons as of September, 2002. The members’ specialties are various, including linguistics, psychology, sociology, mathematics, engineering, etc. This situation expresses the interdisciplinary character of the society well.
Table 5.3: The distribution according to field of articles carried by Mathematical Linguistics (1957K1992: Mizutani 1995) (1993K2002: Ito) 1957K59 65K69 75K79 85K89 95K99 60K64 70K74 80K84 90K94 00K02 Total 1 2 3 4 5 6 7 8 9 10 11
number of articles
42
General works Method & technique Sound & phoneme Characters & Orthography Words & vocabulary Grammar Semantics Text & style Sociolinguistics Psycholinguistics Language education
7.1 23.8 7.1 8.3
5.6 8.3 5.6
19.0
26.4 11.1 1.4 6.9 8.3 6.9 2.8
15.9 11.1 6.3 20.6 6.4
1.4
3.2 1.6
12 Information theory 13 Computational linguistics 14 Language processing 15 Machine translation 16 Information retrieval & QA
14.3 14.3 4.8
4.8 4.8
72
63 9.5 7.9 13.3
4.2 2.8
11.1 3.2 3.2
60
59
60
58
64
58
30
10.0 6.7 1.7 11.9
10.2 6.8 15.3
3.3 15.0 3.3 12.1
1.7 10.3 1.7 9.4
1.6 6.3 6.3 13.8
3.4 6.9 5.2 13.3
6.7 3.3 53
8.3 8.3 10.0 6.7 13.3 3.3
18.6 10.2 8.5 5.1 3.4 10.2
18.3 10.0 6.7 10.0 6.7 1.7 1.7
10.3 6.9 12.1 12.1 13.7 3.4 1.6
14.1 25.0 7.8 12.5 12.6 1.6
19.0 22.4 6.9 6.9 8.6 3.4
3.3
1.7
1.7
13.3
10.2
5.0
1.7
3.4
1.7
15.5
1.6
3.4
16.7 26.7 23.3 6.7 3.3
566 31 5.5 54 9.5 19 3.4 9.4 95 16.8 73 12.9 36 6.4 63 11.1 53 9.4 20 3.5 6 1.1 5 5
0.9 0.9
41 6 6
7.2 1.1 1.1
5. Quantitative linguistics in Japan
that the Information-technology Promotion Agency exhibited the three versions of the IPA Lexicon of the Japanese Language for computers in 1987, 1990, 1997 is cited as another reason, since research using the IPALs has increased. In addition, it has also been noted that research on grammar statistics have been vigorous as a special feature of this field. The reason is that grammar statistics were required in order to reinforce grammatical rules, and to establish the guiding principles of the promotion of efficiency of language processing. Moreover, it is also a fact that there were academic interests in grammar statistics itself. The reason why research in method and technology was vigorous in the 1950s is that most researchers were still beginners in mathematical method, and little actual research had yet been done. Researches of method and technology were done briskly also in the 1980s. Since the 1980s was the time when the terminal use in TSS and the personal computer began to spread, computer techniques were emphasized (Mizutani, 1995). Papers on sociolinguistics have decreased since 1995. This is because the Japanese Association of Sociolinguistic Sciences was formed in 1997 and the contribution papers focused on its bulletin. Papers on language processing have decreased since the first half of the 1990s, due to the formation of the Association for Natural Language Processing in April, 1994, which publishes its own bulletin. Papers on semantics included many quantitative studies on semantic fields for partial vocabularies, and on meaning of sentences and texts. In addition, research in the semantic differential method is grouped under psycholinguistics.
6.
Vocabulary
The following four fields have accomplished remarkable developments in Japanese quantitative linguistics after 1945. (1) (2) (3) (4)
Vocabulary, Characters & Orthography, Text & Style, Sociolinguistics
First, I will consider the quantitative study of vocabulary.
87 The quantitative study of vocabulary is one of the most active fields of quantitative linguistics in Japan. By the middle of the 1950s, the research was progressing even to the elucidation of the distribution law of a vocabulary, and the problem of the inferred size of the vocabulary based on the sampling inspection of mathematical statistics. Therefore, the new field “Quantitative Analysis of Vocabulary” was already established in the 1960s. 6.1. Word counts and statistical studies on vocabulary Table 5.5 shows the investigations of vocabulary by NLRI. The institute has conducted quantitative surveys based on a large quantity of data for the purpose of obtaining basic data on vocabulary in modern Japanese. Data for these surveys research were obtained from magazines, newspapers, junior and senior high school textbooks, and television broadcasts. The introduction of the computer, starting with the vocabulary survey of newspapers, has played a leading role in computational linguistics in Japan (Report 37, 38, 42, 48, NLRI 1970K73). 6.1.1. The first survey The first survey was a total inspection whose population was the complete text of the issues of June, 1949 of the Asahi newspaper (Source 2, NLRI 1952). This is a tentative survey for setting up the methodology of word count. This study gives a word list of some 3,300 entries which occurred ten times or more in the population. In addition, the frequency distributions of words by days and by article, and the proportions of the word classes, were appended. 6.1.2. The second survey The second survey was a sampling inspection whose populations were the complete text of two women’s magazines (Report 4, NLRI 1953). This is the first result of the successive large scale surveys, and it might be one of the first projects in the world of word counts using the sampling method. Furthermore, in this study four new trials were performed as follows. (1) Making functions for computing the degree of fundamentality of words. (2) Making a new distribution function of the relative frequencies of words. (3) Making a prototype version of a new thesaurus that has classified some 4,300
88 words most commonly used to semantic fields. (later expanded into NLRI 1964) (4) Analysis of word-construction, especially patterns of compound words formed with Chinese elements. The distribution function of (2) was introduced by Mizutani Shizuo as a projection function, and an approximate function, F (p) Z p / (a p C b), was applied. Mizutani’s law is superior to Zipf’s law (1935) and Mandelbrot’s law (1952) in the degree of conformity of data. Shibuya Masaaki has proposed a general law that was formularized with generalized hypergeometric distributions (Shibuya 1979). Shibuya’s law can include not only other laws mentioned above, but also Yule’s law (1944), Herdan’s law (1964), and others. 6.1.3. The third survey The third survey was a sampling inspection whose population was the complete text of thirteen cultural reviews (Report 12, 13, NLRI 1957, 1958). Two kinds of word lists were published in Report 12. It can be said to be a remarkable feature of this study that, for the approximately one thousand most frequently used words, both their intervals of confidence coefficient (95 %) and their estimation precisions were calculated. These were the first word lists in the world with their estimation precisions. Furthermore, in this study two new trials were performed as follows: (1) Making a new function for estimating the amount of vocabulary, i. e. the statistical inference of the number of word-types in the complete population. (2) Making a new linear discriminative function for the judgment of whether two items were the same word or two different words. The function for (1) was derived by Mizutani, and applied to the data. The estimate was 43,669 G 1,616; It was obtained from the graph of types versus tokens to which was fitted an exponential function deduced from theorem on the relation between types and tokens in a sample. This actually is the most recent idea for estimating the size of a vocabulary to be developed in Japan. Now, in the West, Large Number of Rare Events (LNRE) models is attracting attention as models relevant to the estimation of the amount of a vocabulary. In Japan, al-
I. Allgemeines / General
though there is still no research which applies these models to language, in the field of bibliometrics, verification-application has already been performed (Kageura 2000). 6.1.4. The fourth survey The fourth survey was a sampling inspection whose population was the complete text of ninety selected magazines for adults (Report 21, 25, NLRI 1962, 1964). A remarkable feature of this study was that the parsing the data into tokens and types was performed strictly, so the data became very accurate. The accuracy of the data is still the highest ever. Furthermore, in this study some new trials were performed as follows: (1) Making a new sampling plan to guarantee the estimation precision for the small frequency of the order. This plan is a kind of stratified cluster sampling. This method makes possible the manual completion of the statistical aspect of word count. (2) Making a new fundamentality function of words. The function, f Z a C b log p C c log sc, was derived by Mizutani, and applied to the data. This function is fitted by the least square method, to twenty-five sets of a trial (whose components are the experts’ evaluation of a set of quantitatively similar words, the averaged relative frequency, and the averaged degree of scattering). Report 25 contains the table of the fundamentalities of the 1,200 most frequent words and semantic classification of the 700 most fundamental words. (3) Having elucidated the statistical structure of the vocabulary: Three topics are here discussed: (a) How many different words belong to each word-frequency grade, and what proportion of the total occurrences is covered by the accumulative number of such different words (Table 5.4); (b) Distributional differences among parts Table 5.4: Frequency distribution Sample Frequency
Word-Types
% of WordTokens
1K6 7K (50K)
32,782 7,234 (1,220)
14 86 (63)
Total
40,016
100
89
5. Quantitative linguistics in Japan
of speech and among classes by word origin; (c) The distribution of inflectional forms of verbs and adjectives.
kind in which a computer was used in processing the data at this institute. (3) By using both a long unit (Choo-tan’i, roughly, a word) and a short unit (Tantan’i, roughly, a morpheme), it was possible to investigate word structure during the processing. (4) In order to obtain and interpret the results from a multidimensional viewpoint, the occurrence and use of words were determined and analyzed in terms of various types of articles by topic, type of discourse, location of unit, and source of information.
6.1.5. The fifth survey The fifth survey was a sampling inspection whose populations were the complete text of one year of publication (1966) of three newspapers: Asahi, Mainichi, and Yomiuri (Report 37, 38, 42, 48, NLRI 1970K1973). The main characteristics of this investigation are as follows: (1) Newspaper articles were selected by a sampling procedure to obtain a large corpus totaling three million running words. (2) In order to process such a large amount of data in a short period of time, a computer system and Chinese character input-output teletypewriters were used. This investigation is the first one of its
Although organizations and researchers other than NLRI also conducted investigations of vocabulary based on newspapers and textbooks, except for Kabashima and Yoshida (1971), these were total inspections, and did not use mathematical statistics (Tab. 5.6).
Table 5.5: Investigations of vocabulary by National Language Research Institute Objects, publishing or broadcasting year 1 the Asahi newspaper one month in 1949 2 2 women’s magazines one year in 1950 3 13 cultural reviews one year in 1953K54 4 90 magazines of today one year in 1955 5 3 newspapers one year in 1966 6 high school textbooks of 9 subjects in 1974 7 junior high textbooks of 7 subjects in 1980 8 TV broadcasts 7ch three months in 1989
method
population sampling word-tokens word-types unit references (tokens) ratio million
total
K
A: sample B: sample sample
0.9 0.33 9
K
240,000
15,000
αo
Source 2
1/6 1/6.5 1/40
150,000 50,000 230,000
27,000 10,000 23,000
α α β
Report 4
β
sample
160
1/230
530,000
40,000
sample
120 180 K K K K 710
1/60 1/60 K K K K 1/504
2,000,000 3,000,000 450,000 600,000 200,000 250,000 140,000
213,000 K 41,000 15,000 18,000 8,000 26,000
total total sample
α# β# W M W M BS
Report 12, 13 Report 21, 22, 25 Report 37, 38, 42, 48 Report 81 Report 76 Report 91 Report 87 Report 112, 114, 115
(1) a series of long units: αo/α/α#/W/BS, a series of short units: β/β#/M (2) A: Shufu no Tomo, B: Fujin Seikatsu (3) BS: bunsetsu (a phrase in a Japanese sentence) Table 5.6: Main investigations of vocabulary other than National Language Research Institute Objects, publishing year
method
word-tokens
word-types
references
1 Asahi newspaper 122 days in 1948K49 2 Textbooks of primary school 91 volumes in 1953K54 3 Textbooks of primary school the 1stK6th graders in 1959 4 Textbooks of high school 6 volumes in 1965
total
580,000
15,000
Asahi newspaper (1950)
total
420,000
9,000
total sample
10,000 1,803
Ikehara (1957) Tokyo Shoseki (1959) Kabashima/Yoshida (1971)
90
I. Allgemeines / General
6.2. Quantitative law of vocabulary There are various subjects related to the quantitative law of vocabulary. Among these, since the distribution of word frequencies was already treated in the foregoing section, the distribution of the proportion of parts of speech will be taken up here. Two formulations for estimating the proportion of parts of speech are Kabashima’s law (1955) for tokens and Ohno’s law (1956) for types. Both of the laws are about the connection between the occurrence of nouns and other parts of speech in texts and demonstrate the existence of a linear dependence between them. Since Ohno’s law is already known well and it is taken up in other chapters of this handbook, I will take up Kabashima’s law here. Based on the following eight sources with style differences, Kabashima Tadao performed a random sampling and clarified the constituent proportions of parts of speech (Kabashima 1955). Kabashima classified eight parts of speech into the following four word groups in order to lessen the fluctuation of data. N-noun, V-verb, M-adjective, adjective verb, adverb, attribute, I-conjunction, exclamation.
7.
7.1. Kanji counts Investigations of kanji have been conducted in order to select the basic kanji from the beginning of the 20th century. Nevertheless, the reason that investigations of kanji are still being conducted also now is because the proportion of kanji in Japanese texts changes with times. That is, since the proportion of kanji tends to lessen with time, the basic kanji also changes with time. Investigations of kanji should also be continued in the future. 7.2. Frequency ratios of character types There are three scripts used mixing them in writing Japanese: hiragana, katakana and kanji as mentioned above. However, strictly speaking, alphabet, numerals, and punctuation are also used. Table 5.9 shows the distribution of frequency ratios of kinds of Japanese characters and letters in various texts. The ratio of each script varies by text type. However, in any text, when arranged in order of frequency, we can discern a general tendency to be ranked in the following order: hiragana, kanji, katakana, and punctuation.
8. Table 5.7: The Distribution of a frequency ratio of Japanese parts of speech in 8 sources (Kabashima 1955) 1 Conversation 2 Conversation in novels 3 Books of philosophy 4 Descriptive parts in novels 5 Books of natural science 6 Tanka 7 Haiku 8 newspaper articles
N
V
M
I
41.6 45.2
26.3 31.4
20.1 18.0
12.0 5.4
48.6 49.4
31.4 32.3
17.0 15.4
3.0 2.9
52.6
30.8
14.6
2.0
54.4 60.2 65.6
31.7 29.4 28.6
13.7 10.4 5.0
0.2 0.0 0.8
Kabashima demonstrated the existence of a linear dependence between the occurrence of nouns and other parts of speech in texts by the following functions. M Z 45.67 K 0.60 ! N log I Z 11.57 K 6.56 ! log N V Z 100 K (N C M C I)
Characters and orthography
Text
In quantitative studies of text and style, I will survey three fields: stylometrics, author identification and mechanical composition of popular songs. 8.1. Stylometrics The method most used for stylometrics until the 1940s was based on descriptive statistics, whereas Yasumoto Biten, a psychologist, and Kabashima Tadao, a linguist, introduced the technique of mathematical statistics into quantitative stylistics thereafter (Yasumoto 1959, Kabashima 1961). For 100 modern Japanese writers’ texts, Yasumoto classified 15 stylistic features into eight types according to factor analysis, and characterized each writer by these combination (Yasumoto 1965). It was a quite early example to adopt factor analysis as a technique for stylometrics. For samples of 100 modern Japanese writers’ texts, Kabashima and Jugaku Akiko conducted quantitative investigation of 18 items of the stylistic feature, and made the analysis table (Kabashima and Jugaku 1965).
91
5. Quantitative linguistics in Japan Table 5.8: Main investigations of kanji Sources, quantity, publishing year 1 Asahi newspaper 9 months in 1948K49 2 Women’s magazine one year in 1950 3 Yuubin Hoochi newspaper one year in 1877K78 4 13 cultural reviews one year in 1953K54 5 90 magazines of today one year in 1956 6 3 main newspapers one year in 1966 7 Kyoodoo Tsuushin newspaper, 1 week in 1971 8 NHK newscasting manuscript, one year in 1965 9 Books, magazines, etc., in 1976 10 Titles of papers on natural science, 1 month in 1963 11 Japanese names of 660,000 people in 1971 12 70 magazines of today one year in 1994
method
kanji tokens
kanji types
references
total
17,000,000
2,308
Asahi newspaper (1950)
sample
170,000
3,048
NLRI Report 4 (1953)
sample
166,000
3,614
NLRI Report 15 (1959)
sample
117,000
2,781
NLRI Report 19 (1960)
sample
280,000
3,328
NLRI Report 22 (1963)
sample
991,000
3,213
NLRI Report 56 (1976)
total
462,000
2,279
Kyoodoo Tsuushinsha (1971)
total
338,000
2,109
Sugano (1968)
total
5,302,000
4,520
Toppan Insatsu (1976)
total
20,000
1,407
National Diet Library (1967)
total
2,721,000
2,826
Nihon Yunibakku (1971)
569,000
3,586
NIJL Report 119 (2002)
sample
Table 5.9: The distribution of frequency ratios of Japanese scripts in various texts (Satake 1982) 1 2 3 4 5
Review & Paper Essay Novel Practical & Interpretive Interview
Total
Kanji
Hiragana
Katakana
Alphabet
Numerals
Punctuations
31.99 26.05 24.78 23.39 22.89
53.80 59.59 60.72 53.91 62.10
6.13 5.63 4.44 13.75 4.69
0.30 0.07 0.05 0.31 0.15
0.30 0.00 0.01 0.73 0.11
7.48 8.66 10.00 7.91 10.06
26.52
57.29
6.95
0.22
0.29
8.73
Recently, Jin (1994) has classified texts according to distributions of punctuation marks. 8.2. Author identification Yasumoto Biten analyzed 12 style features statistically for the Tale of Genji (a classic in the 11th century) by Murasaki Shikibu, and conducted that the last twenty percent of the text was another author’s work (Yasumoto 1960). By discriminative function, Nirasawa Tadashi analyzed 32 words which an author tends to use unconsciously, and conducted that the author of the Tale of Yura (a classic in the 18th century) is not Kamono Mabuchi but Takebeno Ayatari (Nirasawa 1965).
Recently, Matsuura Tsukasa and Kaneda Yasumasa devised and enforced the new authorship attribution method via a n-gram distribution (Matsuura and Kaneda 2000). 8.3. Mechanical composition of popular songs The study of mechanical composition of popular songs applying the information theory of Shannon has a long tradition in Japan. (Watanabe 1953, Mizutani 1959, Kabashima 1970, Nakano 1971). Because these researches were carried out based on many kinds of popular songs, it was difficult to construct songs with high cohesion. On the other hand, Ito Masamitsu has conducted experiments using a computer based on 300
92
I. Allgemeines / General
songs of one singer-songwriter called Matsutooya Yumi. This method made it easy to construct songs with high cohesion (Ito 1998, 2001b). Recently, Ito framed a hypothesis which can construct songs on arbitrary themes, and conducted experiments based on the hypothesis, obtaining good results (Ito 2001a). This means that there is a possibility that a new field called “synthetic text linguistics” will be explored. The ultimate purpose of this study is the elucidation of human creativity.
9.
Sociolinguistics
Since the fields of sociolinguistics cover a wide range of topics, I will only outline two fields (language change and language varieties) with flourishing quantitative research here. If you would like to see the quantitative data of the whole fields of sociolinguistics of Japan, I would recommend Sanada and Long (1997). 9.1. Language change This field saw the early introduction of mathematical statistics and multivariate analysis. In 1949, NLRI conducted a landmark project in which 635 residents of Shirakawa (Fukushima Prefecture) were interviewed to gauge the level to which Standard Japanese had penetrated their speech and to determine the role social factors had played in the process. More importantly, the informants in this study were not chosen by personal contacts, but by a random sampling method (NLRI 1950). This project is one of the earliest examples of such research in the world. Subsequently, language life investigations by NLRI have been conducted about 20 times by present. It deserves special mention that Hayashi’s quantificational theory type III was introduced for the first time in the attribution analysis about the standardization of dialect in the investigation of Tsuruoka (Yamagata Prefecture) which was conducted in 1972 (Egawa 1973, NLRI 1979). 9.2. Language varieties; study of dialect boundary The classical arithmetic method of quantification is the “Isogloss method”. Bundles of isoglosses are often sought in order to find dialect boundaries. However this method
has several problems such as the arbitrariness of selection of phenomena. A newer cumulative isogloss method which avoids the arbitrariness is the “Honeycomb method” applied by Gross (1955) and Mase (1964). In the ideal honeycomb method, all the phenomena in all the area investigated are taken into consideration. In order to eliminate subjective judgment, sometimes weighting of phenomena is attempted by attaching various degrees of importance according to the frequency for usage of the linguistic system. Dialect division can be performed by the isogloss method without paying attention to coincidence between remote areas. In dialect classifications such as the “Identity method” (the similarity method) and the multivariate analysis, the similarities of linguistic features among dialects are taken into consideration. The cumulative identity method without the use of a computer has a long tradition in Japan. The method using a computer was applied to Japanese dialects by Inoue (1984). As for the technique of presenting identity matrices, the most effective practice in Japan is the “S & K Network Method” or the “N-T Method” for dialect division developed by Sibata and Kumagai (1985, 1987, 1993). In this method lines connecting localities of a certain degree of identity (or similarity) are shown between all the localities. Since computers were introduced into dialect boundary researches, researchers who use multivariate analysis appeared in the 1970s. The multivariate analyses used by researches of dialect boundary are the following three methods. a. Cluster analysis: Asai (1974), Inoue & Kasai (1982a, b) b. Hayashi’s quantificational theory type III: Inoue (1981) c. Factor analysis: Inoue & Kasai (1982a, b) The multivariate analyses do not take geographical factors into calculation. However the (distributional) center of gravity method does. This method can show geographical distribution patterns by means of a simpler calculation. In the center of gravity method, the movement of the geographical distribution of word forms has been clearly shown on a map, by showing the shift of points indicating gravity centers. Inoue Fumio applied this method to the geographical distribution of standard Japanese forms (Inoue 1984).
5. Quantitative linguistics in Japan
93
10. Conclusion
For the Study of the Japanese Language), Tokyo, Rokugatsu-sha.
Although I have been discussing quantitative linguistics in Japan, there are many investigations and studies that I could not mention because of limited space. If you would like to see the whole data of quantitative linguistics of Japan, I would recommend Hayashi et al. (1982). Moreover, there is Mizutani ed. (1989) as a collection of papers of the English version about Japanese quantitative linguistics. I consider that one of the purposes of linguistics is the elucidation of human creativity. For this purpose, it is important not only to analyze language like the 20th century’s linguistics, but to synthesize language. The conversion from “analytic linguistics” to “synthetic linguistics” will be an important subject of the 21st century’s linguistics, and quantitative linguistics should play a major role.
Inoue, Fumio (1981) Hoogen no chiikisa nenreisa no pataan (A pattern analysis of dialectal differences by area and age). In: Gengo Kenkyu 80, 13K31.
11. Literature (a selection) Asahi Shinbun Tokyo Honsha (1950) Katsuji Shiyoodosuu Choosa/Jukugo Shiyoodosuu Choosa, Tokyo, Asahi Shinbun Tokyo Honsha. Asai, Tooru (1974) Classification of Dialects: Cluster Analysis of Ainu Dialects. In: Hoppoo Bunka Kenkyuu 8, 45K114; 115K136. Andoo, Tsunemasa (1909) Kanji no Kenkyuu. Tokyo, Rokugookan. Ban, Nobutomo (1850) Kana Hommatsu. In: The Complete Works of Ban Nobutomo 3, Tokyo, Kokusho Kankookai. Dewey, Godfrey (1923) Relative Frequency of English Speech Sounds. Cambridge: Harvard University Press. Egawa, Kiyoshi (1973) Tahenryoo kaiseki no shakai gengogakuteki choosa e no tekiyoorei (A study of language behavior by means of a multivariate analysis), in: Kotoba no Kenkyuu 4, 214K 229. Grosse, Rudolf (1955) Die Meissnische Sprachlandschaft K Dialektgeographische Untersuchungen zur Obersächsischen Sprach- und Siedlungsgeschichte, Halle (Z Mitteldeutsche Studien; 15). Hatano, Kanji (1935) Bunshoo Shinrigaku (Text Psychology), Tokyoo, Sanseidoo. Hayashi, Ooki/Miyajima, Tatsuo/Nomura, Masaaki/Egawa, Kiyoshi/Nakano, Hiroshi/Sanada, Shinji/Satake, Hideo eds.(1982) Zusetsu Nihongo (The Japanese Language, Full-illustrated Book), Tokyo, Kadokawa Shoten. Ikehara, Narao (1957) Kokugo Kyooiku no tameno Kihon Goi Taikei (A System of Basic Words:
Inoue, Fumio/Kasai Hisako (1982a) Hyoojungokei no chiriteki-bunpu-pataan: Nihon Gengo Chizu deeta no inshi-bunseki (Geographical distribution patterns of standard Japanese forms: Factor analysis of the “Linguistic Atlas of Japan”). In: Kokugogaku 131, 27K43. Inoue, Fumio/Kasai Hisako (1982b) Hyoojungokei ni yoru hoogen-kukaku (Dialect Classification by Standard Japanese Forms). In: Keiryoo Kokugogaku 13K6, 245K255. Inoue, Fumio (1984) Atarashii hogen-kukakuron, hogen ruijido (New method of dialect division, degrees of dialect similarity). In: Kokubungaku Special Issue. Ito, Masamitsu (1998) Text goosei system FUJIMURA (Text Composing System FUJIMURA). In: Keiryoo Kokugogaku 21K6, 275K287. Ito, Masamitsu (2001a) Yuming no gengogaku 42; Teema seisei goiron no kanoosei (Yuming’s Linguistics 42; The hypothesis for constructing songs on arbitrary themes). In: Nihongogaku 20K3, 78K85. Ito, Masamitsu (2001b) Zen-jidoo-gata tekusuto goosei shisutemu FUJIMURA Cver 3.0D (Full-Automatic Text Composing System FUJIMURA Cver 3.0D). In: Keiryoo Kokugogaku 22K8, 335K354. Ito, Masamitsu (2002) Keiryoo Gengogaku Nyuumon (An Introduction to Quantitative Linguistics), Tokyo, Taishuukan Co., Ltd. Jin, Ming-Zhe (1994) Tooten no uchikata to bunshoo no bunrui (Positioning of commas in santences and classification of texts). In: Keiryoo Kokugogaku 19K7, 317K330. Kabashima, Tadao (1955) Ruibetsu sita hinshi no hiritsu ni mirareru kisokusei (On the ratio of parts of speech in present-day Japanese and the cause of its fluctuation). In: Kokugo Kokubun 24K6, 385K387. Kabashima, Tadao (1961) Buntai no hen’i ni tsuite. In: Kokugo Kokubun 30K11, 23K38. Kabashima, Tadao/Jugaku, Akiko (1965) Buntai no Kagaku, Tokyo, Soogeisha. Kabashima, Tadao (1970) Ryuukooka o tsukuru (Mechanical composition of popular songs). In: Keiryoo Kokugogaku 52, 8K40. Kabashima, Tadao/Yoshida, Yasuo (1971) Ryuugakusei no tame no Kihon Goihyoo. In: Nihongo NIhon-bunka 2, Oosaka Gaikokugo Daigaku. Kaeding, F. W. (1897, 1898) Häufigkeitswörterbuch der deutschen Sprache, Steglitz bei Berlin: Selbstverlag des Herausgebers.
94 Kageura, Kyoo (2000) Keiryoo Joohoogaku; Toshokan/Gengo Kenkyuu eno Ooyoo, Tokyo, Maruzen Co., Ltd. Kaito, Matsuzoo (1938) Kihon Goigaku [Joo], Tokyo, Bungakusha. Khmaladze, E. V. (1987) The Statistical Analysis of a Large Number of Rare Events. Report MSR8804. Amsterdam; Department of Mathematical Statistics, Center for Mathematics and Computer Science. Kitazato Takeshi (1926) Hihon Kodaigoon Soshikikoo Hyoozu (A Research into the Sound-System of Old-Japanese; Charts), Tokyo, Keikoosha. Kitazato Takeshi (1930) A Research into the Sound-System of Old-Japanese; A Summary of My Work entitled. In: Nihongo no Konponteki Kenkyuu [ge], Kitasato. K. ed., 77K89, Ooaska, Shionkai. Kobayashi, Hideo (1943) Buntairon no Kensetsu, Tokyo, Ikuei Shoin. Kubo, Yoshihide (1924) Yooji no gengo no hattatsu. In: Jidoo Kenkyuujo Kiyoo, 5, 6, 7, Chuubunkan Shoten, 137K299. Kyoodoo Tsuushinsha (1971) Moji Shutsudo Choosa; 100 manji Shuukei Kekka, Tokyo, Kyoodoo Tsuushinsha. Mandelbrot, B. (1952) Contribution à la thematique des jeux de communication. Mase, Yoshio (1964) Hoogen ishiki to hoogen kukaku; Shinano kokkyoo chitai o rei ni. In: Nihon no Hoogen Kukaku, Tojoo Misao, ed., Tokyo, Tokyodoo. Matsuura, Tsukasa/Kaneda Yasumasa (2000) ngram no bunpu o riyoo shita kindai Nihongobun no chosha suitei (Authorship Attribution in Japanese Modern Sentences via N-Gram Distribution). In: Keiryoo Kokugogaku 22K6, 225K238. Minami-Manshuu Kyooikukai(1936) Kiso Nihongo, South Manchuria, Private publication. Mizutani, Sizuo (1959) ‘Naku, hana, koi’kara ‘teiru, naku, ame’ e. In: Gengo Seikatsu 91, 26K37. Mizutani, Sizuo (1965a) Oono no goi-hoosoku ni tsuite (Notes on Ohno’s Law of Vocabulary). In: Keiryoo Kokugogaku 35, 1K13. Mizutani, Sizuo (1965b) Kooseihi no senkei-kaikichoosei (An Adjustment of Constituent Proportions by Linear Regression). In: Keiryoo Kokugogaku 13K2, 92K97. Mizutani, Sizuo (1982) Suuri Gengogaku, Gendai Suugaku Rekuchaazu D-3, Baifuukan. Mizutani, Sizuo eds.(1989) Japanese Quantitative Linguistics. In: Quantitative Linguistics 39, Bochum. Mizutani, Sizuo (1995) Suuriteki-kenkyuu. In: Kokugogaku no Gojuunen, 387K398, Tokyo, Musashino Shoin.
I. Allgemeines / General Morimoto, Kakuzoo (1921) Shisho Sakuin, Tokyo, Keisho Sakuin Kankoojo. Nakano, Hiroshi (1971) Kikai no tsuzuru ai no uta. In: Gengo Seikatsu 242, 41K47. Naruhama Primary School in Chiba prefecture (1924) Shin-nyuugaku Jidoo Goi no Choosa, Seijoo Shoogakkoo Kenkyuu Soosho 12, Tokyo, Bunka Shoboo. National Language Research Institute (1951) Gengo-seikatsu no Jittai: Shirakawa-shi oyobi Fukin no Nooson ni okeru (Language Survey in Sirakawa City), NLRI Report 2. Tokyo, Shuei Shuppan. National Language Research Institute (1952) Goichoosa: Gendai Sinbun Yoogo no Ichi-rei (A Research Newspaper Vocabulary) Source 2. Tokyo, Shuei Shuppan. National Language Research Institute (1953) Fujin Zasshi no Yoogo: Gendaigo no Goi Choosa (Research on Vocabulary in Women’s Magazines), NLRI Report 4. Tokyo, Shuei Shuppan. National Language Research Institute (1957, 58) Soogoo Zasshi no Yoogo [Zenpen/Koohen]: Gendaigo no Goi-choosa (Research on Vocabulary in Cultural Reviews), NLRI Report 12, 13. Tokyo, Shuei Shuppan. National Language Research Institute (1958) Meiji Shoki no Sinbun no Yoogo (Research on the Vocabulary in a Newspaper in the Early Years of the ‘Meiji’ Period), NLRI Report 15. Tokyo, Shuei Shuppan. National Language Research Institute (1960) Soogoo Zasshi no Yooji (The Use of Written Forms in Japanese Cultural Reviews), NLRI Report 19. Tokyo, Shuei Shuppan. National Language Research Institute (1962K64) Gendai Zasshi 90 shu no Yoogo Yooji, Vol. 1K3 (Vocabulary and Chinese Characters in Ninety Magazines of Today), NLRI Report 21, 22, 25. Tokyo, Shuei Shuppan. National Language Research Institute (1964) Bunrui Goi Hyoo (Word List by Semantic Principles), NLRI Source 6. Tokyo, Shuei Shuppan. National Language Research Institute (1970K73) Denshi Keisanki ni yoru Shinbun no Goi Choosa, Vol. 1K4 (Studies on the Vocabulary of Modern Newspapers), NLRI Report 37, 38, 42, 48. Tokyo, Shuei Shuppan. National Language Research Institute (1974) Chiiki Shakai no Gengo Seikatsu; (Language Survey in Tsuruoka City, Yamagata Pref.: After 20 Years from the Preceding Survey), NLRI Report 52. Tokyo, Shuei Shuppan. National Language Research Institute (1976) Gendai Shinbun no Kanji (A Study of Uses of Chinese Characters in Modern Newspapers), NLRI Report 56, Tokyo, Shuei Shuppan. National Language Research Institute (1983K84) Kookoo Kyookasho no Goi Choosa 1, 2 (Studies
5. Quantitative linguistics in Japan on the Vocabulary of Senior High School Textbooks 1, 2), NLRI Report 76, 81. Tokyo, Shuei Shuppan. National Language Research Institute (1986K87) Chuugakkoo Kyookasho no Goi Choosa, Vol. 1K2 (Studies on the Vocabulary of Junior High School Textbooks), NLRI Report 87, 91. Tokyo, Shuei Shuppan. National Language Research Institute (1995, 97, 99) Terebi Hoosoo no Goi Choosa 1K3 (Vocabulary Survey of Television Broadcasts Vol. 1K3), NLRI Report 112, 114, 115. Tokyo, Vol. 1: Shuei Shuppan, Vol. 2K3: Dainippontosho Publishing Co., Ltd. National Institute for Japanese Language (2002) Gendai Zasshi no Kanji Choosa (A Survey of Kanji in Contemporary Magazines), NIJL Report 119. Tokyo, NIJL. The National Primary School attached to the Nagano Normal School (1944) Jidoo no Goi to Kokugo Shidoo, Naganoshihan Fuzoku Kokumin Gakkoo Soosho 4, Nagano, Shinano Mainichi Newspaper Publishing. Nihongo Kyooiku Shinkookai (1943) Jidoo Yomimono Goi Choosa, Tokyo, Nihongo Kyooiku Shinkookai. Nihongo Kyooiku Shinkookai (1944) Seijin Yomimono Goi Choosa, Tokyo, Nihongo Kyooiku Shinkookai. Nihon Yunibakku (1971) Kanji Shishutemu Dezain Shiryoo 4, Tokyo, Nihon Yunibakku. Nirasawa, Tadashi (1965) Yura Monogatari no sakusha no tookeiteki hanbetsu (Inference in the authorship of Yura Monogatari). In: Keiryoo Kokugogaku 33, 21K28. Oonishi, Masao (1932) Hindo(frequency) kara mita soon no kachi. In: Onseigaku Kyookai Kaihoo 26, 4K5. Oonishi, Masao (1936) Goon hindo yori mitaru Jukka Kokugo no Hatsuon Kite. In: Onsei no Kenkyuu 6, 153K181. Oonishi, Masao (1941) Nihon Kihon Kanji, Tokyo, Sanseidoo. Oono, Susumu (1956) Kihon-goi ni kansuru ni-san no kenkyuu (Studies on the basic vocabulary of Japanese: In the Japanese classical literature). In: Kokugogaku 24, 34K46. The Primary School attached to the Normal School in Okayama prefecture (1935) Jidoo no Goi to Kyooiku, Tokyo, Fujii Shoten. Sakamoto, Ichiroo (1943) Nihongo Kihon Goi [Yoonen no Bu], Tokyo, Meiji Tosho. Satake, Hideo (1982) Kakushu bunshoo no jishu hiritsu (On the frequency ratio of kinds of letters in all sorts of sentence), NLRI Report 71, in: Kenkyuu Hookokushuu 3, 327K346. Sanada, Shinji/Long, Daniel, ed. (1997) Shakai Gengogaku Zushuu (Japanese Sociolinguistics Illustrated), Tokyo, Akiyama Shoten.
95 Sawayanagi, Seitaroo/Tanaka, Suehiro/Nagata, Shin (1919) Jidoo Goi no Kenkyuu, Tokyo, Doobunkan. Sibata, Takesi/Kumagai, Yasuo (1985) Gengoteki tokuchoo niyoru chiiki bunkatsu no tame no Netowaakuhoo (The Network Method: a Method for Dividing an Area on the Basis of Linguistic Features). In: Kokugogaku 140, 73K88. Sibata, Takesi/Kumagai, Yasuo (1987) Netowaakuhoo niokeru chitenkan no gengoteki ruiji no atarashii toraekata to shori no shikata (A New “Network Method” and Its Processing Procedures for Dividing Dialect Areas), in Kakugogaku 150, 123K136. Sibata, Takesi/Kumagai, Yasuo (1993) The S&K Network Method: Processing Procedures for Dividing Dialect Areas, Verhandlungen des Internationalen Dialectologenkongress Bamberg 1990 Band 1. ZDL-Beiheft 74. Shibuya, Masaaki (1979) Generalized Hypergeometric, Digamma and Trigamma Distributions. In: Annals of the Institute for Statistical Mathematics 31, 373K390. Sugano, Ken (1968) Kanji kara mita rajio nyuusu no yoogo. In: Bunken Geppoo 209, 23K32, Tokyo, NHK Soogoo Hoosoo Bunka Kenkyuujo. Terada, Torahiko (1928) Hikaku gengogaku ni okeru Tookeiteki kenkyuu hoohoo no kanoosei ni tsuite. In: Shisoo March. Thorndike, E. L. (1921) The teacher’s word-book, First Edition, New York. Tokyo Shoseki (1959) Gakushuu Kihon Goi, Tokyo, Tokyo Shoseki. Toppan Insatsu (1976) Kanji Shutsugen Hindosuu Choosa 2, Tokyo, Toppan Insatsu Co., Ltd. Ushijima, Yoshitomo/Moriwaki, Kaname(1943) Yooji no gengo hattatsu. In: Aiiku Kenkyuujo Kiyoo; Kyooyoobu 2, Tokyo, Meguro Shoten. Watanabe, Osamu (1953) Hyoogen kooka no suuryooka. In: Kokugogaku 15, 100. Yasumoto, Biten (1959) Bunshoo seikakugaku e no kisoteki kenkyuu; Inshi bunsekihoo ni yoru gendai sakka no bunrui. In: Kokugo Kokubun 28K6, 19K41. Yasumoto, Biten (1960) Bunshoo Shinrigaku no Shin-Ryooiki, Tokyo, Seishin Shoboo. Yasumoto, Biten (1965) Bunshoo Shinrigaku Nyuumon, Tokyo, Seishin Shoboo. Yomi-kaki Nooryoku Choosa Iinkai (1951) Nihonjin no Yomi-kaki Nooryoku, Tokyo, Tokyo Daigaku Shuppanbu. Zipf, G. K. (1935) The Psycho-Biology of Language. Boston: Houghton Mifflin.
Masamitsu Ito, Tokyo (Japan)
96
I. Allgemeines / General
6. Zur Geschichte quantitativ-linguistischer Forschungen in China 1. Vorbemerkung 2. Deskriptive quantitative Untersuchungen im vormodernen China 3. Die erste umfassende Erhebung zur Schriftzeichenhäufigkeit 4. Forschungen zu Schriftzeichenund Worthäufigkeiten in der VR China bis 1989 5. Forschungen in der VR China in den 1990er Jahren 6. Forschungen in der VR China im begonnenen 21. Jahrhundert 7. Ein Korpus aus Taiwan: Das Sinica Corpus 8. Korpuslinguistische Forschungen in Hongkong und Singapur 9. Arbeiten an der University of Pennsylvania 10. Schlusswort 11. Literatur (in Auswahl)
1.
Vorbemerkung
Dieser Artikel hat die wichtigsten Ereignisse in der Geschichte der quantitativen Linguistik in China zum Gegenstand. Für die Zeit nach 1949 wird das Hauptaugenmerk auf Forschungen in der VR China liegen, während Taiwan, Hongkong und Singapur nur insoweit eine Rolle spielen, als im letzten Abschnitt einige Korpora vorgestellt werden, die dort entwickelt wurden und die, da von den herausgebenden Institutionen erhältlich, als Datengrundlage auch andernorts für Forschungen interessant sein könnten. Aus demselben Grund wird auch ein Standort außerhalb Asiens, nämlich die University of Pennsylvania, kurz behandelt. Die hier berücksichtigten Forschungen haben alle das moderne Hochchinesisch, chin. putonghua, engl. Mandarin oder modern standard Chinese, zum Gegenstand. Quantitative dialektologische Forschungen werden nicht berücksichtigt, ebenso wenig neuere Forschungen an phonetischen Korpora gesprochener Sprache. Da einerseits Korpora die Datengrundlage für die quantitative Erforschung des Redesystems sind und sich andererseits in China keine bestimmte Schule der quantitativen Linguistik abzeichnet, ist die Darstellung etwas korpuslastig. Für eine umfassende Darstellung der chinesischen Linguistik des 20. Jhs. s. Liu (1998).
2.
Deskriptive quantitative Untersuchungen im vormodernen China
Linguistische Disziplinen wie die Lexikographie, Onomasiologie, Paläographie, Etymologie, Dialektologie und Phonologie haben in China eine Geschichte, die zweitausend Jahre zurückreicht, wobei das älteste bekannte semasiologische Wörterbuch Erya sogar noch einige Hundert Jahre älter sein dürfte. Im Lauf dieser Geschichte entwickelte sich zwar noch keine quantitative Linguistik im modernen Sinn, aber es wurden bestimmte Fragen mit Mitteln beantwortet, die man als deskriptive Statistik bezeichnen könnte. Moderne Visualisierungstechniken wie z. B. Linien- oder Balkengraphiken standen den damaligen Gelehrten natürlich noch nicht zur Verfügung. Das erste onomasiologische Schriftzeichenlexikon ist das Shuo wen jie zi [Erläuterung der einfachen und Analyse der komplexen Schriftzeichen] des Gelehrten Xu Shen, der im 1. Jh. n. Chr., lebte; es soll um 100 oder 121 n. Chr. fertig gestellt worden sein, ist aber nur in späteren Redaktionen überliefert. Xu ordnet darin das von ihm untersuchte Schriftzeicheninventar sechs verschiedenen Kategorien, chin. liu shu [sechs Schreibungen], zu, durch welche er das Prinzip ihrer Entstehung zu erfassen suchte: (1) Piktographische Schriftzeichen, (2) indikatorische Schriftzeichen, (3) Assoziativkomposita, (4) signifisch-phonetische Komposita, (5) phonetische Entlehnungen und (6) sich gegenseitig kommentierende Schriftzeichen. Spätere Gelehrte wollten wissen, wie viele Schriftzeichen diesen Kategorien, auf deren kritische Analyse hier verzichtet werden muss, jeweils zuzuordnen sind. Im 12. Jh. untersuchte der Gelehrte Zheng Qiao rund 24.000 Schriftzeichen auf ihre Kategorienzugehörigkeit und differenzierte dabei noch einmal nach semantischen Gesichtspunkten. Die Ergebnisse veröffentlichte er im „Liu shu“ genannten Teil seines enzyklopädischen Werks Tongzhi, vollendet 1161. Über sechshundert Jahre später hat der Gelehrte Zhu Junsheng (1788K1858) das Shuo wen jie zi, in dem er 9.475 Schriftzeichen als Haupteinträge zählte K heute wird ihre Zahl mit 9.353 angegeben K, gründlich er-
97
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
Tabelle 6.1: Zuwachs des Schriftzeicheninventars und Wandel der Anteile der liu shu-Kategorien am Inventar Inventar
Umfang
Shuo wen jie zi (1. Jh.) Zheng Qiaos Inventar (12. Jh.) Kangxi zidian (18. Jh.)
9.475 24.235 48.641
Anteil von Schriftzeichen der sechs Kategorien (in Prozent des Inventars) (1)
forscht und dabei nicht nur Xus sechs Kategorien weiter verfeinert, sondern auch erhoben, wie viele Schriftzeichen jeder Kategorie und Unterkategorie zuzuordnen sind. Die unterschiedlichen Inventarumfänge zeigen einerseits das Wachstum der Schriftzeichenmenge, einschließlich nicht mehr gebräuchlicher Schriftzeichen und graphischer Varianten. Andererseits zeigen die Zahlen auch die Zunahme des Anteils signifischphonetischer Schriftzeichen. Tabelle 6.1 zeigt die Zahlen (vgl. Wei 1979, 160K162), die die beiden genannten Gelehrten ermittelten, wobei ich auf Differenzierungen verzichte und eine moderne Auswertung des Schriftzeichenlexikons Kangxi zidian aus dem 18. Jh. hinzufüge (vgl. DeFrancis 1984, 84), um den weiteren Zuwachs an signifischphonetischen Schriftzeichen zu zeigen. Diese Angaben beruhen auf statistischen Listen, die den frühen Philologen zur Verfügung standen. Zwar wurden auch schon im vormodernen China Zusammenstellungen von Schriftzeichen angefertigt, die in den Klassikern häufig vorkamen und deren Kenntnis daher für die kaiserlichen Prüfungen relevant war, aber sie wurden nicht mit Häufigkeitsangaben versehen. Unter der letzten kaiserlichen Dynastie, d. h. während der Qing-Zeit 1644K1911 gelangte in China die historische Phonologie zu besonderer Blüte. Andere linguistische Fragestellungen wurden jedoch akut, als der Kontakt mit dem Westen, der den umfassenden Reformbedarf im chinesischen Reich deutlich machte, intensiver wurde. Die literarische Revolution der 4. Mai-Bewegung von 1919 bewirkte, dass bereits zu Anfang der 1920er Jahre die zeitgenössische Umgangssprache das klassische Chinesisch als Literatur- und überhaupt als Schriftsprache verdrängte, was wiederum zu neuen Fragen führte, die sich z. B. im Bildungssystem akut stellten.
(2)
(3)
3,8 % 1,3 % 12,3 % 2,4 % 0,4 % 3,0 % (1)K(3) zusammen: 3 %
3.
(4)
(5)
(6)
80,9 % 85,8 % 97 %
1,2 % 2,4 % K
0,5 % 1,4 % K
Die erste umfassende Erhebung zur Schriftzeichenhäufigkeit
Die Geschichte der modernen quantitativen Linguistik beginnt in China mit dem Pädagogen Chen Heqin (1892K1982), der in der Republikzeit, nämlich zu Beginn der 1920er Jahre mit der Hilfe von neun Mitarbeitern ein Textkorpus von insgesamt 554.478 Schriftzeichen-Tokens Umfang auswertete und dabei ein Inventar von 4.261 verschiedenen Schriftzeichen-Types gewann. Daraufhin wurden weitere 348.180 Schriftzeichen Text ausgewertet, was zur ersten Studie 458 weitere Schriftzeichen-Types hinzufügte. Der zweite Teil wurde jedoch durch Kriegseinwirkung vernichtet, so dass nur der erste Teil 1928 in Shanghai veröffentlicht werden konnte; eine zweite Auflage folgte 1936. Chens Buch führt die Schriftzeichen in einer Liste nach Radikal (das sind Komponenten, die für die Indexierung der Schriftzeichen herangezogen werden) und Strichzahl geordnet auf und gibt dazu jeweils die absolute Häufigkeit im Korpus an. Eine zweite Liste enthält die Schriftzeichen nach ihrer absoluten Häufigkeit absteigend geordnet, wobei alle Schriftzeichen mit gleicher Häufigkeit hinter der jeweiligen Zahl aufgeführt werden. Chen war kurz vor Beginn der 4. Mai-Bewegung von einem Auslandsstudium in den USA zurückgekehrt, wo er zweifellos mit modernen wissenschaftlichen Methoden in Berührung gekommen war. Ziel seiner Studie war es, diejenigen Schriftzeichen und ihre Häufigkeit zu ermitteln, die für die Bildung seiner Schüler und für ihre Teilnahme am gesellschaftlichen und politischen Leben relevant sind, um die Gestaltung des muttersprachlichen Unterrichts auf diese Daten stützen zu können. Die Umgangssprache, die sich gerade erst die Funktion einer Schriftsprache erobert hatte, wurde ja zwar von allen gesprochen, war aber kaum er-
98 forscht. Zu Chens Vorbildern zählte u. a. Edward L. Thorndike, aus dessen Forschungen wenige Jahre vorher The teacher’s word book (New York, 1921) für den muttersprachlichen Unterricht in den Vereinigten Staaten hervorgegangen war und dessen erste Fassung 10.000 Wörter enthielt. Chen, der nach der bloßen Zählung keine weiteren quantitativen Auswertungen vornahm, hat Zweck und Ziel seiner Studie, als Vorbilder dienende Arbeiten, Vorgehensweise, die Zusammensetzung des Korpus, nämlich Kinderbücher 23 %, Zeitungen 28 %, Zeitschriften 16 %, Lesetexte für Schüler 9 %, Erzählungen aus alter und neuer Zeit 13 %, Vermischtes 11 %, die sein pädagogisches Interesse deutlich wiederspiegelt, sowie seine Ergebnisse sorgfältig dokumentiert (Chen 11928/21936, 1 ff.; vgl. Menzel 2003, 186 f.), wodurch sie bis heute eine brauchbare Vergleichsgröße ist, obwohl sie durch die Schriftreform und neuere, umfangreichere Studien überholt ist. Nach Chens Pionierarbeit erfolgten einige weitere Untersuchungen (Su 2001c, 64K66), die aber weder einen vergleichbaren Umfang noch eine vergleichbare Bedeutung erlangten. Chen Heqin und George Kingsley Zipf wussten offensichtlich nicht voneinander, daher muss man es wohl als Zufall betrachten, dass Zipf sich ebenfalls Anfang der 1930er in Harvard mit der chinesischen Sprache und Schrift beschäftigte. Mit Hilfe seiner Kollegen Kan Yu Wang (Wang Kan Yu bzw. Wang Ganyu) und H. Y. Chang (Chang Hsin Yuan bzw. Zhang Xinyuan) stellte er ein Korpus von 20.000 Schriftzeichen-Tokens Umfang zusammen, das Zeichen für Zeichen in Lautschrift transkribiert wurde. (Zipf 1932, Appendix B) Das Korpus bestand aus je 1.000 Schriftzeichen Text, die zwanzig Texten in umgangssprachlicher Schriftsprache entnommen waren. Dies waren zum größten Teil Texte, die im Zuge der 4. Mai-Bewegung entstanden waren und in den Debatten der 1920er eine gewisse Rolle spielten. Für die Autoren und übersetzten Titel vgl. Rousseau/Zhang (1992, 219). Die Wortsegmentierung wurde mit Sicherheit durch Wang und Chang aufgrund ihrer muttersprachlichen Kompetenz vorgenommen, denn sie wird in der Studie nicht problematisiert. Zipf beschäftigt sich darin einerseits mit dem Zusammenhang zwischen der relativen Häufigkeit von Lauten und ihrer phonetischen Auffälligkeit, engl. conspicuousness, sowie ihrem Produktionsaufwand. An-
I. Allgemeines / General
dererseits untersucht er den Zusammenhang zwischen der Anzahl der Wörter mit einer bestimmten Häufigkeit und dieser Häufigkeit, und zwar für ein lateinisches, ein englisches und das genannte chinesische Korpus. Er kommt zu dem Ergebnis, dass sich chinesische Wörter in dieser Hinsicht nicht anders verhalten als die Wörter anderer Sprachen, ohne dies jedoch einem statistischen Test zu unterwerfen. Für eine kritische Würdigung vgl. Rousseau/Zhang (1992, 205K217). Die mir vorliegende chinesische Literatur zur quantitativen Erforschung der chinesischen Schrift enthält keinen Hinweis darauf, dass diese frühe Studie Zipfs in China rezipiert worden wäre.
4.
Forschungen zu Schriftzeichenund Worthäufigkeiten in der VR China bis 1989
Bis in die 1980er Jahre hinein war es vorrangiges Ziel fast aller Untersuchungen an Texten in der VR China zu ermitteln, welche Schriftzeichen in Texten und im Alltag häufig auftreten. Vor Pädagogen wie Sprachplanern lag ja nach 1949 zunächst die kolossale Aufgabe, bisher benachteiligte Bevölkerungsschichten zu literalisieren. Weiterhin galt die zeichenreiche und komplexe chinesische Schrift vielen Intellektuellen bereits seit rund hundert Jahren als ernstes Modernisierungshindernis, und so war eine zweite, nicht minder schwierige Aufgabe, sie zu vereinfachen, wozu mindestens die Kenntnis der Häufigkeitsverteilung im vor-mathematischen Sinn nötig war. Die dritte wichtige Aufgabe war die Optimierung und Standardisierung der Schriftzeichensätze für Verlage und Druckereien sowie für die Telegraphie. Nach der Kulturrevolution 1966K1976 und Mao Zedongs Tod 1976 übernahmen schließlich pragmatisch orientierte Politiker um Deng Xiaoping (gestorben 1997) die Führung des Landes. Die 1980er Jahre waren geprägt von der Politik der Vier Modernisierungen K darunter die Modernisierung von Wissenschaft und Technik K und der Öffnung gegenüber dem Ausland. Nunmehr zugängliche ausländische Veröffentlichungen über große Korpusprojekte wie das BrownKorpus, das LOB-Korpus usw. inspirierten auch chinesische Wissenschaftler. Die daraufhin einsetzenden und mit leichterer Verfügbarkeit immer schnellerer Rechner stark zu-
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
nehmenden korpuslinguistischen Arbeiten zeigten bereits früh die linguistischen Probleme, an denen bis heute gearbeitet wird, darunter vor allem die Wortsegmentierung, denn die chinesische Schrift kennt keine Leerzeichen zwischen Wörtern, und die Wortartbestimmung, denn viele chinesische Wörter gehören mehreren Wortarten an. Eher technische Probleme wie unterschiedliche Zeichensätze, darin fehlende Schriftzeichen, uneinheitliche Beschreibungssprachen, Formate und Standards kamen noch hinzu. Dass in den 1980ern auch weitergehende theoretische Fragestellungen bearbeitet wurden, zeigt sich z. B. in der 1989 von Chen Yuan herausgegebenen Aufsatzsammlung, deren Beiträge sich u. a. mit dem Zipfschen Gesetz (Chang 1989, 41K44; Sun 1989, 61K65) der Berechnung von Dispersion und Anwendungsgrad (Chang 1989, 45K48; Sun 1989, 65K69), der Entropie der chinesischen Schrift (Feng 1989, 267K278) und Maßen zur Korpuskonstruktion und -bewertung (Liu/Wang/Zhang 1989, 74K88) befassen. Zwischen 1928 und 1988 entstanden mindestens 29 Listen häufig verwendeter Schriftzeichen, die auf unterschiedliche Weise zusammengestellt wurden und Inventare von rund 1.000 bis etwa 4.500 Schriftzeichen umfassen (vgl. Fu 1988, 22). Die in den 1950ern erfolgte Schriftreform stützte sich auf einige der vorher erarbeiteten Ergebnisse, veränderte selbst aber auch das Schriftzeichensystem, was neue Forschungen nötig machte. Erst nach dieser Reform begannen größere Projekte quantitativer Forschung, von denen ich die wichtigsten hier vorstellen möchte. 4.1. Das Projekt 748 In diesem nach dem Jahr 1974 und Monat (8 Z August) seiner Beantragung beim Planungskomitee des Staatsrats benannten Projekt, chin. 748-gongcheng, wurde ein Korpus von 21,6 Mio. Schriftzeichen-Tokens Umfang ausgewertet, das aus den Beständen der beteiligten Institutionen, nämlich Ministerien, Akademie der Wissenschaften, Nachrichtenagentur Neues China, Druckereien usw. ausgewählt worden war. Die Auswertung erfolgte von Hand und dauerte von 1974 bis 1977. Verarbeitet wurden 86 Bücher, 104 Zeitschriften und 7.075 Abhandlungen, die zwischen 1973 und 1975 erschienen. Die Texte wurden jeweils einem von vier Themenbereichen zugeordnet: Wissen-
99
schaft und Technik, Literatur und Kunst, politische Theorie oder Nachrichten. Der erste Bereich allein soll dabei bereits 39 % des Korpus eingenommen haben, während Literatur und Kunst nur 7 % ausmachten. (Gao/ Fan/Fei 1993, 132) Die Auswertung ergab ein Inventar von 6.374 Schriftzeichen-Types. Diejenigen 4.152 Schriftzeichen davon, die mehr als 21-mal im Korpus vorkamen, wurden zunächst in einer Tabelle mit dem Titel Hanzi pindu biao [Häufigkeitsliste der chinesischen Schriftzeichen] erfasst, die 1977 für den internen Gebrauch herausgegeben wurde. Zehn Jahre nach Beginn des Projektes erfolgte eine gründliche Revision sowie seine Digitalisierung, die genauere Zählungen und Berechnungen möglich machte. Als Ergebnis konnte 1988 Hanzi pindu tongji [Häufigkeitsstatistik chinesischer Schriftzeichen] (vgl. Bei/Zhang 1988) erscheinen. Darin sind 5.991 Schriftzeichen nach absteigender Häufigkeit aufgelistet, und zwar unterteilt in fünf Häufigkeitsniveaus. Weiterhin erfährt man jeweils die Strichzahl, die absolute Häufigkeit im Korpus und die kumulative absolute sowie die kumulative relative Häufigkeit. Diese Daten, abgesehen von den Kumulationen, gingen in das Hanzi xinxi zidian/Dictionary of Chinese character information (1988) ein, das Ende 1988 erschien und eine Fülle an Daten zu 7.785 Schriftzeichen enthält. Am Projekt 748 ist kritisiert worden, dass es dem Korpus an Balance mangele und die gewählten Texte zu stark durch zeitgeschichtliche Ereignisse, besonders die in den 1970ern durchgeführten politischen Kampagnen geprägt seien, was die Brauchbarkeit der Ergebnisse beeinträchtige (vgl. Su 2001a, 35; Gao/Fan/Fei 1993, 132). Mangels besserer Daten waren die Ergebnisse dieses Projekts jedoch für die Konstruktion des Chinesischen Schriftzeichensatzes für den Informationsaustausch (vgl. Abschnitt 4.6.1.) eine maßgebliche Grundlage (vgl. Su 2001c, 68). 4.2. Zhou Youguangs Hypothese von der degressiven Effektivität chinesischer Schriftzeichen Zhou Youguang, geboren 1906, wirkte von 1949 bis 1955 als Professor der Wirtschaftswissenschaften an der Fudan-Universität in Shanghai, bevor er 1956 in das Schriftreformkomitee berufen wurde, dem bzw. dessen Nachfolgeorganen er bis 1988 angehörte. In diesen gut 30 Jahren hat er sich als Sprach- und vor allem als Schriftwissen-
100
I. Allgemeines / General
Tabelle 6.2: Zhou Youguangs Hypothese der degressiven Effektivität chinesischer Schriftzeichen, ursprüngliche Zahlen Anzahl Schriftzeichen
Zuwachs
Abdeckung
Zuwachs der Abdeckung
Fehlende Abdeckung in %
1.000 2.400 3.800 5.100
K C 1.400 C 1.400 C 1.300
90 % 99 % 99,9 % 99,99 %
K C9 C 0,9 C 0,09
10 % 1% 0,1 % 0,01 %
schaftler profiliert und der modernen chinesischen Schriftzeichenwissenschaft ebenso wie der vergleichenden Graphemik entscheidende Impulse gegeben. Sein wirtschaftswissenschaftlicher Hintergrund unterschied ihn dabei von seinen traditionell ausgebildeten Kollegen: ihm war der Versuch vertraut, Theorien mathematisch auszudrücken, und er brachte dies gewissermaßen interdisziplinär in die Debatte ein. Zu Beginn der 1980er, als erst wenige Häufigkeitsuntersuchungen vorlagen, darunter Chen Heqins Arbeit (vgl. Abschnitt 3.) und das Projekt 748 (vgl. Abschnitt 4.1.), formulierte Zhou (1980, 96) erstmals die Hypothese von der degressiven Effektivität chinesischer Schriftzeichen, chin. Hanzi xiaoyong dijian lü. Diese Hypothese, die Zhou selbst als Regularität, chin. 律 lü, bezeichnete, sagt voraus, dass die häufigsten 1.000 Schriftzeichen 90 % aller gewöhnlichen Texte abdecken, die nächsten 1.400 Schriftzeichen diese Abdeckung um 9 % verbessern, die zweiten 1.400 Schriftzeichen noch einmal um 0,9 % und 1.300 weitere Schriftzeichen um 0,09 %. Bei Kenntnis von 5.100 häufigen Schriftzeichen würde man also 99,99 % alles gewöhnlichen Textmaterials lesen können, wie Tabelle 6.2 zeigt. Zhou hat diese Hypothese, die die asymptotische Annäherung an die vollständige Abdeckung aller Texte zu erfassen sucht, nie in eine Formel gefasst, so dass sie nicht ohne weiteres statistisch getestet werden kann. Die Erklärung sowie die höchsten Zahlen, s. letzte Zeile von Tabelle 6.2, hat er in den folgenden Jahren leicht variiert und elaboriert (vgl. Zhou 1992, 156; Su 2001c, 86). Während die von ihm angenommenen Zahlen nicht als absolut anzusehen sind, bestätigten spätere Häufigkeitsuntersuchungen (vgl. Abschnitt 4.3. und 4.6.2.), sie in mehr als nur der Tendenz. 4.3. Das Frequenzwörterbuch der modernen chinesischen Sprache Zu Beginn der 1980er Jahre wurde an der Sprachenhochschule Beijing, dem ehem.
Beijing Yuyan Xueyuan, heute Beijing Yuyan Daxue, ein Korpus von 1.808.114 Schriftzeichen-Tokens bzw. 1,31 Mio. Textwörtern Umfang ausgewertet, um sowohl Schriftzeichen- als auch Worthäufigkeiten bestimmen zu können. Die Ergebnisse sollten bei der Schriftzeichenstandardisierung, der chinesischen Textverarbeitung und der Sprachdidaktik dienlich sein. Das Korpus umfasste 179 Texte und Textabschnitte. Bei der Auswahl war darauf geachtet worden, dass die Texte ein breites Themenspektrum und unterschiedliche Funktionalstile in möglichst ausgeglichener Weise abdecken. Weiterhin wurden zehn zufällig gewählte Aufzeichnungen alltäglicher Dialoge sowie Tonbandaufnahmen von Vorträgen in nicht näher bestimmtem Umfang transkribiert und in das Korpus aufgenommen. Auch Schullehrbücher wurden berücksichtigt, nicht jedoch darin enthaltene Gedichte, Übersetzungen aus Fremdsprachen und Texte in vormodernem Chinesisch. Die Auswertung der Schullehrbücher erschien 1984 als selbständige Veröffentlichung unter dem Titel Hanyu cihui de tongji yu fenxi [Statistik und Analyse des Wortschatzes der chinesischen Sprache] (1984). Die Texte wurden jeweils einer von vier Kategorien zugeteilt, nämlich in solche mit im weitesten Sinne landeskundlicher und politischer Thematik (24,4 % des Korpus), populärwissenschaftliche Texte (15,7 %), zum Sprechen bestimmte umgangssprachliche Texte (11,2 %) und fiktionale Prosa (48,7 %). Die Auswertung ergab ein Inventar von 4.574 Schriftzeichen-Types und 31.159 WortTypes. 8.000 Wörter kamen häufiger als zehnmal im Korpus vor. Die Ergebnisse sind in den acht Tabellen des Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] (1986) dargestellt. Die ersten sechs Tabellen enthalten Daten zu den Wörtern, während die beiden letzten Tabellen den Schriftzeichen gewidmet sind. Zu jedem Wort wurde der Anwendungsgrad berechnet, und zwar als Produkt
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
seiner Dispersion (vgl. Xiandai Hanyu pinlü cidian 1986, XVIII) und seiner absoluten Häufigkeit. Die erste Tabelle ist eine alphabetisch geordnete Liste, die diejenigen 16.593 Wörter mit einem Anwendungsgrad größer zwei enthält. Neben absoluter und relativer Häufigkeit, Dispersion und Anwendungsgrad kann man für jede Kategorie ablesen, in wie vielen ihrer Texte das Wort vorkommt und welche Häufigkeit es in der Kategorie insgesamt hat. Die zweite Tabelle teilt sich in zwei Teile: Der erste enthält die 8.000 Wörter mit dem höchsten Anwendungsgrad und der zweite die 8.000 Wörter mit der höchsten Häufigkeit, jeweils absteigend geordnet und nummeriert. Neben dem Anwendungsgrad sind absolute und relative Häufigkeit sowie jeweils die kumulativen Häufigkeiten abzulesen. Die dritte Tabelle enthält 22.446 Wörter mit relativ niedrigem Anwendungsgrad, nach diesem und der absoluten Häufigkeit absteigend geordnet. Die vierte Tabelle gliedert sich nach den thematischen Kategorien in vier Teile und enthält für jede thematische Kategorie die 4.000 darin häufigsten Wörter nebst Wortklassenangabe, Aussprache, Frequenzrang, absoluter Häufigkeit, relativer Häufigkeit sowie deren jeweiliger Kumulation, der Verteilung auf Texte und einer Angabe zur Häufigkeitsebene in der Kategorie. Die fünfte Tabelle zeigt diejenigen 360 Wörter, die die höchsten Dispersionswerte haben. Die sechste Tabelle analysiert für die 300 häufigsten Wörter schließlich, wie stark ihre Häufigkeit in den vier Kategorien von dem aufgrund ihrer Gesamthäufigkeit im Korpus erwarteten Wert abweicht. Die siebte Tabelle enthält die 4.574 Schriftzeichen, geordnet nach ihrer absoluten Häufigkeit. Weiterhin erfährt man die relative Häufigkeit und von beiden Angaben die Kumulation. Zuletzt kann man ablesen, an der Darstellung wie vieler einsilbiger und mehrsilbiger Wörter das Schriftzeichen im Korpus beteiligt war. Die häufigsten 1.000 Schriftzeichen decken 91,36 % des Korpus ab, die häufigsten 2.400 98,97 % und die häufigsten 3.800 99,93 %. Diese Zahlen entsprechen fast genau den von Zhous Hypothese der degressiven Effektivität von Schriftzeichen vorhergesagten Werten (vgl. Abschnitt 4.2.). Die achte Tabelle enthält noch einmal alle Schriftzeichen, und zwar geordnet nach ihrer sogenannten Wortbildungsfähigkeit, d. h. nach der Gesamtzahl verschiedener Wörter, an deren Darstellung jedes Schriftzeichen im Korpus
101
beteiligt ist. Die absolute Häufigkeit ist auch hier angegeben, dazu die Anzahl und Gesamthäufigkeit einsilbiger Wörter, die ein Schriftzeichen darstellt, sowie jeweils die Anzahl mehrsilbiger Wörter, an deren Darstellung es am Wortanfang, in der Wortmitte oder am Wortende beteiligt ist, und die jeweilige Gesamthäufigkeit. Dieses Korpus ist inzwischen durch umfangreichere übertroffen worden, jedoch stellt das entstandene Frequenzwörterbuch die Ergebnisse in besonders vielfältiger Weise dar, so dass es in mancher Hinsicht bis heute hilfreicher ist als dasjenige, das im nächsten Abschnitt besprochen wird. 4.4. Die Daten von 1985 und das Frequenzwörterbuch häufiger Wörter des modernen Chinesisch Die sogenannten Daten von 1985 heißen manchmal so, weil sie aus einer Korpusuntersuchung stammen, die 1985 soweit abgeschlossen wurde, dass eine Schriftzeichenfrequenzliste vorgelegt werden konnte, die Shehui kexue ziran kexue zonghe Hanzi pindubiao [Zusammenfassende Häufigkeitsliste von Schriftzeichen in den Sozial- und Naturwissenschaften] heißt, inzwischen erschienen in Xiandai Hanyu zipin tongji biao (1992, 1K174). Unter Leitung der Abteilung für Informatik und Ingenieurwesen der Luftfahrthochschule Beijing und dem Büro für Schriftzeichenarbeit des Chinesischen Komitees für Schriftreform war dafür ein Korpus mit einem Umfang von 11.873.029 Schriftzeichen-Tokens Umfang ausgewertet worden. Seine genaue Zusammensetzung und die verwendeten Quellen wurden offenbar nicht veröffentlicht, wie z. B. Chen (1989b, 10K11) beklagt. Die untersuchten Texte, die zwischen 1977 und 1982 erschienen waren, wurden zwei Oberkategorien, nämlich geistes- und sozialwissenschaftliche Inhalte einerseits sowie naturwissenschaftlich-technische Inhalte andererseits zugeordnet. Diese Oberkategorien waren wiederum in jeweils fünf Unterkategorien unterschiedlichen Umfangs unterteilt. Der geistes- und sozialwissenschaftliche Anteil am Korpus betrug 69,8 %, der naturwissenschaftlichtechnische 30,2 %. Dieses Korpus setzte sich aus 7.745 Schriftzeichen-Types zusammen, von denen die 3.500 häufigsten 99,49 % der untersuchten Texte abdeckten. Die Studie, aus der die Daten von 1985 stammen, ist Teil eines umfangreicheren Projektes, für das ein Korpus von insgesamt
102
I. Allgemeines / General
21.084.616 Schriftzeichen-Tokens Umfang ausgewertet wurde. Die untersuchten Texte waren nach vier Zeitabschnitten gegliedert, nämlich 1919K1949 ohne naturwissenschaftlich-technischen Texte, 1950K1955, 1967K 1976 und 1977K1982, wobei Länge wie Beitragsumfang der Zeitabschnitte variierten und auch die Anteile der Unterkategorien in ihren Proportionen unterschiedlich ausfielen. (vgl. Liu/Liang/Wang u. a. 1990, 12) Insgesamt wurden in diesem Gesamtkorpus 8.079 verschiedene Schriftzeichen gefunden. Die untersuchten Texte wurden angeblich automatisch in Wörter segmentiert, wobei auch heterophone Homographen als unterschiedliche Wörter erkannt wurden. Insgesamt wurden 77.482 Wort-Types und frei verwendbare Wortgruppen erkannt. Unter den Wörtern gab es 7.611 einsilbige, 46.729 zweisilbige, 11.213 dreisilbige, 9.633 viersilbige, 1.414 fünfsilbige, 675 sechssilbige und 207 siebensilbige, wobei die Zahl der Silben hier als gleich der Zahl der zu schreibenden Schriftzeichen zu sehen ist. 46.520 der gefundenen Wörter wurden 1990 im Xiandai Hanyu changyongci cipin cidian [Frequenzwörterbuch häufiger Wörter des modernen Chinesisch] (Liu/Liang/Wang u. a. 1990, 9) veröffentlicht. Dieses Häufigkeitswörterbuch, das alphabetisch geordnet ist, enthält acht Tabellen. Die erste ist eine Gesamttabelle. Die zweite listet die einsilbigen Wörter auf, die dritte die zweisilbigen usw. Die Wörter sind jeweils nummeriert und in Schriftzeichen sowie in der Hanyu Pinyin-Lautschrift angegeben. Zu jedem Wort findet man die absolute und relative Häufigkeit sowie die in der jeweiligen Tabelle kumulierte relative Häufigkeit. Leider gibt es hier keine Angaben zur Dispersion oder zum Anwendungsgrad, weder nach Kategorien noch nach Zeiträumen aufgeschlüsselt. Tabelle 6.3 zeigt, wie sich die Länge der Wörter, gemessen in Schriftzeichen, unter allen gefundenen Wörtern und unter den ins Frequenzwörterbuch aufgenommenen Wörtern prozentual verteilt.
Die oben erwähnte Zusammenfassende Häufigkeitsliste von Schriftzeichen in den Sozial- und Naturwissenschaften erschien 1992 als Teil von Xiandai Hanyu zipin tongji biao [Schriftzeichenfrequenztabellen der modernen chinesischen Sprache] (1992), einem Häufigkeitswörterbuch, das insgesamt dreizehn Tabellen enthält. Eigtl. sind es sogar 26, denn jede erscheint zweimal: einmal nach Häufigkeit absteigend und einmal alphabetisch geordnet. Darin findet man die 7.745 Schriftzeichen, die die Auswertung des Teilkorpus aus dem Zeitraum 1977K1982 ergeben hatte. Die erste Tabelle ist eben die oben erwähnte Zusammenfassende Häufigkeitsliste. Die zweite Tabelle enthält alle Schriftzeichen aus den Texten der sozialund geisteswissenschaftlichen Kategorien und die nächsten fünf Tabellen die Schriftzeichen aus den entsprechenden Unterkategorien. Entsprechend enthält die achte Tabelle alle Schriftzeichen aus den naturwissenschaftlich-technischen Texten und die folgenden fünf Tabellen jeweils die Schriftzeichen aus den fünf dazu gehörenden Unterkategorien. Zu jedem Schriftzeichen sind Strichzahl und Aussprache angegeben. Weiterhin erfährt man auch hier die absolute und relative Häufigkeit sowie die kumulierte relative Häufigkeit in der jeweiligen (Unter-)Kategorie. Während man in den Häufigkeitswörterbüchern, die aus diesen Untersuchungen hervorgegangen sind, vergebens nach Angaben wie Dispersion oder Anwendungsgrad sucht, lassen sich aus ihnen leichter Daten zur Längenverteilung der Wörter bezüglich des Gesamtkorpus, leider ohne Differenzierung nach Zeitabschnitten, sowie zur Verteilung von Schriftzeichen auf und ihre Häufigkeit in den thematischen Unterkategorien erhalten, letzteres zumindest für den jüngsten berücksichtigten Zeitraum. 4.5. Zwei weitere Korpora aus den 1980er Jahren Das wohl größte in den 1980ern zusammengestellte Korpus der modernen chinesischen
Tabelle 6.3: Wortlängenverteilung im Frequenzwörterbuch von Liu/Liang/Wang u. a. (1990, 9) Länge in Schriftzeichen: Wort-Types im Korpus (in % des unters. Inventars): Ins Frequenzwörterbuch aufgenommen (in % des aufgenommenen Inventars):
1
2
3
4
5
6
7
Gesamtzahl:
9,82
60,31
14,47
12,43
1,83
0,87
0,27
10,89
67,04
11,02
9,82
0,82
0,31
0,09
77.482 (Z 100 %) 46.520 (Z 100 %)
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
Sprache ist eines aus allen Meldungen der Nachrichtenagentur Neues China aus dem Jahr 1986. Diese 90.627 Agenturmeldungen umfassen insgesamt über 40,6 Mio. druckbare Zeichen, wovon 36.341.643 chinesische Schriftzeichen-Tokens sind. Die Meldungen setzen sich aus einem Inventar von 6.001 Schriftzeichen-Types zusammen. Guo (1989, 98K106) stellt verschiedene Vergleiche zwischen der Häufigkeitsverteilung von Schriftzeichen in diesem Korpus und in dem Korpus des Projekts 748 (vgl. Abschnitt 1.) an und untersucht darüber hinaus, wie sich das Auftreten von Schriftzeichen aus den beiden Ebenen des Basissatzes (vgl. Abschnitt 4.6.1.) verteilt. 16 Schriftzeichen aus der Ebene der häufigen Schriftzeichen dieses Zeichensatzes und 1.145 Schriftzeichen aus der zweiten Ebene mit etwas weniger häufigen Schriftzeichen kamen im ganzen Jahr 1986 nicht ein einziges Mal vor. Dagegen kamen 422 Schriftzeichen in den Agenturmeldungen vor, die nicht im Basissatz enthalten sind und daher bei jedem Auftreten mit anderen Mitteln kodiert werden mussten, z. B. durch die Telegraphiechiffre oder die Angabe der Grapheme. Während die Ergebnisse für die Nachrichtenagentur Neues China und vergleichbare Einrichtungen von Bedeutung gewesen sein mögen, wird das Korpus sonst kaum mehr erwähnt. 1988 wurde an der Shanxi-Universität in Taiyuan, Provinz Shanxi, ein weiteres Nachrichtenkorpus vollendet, das insgesamt 2,5 Mio. Schriftzeichen-Tokens umfasste. Es teilte sich den vier ausgewerteten Presseorganen entsprechend in vier Teile: 1,5 Mio. Schriftzeichen entstammten den Ausgaben vom Juli 1987 der Tageszeitung Renmin ribao / People’s Daily, 0,2 Mio. den Ausgaben der in Beijing erscheinenden technischen Zeitung Beijing keji bao vom selben Monat, 0,5 Mio. den Fernsehnachrichten des Senders Chinese Central Television CCTV und 0,3 Mio. dem dritten Heft 1987 der zweimonatlich erscheinenden Zeitschrift Dangdai [Gegenwart]. (vgl. Feng 2002, 138) Mit Ausnahme des Fernsehnachrichten-Teils diente dieses Korpus zur Validierung der Liste häufiger Schriftzeichen des modernen Chinesisch, die in Abschnitt 4.6.2. besprochen wird. 4.6. Wichtige Schriftzeichenlisten der modernen chinesischen Sprache Als Ergebnisse von Forschungen zu Schriftzeichenhäufigkeiten entstanden in den
103
1980ern einige Schriftzeichenlisten, die anschließend entweder tatsächlich zum nationalen Standard erklärt wurden wie der Chinesische Schriftzeichensatz für den Informationsaustausch (vgl. Abschnitt 4.6.1.) oder ohne einen solchen offiziellen Akt den Status eines Quasi-Standards erlangten. Drei Listen, die häufige Schriftzeichen enthalten, aber ganz spezifischen Zwecken dienen, werde ich hier nicht besprechen, nämlich die Druckformenliste allgemein gebräuchlicher Schriftzeichen, chin. Yinshua tongyong Hanzi zixingbiao, von 1965 mit 6.196 Schriftzeichen, das revidierte Standard-Telegraphiechiffrenheft, chin. Biaozhun dianma ben xiudingben, von 1983 mit 7.292 Schriftzeichen sowie die Gestufte Schriftzeichenliste für die standardisierte Sprachprüfung des Chinesischen, chin. Hanzi dengji dagang (Hanyu shuiping cihui yu Hanzi dengji dagang 1992, 320K363) mit 2.905 Schriftzeichen. Drei andere Listen werde ich dagegen vorstellen; sie sind aus Häufigkeitsuntersuchungen hervorgegangen und werden heute selbst oft als Vergleichsgrößen oder Ausgangsmengen für neue Untersuchungen gewählt. Sie werden in der diesbezüglichen Literatur entsprechend oft erwähnt. 4.6.1. Der Chinesische Schriftzeichensatz für den Informationsaustausch Der Zeichensatz Xinxi jiaohuan yong Hanzi bianma zifuji K jibenji [Chinesischer Schriftzeichensatz für den Informationsaustausch K Basissatz] (u. a. in Lunde 1999, 638 ff.), kurz Basissatz, ist die chinesische Antwort auf den ASCII-Zeichensatz. Seine Konstruktion begann 1979 und war zwei Jahre später vollendet. Er wurde sogleich zum nationalen Standard erklärt und erhielt die Standardnummer GB 2312-80. Er ist in chinesischen Betriebssystemen sowie Erweiterungen, welche die Eingabe chinesischer Schriftzeichen in Standardanwendungen unter nicht chinesischen Betriebssystemen ermöglichen, weit verbreitet und allgemein als GB-Code bekannt. Bei der Zusammenstellung des Basissatzes wurden die Ergebnisse des Projekts 748 (vgl. Abschnitt 4.1.), die erwähnte Druckformenliste allgemein gebräuchlicher Schriftzeichen, der Zeichensatz einer großen Druckletternfabrik, zwölf nicht allzu alte gebräuchliche Wörterbücher und neun Aufstellungen häufiger Schriftzeichen zu Rate gezogen. (Wei 1989, 188) Auf dieser Grund-
104 lage wurden 6.742 Schriftzeichen und 21 Komponenten, d. h. insgesamt 6.763 Zeichen für den Basissatz ausgewählt. Sie wurden in zwei Ebenen geteilt. Die erste Ebene umfasst 3.755 häufige Schriftzeichen, die nach ihrer Aussprache in Hanyu Pinyin-Transkription, d. h. alphabetisch geordnet sind. Die zweite Ebene enthält 2.987 weniger häufige Schriftzeichen und dazu 21 Komponenten, nämlich sogenannte Radikale, chin. bushou, die dazu benutzt werden, Schriftzeichen nach graphischen Kriterien zu ordnen. Diese Ebene ist entsprechend nach dem Radikal als erstem und der Strichzahl als zweitem Kriterium geordnet. Die Kodierung der Schriftzeichen erfordert zwei Byte, da nur so ausreichend Code-Plätze zur Verfügung stehen. Ein Teil der Plätze im GB-Code ist Steuerzeichen, Sonderzeichen, lateinischen, japanischen, kyrillischen Zeichen, Zahlzeichen und graphischen Zeichen gewidmet. Der Basissatz ist schon recht umfassend, kann aber nicht alle Schreibbedürfnisse befriedigen. Die Autoren des Wortfrequenzwörterbuchs Xiandai Hanyu changyongci cipin cidian (vgl. Liu/Liang/Wang u. a. 1990, 8) schreiben z. B., dass sie Schriftzeichen, die im Basissatz nicht erfasst sind, nicht berücksichtigen konnten. Um Problemen dieser Art und ihren Konsequenzen zu begegnen, wurden im Laufe der 1980er Jahre zwei Ergänzungssätze, chin. fuzhuji, mit zusammen 14.276 Schriftzeichen konstruiert und zum Standard erklärt (Lunde 1999, 80K83). Für die unvereinfachten Vollformen der Schriftzeichen entstanden zusätzlich Entsprechungen dieser Zeichensätze, die zur Verwendung empfohlen wurden. (Lunde 1999, 83K88) Die Entwicklung des Unicode wird den Basissatz wie die Ergänzungssätze in absehbarer Zeit obsolet werden lassen. Als Zwischenstufe ist zur Zeit ein erweiterter Zeichensatz des GB-Codes in Gebrauch, der GBK abgekürzt wird und jene chinesischen Schriftzeichen enthält, die im Unicode enthalten sind, im Basissatz jedoch fehlen. 4.6.2. Die Liste häufiger Schriftzeichen des modernen Chinesisch Gegen Ende der 1980er Jahre lagen ausreichend Ergebnisse aus umfangreichen Häufigkeitsuntersuchungen vor, um die Konstruktion einer Liste häufiger Schriftzeichen des modernen Chinesisch in Angriff zu nehmen, die als Bezugspunkt für Zwecke wie Lehrwerkserstellung und Literalisierung dienen können würde. Diese Xiandai Hanyu
I. Allgemeines / General
changyongzi biao [Liste häufiger Schriftzeichen der modernen chinesischen Sprache] (1988) erschien 1988. Zu ihrer Zusammenstellung, die in ihrem Vorwort sowie in Fu (1988, 22 ff.) dokumentiert ist, wurden 15 bereits existierende Häufigkeitswörterbücher und -listen, angefangen mit Chen Heqins Ergebnissen (vgl. Abschnitt 3.), sowie fünf allgemein gebräuchliche Wörterbücher bzw. statische Schriftzeichenlisten, darunter die bereits erwähnte Druckformenliste und das Standard-Telegraphiechiffrenheft, herangezogen. Diese zwanzig Materialien enthielten zusammen 8.938 verschiedene Schriftzeichen. (Fu 1988, 23) Berücksichtigt wurde nicht nur die durchschnittliche Häufigkeit von Schriftzeichen in den fünf Listen und Lexika, die Häufigkeitsangaben machen, sondern auch ihre Verteilung über alle zwanzig Materialien, ihr Anwendungsgrad in den Daten von 1985 und ihre Wortbildungsfähigkeit, zu deren Bestimmung ein Kollokationenwörterbuch herangezogen worden war. Nach Beratungen mit Experten wurden außerdem einige Schriftzeichen aufgenommen, die Wörter repräsentieren, welche vor allem in der Umgangssprache, selten jedoch in der Schriftsprache vorkommen. Das Ergebnis war eine Liste, die insgesamt 3.500 Schriftzeichen umfasst und sich in zwei Teile teilt, nämlich in 2.500 häufige Schriftzeichen, chin. changyongzi, und 1.000 nächst-häufige Schriftzeichen, chin. ci-changyongzi. Die Liste wurde an den 2 Mio. Schriftzeichen des Korpus der Shanxi-Universität (vgl. Abschnitt 4.5.), die den Zeitungen Renmin ribao / People’s Daily und Beijing keji bao [Beijinger Zeitung für Wissenschaft und Technik] sowie der Zweimonatsschrift Dangdai [Gegenwart] entstammten, überprüft. Dabei deckten die 2.500 häufigeren Schriftzeichen 97,97 % und die 1.000 nächst-häufigen Schriftzeichen 1,51 % dieses Testkorpus ab, was zusammen 98,48 % ergibt und die Autoren schließen ließ, dass die in der Liste enthaltene Auswahl realistisch sei. (Xiandai Hanyu changyongzi biao 1988, 7) Das Ergebnis dieser Überprüfung bestätigte Zhous Hypothese von der degressiven Effektivität chinesischer Schriftzeichen (vgl. Abschnitt 4.2.). 4.6.3. Die Liste allgemein gebräuchlicher Schriftzeichen des modernen Chinesisch Gleichzeitig mit der Liste häufiger Schriftzeichen des modernen Chinesisch und als
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
Erweiterung derselben entstand die Liste allgemein gebräuchlicher Schriftzeichen des modernen Chinesisch mit dem Titel Xiandai Hanyu tongyongzi biao (1989). Diese Liste, die aus derselben Untersuchung hervorging und auf denselben Materialien und Auswahlprinzipien beruht, umfasst 7.000 Schriftzeichen, von denen 6.721 im sogenannten Basissatz (vgl. Abschnitt 4.6.1.) enthalten sind. Man findet in ihr nicht nur die ermittelten Schriftzeichen, sondern kann auch einen Einblick in die Daten gewinnen, die herangezogen bzw. aus den verwendeten Materialien errechnet wurden. Die ersten 2.700 Schriftzeichen sind in wenigstens 15 der insgesamt 20 Listen und Lexika enthalten und kommen in wenigstens drei, in den meisten Fällen jedoch in vier und zum Teil in allen fünf verwendeten Häufigkeitslisten vor. Es folgt ein Mittelfeld, und ab etwa dem Schriftzeichen mit der Nr. 5.200 sind die meisten folgenden Schriftzeichen entweder in keiner oder nur noch in einer Liste mit Häufigkeitsdaten enthalten. Die angegebene durchschnittliche Häufigkeit in der 5. Spalte errechnet sich als Mittel der Häufigkeiten, die in den fünf verwendeten Häufigkeitswörterbüchern oder -listen für das betreffende Schriftzeichen angegeben sind, sofern es darin vorkam. Da unterschiedlich viele Werte in diesen Durchschnitt eingehen und diese Werte auch auf unterschiedliche Weise zustande kamen, hat diese Angabe nur einen sehr begrenzten Aussagewert. Von den sog. Daten von 1985 (vgl. Abschnitt 4.4.) sind die absolute Häufigkeit, der Anwendungsgrad und die Anzahl der Unterkategorien jenes Korpus, in denen ein Schriftzeichen vorkommt, angegeben, leider jedoch nicht die relative Häufigkeit, die mehr Aussagekraft hätte als der eben kritisierte Durchschnittswert. Obwohl die Liste allgemein gebräuchlicher Schriftzeichen auch Schriftzeichen enthält, die nicht mehr tatsächlich als allgemein gebräuchlich zu bezeichnen sind, und in einzelnen Punkten zu kritisieren wäre, hat sie aufgrund ihres Umfangs, wegen der prinzipiengeleiteten Art ihrer Zusammenstellung und weil die Herausgabe durch eine staatliche Einrichtung erfolgte, nämlich die Schriftzeichenabteilung des Staatlichen Komitees für die Arbeit an Sprache und Schrift, einen vergleichbar autoritativen Status wie die Liste häufiger Schriftzeichen. Eine Revision mag wünschenswert erscheinen, dürfte aber noch längere Zeit auf sich warten lassen.
5.
105
Forschungen in der VR China in den 1990er Jahren
In den 1990ern erschienen einerseits einige Frequenzwörterbücher, die Ergebnisse von Forschungen der 1980er Jahre sind (vgl. Abschnitt 4.), andererseits wurden Probleme angegangen, deren Bedeutung im Zuge jener Forschungen deutlich geworden waren. Dies waren vor allem die Probleme der Wortsegmentierung und der Wortartbestimmung, aber auch die Frage nach den Prinzipien, die die Konstruktion von Korpora leiten sollten. In diesem Jahrzehnt entstanden viele Korpora für die verschiedensten Zwecke. Zwei Korpusprojekte werden in Abschnitt 5.2. vorgestellt. Außerdem entstanden die ersten syntaktischen Baumbanken, engl. tree banks, und Terminologie-Datenbanken, die hier jedoch nicht weiter behandelt werden. 5.1. Wortsegmentierung und Wortartannotierung Vom Anfang korpus- und computerlinguistischer Arbeiten an chinesischen Texten an war die Wortsegmentierung ein großes Problem, weil Wortgrenzen im Schriftbild nicht durch Leerzeichen markiert sind und die Definition der Einheit Wort umstritten ist. Erschwert wird die automatische Segmentierung dadurch, dass es Schriftzeichenketten gibt, die auf mehr als eine Weise sinnvoll zerlegbar sind, was die Konsistenz der Zerlegung beeinträchtigt (Sun 1999, 88K 89; Wen 2001, 36 ff.). Nach Erprobung verschiedener Mustererkennungsmethoden (Liu 1992, 36K37) wurde 1992 der Standard zur Wortsegmentierung der modernen chinesischen Sprache in der Datenverarbeitung (Xinxi chuli yong xiandai Hanyu fenci guifan 1993) definiert, der die staatliche Standardnummer GB/T 13715K92 bekam. T steht für chin. tuijian, dt. empfehlen. In seine Formulierung gingen Erfahrungen mit ein, die seit der Korpusanalyse für das Frequenzwörterbuch häufiger Wörter des modernen Chinesisch (vgl. Abschnitt 4.4.) gemacht worden waren (vgl. Wang 1999, 18K20). Er zeichnet sich durch eine Menge spezifischer Regeln aus, von denen nicht alle erklärt werden oder auch nur gerechtfertigt erscheinen. So werden zum Beispiel mit bestimmten Derivationssuffixen abgeleitete Nomen als ein Wort bestimmt, während andere Nomen, die das Plural-Suffix -men haben, zerlegt werden, außer das Wort renmen, dt. Leute, und
106 rhotazisierte Nomen wie ge’rCmen, dt. Brüder. Persönliche Eigennamen wie Mao Zedong werden ebenfalls zerlegt und als zwei Wörter gezählt. Auch im Falle von Reduplikationen sind die Regeln uneinheitlich. Wörter mit dem Reduplikationsmuster AABB werden als ein Wort betrachtet, während solche mit dem Muster ABAB in zwei zerlegt werden (Sproat/Shih 2001, 17). Dieser Standard und seine Anwendung ist in Liu/Tan/Shen (1994, 1 ff.) ausführlich beschrieben. Im Kontrast zu der Vorgehensweise auf dem Festland wurde in Taiwan versucht, Regeln zu entwickeln, die linguistisch zutreffend sowie automatisch verarbeitbar sind und dabei zu einheitlichen Ergebnissen führen (Huang/Chen/Chang u. a. 1997, 47 ff.). Dazu werden aus wenigen allgemeinen Leitlinien spezifischere Regeln abgeleitet. Auch an der University of Pennsylvania, USA, finden in größerem Umfang Forschungen zur digitalen Verarbeitung des Chinesischen statt. Die dort zur Wortsegmentierung und gleichzeitigen Annotierung entwickelten Regeln ähneln wiederum eher denen des festländischen Standards, da spezifische Regeln vorherrschen. Anders als die beiden chinesischen Standards werden hier jedoch auch phonologische Phänomene bei der Abgrenzung von Wort und Affix berücksichtigt. Bei komplexen Wörtern K man könnte in bestimmten Fällen auch von Wortformen sprechen K, die gewissermaßen eine interne syntaktische Struktur haben, wird diese ebenfalls markiert, bleibt aber von den Markierungen gewöhnlicher Wörter unterscheidbar (Sproat/Shih 2001, 17K18). Der in der VR China definierte Standard beschreibt, was als ein Wort oder mehrere Wörter zu sehen ist, aber er schreibt keine Segmentierungsstrategie vor (Jin/Guo/Xiao u. a. 2003, 16). Neben lexikon- und regelbasierten Segmentierungsmethoden wurden bereits in den 1990ern statistische Methoden entwickelt und implementiert. Das SegTagSystem, das an der Qinghua-Universität in Beijing entwickelt wurde und z. B. in Shen/ Sun/Huang (1999, 1K6) beschrieben wird, verbindet regelbasierte und statistische Ansätze. In ihm sind Segmentierung und Wortartannotierung integriert. Zur Wortartannotierung ist noch kein nationaler Standard formuliert worden. Soweit bereits annotierte Korpora vorliegen, wurden Mengen von etwa 40 tags verwendet, die jeweils entsprechend dokumentiert wur-
I. Allgemeines / General
den. Das Problem der automatischen Annotierung besteht darin, dass es viele Wörter gibt, die nicht nur einer Wortart zuzuordnen sind, und Wörter zumeist keine morphologischen Merkmale aufweisen, die auf ihre Wortart schließen lassen. Ausnahmen sind das Pluralsuffix -men, das in bestimmten Fällen Nomen affigiert wird, die Personen bezeichnen, und die Aspektsuffixe -le, -zhe und -guo, die Verben affigiert werden. Verben treten aber auch ohne Suffix auf. Eine syntaktische Analyse, z. B. unter Verwendung des Ende der 1990er erschienenen elektronischen Xiandai Hanyu yufa xinxi cidian [Wörterbuch syntaktischer Informationen der modernen chinesischen Sprache] (vgl. Yu/Zhu/Wang u. a. 1998, 13 ff.), führt in vielen Fällen weiter, aber da die chinesische Sprache in hohem Maße elliptische Auslassungen erlaubt, ist eine solche Analyse ein komplexes Unterfangen. Die Verbindung von regelbasierten und statistischen Ansätzen wie im SegTag-System verspricht jedoch praktikable Lösungen. Verfahren des maschinellen Lernens werden ebenfalls erprobt. 5.2.
Zwei große Korpora aus den 1990er Jahren 5.2.1. Das Annotierte People’s DailyKorpus Unter Bezugnahme auf den Wortsegmentierungsstandard GB/T 13715-92 entwickelte das Fujitsu Research and Development Center in Beijing zusammen mit dem Institut für Computerlinguistik der Peking-Universität, chin. Beijing Daxue, ein annotiertes Korpus aus Nachrichtentexten, das Renmin ribao biaozhu yuliaoku [Annotiertes People’s Daily-Korpus], kurz PFR-Korpus. Es besteht aus den Texten aller Ausgaben der regierungsoffiziellen Tageszeitung Renmin ribao / People’s Daily des ersten Halbjahrs 1998. Nach Herstellerangaben umfasst es rund 13 Mio. Schriftzeichen bzw. rund 7,3 Mio. Wörter. Die Texte wurden markiert, segmentiert und die Wörter mit Wortartangaben annotiert. Die syntaktische Annotierung wurde gleichzeitig mit der automatischen Segmentierung vorgenommen, wobei das elektronische Xiandai Hanyu yufa xinxi cidian (vgl. Abschnitt 5.1.) verwendet wurde (vgl. Duan/Matsui/Xu u. a. 2000, 74) und etwas über 40 tags zur Anwendung kamen. Seit August 2001 ist das Korpus käuflich zu erwerben und kostet 2.000 RMB (URL: „http: //www.cyber.net.cn/show/show_detailed.php?
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
searchblZ1&numberZsn03“), was z. Zt. rund 200 Euro entspricht. Die Erweiterung um die Texte des zweiten Halbjahres 1998 war geplant, scheint aber noch nicht fertiggestellt bzw. erschienen zu sein. 5.2.2. Das Korpus der modernen chinesischen Sprache Zu Beginn der 1990er wurde die Arbeit an einem sehr großen Korpus des modernen Chinesisch aufgenommen, das Ende des Jahrzehnts zumindest in roher Form seine Zielgröße von 70 Mio. Schriftzeichen erreichte. Seine Konstruktion wird vom Staatlichen Komitee für die Arbeit an Sprache und Schrift angeführt. Dieses systematische Korpus soll vielfältigen Zwecken dienen und darum das moderne Chinesisch in umfassender Weise wiederspiegeln. Sowohl für bestimmte Zeiträume seit der ersten Verwendung der Umgangssprache als Schriftsprache, die vor allem durch zeitgeschichtliche Ereignisse bestimmt sind, als auch für die abgegrenzten Themenbereiche wurden bestimmte Proportionen festgelegt. So werden die Jahre 1919 bis 1925 (Zeit der 4. Mai-Bewegung) mit 5 %, die Jahre 1926 bis 1949 (Dezennium von Nanjing, Krieg gegen die japanische Besatzung, Bürgerkrieg) mit 15%, die Jahre 1950 bis 1965 (Aufbauphase der VR) mit 25 %, die Jahre 1966 bis 1976 (Kulturrevolution) mit 5 % und die Zeit von 1977 bis heute (post-kulturrevolutionäre Phase, Reform und Öffnung, Modernisierung) mit 50 % vertreten sein. Inhaltlich gesehen werden Geistes- und Sozialwissenschaften 59,6 % ausmachen, Naturwissenschaften 17,24% und eine Restkategorie mit vermischen Inhalten wie Gebrauchstexten, Satzungs- und Gesetzestexten, Werbung usw. 9,36 %. Die verbleibenden 13,79 % werden durch Zeitungstexte ausgefüllt, die sich nach Meinung der Autoren nur schwer den anderen Kategorien und ihren Unterteilungen zuordnen lassen. Die drei genannten Oberkategorien haben unterschiedliche Anzahlen von Unterkategorien. Text aus Lehrbüchern im Umfang von 2 Mio. Schriftzeichen wurde ebenfalls aufgenommen und in die genannten Kategorien eingeordnet. Weiterhin enthält das Korpus mündliche Texte, die sich zur Transkription in schriftliche Form eignen, wie Theaterstücke, Sketche, Tonbandaufzeichnungen usw. Es wurden insgesamt nur Texte gewählt, die für Menschen mit mittlerer Bildung verständlich sind. Jede Textstichprobe hat einen Umfang von 2.000
107
G 500 Schriftzeichen. Die gewählten Textstichproben machen jeweils rund 5 % des betreffenden Textumfangs aus. Die Stichproben wurden mit OCR-Technologie erfasst und erkannt und anschließend dreimal von Hand korrigiert, so dass die Fehlerquote auf unter 0,002 Promille geschätzt wird. Jede Stichprobendatei wurde mit ausführlichen Deskriptoren und Indexmerkmalen versehen, um spätere Suchen unter verschiedensten Fragestellungen zu ermöglichen. Ein sogenannter Kernkorpus mit einem Umfang von 20 Mio. Schriftzeichen-Tokens Umfang wurde Ende 1995 vorab fertiggestellt. Es enthält schwerpunktmäßig Textstichproben ab 1977 und ist unter Windows mit Werkzeugen für die Suche nach Beispielsätzen und zur Erstellung von KWIC-Konkordanzen nutzbar. Die Zusammenstellung des Gesamtkorpus war Ende 2001 abgeschlossen. Es ist vorgesehen, dass das Korpus jährlich um 5 % erweitert wird. Bei der Wortsegmentierung und Wortartannotierung unter Bezug auf den Wortsegmentierungsstandard GB/T 13715-92, die bisher nur für das Kernkorpus abgeschlossen sind, zeigten sich wiederum die Mängel dieses Standards. Die Forschungen zur Perfektionierung von Standards und Strategien in diesen beiden eng miteinander zusammenhängenden Problemfeldern dauern noch an (vgl. Liu 1996, 3K8). 5.3. Die Allgemeine Wörtermenge für die Tastatureingabe chinesischer Schriftzeichen und die Norm der Schriftzeichenkomponenten 1995 wurde der empfohlene Standard Hanzi jianpan shuru yong tongyong ciyuji / General word set for Chinese character keyboard input (1995) mit der Nr. GB/T 15732 beschlossen. Dieser Standard soll die Eingabe von ganzen Wörtern in Softwaresysteme erleichtern und umfasst daher 43.540 gebräuchliche Wörter, darunter Komposita, und Wendungen von denen der längste Ausdruck 12 Schriftzeichen lang ist. Jedoch sind die meisten Wörter zweisilbig, gefolgt von dreiund viersilbigen. Die Wörter, unter denen auch Eigennamen von Persönlichkeiten der Zeitgeschichte, geographische Namen sowie die Bezeichnungen zeitgeschichtlicher Ereignisse und wichtiger Einrichtungen zu finden sind, sind in drei Häufigkeits- bzw. Gebräuchlichkeitsebenen gegliedert: 12.355 häufigste, 17.930 häufige und 13.255 weniger häufige Wörter. Auf diesen Standard soll sich die Konstruktion von Eingabelexika
108 für Software, die die Eingabe chinesischer Schriftzeichen in Anwendungsprogramme ermöglicht, beziehen. Leider ist im Standard selbst nicht dokumentiert, wie die Auswahl und Einteilung der Wörter und Wendungen zustande kam. Da das Xiandai Hanyu changyongci cipin cidian (vgl. Abschnitt 4.4.) das umfassendste bisher erschienene Frequenzwörterbuch ist, liegt die Vermutung nahe, dass es die Datengrundlage für diese Liste war. 1997 wurde eine staatliche Norm beschlossen, die zur Zerlegung der im Unicode-Zeichensatz erfassten chinesischen Schriftzeichen in ihre Komponenten, chin. bujian, formuliert worden war: Xinxi jiaohuan yong GB 13000.1 zifuji Hanzi bujian guifan GF 3001-1997 (1997). Sie soll die Entwicklung von Eingabemethoden anhand graphischer Merkmale unterstützen bzw. der graphischen Beschreibung von nicht im betreffenden Zeichensatz enthaltenen Schriftzeichen dienen. Sie weist insgesamt 578 unterschiedliche Komponenten auf und beruht auf einer sehr weit gehenden graphischen Analyse, die sich nicht an philologischen oder didaktischen Erkenntnissen und Zielen orientierte. Es ist daher fraglich, ob dieser an Bedürfnissen der Datenverarbeitung ausgerichtete Komponentensatz als Grundlage zur Erforschung linguistischer Fragestellungen herangezogen werden sollte. 5.4. Allgemeine Trends in den 1990er Jahren Die technische Weiterentwicklung der Computertechnologie und von Benutzersoftware sowie die Preisentwicklung von beidem auch in China hat dazu beigetragen, dass seit etwa Mitte der 1980er, spätestens aber seit Beginn der 1990er Jahre korpusbasierte Forschungen dort einen derartigen Aufschwung erlebten, dass ein Überblick heute nur schwer zu gewinnen ist. Eine Zusammenfassung findet man bei Wang (1999, 18K20), Yu/Duan/Zhu u. a. (2001, 101 ff.) fassen Chinesisch-spezifische Erfahrungen zusammen. In den letzten zehn Jahren sind viele Volltextdatenbanken, große bis sehr große Textkorpora, segmentierte und annotierte Korpora, Baumbanken und Terminologiedatenbanken konstruiert (für eine Zusammenstellung s. Feng (2002, 133 ff.)) und zum Teil der Öffentlichkeit verfügbar gemacht worden. Veröffentlichungen aus diesem Zeitraum befassen sich vor allem mit Konstruktionsmethoden und -problemen solcher Korpora
I. Allgemeines / General
und Datenbanken, Geschichte, Zielen und Methoden der Korpuslinguistik, der Bedeutung und dem Einsatz für den Fremdsprachenunterricht, v. a. den Englischunterricht, und ähnlichen Aspekten. Veröffentlichungen zu primär quantitativ-linguistischen Fragestellungen sind selten. Es ist eher der Fall, dass derartige Fragen im Zusammenhang mit einer konkreten Anwendungsentwicklung gestellt und bearbeitet werden. Die Veröffentlichung von Ergebnissen geschieht dann oft in Form von technical reports oder im Rahmen themenspezifischer Tagungen. Spätestens seit Ende der 1980er sind Wissenschaftler aus der VR China regelmäßig auch auf großen internationalen Tagungen vertreten und präsentieren dort ihre Arbeit, die dann in mehr oder weniger weit zirkulierenden Tagungsbänden erscheint. Die Arbeiten, die an verschiedenen Universitäten geleistet wurden, zeugen davon, dass bestimmte Aspekte der digitalen Sprachverarbeitung auch in der Lehre vorkommen, vermutlich hauptsächlich auf der Ebene des Aspirantenstudiums, was etwa einem MAAufbaustudium entspricht, und beschränkt auf entsprechende Fächer. Abgesehen von den oben vorgestellten Arbeiten zu Schriftzeichen- und Worthäufigkeiten des modernen Chinesisch ist bislang nicht festzustellen, dass quantitative Aspekte in die herkömmliche philologische und linguistische Lehre und entsprechende Lehrbücher eingingen. Eine Ausnahme stellt die Monographie Shuli yuyanxue [Mathematische Linguistik] des Computerlinguisten Feng Zhiwei dar, die 1985 in einer Auflage von 10.000 Exemplaren erschien und nicht mehr erhältlich ist. Einige quantitative Aspekte werden in dem 2002 erschienenen Werk Yuliaoku yuyanxue [Korpuslinguistik] (Huang/Li 2002) von Huang Changning und Li Juanzi behandelt. Einrichtungen in der VR China, die sich bei der Entwicklung von Korpora und der Bearbeitung damit zusammenhängender Fragen vor allem hervorgetan haben, sind das Institute of Computational Linguistics der Peking University, die Beijing Language and Culture University, die Qinghua University, die Shanxi University in Taiyuan, Provinz Shanxi, und die Chinese Academy of Social Sciences. Sie alle sind unter diesen Namen im Internet zu finden, bei einigen sind jedoch die englischsprachigen Seiten z. Zt. noch nicht vollständig. Zeitschriften aus dem chinesischen Raum, in denen Veröffentlichungen zu quantitativ-linguistischen
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
und verwandten Themen zu finden und auch weiterhin zu erwarten sind, sind vor allem Yuyan wenzi yingyong / Applied linguistics, das Organ des Forschungsinstituts für Angewandte Linguistik in Beijing, und Zhongwen xinxixue bao [Zeitung der chinesischsprachigen Informationswissenschaft] sowie einige mit Fremdsprachendidaktik befasste Zeitschriften. Gelegentlich erscheinen relevante Artikel auch in den Journalen der einzelnen Universitäten, diese sind außerhalb ihres Zirkulationsgebiets aber nur sehr schwer zugänglich. Vom Ausland aus leichter zu erreichen sind dagegen Veröffentlichungen aus Singapur und Taiwan, in denen auch Wissenschaftler aus der VR China publizieren, nämlich das Journal of Chinese language and computing aus Singapur, gegründet 1991, und das (International journal of) Computational linguistics and Chinese language processing aus Taiwan, gegründet 1996. Zumindest die englischen Abstracts von in diesen Organen erschienenen Artikeln sind über das Internet zugänglich. Buchveröffentlichungen dürften in der VR China vor allem durch den Verlag Yuwen chubanshe in Beijing erfolgen, aber auch durch andere renommierte Verlage wie Shangwu yinshuguan, engl. Commercial Press, Beijing, die Verlage der Peking-Universität, der Qinghua-Universität usw. Der seit etwa zehn Jahren relativ problemlos mögliche Kontakt und Austausch von Bürgern der VR China mit Wissenschaftlern und Einrichtungen in aller Welt erlaubt die rege Teilnahme an Tagungen und Veröffentlichungen in ausländischen Publikationen. Die Zusammenarbeit mit Forschungseinrichtungen in Hongkong und Singapur ist ebenfalls sehr intensiv. Kontakte über die Taiwan-Straße sind wegen der ungelösten Wiedervereinigungsfrage, oder aus taiwanischer Sicht: der Selbständigkeitsfrage, sehr von der politischen Lage abhängig und daher verletzlicher als Verbindungen nach Hongkong oder Singapur.
6.
Forschungen in der VR China im begonnenen 21. Jahrhundert
Wiewohl die Regierung der VR China dabei ist, die Wirtschaft des Landes in eine, wie sie es nennt, sozialistische Marktwirtschaft mit chinesischen Charakteristika umzubauen, gibt es nach wie vor den Fünfjahresplan. Dieser ist nicht mehr als umfassendes und
109
bis ins Detail gehendes Planungsinstrument zu sehen, sondern als Plan zur Förderung bestimmter Projekte und Anliegen, die staatlicherseits für wichtig erachtet werden. Der zehnte Fünfjahresplan, der die Jahre 2001 bis 2005 betrifft, enthält für die angewandte linguistische Forschung 69 Projekte in neun Teilgebieten, die sich weiter in Teilprojekte gliedern. Im Vordergrund stehen Grundlagenforschung und anwendungsbezogene Forschung. Aus quantitativ-linguistischer Sicht sind nur einige Punkte hervorzuheben. Im Bereich der Forschungen zur chin. Standardsprache putonghua ist die Bestimmung des allgemein gebräuchlichen Wortschatzes und seine Teilung in Häufigkeits- bzw. Gebräuchlichkeitsebenen projektiert. Während in diesem Zusammenhang auch die Erarbeitung von Prinzipien für den Umgang mit Abkürzungen, Fremdwörtern und Wörtern, die lateinische Buchstaben enthalten, z. B. X-光 [æks kuang] für dt. Röntgenstrahlen, vorgesehen ist, bleibt die Frage nach dem Umgang mit Neologismen unerwähnt. Der sechste Teilbereich Linguistische Datenverarbeitung sieht mehrere Projekte vor, die aus korpus- und quantitativ-linguistischer Sicht relevant sind. Das erste genannte Projekt betrifft die Entwicklung eines Standards zur Konstruktion von Korpora und nennt als Teilprobleme die Formulierung von Standards für die Markierungssprache, für die Auswahl von Textmaterial sowie für die Wortsegmentierung und Korpusbeschreibung. Das zweite Projekt beschäftigt sich ebenfalls mit der Konstruktion und Bearbeitung von Korpora und resultierenden Datenbanken. Ein genanntes Teilprojekt davon sieht die Segmentierung und Annotierung des in Abschnitt 5.2.2. vorgestellten Korpus von 70 Mio. SchriftzeichenTokens Umfang vor. Ein weiteres Teilprojekt wird sich mit der Konstruktion einer syntaktischen Baumbank und der semantischen Annotierung eines Korpus von 10 Mio. Schriftzeichen-Tokens Umfang befassen. Weiterhin soll der in den 1990ern entwickelte Wortsegmentierungsstandard (vgl. Abschnitt 5.1.) überarbeitet werden. Neue Statistiken der Schriftzeichen- und Worthäufigkeit sind ebenfalls vorgesehen, daneben aber auch die Erarbeitung von Standards für Markierung, syntaktische und semantische Annotierung, Lexikonkonstruktion und die Bewertung von LDV-Softwaresystemen, und nicht zuletzt Forschungen zu Fragen des Urheberrechts an Korpora und LDV-Software.
110
I. Allgemeines / General
Diese Projekte werden hauptsächlich durch Universitäten und Forschungsinstitute realisiert. Forschungsergebnisse aus den Forschungs- und Entwicklungsabteilungen von Softwareunternehmen K hier seien Universitätsabteilungen, die Software entwickeln und anschließend kommerziell vertreiben, eingeschlossen K, finden ihren Weg in die Öffentlichkeit entweder nur als Produkt, in Form von technical reports oder als Tagungsbeiträge, seltener als Zeitschriftenartikel. Da chinesische Tagungsbände hierzulande nicht leicht zugänglich sind, werden diese Ergebnisse im nicht chinesischen Ausland kaum wahrgenommen. Die Beitragssammlungen von relevanten internationalen Tagungen, die auf Englisch im westlichen Ausland herausgegeben werden, sind dagegen problemlos zugänglich. Einen weiteren Fortschritt stellt die Zeitschrift ACM Transactions on Asian Language Information Processing dar, die seit März 2002 erscheint und Forschungsergebnisse zu Chinesisch und anderen asiatischen Sprachen veröffentlicht. Die Autorenschaft ist international und in unterschiedlichen asiatischen und internationalen Einrichtungen wie Forschungsinstituten und Firmen beschäftigt.
7.
Ein Korpus aus Taiwan: Das Sinica Corpus
Da die Forschungen auf Taiwan nicht Schwerpunkt dieses Überblicks sind, erfolgt hier keine Zusammenfassung der dort erfolgten Arbeiten und dabei erlangten Ergebnisse. Jedoch ist durchaus erwähnenswert, dass an der Academia Sinica in Taibei ein Korpus des modernen Chinesisch entwickelt worden ist, das Academia Sinica Balanced Corpus, kurz auch Sinica Corpus. Es umfasst ungefähr 5 Mio. Wörter. Alle Sätze sind in Wörter segmentiert und die Wörter mit Wortartannotationen versehen. Bei der Zusammenstellung des Korpus wurde darauf geachtet, dass verschiedene Themen und Textsorten in ausgewogener Weise vertreten sind. Die Urheber halten es daher für eine repräsentative Stichprobe des modernen Chinesisch. Es ist in seiner dritten Version seit November 1996 auch durch Externe nutzbar. Vor der Nutzung, die im Übrigen gebührenpflichtig ist, ist mit der taiwanischen Association of Computational Linguistics and Chinese Language Processing
ROCLING eine Lizenzvereinbarung zu schließen (URL: „http://rocling.iis.sinica.edu. tw/ROCLING/corpus98/sinicor.html“). Diese Vereinigung gibt das (International journal of) Computational linguistics and Chinese language processing heraus. Eine Fortsetzung dieses Projekts ist die Entwicklung der Sinica Treebank, deren Textmaterial dem Sinica Corpus entnommen ist. Bis November 2000 wurde die erste Version, die über 38.000 Strukturbäume mit mehr als 239.000 Wörtern umfasst, vollendet. Chen/Luo/Chang u. a. (2003, 232K243) beschreiben detailliert das Design und die Implementierung dieser Baumbank, für deren Benutzung ebenfalls eine Lizenzvereinbarung zu schließen ist. (URL: „http: //rocling.iis.sinica.edu.tw/ROCLING/ Treebank/Treebank.htm“)
8.
Korpuslinguistische Forschungen in Hongkong und Singapur
In Hongkong begannen quantitativ- und korpus-linguistische Forschungen etwas später als in der VR und auf Taiwan, jedoch konnten die Forscher dies auch zu ihrem Vorteil nutzen und von andernorts gemachten Erfahrungen profitieren. Darüber hinaus prägte auch ihre Situation im mehrsprachigen Hongkong K einst britische Kronkolonie, seit 1. 7. 1997 Sonderverwaltungszone der VR China K ihre Arbeit. In Hongkong betreibt die Chinese Language Society of Hong Kong Ltd eine Website mit dem Namen Huayu (URL: „http: //www.huayu.org“). Sie gibt die Zeitschrift Yuwen jianshe tongxun [Sprachplanungsnachrichten] heraus, die seit 1981 erscheint. 8.1. Das China-Hongkong-Taiwan Korpus An der Hongkong Polytechnic University wurde 1997 ein Korpus vollendet, das Sprachmaterial aus der VR China, Taiwan und Hongkong selbst enthält, das ZhongGang-Tai Hanyu yuliaoku (vgl. Hu/Li/Tang 1997, 50K52). Die Texte des Korpus stammen aus insgesamt zehn verbreiteten und populären Tageszeitungen, die in den drei Regionen erscheinen, und zwar aus Ausgaben der Jahre 1990 bis 1992. Das Korpus enthielt schließlich 5.139.920 SchriftzeichenTokens bzw. 3.273.760 Textwörter. Die Wörter rekrutierten sich aus einem Bestand von 60.811 chinesischen und 6.373 englischen Wörtern. Am Gesamtumfang des Korpus
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
waren die drei Regionen im Verhältnis von 34:33:33 vertreten. Dieses Korpus ermöglicht z. B. Untersuchungen zum gemeinsamen Wortschatz zu Beginn der 1990er Jahre in den drei Regionen, die durch unterschiedliche Gesellschaftssysteme geprägt sind (vgl. Tang 2002, 2 ff.). Die Texte des Korpus wurden jeweils einem von neun thematischen Bereichen zugeordnet. Bei der Wortsegmentierung wurden als erstes syntaktische und semantische Kriterien angelegt, nämlich ob ein kleinstmöglicher Ausdruck frei verwendbar ist und ob seine Bedeutungsintegrität bei weiter gehender Zerlegung verletzt würde. Als drittes wurde ein Längenkriterium angelegt, das keine Wörter zuließ, die länger als vier Schriftzeichen sind, und als viertes ein Häufigkeitskriterium, letzteres vor allem bei Wortkandidaten, die in Wörterbüchern nicht nachzuweisen waren, im Korpus jedoch eine gewisse Häufigkeit hatten. Die Ergebnisse der Wortsegmentierung flossen in zwei getrennte Datenbanken, nämlich eine Wörterdatenbank und eine Quasi-Wörterdatenbank. Letztere enthielt die im Korpus gefundenen Eigennamen, Zahlenketten, Phraseologismen mit einer Länge größer vier, besondere Abkürzungen, Zitate aus klassischen Werken und Gedichten und Quasi-Phraseologismen. 8.2. Das LIVAC-Korpus Im Jahre 1994 initiierte Prof. Benjamin T’sou von der Hongkong City University die Konstruktion eines weiteren sehr großen Korpus, das den Namen LIVAC trägt. Dieses Akronym steht für Linguistic Variation in Chinese Speech Communities. Für dieses Korpus sollten insgesamt innerhalb von 48 Monaten repräsentative Zeitungen aus Hongkong, Taiwan, der VR China, nämlich Beijing u. Shanghai, aus Macau und Singapur ausgewertet werden. Und zwar sollten alle vier Tage aus den gewählten Zeitungen die ganze erste Seite, die Teile Internationale Nachrichten und Lokales sowie Reportagen und Kommentare bis zu einem Umfang von bis zu 20.000 Schriftzeichen-Tokens in das Korpus eingehen. Bei Überschreiten dieser Zahl würden weniger wichtige Nachrichten weggelassen werden. Von Juli 1995 bis Juni 1996 wurden auf diese Weise 8,3 Mio. Schriftzeichen gesammelt (Hu/Li/Tang 1997, 52), und ein Jahr später waren es bereits rund 16 Mio. Schriftzeichen bzw. rund 190.000 Textwörter (vgl. LIVAC online 2003, 1) Zur Wortsegmentierung wurde der in der
111
VR China formulierte Segmentierungsstandard GB 13715-92 (vgl. Abschnitt 5.) zu Grunde gelegt, jedoch musste er ergänzt und verfeinert werden. Dieses Korpus wird immer noch erweitert und enthielt im Februar 2003 bereits mehr als 100 Mio. Schriftzeichen und 550.000 Textwörter. Online zugänglich ist zur Zeit der Datenbestand bis einschließlich Juli 1997 (URL: „http://www. rcl.cityu.edu.hk/livac/“). Für seine Nutzung werden einige Werkzeuge zur Verfügung gestellt. Einige Ergebnisse zur Neologismenforschung anhand dieses Korpus’ findet man bei Zou/You (2003, 14K21). 8.3. Das CANCORP-Korpus Spezieller als die beiden gerade vorgestellten Korpora ist das Hong Kong Cantonese child language corpus, kurz CANCORP (vgl. CANCORP. An Overview 2000), das Anfang der 1990er Jahre von der Chinese University of Hong Kong, der Hong Kong Polytechnic University und der University of Hong Kong gemeinsam erarbeitet wurde. Dieses Korpus enthält Aufzeichnungen von vier Jungen und vier Mädchen, die zu Beginn der Studie ein Jahr bis zweieinhalb Jahre alt waren und ein Jahr lang beobachtet wurden. Diese Kinder hatten das in Hongkong gesprochene Kantonesisch als Muttersprache. Ihre Äußerungen wurden sowohl in chinesische Schriftzeichen als auch in lateinische Schrift transkribiert. Das Korpus, das 171 Dateien umfasst, ist im internationalen CHAT-Format kodiert und mit 33 Wortartenmarkierungen versehen. Es ist sowohl bei der Arts Faculty der Chinese University of Hong Kong als auch beim CHILDES-Archiv, dem Child Language Data Exchange System der Carnegie Mellon University abgelegt. Einen Überblick über einige Ergebnisse ist auf dem Server der Arts-Faculty ebenfalls zu finden (URL: „http://www.arts. cuhk.edu.hk/~cancorp/“). Weitere Korpora sind durch das LDC (vgl. Abschnitt 9.) erhältlich. 8.4. Singapur Im Stadtstaat Singapur ist es vor allem das Department of Computer Science der National University of Singapore, deren Laboratory of Computational Linguistics sich unter der Leitung des Computerlinguisten Lua Kim Teng auf dem Gebiet der Computerund der quantitativen Linguistik hervortut. Prof. Lua hat u. a. zur Anwendbarkeit des Zipfschen Gesetzes auf chinesische Texte
112
I. Allgemeines / General
und praktische Konsequenzen daraus für die automatische Indexierung, zur Entropie chinesischer Schriftzeichen und Wörter sowie zur Satzlängenverteilung in chinesischen Texten publiziert. Die National University of Singapore ist außerdem Heimat der Chinese and Oriental Languages Information Processing Society COLIPS, die die Zeitschrift Journal of Chinese language and computing, früher Communication of COLIPS, herausgibt. Darüber hinaus gibt die Firma World Scientific Publishing Co., die in Singapur ihre Basis hat, das International journal of computer processing of Oriental languages heraus, das 1983 unter dem Namen Computer processing of Chinese and Oriental Languages gegründet wurde. Auch an dieser Universität wurden und werden Korpora und dazugehörige Werkzeuge entwickelt. Zu Beginn der 1990er war vom damaligen Department of Information Systems and Computer Science ein Nachrichtenkorpus erhältlich, das 7.907 Meldungen der Nachrichtenagentur Neues China enthielt, die zwischen Januar 1990 und März 1991 herausgekommen waren. Es hieß PH Corpus und hatte einen Umfang von knapp 4 Mio. druckbaren Zeichen; 3,24 Mio davon waren chinesische Schriftzeichen, die sich aus 4.725 im Basissatz (vgl. Abschnitt 4.6.1.) enthaltenen Zeichen rekrutierten (vgl. Guo/ Lui 1994, 30; 36). Dieses Korpus, das z. Zt. von der University of Edinburgh per anonymem FTP erhältlich ist (ftp.cogsci.ed.ac.uk, Verzeichnis /pub/chinese/), diente beispielsweise an der Universität Trier als Datengrundlage für die Erarbeitung einer Dissertation und einer Magisterarbeit. Zur Zeit des Schreibens stellte das Laboratory of Computational Linguistics Forschungsressourcen und -werkzeuge zur Verfügung. (URL: „http://www.comp.nus.edu.sg/~luakt/ NLP.html“)
9.
Arbeiten an der University of Pennsylvania
Außerhalb des chinesischen Raums ist die University of Pennsylvania ein Zentrum der korpusbasierten Erforschung der chinesischen Sprache. Im Zuge der Entwicklung der umfangreichen Penn Chinese Tree Bank CTB wurden dort u. a. Prinzipien zur Wortsegmentierung, Wortartannotierung und syntaktischen Markierung erarbeitet. In der ersten Projektphase wurde seit 1998 ein
Korpus von 1 Mio. Wörtern Umfang entwickelt, das Agenturmeldungen der Nachrichtenagentur Neues China aus den Jahren 1994 bis 1998 enthält. Dieses Korpus wurde segmentiert, annotiert und syntaktisch geparst. Es hat mehrere Versionen erlebt, da es sich mit der Verbesserung der Segmentierung und Annotierung verändert hat. In der zweiten Phase, deren Vollendung für das Jahr 2003 erwartet wurde, soll ein diversifiziertes Korpus von 400.000 Wörtern entstehen, das nach denselben Prinzipien bearbeitet wird und Artikel aus der Tageszeitung Renmin ribao / People’s Daily, Nachrichtenmeldungen aus Hongkong, Meldungen der Agentur Neues China sowie ins Chinesische übersetzte Texte umfassen wird (vgl. Xue/ Chiou/Palmer 2000, 1). Die University of Pennsylvania ist außerdem die Heimat des Linguistic Data Consortium LDC, das Korpora verschiedenster Sprachen und Arten bereitstellt. Gegenwärtig werden 25 chinesische Korpora angeboten, darunter auch solche gesprochener Sprache. Die Chinese Treebank Version 2.0 aus der ersten CTB-Projektphase ist hier ebenso erhältlich wie beispielsweise die Korpora für TREC-5 und TREC-6 und Korpora aus der VR China, Hongkong und Taiwan. Der LDC-Katalog gibt Auskunft über Speichermedium und Preis.
10. Schlusswort Obwohl die Fremdsprache Chinesisch in Deutschland aufgrund der vergleichsweise geringen Zahl von Teilnehmern an entsprechenden Kursen als kleine Fremdsprache gilt, ist global-demographisch gar nicht zu übersehen, dass Chinesisch diejenige Sprache ist, die von mehr Menschen als Muttersprache gesprochen wird als jede andere Sprache, und dass die chinesischsprachige Bevölkerung weiterhin wächst. Daher ist dazu zu ermutigen, sich auch in Europa gründlich mit dieser Sprache zu beschäftigen und sie in die linguistische wie auch die computer- und quantitativ-linguistische Forschung einzubeziehen. Dies gebietet nicht nur die demographische Fairness, sondern auch die Tatsache, dass China in jeder Hinsicht ein Wachstumsmarkt ist und dies auch für wissenschaftliche Unternehmungen, also Wissensgenerierung und -transfer, Bildung, Fremdsprachenvermittlung usw. sowie für computerlinguistische Softwareprodukte aller Art gilt.
6. Zur Geschichte quantitativ-linguistischer Forschungen in China
11. Literatur (in Auswahl) (a) in westlichen Sprachen: CANCORP. An Overview (2000), URL: „http: //www.arts.cuhk.edu.hk/~cancorp/introduction. html“ (08. 07. 2000). (Zugriff am 02. 07. 2003). Chen, Keh-Jiann/Luo, Chi-Ching/Chang, MingChung/Chen, Feng-Yi/Chen Chao-Jian/Huang, Chu-Ren (2003), Sinica Treebank. Design criteria, representational issues and implementation. In: Building and using parsed corpora. (Hrsg. Anne Abeillé). Dordrecht: Kluwer. URL: „http: //treebank.linguist.jussieu.fr/pdf/13.pdf“ (Zugriff am 08. 08. 2003). DeFrancis, John (1984), The Chinese language. Fact and fantasy. Honolulu: University of Hawaii Press. Guo, Jin/Lui, Ho Chung (1994), PH K A Chinese corpus for Pinyin-Hanzi transcription. In: Chinesisch und Computer 9, 23K37. Huang, Chu-Ren/Chen, Keh-Jiann/Chang, Lili/ Chen, Feng-yi (1997), Segmentation standard for Chinese natural language processing. In: International journal of computational linguistics and Chinese language processing 2 (2), 47K62. LIVAC online. The first synchronous corpus from Chinese speech communities (2003). URL: „http: //www.rcl.cityu.edu.hk/livac/“ (19. 03. 2003). (Zugriff am 02. 07. 2003) Lunde, Ken (1999), CJKV Information processing. Sebastopol, Calif.: O’Reilly. Menzel, Cornelia (2003), Von der ersten Häufigkeitszählung chinesischer Schriftzeichen zur HSKSchriftzeichenliste. Ein Überblick über Forschungen zur Häufigkeit chinesischer Schriftzeichen im 20. Jahrhundert. In: Brücke zwischen Kulturen. Festschrift für Chiao Wei zum 75. Geburtstag. (Hrsg. Karl-Heinz Pohl/Dorothea Wippermann). Münster: Lit-Verlag, 186K208. Rousseau, Ronald/Zhang, Qiaoqiao (1992), Zipf’s data on the frequency of Chinese words revisited. In: Scientometrics 24 (2), 201K220. Shen, Dayang/Sun, Maosong/Huang, Changning (1999), A statistics-based Chinese word segmentation model and its implementation approaches. (05. 11. 1999). URL: „http://cslp.comp.nus.edu.sg/ dbase/journal/JCLC/paper/publishing/shendy/s_ eambi.htm“ (Zugriff am 28.07.2003) Sproat, Richard/Shih, Chilin (2001), Corpus-based methods in Chinese morphology and phonology. URL: „http://www.research.att.com/~rws/ newindex/nodes.pdf“ (Zugriff am 05. 07. 2003). Xue, Nianwen/Chiou, Fu-Dong/Palmer, Martha (2000), Building a large-scale annotated Chinese corpus. In: Proceedings of COLING-2000. URL: „http://acl.ldc.upenn.edu/coling2000/proceedings/ data/area-04/co-376.pdf“ (Zugriff am 08. 08. 2003).
113
Zipf, George Kingsley (1932), Selected studies of the principle of relative frequency in language. Cambridge, Mass.: Harvard University Press.
(b) auf Chinesisch: Bei, Guiqin/Zhang, Xuetao (Hrsg.), Hanzi pindu tongji [Häufigkeitsstatistik der chinesischen Schriftzeichen]. Beijing: Dianzi gongye chubanshe, 1988. Chang, Baoru (1989), Xiandai Hanyu pinlü cidian de yanzhi [Die Entwicklung des Frequenzwörterbuchs der modernen chinesischen Sprache]. In: Chen Yuan 1989a, 30K59. Chen, Heqin (11928, 21936), Yutiwen yingyong zihui [Angewandter Schriftzeichenschatz umgangssprachlicher Texte]. Shanghai: Shangwu yinshuguan. Chen, Yuan (Hrsg.), Xiandai Hanyu dingliang fenxi [Quantitative Analyse der modernen chinesischen Sprache]. Shanghai: Shanghai Jiaoyu chubanshe, 1989a. Chen, Yuan (1989b), Xiandai Hanyu zhu yaosu de dingliang fenxi (xu lun) [Die quantitative Analyse der Elemente der modernen chinesischen Sprache (Vorwort)]. In: Chen Yuan 1989a, 1K29. Duan, Huiming/Matsui, Kunio/Xu, Guowei/Hu, Guoxin/Yu, Shiwen (2000), Da guimo Hanyu biaozhu yuliaoku de zhizuo yu shiyong [Konstruktion und Verwendung sehr großer linguistischer Korpora]. In: Yuyan wenzi yingyong 34, 72K77. Feng, Zhiwei (1985), Shuli yuyanxue [Mathematische Linguistik]. Shanghai: Zhishi chubanshe. Feng, Zhiwei (1989 [11984]), Hanzi de shang [Die Entropie der chinesischen Schriftzeichen]. In: Wenzi gaige 1984 (4). [Nachdruck in: Chen Yuan 1989a, 267K278.] Feng, Zhiwei (2002), Zhongguo yuliaoku yanjiu de lishi yu xianzhuang, Evolution and present situation of corpus research in China. In: Journal of Chinese language and computing 12 (2), 127K146. Fu, Yonghe (1988), Xiandai Hanyu changyongzi biao de yanzhi [Die Entwicklung der Liste häufiger Schriftzeichen der modernen chinesischen Sprache] In: Yuwen jianshe 1988 (2), 22K25. [Nachdruck in: Chen Yuan 1989a, 107K115.] Gao, Jiaying/Fan, Keyu/Fei, Jinchang (1993), Xiandai Hanzixue [Moderne Sinographemik]. [Beijing]: Gaodeng Jiaoyu chubanshe. Guo, Yefang (1989), Xinwen xinxi Hanzi liutong pindu tongji [Häufigkeitsstatistik zur Zirkulation von Schriftzeichen in Nachrichten]. In: Chen 1989a, 95K106. Guojia yuyan wenzi guifan he biaozhun xuanbian [Auswahl von staatlichen Normen und Standards für Sprache und Schrift]. (Hrsg. Guojia yu-wei biaozhunhua gongzuo weiyuanhui bangongshi). Beijing: Biaozhun chubanshe, 1997. Hanyu cihui de tongji yu fenxi [Statistik und Analyse des Wortschatzes der chinesischen Sprache].
114 (Hrsg. Beijing Yuyan Xueyuan Yuyan Jiaoxue yanjiusuo). Beijing: Waiyu Jiaoxue yu Yanjiu chubanshe, [1984]. Hanyu shuiping cihui yu Hanzi dengji dagang [Gestufter Wortschatz und Schriftzeichenliste für die standardisierte Sprachprüfung des Chinesischen HSK]. (Hrsg. Guojia duiwai Hanyu jiaoxue lingdao xiaozu bangongshi Hanyu shuiping kaoshi bu). Beijing: Beijing Yuyan Wenhua Daxue chubanshe, 1992. Hanzi jianpan shuru yong tongyong ciyuji, General word set for Chinese character keyboard input GB/T 15732. (Hrsg. Guojia jishu jianduju). Beijing: Biaozhun chubanshe, 1995. Hanzi xinxi zidian, A Dictionary of Chinese character information. (Hrsg. Shanghai Jiaotong Daxue Hanzi bianma zu, Shanghai Hanyu pinyin wenzi yanjiu zu). Beijing: Kexue chubanshe, 1988. Hu, Baihua/Li, Xingde/Tang, Zhixiang (1997), Xianggang de yuliaoku he xiangguan yanjiu gaikuang [Übersicht über Hongkongs linguistische Korpora und damit zusammenhängende Forschungen]. In: Yuyan wenzi yingyong 22, 49K54. Huang, Changning/Li, Juanzi (2002), Yuliaoku yuyanxue [Korpuslinguistik]. Beijing: Shangwu yinshuguan. Jin, Guangjin/Guo, Shulun/Xiao, Hang/Zhang, Yunfan (2003), Yuliaoku jiagong zhong de guifan wenti, Standardization in corpus processing. In: Yuyan wenzi yingyong 2003 (4), 16K24. Liu, Jian (Hrsg.), Ershi shiji de Zhongguo yuyanxue [Die chinesische Linguistik des 20. Jhs.]. Beijing: Beijing Daxue chubanshe, 1998. Liu, Lianyuan (1996), Xiandai Hanyu yuliaoku yanzhi [Entwicklung des Korpus des modernen Chinesisch]. In: Yuyan wenzi yingyong 19, 2K8. Liu, Yuan (1992), Zi-Cipin tongji yu Hanyu fenci guifan [Die Zeichen- bzw. Wortstatistik und der Wortsegmentierungsstandard des Chinesischen]. In: Yuwen jianshe 1992 (5), 35K38. Liu, Yuan/Liang, Nanyuan/Wang, Dejin/Zhang, Sheying/Yang, Tieying/Jie, Chunyu/Sun, Wei (Hrsg.), Xiandai Hanyu changyongci cipin cidian (yinxu bufen) [Frequenzwörterbuch häufiger Wörter des modernen Chinesisch (alphabetisch geordneter Teil)]. Beijing: Yuhang chubanshe, 1990. Liu, Yuan/Tan, Qiang/Shen, Xukun (1994), Xinxi chuli yong xiandai Hanyu fenci guifan ji zidong fenci fangfa [Der Standard zur Wortsegmentierung der modernen chinesischen Sprache in der Datenverarbeitung und automatische Wortsegmentierungsmethoden]. Beijing: Qinghua Daxue chubanshe. Liu, Yuan/Wang, Jinde/Zhang, Sheying (1989), Xiandai Hanyu cipin ceding ji fenxi [Messung und Analyse der Worthäufigkeit der modernen chinesischen Sprache]. In: Chen Yuan 1989a, 70K94.
I. Allgemeines / General Su, Peicheng (2001a), Xiandai Hanzixue gangyao (zengding ben) [Abriss der modernen Sinographemik (überarb. Auflage)]. Beijing: Beijing Daxue chubanshe. Su, Peicheng (Hrsg.), Xiandai Hanzixue cankao ziliao [Referenzmaterialien zur modernen Sinographemik]. Beijing: Beijing Daxue chubanshe, 2001b. Su, Peicheng (2001c), Ershi shiji de xiandai Hanzi yanjiu [Die Erforschung der modernen chinesischen Schriftzeichen im 20. Jh.]. Taiyuan: Shuhai chubanshe. Sun, Jianyi (1989), Xiandai Hanyu zipin ceding ji fenxi [Messung und Analyse von Schriftzeichenhäufigkeiten der modernen chinesischen Sprache]. In: Chen Yuan 1989a, 60K69. Sun, Maosong (1999), Tantan Hanyu fenci yuliaoku de yizhixing wenti, On the consistency of word-segmented Chinese corpus. In: Yuyan wenzi yingyong 30, 88K91. Tang, Zhixiang (2002), Jiushi niandai Hanyu cihui diyu fenbu de dingliang yanjiu [Quantitative Forschungen zur regionalen Verteilung der chinesischen Lexik in den (19)90er Jahren]. In: Website Huayuqiao der Chinese Language Society of Hong Kong Ltd (www.huayuqiao.org). URL: „http: //www.transmagix.com/huayuqiao/tangzhixiang/ tang02.htm“ (Zugriff am 02. 07. 2003). Wang, Jianxin (1999), Wo guo zai yuliaoku yuyanxue yanzhi fangmian de bufen jinzhan (gaishu) [Einige Erfolge unseres Landes in der korpuslinguistischen Forschung (Überblick)]. In: Waiyu yu waiyu jiaoxue 118, 18K20. Wei, Juxian (1979), Wenzixue [Graphemik]. Taibei: Liming wenhua shiye gongsi. Wei, Li (1989), Xinxi jiaohuan yong Hanzi bianma zifuji de yanzhi [Die Konstruktion der Zeichenmengen des Codes zum Informationsaustausch mit chinesischen Schriftzeichen]. In: Chen Yuan 1989a, 187K195. Wen, Xiaolin (2001), Zhongwen wenben qiyi ziduan qifen jishu [Techniken zur Segmentation von ambigen Strings in chinesischen Texten]. In: Yuwen yanjiu 80, 36K40. Xiandai Hanyu changyongzi biao [Liste häufiger Schriftzeichen der modernen chinesischen Sprache]. (Hrsg. Guojia yuyan wenzi gongzuo weiyuanhui Hanzi chu). Beijing: Yuwen chubanshe, 1988. Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache]. (Hrsg. Beijing Yuyan Xueyuan Yuyan Jiaoxue yanjiusuo). Beijing: Beijing Yuyan Xueyuan chubanshe, 1986. Xiandai Hanyu tongyongzi biao [Liste allgemein gebräuchlicher Schriftzeichen der modernen chinesischen Sprache]. (Hrsg. Guojia yuyan wenzi gongzuo weiyuanhui Hanzi chu). Beijing: Yuwen chubanshe, 1989.
7. Quantitative linguistics in Poland Xiandai Hanyu zipin tongji biao [Schriftzeichenfrequenztabellen der modernen chinesischen Sprache]. (Hrsg. Guojia yuyan wenzi gongzuo weiyuanhui; Guojia biaozhunju). Beijing: Yuwen chubanshe, 1992. Xinxi chuli yong xiandai Hanyu fenci guifan [Standard zur Wortsegmentierung der modernen chinesischen Sprache in der Datenverarbeitung] GB/T 13715-92. (Hrsg. Guojia jishu jianduju). Beijing: Biaozhun chubanshe, 1993. Xinxi jiaohuan yong GB 13000.1 zifuji Hanzi bujian guifan [Norm der Schriftzeichenkomponenten des (dem Unicode entsprechenden) Zeichensatzes GB 13000.1 für den Informationsaustausch] GF 3001-1997. (Hrsg. Guojia yuyan wenzi gongzuo weiyuanhui). Beijing: Biaozhun chubanshe, 1997. Yu, Shiwen/Duan, Huiming/Zhu, Xuefeng/Tanaka, Yasuhito (2001), Da guimo biaozhu Hanyu yuliaoku kaifa de jiben jingyan, Some experience in the development of the large scale tagged Chinese corpus. In: Journal of Chinese language and computing 11 (2), 101K110. Yu, Shiwen/Zhu, Xuefeng/Wang, Hui/Zhang, Yunyun (1998), Xiandai Hanyu yufa xinxi cidian xiangjie [Detaillierte Erläuterung zum Wörterbuch syntaktischer Informationen der modernen chinesischen Sprache]. Beijing: Qinghua Daxue chubanshe.
115 Yuyan wenzi yingyong yanjiu ‘shi-wu’ zizhu xiangmu [Zu fördernde Projekte des 10. Fünfjahresplans im Bereich der angewandt-linguistischen Forschung] (20. 05. 2003). URL: „http://www.moe. edu.cn/language/yykeyuan/03.htm“. (Hrsg. Ministry of Education P.R.C.). (Zugriff am 04. 07. 2003). Zhongyang yanjiuyuan pingheng yuliaoku de neirong yu shuoming [Inhalt und Erläuterung des balancierten Korpus der Academia Sinica]. 9502 jishu baogao [Technical report 9502]. (Hrsg. Academia Sinica). Taibei, [1995]. URL: „http: //godel.iis.sinica.edu.tw/CKIP/sinicacorpus.doc“ (Zugriff am 05. 07. 2003) Zhou, Youguang (1980), Xiandai Hanzixue fafan [Einführung der modernen chinesischen Schriftzeichenwissenschaft]. In: Yuwen xiandaihua 1980 (2), 94K103. [Nachdruck in: Su Peicheng 2001b, 24K33.] Zhou, Youguang (1992), Zhongguo yuwen zongheng tan [Die Sprachen und Schriften Chinas kreuz und quer besprochen]. [Beijing]: Renmin jiaoyu chubanshe. Zou, Jiayan/You, Rujie (2003), Dangdai Hanyu xin ci de duoyuanhua quxiang he diqu jingzheng [Zur Pluralisierungstendenz und regionalen Konkurrenz neuer Wörter in der chinesischen Gegenwartssprache]. In: Yuyan jiaoxue yu yanjiu 2003 (3), 12K21.
Cornelia Schindelin, Bonn (Deutschland)
7. Quantitative linguistics in Poland 1. 2. 3. 4. 5.
10.
Introduction Phonetics and phonology Inflection Word formation Stylometry, lexicometry, authorship and lexical studies Corpus studies Statistical laws of language Psycholinguistics Quantitative methods in diachronic and historic linguistics Literature (a selection)
1.
Introduction
6. 7. 8. 9.
The beginning of quantitative linguistics in Poland dates back to the 1950s and is related to the expansion of structuralism. The first, pioneer phase of QL development is connected with the conversion of some longstanding problems of linguistics and the theory of literature into the language of mathematics. During this period, mainly ow-
ing to the work of J. Woronczak, Polish studies did not diverge very much from world standards and now they form the basis of modern QL in Poland. Further quantitative research into language structure along the lines originally proposed by J. Sambor and subsequently by J. Sambor and R. Hammerl helped to extend and corroborate our knowledge of statistical language laws. A significant contribution to the scope of Polish QL was also made by the studies on phonology and phonetics, carried out by W. Jassem and his associates. However, the many years of separation of Central European countries from the leading research centres, a low level of IT, and the lack of structural reform of outdated academic structures contributed to the fact that some QL fields were not adequately researched in Poland. This refers, for instance, to automatic translation, the applications of multidimensional analysis and corpus linguistics.
116
I. Allgemeines / General
The following presentation of the achievements of Polish QL is arranged into fields of study. We are well aware that many works worth discussing are absent here due to the limited size of this presentation. Their reference bibliography can be found in the available literature (cf. Köhler 1995; the Internet bibliography of Polish QL http:// www.lingwistyka.uni.wroc.pl).
2.
Phonetics and phonology
The first quantitative data on Polish phonemes and phones frequency were given in 1957 by M. Steffen (Steffen-Batóg 1997). Her studies of a sample of 5.000 phones confirmed the principle of optimum coding of speech sounds: the most frequent were the vowel phonemes /a/, /e/, /o/, equivalent to phonemes of simplest pronunciation, while the least frequent were the /dz/, /d@/, and /d>/ phonemes, whose phone equivalents are the most difficult to pronounce. This study has had numerous applications in audiometry and in quality control of telecommunication systems. A detailed description of the Polish phonological system was provided by B. Rocławski (1981). He used the instruments of statistics and information theory to study a corpus of 364.000 phonemes coming from four registers, including the colloquial conversational speech. Apart from empirical data, the work additionally includes a valuable outline of the history of statistical research of Polish phonology (phonetics) (Rocławski 1981, 12K21). A comprehensive research in the fields of acoustic phonetics and phonology was car-
ried out by W. Jassem and his associates. Using two coding systems K one based on distinctive features, the other on phonemes relative occurrence frequency (pi probability) K Jassem constructed branching diagrams to show the binary coding of the Polish phonetic system (Fig. 7.1 and 7.2). The values of pi were calculated on the basis of a 100.000phoneme long sample, gradually branched into subsets of frequencies of occurrence close to a ½ : ½ ratio (Jassem 1966, 104). It appeared that Hs entropy, calculated with phoneme frequency of occurrence (pi), is 4.73 bits per phoneme and is thus lower than the Hd entropy, calculated against the number of distinctive features Nk, which is 5.05 bits per phoneme: iZ37
Hs Z K ∑ pi log pi Z 4.73
(1)
iZ1 k
Hd Z K ∑ pk Nk Z 5.05
(2)
iZ1
The result has confirmed the rule that the most effective are uneven code systems (Jassem 1966, 100K107). The border areas of phonetics, phonology and psychology are the field of numerous studies by P. Łobacz. The author investigated the perception of speech, testing the psychological measures of similarity between consonants. The results obtained allowed her to establish a taxonomy of Polish consonants. One of her most recent works (Łobacz 1995) includes a digest of her yearslong research of the subject. The proposed taxonomy of consonants is based on multidimensional scaling. The best results were obtained with a 4-D analysis, accounting for 4
Fig. 7.1: Branching diagram for the Optimal Code of the Polish phonemes based on their relative occurrence frequencies (probabilities)
117
7. Quantitative linguistics in Poland
Fig. 7.2: Branching diagram for the Distinctive Feature Code of the Polish phonemes
Fig. 7.3: Prediction of phonemes in the sentence: Ludzie całego domu wylewali tu swoje brudy do rynsztoka płynącego wyżej niż okno. [Inhabitants of the entire house discharged their wastewater to a sewer running higher than the window.]
distinctive binary features: sibilance, palatalisation, voicing, and continuity. Łobacz and Jassem conducted an experiment, consisting in predicting subsequent language units (letters, phones, words) in a stream of speech, which allowed quantitative description of text structure in the light of theory of information (Łobacz 1973; Jassem 1974). On the basis of the number of questions asked by respondents while trying to predict the subsequent text units, the entropy (and redundancy) of the text in individual sentence positions was calculated. The highest entropy was confirmed to occur in the initial positions (initial phones of a word, initial words of a sentence, etc.), while it gradually diminished (i. e. redundancy grew) towards the end of a unit (Fig. 7.3). Statistical methods were also applied in research on second language acquisition
(L2). Two respondent groups were given tests to verify their ability to recognise the position of the main stress in L2 while listening to a recording (Steffen-Batóg 1997). It appeared that the respondents who knew L2 were better at recognising the position of main stress in the text than those who did not know the language. A comparison of the results for German texts, carried out by means of the Fisher test, showed that the variance obtained with the former respondent group was significantly lower than that obtained with the latter group. A. Pawłowski carried out numerous analyses of text prosody and rhythmicity (Pawłowski 1997). Prosody of a text is a sequential phenomenon and its efficient analysis requires specific instruments (e. g. Markov modelling, time series analysis). To arrive at a quantitative description of the rhythmic
118
I. Allgemeines / General
structure of a text, the ARIMA linear models of discrete time series were applied. A study of a few stylistic variations of Polish (e. g. syllabotonic verse, literary prose, oratory discourse) yielded linear models of time series (AR and MA, simple and seasonal), characteristic of language styles and/or metric patterns (cf. ref. to the contribution No. 51).
3.
most numerous noun groups as patterns (Tab. 7.1). A system of unambiguous coding of Polish noun inflections (POLEX) was elaborated by the team of Z. Vetulani (Vetulani/ Walczak/Obrębski et al. 1998a; 1998b). POLEX is rooted in a large corpus and was used for the development of a machinereadable morphological dictionary of Polish. The dictionary, now of 110.000 entries in uniform format, has reference to traditional morphological taxonomies of Polish inflectional vocabulary, but differs from them in offering a univocal classification (379 inflectional and morphological categories). The POLEX system allows for automated lemmatisation, tagging and searching for concordances for syntactic patterns. The work includes a comprehensive description of Polish noun inflection that allows IT applications and offers quantitative data so far not available for Polish K e. g. a distribution of inflectional endings.
Inflection
The highly complicated nature of Polish inflection is due to a large range of co-functional suffixes and alternations. Recent years saw the elaboration of a comprehensive qualitative description of Polish declension and conjugation, covering several hundreds of paradigmatic patterns (These were mostly works of W. Gruszczyński, J.S. Bień and Z. Saloni.). The by-product was statistics on systemic frequency of various grammatical categories. Furthermore, a qualitative analysis of the entry network in Słownik Języka Polskiego [Dictionary of Polish Language] was performed (Saloni 1988). A draft of the synthetic description of the inflection of Polish common nouns is included in the work of W. Gruszczyński (1987). Within the set of 60.000 nouns taken from Doroszewski’s Dictionary of the Polish Language, Gruszczyński determined 419 inflectional paradigms, making inflections of
4.
Word formation
Relationships between frequencies of derivatives and frequencies of their formation bases in texts were studied by A. Nagórko (1984). On a sample of 1.000 word pairs, composed of a noun and its derivative, two hypotheses were tested:
Table 7.1: Examples of patterns and variants of common noun inflection in the contemporary written Polish language, based on Doroszewski’s Dictionary of Polish Language. Inflection patterns and their variants
No. of entries following the pattern
Examples of entries
(1)
(2)
(3)
Description of inflection of individual entries, incl. in DPLDor (4)
A1. A1.* A1ó A1ą A# 1 A#1, & A#1ó, & A$1 A$1 B1 B1*
1914 1224 5 1 1315 62 1 564 340 1001 6564
STORCZYK STOŻEK JEDNORÓG PAŁĄG HISTOLOG SZEJK WRÓG STRZYŻYK SŁODYSZEK SROKA MATKA
mIII mIII, D. ~żka mIII, D. ~roga mIII, D. pałęga mIII mIII, lm M. ~owie mIII, D. l wroga, lm M. ~owie mIII mIII, D. ~szka żIII żIII, D. ~matek
Note: Column 1: Inflection patterns and their variants markings indicate the following characteristics of a pattern or variant: A K masculine-inanimate noun; A# K masculine-human noun; A$ K masculineanimate noun; B K various feminine patterns; 1 K stems ending with a velar consonant; * K stems including a mobile e; ó K exchange o K ó; ą K exchange ą K ę; & K -owie ending in masculine gender inflection etc.
119
7. Quantitative linguistics in Poland
(1) Positive and negative differences in the frequency of occurrence between a derivative and its formation base have normal distribution; (2) There is a strong asymmetry in these differences: frequencies of formation bases are significantly higher than derivative frequencies.
C V, etc.), a high percentage of multi-stem compounds was found in the RV of Polish journalism (Tab. 7.2). In fact, 94 % of proper (multi-stem) compounds belong to the RV class, while 88 % belong to the class of very rare vocabulary (1 % f % 2). The study of compounds also involved Filmore’s concept of semantic roles. Polish nominal compounds were accordingly regarded as of predicate-argument structures (Sambor 1976). However, this analysis was subordinate to the division of compounds into formal classes of N C N and N C V types. The N C N type prevails in the scientific and journalistic style, while the N C V type is equally distributed across various styles thus proving its independence from the style used. At the same time, as many as 78 % of N C N compounds included at least one foreign element (Tab. 7.3).
Kendall-Stuart asymmetry test corroborated the latter hypothesis. In a corpus of journalistic texts (Kurcz/ Lewicki/Sambor et al. 1990), J. Sambor investigated the occurrence frequencies of abstract derivatives K nomina actionis (NA) and nomina essendi (NE) (Sambor 1975). It was found that most of them fall into the category of rare vocabulary (RV) (1 % f %8). Among NE there was a noticeably large percentage of derivatives including the -ość formative (88 %). Among NA, far more frequent in journalistic texts, the four most frequent types of formatives in RV class were -anie, -enie, -cie (71 %) and -acja (80 %) (Sambor 1975, 47; 64). Similar findings were made while studying occurrence frequencies of derivatives including roz- and nie- prefixes, a large majority of which belonged to RV class (90 % and 94 %, respectively) (Sambor 1975, 30). The study also covered proportions of nominal and adjectival compounds in journalistic texts. While comparing occurrence frequencies of various compound types (N C N, N C V, Num
5.
Stylometry, lexicometry, authorship and lexical studies
The early origins of stylometry are connected with the name of W. Lutosławski, Polish Hellenist and philosopher. Although statistical methodology he applied in 1897 could be found unsatisfactory according to the recent standards, Lutosławski seems to be the true founder of modern stylometry. His monumental study The Origin and
Table 7.2: Percentages of compounds in individual classes
9 31
40 (7 %)
7 23
30 (6 %)
2 8
10 (12 %)
6 ≥ f ≥ 8 3 ≥ f ≥ 5 1 ≥ f ≥ 2
28 63 441
532 (93 %)
22 48 390
460 (94 %)
4 14 55
73 (88 %)
Total
572
490
123
123
100 %
Indirect compounds (monostem) 123
f ≥ 50 9 ≥ f ≥ 49
123
Proper compounds (multi-stem) 123
Multi-stem vocabulary total 123
Frequency class
100 %
38
100 %
Table 7.3: Nominal compounds in the styles studied Compound type
Style A
B
C
D
E
Σ
%
NCN NCV
31 33
66 35
119 38
26 36
16 21
258 163
61,28 38,72
Total
64
101
157
62
37
421
100,00
Note: A K journalism, B K small press items, C K popular scientific texts, D K literary prose, E K drama
120
I. Allgemeines / General
Growth of Plato’s Logic is also an ancestor of quantitative text chronology. He claims that “If an exact definition be possible of the notes which distinguish Plato’s style from the style of other writers, or by which a work written contemporaneously with the Laws differs from a work written at the time when Plato founded the Academy, then we may hope to ascertain the true order of Platonic dialogues according to the stylistic variations observed in them.” (Lutosławski 1897, 65). Lutosławski determined five hundred stylistic peculiarities of Plato’s style divided into accidental, repeated and frequent ones, and on this basis established the chronological order of Platonic dialogues. He concludes in a positivistic vein: “This exceptional importance of one particular case will enable us to decide questions of authenticity and chronology of literary works with the same certainty as palaeographers now know the age and authenticity of manuscripts. This future science of stylometry [Lutosławski was presumably the first to use this word K JS, AP] may improve our methods beyond the limits of imagination [...].“ (Lutosławski 1897, 193) As late as fifty years after Lutosławski’s pioneering work, W. Kuraszkiewicz, suggested the use of a quantitative measure of lexical richness. His coefficient has the form of k Z y / Ox, where x represents the length of text measured with the number of word forms, while y is the scope of vocabulary (Kuraszkiewicz/Łukaszewicz 1951). It is similar to Guiraude’s ratio, and has no practical significance nowadays K it is mentioned here merely because of the role it played in spreading a mathematical approach to language studies in Poland. The problems of stylometry were then approached by J. Woronczak (1965) who used much more sophisticated mathematical instruments. The author’s objective was to find unbiased estimators for coefficients of lexical richness, sensitive to lexical variety but independent of the length of the stretch
studied. On the basis of Good’s measures (Good 1953), representing the probability of drawing m items of the same class in m independent samplings of general population, cm Z ∑ pm i
(3)
i
Woronczak obtained formulae of cm estimators for mZ2 and mZ3: c¯2 Z
∑ fi2 K N
c¯3 Z
∑ fi3 K 3 $ ∑ fi2 C 2 N
(4)
N2 K N N (N K 1) (N K 2)
(5)
where fi is the frequency of the i-th word form, and N stands for sample length (Formula (4) was also given by G. Herdan. Both scholars pointed out the similarity between the c2 and Yule’s K characteristics.). A generalisation of formulae (4) and (5) is formula (6). Its author did not recommend, however, calculating its value for m O 3 (Woronczak 1976). fi (fi K 1) ... (fi K m C 1) c¯m Z ∑ i N (N K 1) ... (N K m C 1)
(6)
Using the B and ρ parameters of Mandelbrot’s equation, Woronczak also arrived at formulae for the expected vocabulary scope in a text of a given length, and for the expected number of words occurring with a given frequency (Woronczak 1967; 1976). Estimators (4) and (5) were verified on a vast corpus of French literary texts by A. Pawłowski (1994). The values of coefficients were calculated for increasingly longer text samples (20.000; 40.000; 60.000 up to 600.000 words) and compared by means of the coefficient of variation. A significant improvement in ratio stability could be observed already with the logarithmic TTR, but the most stable proved to be the coefficients of Dugast, Yule and Woronczak (Tab. 7.4) (Woronczak provided preliminary verification of the estimators (4) and (5), but
Table 7.4: Vocabulary richness ratios and their dispersions Ratio
Coefficient of variation
Ratio
Coefficient of variation
TTR Kuraszkiewicz Guiraud V1 / V2 (Guiraud) log TTR (Herdan)
0,610 0,202 0,202 0,179 0,038
c3 (Good) c3 (Good) K (Yule) UBER (Dugast)
0,022 0,006 0,006 0,001
7. Quantitative linguistics in Poland
he admitted that the test structure was not fully satisfactory (Woronczak 1976, 167)). Woronczak also proved that there is a relationship between the values of his estimators (c2 and c3) and the lexical cohesion of a text (Woronczak 1976). By investigating the variation of the estimators’ values calculated for increasingly long samples of a continuous text (N Z 2, 4, 8, ... words), he found that they first went up along with the growing N values and then K despite the geometric increase of N K became stable. The limit value of N, where the c2 and c3 estimators become relatively stable or reach their peak, indicates the boundary of the lexical cohesion of a text and determines the average length of segments relatively consistent with regard to their lexical and/or thematic content. This hypothesis was corroborated by the tests carried out on texts by St. Fulgentius and St. Augustine (Woronczak 1976). In the case of the St. Augustine’s text, addressed to an uneducated audience and thus written in a much simplified style, the limit value of N was about 45 words, while for St. Fulgentius’s text K a more difficult and literary one K it was about 128 words. A comprehensive study of the statistical structure of rare vocabulary found in Pan Tadeusz (PT) by A. Mickiewicz was originated by J. Sambor (1969). The rank frequency lists of the Greek New Testament (NT) compiled by R. Morgenthaler were used for comparison. It was found that Zipf’s first law refers only to the text of PT (the r ! f relation was described with Mandelbrot’s equation). Then Sambor tested a hypothesis stating that the statistical structure of rare vocabulary (RV) can be adequately described using the Poisson distribution. Tests were performed on both individual chapters and the whole text of PT and the empirical distributions were shown to correlate with Poisson distribution. The lognormal distribution also proved a good model to describe RV. Statistical distributions of linguistic units in literary texts were also studied by A. Bartkowiakowa and B. Gleichgewicht. Bartkowiakowa (1962) used the Polya margin distribution to estimate the empirical distribution of attributive phrase lengths in descriptive sentences. She proved that the number of modifying phrases in a sentence could be described by means of the Fucks distribution, with the ß1 parameter varying for each individual work of literature. Then
121 the authors studied the empirical distributions of syllable length for the vocabulary used in nine literary works dating back to the period from the 14th to the 20th century, and described them using the bi-parametric Fucks distribution (Bartkowiakowa 1962). They also calculated the average word length and the entropies of the empirical distributions, thus showing that these values grew steadily for the more recent literary works. Polish QL has also tackled the problems of authorial attribution. Using the ARIMA method of time-series analysis, A. Pawłowski compared French texts written by the same author under different names or pen names (R. Gary and E. Ajar) and texts written by a number of prose writers who were Gary’s contemporaries (Pawłowski 1998). It appeared that stochastic models of the sequential organisation of text units (e. g. lexemes and sentences) could be an efficient instrument in discriminating between tests by different authors. Several quantitative studies of poetry and versification in Poland were coordinated by M. R. Mayenowa (e. g. Mayenowa 1965; Pszczołowska 1967). One of the examples is the analysis of verse length distribution in Slavonic asyllabic poems of the 15th K16th centuries by J. Woronczak (1960). The distribution of sentence length K measured in syllables K for Polish prose was included for comparison. This was a gamma distribution with a significant right-biased asymmetry. The variance of asyllabic verse lengths was smaller than the variance of prosaic sentences, and it additionally decreased with time. Another finding was a significant heterogeneity in the distributions of asyllabic verse length for different writings. Statistical methods have traditionally been used in mass media content analysis. (In Poland such analyses are mostly performed by the Press Research Centre of the Jagiellonian University in Cracow.) They allow researchers to describe such message parameters as theme, ideological orientation, or comprehensibility. W. Pisarek (1983) compared four frequency dictionaries of journalistic texts published in German, Polish, Russian and Slovak daily newspapers. Irrespective of their particularities, the study revealed a number of shared features, e. g. the highest ranks of lexemes defining time and space (thus the time and place of events reported).
122
6.
I. Allgemeines / General
Corpus studies
The origin of corpus studies in Poland coincided with the publication of The Frequency Dictionary of Contemporary Polish (henceforth FDCP), which follows the structure of Juilland’s dictionaries (Kurcz/Lewicki/Sambor et al. 1990). FDCP was developed on the basis of a 500.000-word sample including five registers: scientific texts, brief news stories, editorials and opinion pieces, artistic prose and drama. The basic ratios describing lexeme frequency distributions in each register were Juilland’s F, D and U indexes. The Dictionary includes an English abstract of the extensive Introduction. Frequency dictionaries of contemporary spoken Polish, including the vocabulary of adults and kindergarten children, were developed by H. Zgółkowa and K. Bułczyńska (Zgółkowa 1983; Bułczyńska/Zgółkowa 1987). Both dictionaries are based on 100.000-word corpora. Methodologically they follow the pattern of FDCP. Empirical data included in the above dictionaries gave rise to many corpus analyses of the Polish language. Thus I. KamińskaSzmaj (1990), used FDCP as a basis to present lexical differences between the five registers of Polish. H. Zgółkowa (1987) used the whole corpora of FDCP as well as her own dictionaries of spoken Polish to provide a description of Polish as spoken by adults and children and to compile a minimum dictionary of Polish. In selecting entries she considered only the rank and frequency of words. However, combining written and spoken texts produced by adults with spoken texts produced by children resulted in the dictionary’s apparent heterogeneity. There are also corpus-based studies of Polish that are not directly related to FDCP. M. Zarębina (1985) developed and studied in statistical terms a 100.000-word corpus of spoken Polish, while M. Rachwałowa (1986) provided a comprehensive quantitative analysis of Polish scientific vocabulary. Quantitative study of lexical saturation of a corpus, using the concept of ‘sublanguage’ by R. Kittredge, was carried out by the team of Z. Vetulani in the framework of his research on the AI (Vetulani 1989, 69K102). Corpus data from FDCP were also applied in ethnolinguistics studies. A. Pawłowski compared the frequencies of country names in the corpora of ten European languages (Pawłowski 1999a). The hypothesis
was that the frequencies of lexemes representing country names within the corpora in question should, at least to some extent, reflect the division of Europe that existed until the fall of the communist system (the analysed corpora date back to the 1960’s and 1970’s). The results did not corroborate this hypothesis. The quantitative structure of the vocabulary reflected only the cultural closeness and regional co-operation between countries as well as their economic and political potential for international leadership, with no regard at all to the countries’ location in relation to the Iron Curtain. Using the same corpora of Indo-European languages, Pawłowski also verified the thesis of Berlin and Kay concerning the arbitrary character of colour terms coding (Pawłowski 1999b). In this case no definite result was reached. The x2 test showed that the frequencies of colour terms in individual languages are statistically independent (which would mean that colour terms coding is language-specific). However, when the numerical scale was replaced with the ordinal one and the colour terms in every language were ordered according to their frequencies, it appeared that there were no statistically significant differences between languages (Spearman’s rank correlation coefficient was used).
7.
Statistical laws of language
The relationships between word frequency, length, number of meanings and rank, discovered by J. K. Zipf and consequently referred to as Zipf’s laws, prompted the search for other language laws. Beside Zipf’s classic relations, the most closely examined one is Menzerath’s law, which states that “the longer a linguistic construction, the shorter its constituents”. The laws of Krylov and Beöthy describe relationships between the frequency of a lexeme and its range of meanings. Even though Zipf is considered a precursor of the study of quantitative laws in language, also J. I. N. Baudouin de Courtenay K the creator of modern Polish linguistics and one of the founders of structuralism K predicted their discovery: “There will be a time for true laws of the psycho-social world, first and foremost the world of language, laws that will stand worthily together with the laws of natural sciences, expressed in terms of unconditional relations between values.” (Baudouin de Courtenay 1927).
123
7. Quantitative linguistics in Poland
7.1. Zipf’s law Research into Zipf’s law, which describes the relation between the position of a word on the rank-list and its frequency, was undertaken by J. Woronczak (1967). Starting from the formulae of Estoup, Joos and Mandelbrot, he supplied an analytic description of the quantitative structure of the vocabulary in a text considered to be a sample taken from the infinite general population. He arrived at formulae for the expected vocabulary scope, as well as for the expected num-
ber of words of a given frequency, in a text composed of N words (Woronczak 1967, 2259). Woronczak also considered a generalisation of the obtained formulae for an unlimited text where N / N and the number of ranks is r / N. However, his generalisations discussed above have not been corroborated by empirical tests. 7.2. Menzerath’s law Polish linguists have tested Menzerath’s law on different language levels, but the most
Fig. 7.4: Menzerath’s law for the semantic structure of Polish vocabulary
Fig. 7.5: Menzerath’s law for the semantic structure of Polish nouns
124
7.3. Krylov’s law A relation between the number of lexemes (yx) which have x meanings in a given dictionary and the number of meanings (x) was already observed by Zipf. This relation, defined in terms of a linguistic statistical law that describes the structure of polysemy in a dictionary, was tested exhaustively for Polish and Russian languages. Sambor carried out an analysis of the empirical distributions of the number of meanings for lexemes excerpted from three Polish language dictionaries (Sambor 1989; Hammerl/Sambor 1993, 117K129). In spite of differences among the dictionaries as well as imprecision of semantic criteria, all the distributions turned out to be very similar (Fig. 7.6).
Percentage of vocabulary
0.6
0.5 Entire dictionaries SO
0.4
SSRLJa MSJP
0.3
0.2
0.1 x
1
2
3
4
5
6
7
8
9
10
11
Number of meanings
Fig. 7.6: Empirical distributions of polysemous vocabulary in three dictionaries ( SO, SSRLJa K Russian language dictionaries, MSJP K a Polish language dictionary.)
In trying to arrive at a formal description of the relation presented, a test was performed on a functional model proposed by Krylov: px Z
1
where px K percentage of lexemes 2x with x meanings in a dictionary; (7)
Despite the apparent compatibility of the two distributions, the χ2 test showed signifi2 cant discrepancies K χ2emp Z 54,43 O χ 0,05 Z 15,51 with ν Z 8 (Fig. 7.7). Another Kryn
500
Number of lexemes
original results were obtained by R. Hammerl and J. Sambor in describing semantic structure. Thanks to their work, Menzerath’s law was generalised and the rule stating that the polysemy of long words is low, while that of short words is high, was described in formal terms, thus acquiring the status of a linguistic quantitative law. Sambor analysed extensive lexeme samples obtained at random from Polish and Russian dictionaries (Sambor 1984; Hammerl/Sambor 1993). The object of the study was the relation between word length as expressed in syllables and/or letters (xi) and the average number of the word’s meanings (yi). Out of three types of regressive functions (y Z axb ecx, y Z axb and y Z aecx), the second one (y Z axb) proved to be the best model. The strongest correlation of variables was found to occur when the words studied were sampled randomly from the entire dictionary and word length was expressed in letters. For instance, for a set of lexemes selected from among all the entries of a Polish dictionary, the following relation between word length (x) and the number of meanings (y) was found: y Z 9,13xK0,77, with satisfactory results of the F test (Femp. (1,11) Z 337 F0,05 (1,11) Z 4,84) (Fig. 7.4). Sambor’s work also included a description of the noun length distribution according to the number of meanings, as developed using the above models (Fig. 7.5). For the same initial parameters, the F test showed the second model to be the most compatible (Femp. (1,12) Z 65 O F0,05 (1,12) Z 4,75) (Sambor 1984, 106).
I. Allgemeines / General
400 Polish-entire dictionary empirical data
300
theoretical data (p = 2 -x)
200
100
1
2
3
4
5
6
7
8
9
10
11 x
Number of meanings
Fig. 7.7: Krylov’s law K empirical and theoretical values
125
7. Quantitative linguistics in Poland
lov’s model also proved unsatisfactory. Therefore this law represents a mere statistical trend, which has so far been verified only empirically. 7.4. Beöthy’s law Beöthy’s law determines the statistical distribution of the various meanings of a polysemous lexeme in a text. This law belongs to microsemantics, because it describes statistical distribution of the meanings of a single morpheme or lexeme in a text (Hammerl/ Sambor 1993, 133K136).
The object of study was the statistical structure of the frequencies of the semantic functions served by the preposition ‘w’ [‘in’] in an excerpt of Polish prose (Sambor 1991). The classifications of its meanings found in two dictionaries (SPP K Słownik poprawnej polszczyzny [Dictionary of Correct Polish], MSJP K Słownik języka polskiego [Dictionary of the Polish Language] edited by M. Szymczak.) were used for comparison (15 and 12 meanings, respectively). In both instances the distributions obtained were much similar (Tab. 7.5).
Fig. 7.8: Empirical rank distribution of the preposition’s meanings in a text according to their classification included in MSJP (left) and SPP (right)
Table 7.5: Rank distributions of the preposition w [in] in an excerpt from a Polish novel MSJP classification
SPP classification
rank ri
Frequencies in the text ni
1. 2. 3. 4. 5. (6.) 7. 8. 9. 10. (11.) 12. 13. 14. 15.
298 54 40 36 18 (11) 9 8 7 7 (4) 2 1 1 1
‘place’ ‘time’ ‘group, institution’ ‘manner’ ‘state’ ‘change’ ‘clothing, cover’ lexicalised expressions
Total
487
(497)
general words
rank ri 1. 2. 3. (4.) 5. 6. 7. 8. 9. 10. 11. 12.
457
Frequencies in the text ni 198 100 54 (40) 21 20 20 15 13 8 7 1
(497)
‘place loc.’ ‘place adl.’ ‘time’ ‘group, institution’ ‘state’ ‘manner’ ‘target, outcome, result’ lexicalised expressions
126
I. Allgemeines / General
The rank distributions obtained on the basis of the text were then compared with the ranks of the individual meanings found in the dictionaries. It was assumed that the order of meanings in an entry was from the most to the least common, with the difference lying in the fact that it was determined by the lexicographer’s competence and not by empirical data. The Spearman rank correlation coefficient showed a lack of correlation in the case of the MSJP (R Z 0,26) and poor correlation for the SPP (R Z 0,64) (Fig. 7.8). The above shows that dictionaries which ignore empirical corpus data do not adequately describe the cognitive structure of vocabulary included in the mental vocabulary which is reflected indirectly in texts. Despite the inexact nature of semantic criteria, this structure can be perceived, described and used as a basis for assessing the quality of a dictionary.
8.
Psycholinguistics
The most significant achievements of Polish psycholinguistics include studies on the mental lexicon. They are a product of demands put forth by audiometry which, while assessing the perception and comprehension of linguistic units, also considers the subjective level of anticipation. The first discussion of the problem was based on an analysis of 2.886 Polish words, whose usage was assessed by 90 respondents in terms of a sixgrade scale (Jassem/Gembiak 1980). Continued research led to the publication of a frequency dictionary of the subjective probability of occurrence of Polish words (Imiołczyk 1987). The dictionary relies on a frequency evaluation of 5.138 Polish lexemes obtained through a survey among 2.000 respondents (a seven-grade scale was used). It includes a rank list of entries according to the arithmetic mean of the grades allocated (together with the positional statistics), an index of polysemous entries (The phenomenon of polysemy was accounted for, and therefore the unit examined was always a lexeme in its individual, definite meaning.), and an alphabetic list of entries with their ranks. The large number of respondents and the high dispersion of ranks assessments are responsible for the balance of frequency evaluations.
9.
Quantitative methods in diachronic and historic linguistics
Applications of statistical methods in historical linguistics were the object of study of W. Mańczak, I. Bajerowa and A. Wierzbicka. The most extensive research in this field was indisputably done by Mańczak. However, the range of his investigations is so vast that it would require a separate monograph, which is all the more necessary since some of his theses have given rise to lively controversies (Best 1973). Therefore, this presentation is just a modest and unrepresentative review of his achievements (Köhler 1995; Mańczak 1996). In the course of his many years of research, Mańczak proved that a word form is dependent not on two, but on three basic determinants: regular phonetic development, analogous development and irregular phonetic development due to frequency of occurrence. It is the last factor that makes frequently used words or morphemes (mostly inflectional ones) undergo reductions leading to considerable diversity in their paradigms. Suppletivism would be a consequence of this rule (Mańczak 1969). In comparing the lexicons of Romance languages, Mańczak showed that the earlier a new province was seized by the Romans, the greater the percentage of lexemes of Romance origin (Mańczak 1991). In examining the lexicons of Germanic languages, he noticed that the percentage of words of ambiguous and/or non-Indo-European origin increases towards the north, which would serve to prove the thesis that this was exactly the direction in which Indo-European influences spread onto Germanic territory (Mańczak 1992). An analysis of several parallel corpora of Germanic languages allowed Mańczak to conclude that the original homeland of the Goths was the southern part of ancient Germania (Mańczak 1982). Results obtained from his research on Slavonic languages enabled Mańczak to put forward the hypothesis that Slavs are descended from that part of the ancient IndoEuropean population which had stayed within their original territory, while the other Indo-European peoples are descended from those Indo-Europeans who had left their land and mixed with non-Indo-European peoples (Mańczak 1992). The original homeland of the Slavs would thus be the Oder river basin (Mańczak 1992).
7. Quantitative linguistics in Poland
Wierzbicka (1966) studied the syntax of 16th-century Polish. She showed that K in contrast to modern Polish K the predicate would usually occur in the final position (she applied regression analysis and x2 test), while the t test proved that the percentage of sentences with hypotaxis is significantly high. A synchronic analysis of 16th-century syntax was accompanied by a comparison with 20th century syntax, which displays extensive hypotaxis in simple sentences and growing nominalisation. A detailed quantitative analysis of the transformations Polish underwent in the 18th-century was carried out by Bajerowa (1964). The transformations involved a gradual decline of regressive forms and the spread of innovations on all language levels. Bajerowa distinguished five innovation types and presented their evolution throughout the 18th century (Bajerowa 1964, 232). By applying a similar method to the 19thcentury Polish, she showed the growing stability of the whole Polish language system of the time (Bajerowa 1986). A particular place in Polish QL is occupied by W. Skalmowski, an expert in Oriental languages. In one of his works (Skalmowski 1961) he analysed the percentage of borrowings from Arabic languages in Persian. Samples of press language and of artistic writings of Sa’di and Hafiz, Persian poets of the 13th and 14th century, were quantitatively compared with the texts by Alawi, a modern Persian prose writer. The percentages of Arabic borrowings in the lexicon and in the texts showed only slight differences for all samples. This corroborated the hypothesis that the percentage of Arabic vocabulary in Persian has not changed considerably since the 13th century.
10. Literature (a selection) Bajerowa, Irena (1964), Kształtowanie się systemu polskiego języka literackiego w XVIII w. [The formation of standard Polish in the 18th century]. Wrocław u. a.: Ossolineum. Bajerowa, Irena (1986), Polski język ogólny XIX w. Stan i ewolucja. Ortografia, fonologia z fonetyką, morfologia [General Polish in the 19th century. State and Evolution. Spelling, phonology, phonetics and morphology.] Katowice: Wydawnictwo Uniwersytetu Śląskiego. Bartkowiakowa, Anna (1962), O rozkładzie określeń w zdaniach opisowych Żeromskiego i Sienkiewicza [On the distribution of complements
127 in the descriptive sentences of Żeromski and Sienkiewicz]. In: Zeszyty Matematyczne 6 (3), 287K 303. Bartkowiakowa, Anna/Gleichgewicht, Bolesław (1962), O długości sylabicznej wyrazów w tekstach autorów polskich [On the syllabic length of words in texts by Polish authors]. In: Zeszyty Matematyczne 6 (3), 309K319. Baudouin de Courtenay, Jan (1927), Ilościowość w myśleniu językowym [Quantity as a dimension of thought about language]. In: Symbolae gramaticae in honorem Jan Rozwadowski, v.1. (Festschrift), Cracoviae: Gebethner & Wolff, 3K18. Reprint: Baudouin de Courtenay, J. (1990), Dzieła wybrane t. IV [Selected Writings, v. 4]. Warszawa: PWN, 546K563. Best, Karl-Heinz (1973), Probleme der Analogieforschung. München: Max Hueber Verlag. Bułczyńska, Katarzyna/Zgółkowa, Halina (1987), Słownictwo dzieci w wieku przedszkolnym. Listy frekwencyjne [The vocabulary of children at the pre-school age: frequency lists]. Poznań: Wydawnictwo UAM. Good, Irving John (1953), On the population frequencies of species and estimation of population parameters, in: Biometrika 40/1953, 237K264. Gruszczyński, Włodzimierz (1987), Fleksja rzeczowników pospolitych we współczesnej polszczyźnie pisanej na materiale Słownika Języka Polskiego PAN pod red. W. Doroszewskiego [The inflection of Polish common nouns. Based on the Słownik Języka Polskiego PAN by W. Doroszewski]. Wrocław u. a.: Ossolineum. Hammerl, Rolf/Sambor, Jadwiga (1993), O statystycznych prawach językowych [On the statistical laws of language]. Warszawa: Polskie Towarzystwo Semiotyczne. Imiołczyk, Janusz (1987), Prawdopodobieństwo subiektywne wyrazów. Podstawowy słownik frekwencyjny języka polskiego [The subjective probability of words. A basic frequency dictionary of Polish]. Warszawa, Poznań: PWN. Jassem, Wiktor (1966), The Distinctive Features and the Entropy of the Polish Phoneme System. In: Biuletyn Polskiego Towarzystwa Językoznawczego 24, 87K108. Jassem, Wiktor (1974), Mowa a nauka o łączności [Speech and communication science]. Warszawa: PWN. Jassem, Wiktor/Gembiak, Danuta (1980), Subiektywne prawdopodobieństwo wyrazów polskich [Subjective probability of Polish words]. Warszawa, Poznań: PWN. Kamińska-Szmaj, Irena (1990), Różnice leksykalne między stylami funkcjonalnymi polszczyzny pisanej. Analiza statystyczna na materiale słownika frekwencyjnego [Lexical differences between functional styles of written Polish. A statistical analysis based on the data from the frequency dic-
128 tionary]. Wrocław: Wydawnictwo Uniwersytetu Wrocławskiego. Köhler, Reinhard (1995), Bibliography of Quantitative Linguistics. Amsterdam: John Benjamins. Kuraszkiewicz, Władysław/Łukaszewicz, Józef (1951), Ilość różnych wyrazów w zależności od długości tekstu [The frequency of different words as a function of text length]. In: Pamiętnik Literacki 42 (1), 168K182. Kurcz, Ida/Lewicki, Andrzej/Sambor, Jadwiga/ Szafran, Krzysztof/Woronczak, Jerzy (1990), Słownik frekwencyjny polszczyzny współczesnej, t. 1K2 [The frequency dictionary of contemporary Polish, v. 1K2]. Kraków: PAN, Instytut Języka Polskiego. Lutosławski, Wincenty (1897), The origin and growth of Plato’s logic. London, New York, Bombay: Longmans, Green and Co. Łobacz, Piotra (1973), A pilot study of phoneme prediction in running Polish speech. In: Speech Analysis and Synthesis 3/1973, 75K83. Łobacz, Piotra (1995), O percepcyjnej klasyfikacji spółgłosek raz jeszcze [The perceptive taxonomy of consonants revisited]. In: Eufonia i Logos. (Hrsg. J. Pogonowski). Poznań: wyd. UAM, 171K 183. Mańczak, Witold (1969), Do the “cases vides” exist? In: Linguistica Antverpiensia 3, 295K303. Mańczak, Witold (1982), Kamen die Goten aus Skandinavien? In: Indogermanische Forschungen 87, 127K137. Mańczak, Witold (1991), La classification des langues romanes. Kraków: Universitas. Mańczak, Witold (1992), De la préhistoire des peuples indo-européens. Kraków: Universitas. Mańczak, Witold (1996), Problemy językoznawstwa ogólnego [Problems in general linguistics]. Wrocław: Ossolineum. Mayenowa, Maria R. (Hrsg.), Poetyka i matematyka [Poetics and mathematics]. Warszawa: PIW, 1965. Nagórko, Alicja (1984), Die Anwendung des Häufigkeitskriterium bei der Wortbildung. In: Glottometrika 6. Bochum: Brockmeyer, 48K64. Pawłowski, Adam (1994), Ein Problem der klassischen Stilforschung: Die Stabilität einiger Indikatoren des Lexikonumfangs. In: Zeitschrift für Empirische Textforschung 1, 67K74. Pawłowski, Adam (1997), Time-Series Analysis in Linguistics. Application of the ARIMA Method to Some Cases of Spoken Polish. In: Journal of Quantitative Linguistics 4/1K3, 1997, 203K221. Pawłowski, Adam (1998), Séries Temporelles en linguistique. Avec application a l’attribution de textes: Roman Gary et Emile Ajar. Paris: Champion. Pawłowski, Adam (1999a), Language in the Line vs. Language in the Mass: On the Efficiency of
I. Allgemeines / General Sequential Modelling in the Analysis of Rhythm. In: Journal of Quantitative Linguistics 6/1, 1999, 70K77. Pawłowski, Adam (1999b), Metodologiczne podstawy wykorzystania słowników frekwencyjnych w badaniu językowego obrazu świata [Methodological foundations of the use of frequency dictionaries in investigating the linguistic image of the world]. In: Przeszłość w językowym obrazie świata (Hrsg. A. Pajdzińska/P. Krzyżanowski). Lublin: wyd. UMCS, 81K99. Pawłowski, Adam (1999c), The Quantitative Approach in Cultural Anthropology: Application of Linguistic Corpora in the Analysis of Basic Color Terms. In: Journal of Quantitative Linguistics 6/ 3, 222K234. Pisarek, Walery (1983), “Reality” East and West. In: Language, Image. (Hrsg. H. Davis, P. Walton). Oxford: Basil Blackwell, 156K165. Pszczołowska, Lucylla (1967), La divisibilité du me`tre et substrat linguistique. In: To Honor Roman Jakobson: Essays on the occasion of his seventieth birthday, 11 October 1966, vol. II. (Festschrift). The Hague: Mouton, 1624K1633. Rachwałowa, Maria (1986), Słownictwo tekstów naukowych [The vocabulary of scientific texts]. Wrocław: Ossolineum. Rocławski, Bronisław (1981), System fonostatyczny współczesnego języka polskiego [Phonetic statistics of Polish]. Wrocław: Ossolineum. Saloni, Zygmunt (1988): Struktura gramatyczna słownictwa zawartego w ‘Słowniku Języka Polskiego’ PAN pod red. Witolda Doroszewskiego K zestawienia liczbowe [The grammatical structure of the vocabulary of the ‘Słownik Języka Polskiego’ PAN by Witold Doroszewski K numerical data]. In: Studia z polskiej leksykografii współczesnej. (Hrsg. Z. Saloni). Wrocław: Ossolineum, 149K160. Sambor, Jadwiga (1969), Badania statystyczne nad słownictwem (na materiale Pana Tadeusza) [The statistical investigations of vocabulary (based on Pan Tadeusz)]. Wrocław: Ossolineum. Sambor, Jadwiga (1971), The distribution of low frequency words in texts of natural languages. In: Bulletin de la Société Polonaise de Linguistique 28, 125K133. Sambor, Jadwiga (1975), O słownictwie statystycznie rzadkim (na materiale derywatów we współczesnej publicystyce polskiej) [On statistically rare vocabulary (based on derivations in modern Polish journalistic prose)]. Warszawa: PWN. Sambor, Jadwiga (1976), Kompozycje rzeczownikowe dwunominalne i nominalno-werbalne w tekstach współczesnego języka polskiego [The nominal and verbal compounds of the N-N and NV type in contemporary Polish]. In: Semantyka tekstu i języka. (Hrsg. M. R. Mayenowa). Wrocław: Ossolineum, 239K256.
129
8. Quantitative linguistics in the Czech Republic Sambor, Jadwiga (1984), Menzerath’s law and the polysemy of words. In: Glottometrika 6. Bochum: Brockmeyer, 94K114. Sambor, Jadwiga (1989), Struktura kwantytatywna wyrazów polisemicznych w słowniku, czyli o tzw. prawie Kryłowa (na materiale języka polskiego i rosyjskiego) [The quantitative structure of polysemic words in Polish and Russian vocabulary, or the so called ‘Krylov law’]. In: Polonica 14, 13K31. Sambor, Jadwiga (1991), Struktura kwantytatywna wielofunkcyjnego morfemu gramatycznego w tekście (na materiale polskiego przyimka w) [The quantitative structure of the multifunctional grammatical morpheme in a text (the example of the preposition w in Polish)]. In: Munera Linguistica L. Kuraszkiewicz dedicata (Hrsg. M. Basaj/Z. Zagórski). Wrocław: Ossolineum, 283K294. Skalmowski, Wojciech (1961), Ein Beitrag zur Statistik der arabischen Lohnwörter im Neupersischen. In: Folia Orientalia 3(1), 171K175. Steffen-Batóg, Maria (1997), Phonetic Studies. Poznań: Serus. Vetulani, Zygmunt (1989), Linguistic Problems in the Theory of Man-Machine Communication in Natural Language. Bochum: Brockmeyer. Vetulani, Zygmunt/Walczak, Bogdan/Obrębski, Tomasz/Vetulani, Grażyna (1998a), Unambiguous coding of the inflection of Polish nouns and its application in electronic dictionaries K format POLEX. Poznań: Wydawnictwo UAM. Vetulani, Zygmunt/Martinek, Jan/Obrębski, Tomasz /Vetulani, Grażyna (1998b), Dictionary based methods and tools for language engineering. Poznań: Wydawnictwo UAM. Wierzbicka, Anna (1966), System składniowo-stylistyczny prozy polskiego renesansu [The syntac-
tic-stylistic system of Polish Renaissance prose]. Warszawa: PIW. Woronczak, Jerzy (1960), Statistische Methoden in der Verslehre. In: Poetics K poetyka K poetika. Warszawa: PWN, IBL, 607K627. Woronczak, Jerzy (1965), Metody obliczania wskaźników bogactwa słownikowego [Methods of calculating lexical richness coefficients]. In: Poetyka i matematyka. (Hrsg. M. R. Mayenowa). Warszawa: PIW, 145K165. Woronczak, Jerzy (1967), On an attempt to generalize Mandelbrot’s distribution. In: To Honor Roman Jakobson: Essays on the occasion of his seventieth birthday, 11 October 1966, vol. II. (Festschrift). The Hague: Mouton, 2254K2268. Woronczak, Jerzy (1976), O statystycznym określeniu spójności tekstu [On the statistical definition of text cohesion]. In: Semantyka tekstu i języka. (Hrsg. M. R. Mayenowa). Wrocław: Ossolineum, 165K173. Zarębina, Maria (1985), Próba statystycznej analizy słownictwa polszczyzny mówionej [Statistical analysis of spoken Polish K an outline]. Wrocław u. a.: Ossolineum. Zgółkowa, Halina (1983), Słownictwo współczesnej polszczyzny mówionej. Lista frekwencyjna i rangowa [Vocabulary of contemporary spoken Polish. Rank- and frequency list]. Poznań: Wydawnictwo UAM. Zgółkowa, Halina (1987), Ilościowa charakterystyka współczesnej polszczyzny [The quantitative structure of contemporary Polish]. Poznań: Wydawnictwo UAM.
Jadwiga Sambor, Adam Pawłowski, Warszawa/Wrocław (Poland)
8. Quantitative linguistics in the Czech Republic 1. 2. 3.
1.
Quantitative linguistics in the classical Prague School period Quantitative linguistics during the second half of the 20th century Literature (a selection)
Quantitative linguistics in the classical Prague School period
The study of Czech from the quantitative viewpoint in any significant measure dates from the beginning of the 20th century. Most of the empirical studies at that time were closely connected with the development of various shorthand systems on the one hand,
and, on the other, with efforts to achieve progress in education in the pedagogical sphere, i. e. with the creation of graded readers and literary readers for elementary schools and the compilation of foreign-language textbooks. The systematic development of Czech quantitative linguistics as a linguistic study in its own right K with its own subject, methods and tasks K began at the end of the 1920s within the theoretical framework of functional structuralism. The principles of functional linguistics formulated in the Thèses of the Prague Linguistic Circle (Theses 1929) proved to be particularly beneficial for the development of quan-
130 titative linguistics. The important representatives of the Prague School, especially Vilém Mathesius, Josef Vachek, Bohumil Trnka, Jiří Krámský, Roman Jakobson (cf. the extensive collection of his studies published in Czech in 1995 in Prague), who have significantly influenced many areas of “word and literature” studies, also wrote major works on quantitative linguistics during the thirties and the forties. They wrote their papers in Czech, or in English, German, or French and published them in the basic Prague Linguistic Circle series called Travaux du Circle Linguistiques de Prague and in other journals, or in book form. The crucial importance of these studies for the development of modern linguistic thinking is demonstrated by the fact that most of them were reprinted in the 1960s in a comprehensive reader prepared by Vachek (1964). Those studies which the authors originally published in Czech were translated into English. The English-translated selection of Trnka’s papers were published by the Czech anglicist Fried (Trnka 1982). Trnka, for one, was the author of the most comprehensive programmatic integration of quantitative studies in the structuralist theory of language. Here is a quotation from one of his later works: “Before any speech units can be counted, we must have them, and it is clear that the correctness of statistical results depends entirely K provided that no omissions or other errors in counting are made K on that of structural linguistics” (Trnka 1950b, 3). The notion of quantum was regarded by the Prague School as the necessary, constitutive element of linguistic reality, and therefore as a concept which enters the definitions of the basic linguistic oppositions. The Prague School representatives repeatedly stressed that it is neither insignificant nor accidental whether, for instance, the same phonemic opposition occurs in the language system only once, or twice or a hundred times. In other words, that the important thing is not only whether, for example, a certain phonological opposition (or phoneme, a group of phonemes, a morpheme, etc.) occurs in a given language at all (whether it occurs or does not occur in the inventory, the repertoire of the elements of a given language), but also the level, degree, and intensity (Grad der Ausnützung) at which it is used or its functional load (Belastungsfähigkeit). While the presence vs. the absence of an element in a language system is a matter
I. Allgemeines / General
of quality, the functional load of an element is a quantitative complementary feature. If we want to know language facts in their entirety, it is necessary to take account of both. As one of the principal research issues of the pre-war period of the Prague School was phonology, quantitative analysis of that time concentrated primarily on the investigation of the functional load of phonemes in the language system represented by lexis, i. e. in words (lexemes) and/or in word forms, and on the study of functional load in consecutive speech (in text). The languages studied included not only Czech (Mathesius 1964a; Mathesius 1964b; Vachek 1940), but also old and modern English, Persian, Italian, and others, often from a typological (contrastive) point of view (Trnka 1935; Krámský 1939; Krámský 1942; Krámský 1948). Many of these authors’ studies, whether phonological or other, were published even later (cf. Trnka 1964; Trnka 1966; Krámský 1964; Krámský 1966; Krámský 1978). The youngest member of the first generation of Prague structuralists, phonologist and typologist Krámský, was active and wrote until 1990 (Krámský 1990). Quantitative analysis based on functional structuralist principles resulted in some important special applications. The most remarkable of these was Trnka’s attempt (Trnka 1937) to devise a new Czech shorthand system (never applied in practice however). Trnka’s shorthand system was based on the functional principle that the quantitative and qualitative differences between phonemes should have exact graphological correspondences. Therefore in his proposal the shortest signs of the shorthand alphabet were assigned to the most frequent phones and the functional phonological oppositions were designated graphologically in the same way in all phonemic pairs (for example, b was distinguished from p by the same graphological attribute as d from t, z from s, etc.). Prague functionally-oriented quantitative linguistics was born at the same time as G. K. Zipf began to write his works in America. In Czechoslovakia, Zipf’s studies were reviewed by Trnka (1950b). Trnka, who pointed out the independence of and the differences between the starting points and aims of the Prague School’s and Zipf’s quantitative researches, was certainly not wrong when he praised highly Zipf’s work in his English review on the one hand, expressing his conviction that “it will not fail to influ-
8. Quantitative linguistics in the Czech Republic
ence the linguistic thought of today” (Trnka 1950b, 5), nor was he wrong when, on the other hand, he stressed that Zipf’s laws were only partially applicable and demanded that they be revised. He accurately described Zipf’s contribution in that he as a statistician showed the advantages of a statistical method compared with qualitative analysis in the sense that statistical analysis “is being able to afford to neglect the narrow limits of one language and to concentrate on linguistic problems of a general character” (Trnka 1950b, 5). Trnka believed in the existence of general quantitative laws which govern the structure of all languages, and saw the attempts to formulate them as a major task of future quantitative linguistics K in this respect he was proved right by the subsequent development of quantitative linguistics. He himself, however, avoided their formulation, considering it premature at that time.
2.
Quantitative linguistics during the second half of 20th century
The 1930s may be described as a period of flourishing for classical quantitative linguistics in Czechoslovakia. Despite the adversities of the war years this state continued up to the early fifties. In 1950 Trnka could outline his grand programme for structuralist quantitative linguistics in his lecture delivered at Palacký University in Olomouc, published a year later (Trnka 1951). His programme was in connection with the 6th International Linguistic Congress in Paris in 1948, at which Trnka was elected one of the nine-member committee for linguistic statistics which was established at the congress to promote quantitative research. As secretary of this committee he managed to publish a bibliography of quantitative linguistics. This bibliography K with Marcel Cohen’s introduction K is actually the first bibliography of quantitative linguistics (Trnka 1950a). It includes 235 items divided into ten sections. It is worth mentioning that among those who collaborated with Trnka on the bibliography was another member of the committee for quantitative linguistics, G. K. Zipf. It seems likely that both scholars knew each other personally at that time. The plans for another, more detailed edition of the quantitative linguistics bibliography, were never realized. In Czechoslovakia Prague structuralism was subdued as a direction with a non-
131 Marxist orientation and linguistic interests turned elsewhere. The revival of quantitative linguistics occurred in the 1960s. The discipline was, at least at the beginning, marked by great diversification in terms of generations, approaches, subjects, methods (“technologies”), and application. A new programme, becoming ever more distinctly interdisciplinary, was in the complex process of crystallization, and quantitative linguistics was finding its place, not without difficulties sometimes, among various other new directions in linguistics. The period was characterized, on the one hand, by important conceptual and publication achievements, on the other hand by some adverse personal aspects, especially the departure of some linguists from the domestic linguistic scene for abroad, or from linguistics as such. The major event of the early sixties was the publication of the first large frequency dictionary of Czech by Jelínek, Bečka, and Těšitelová (1961), compiled from a corpus of 1,623,527 words, in which the frequency lists of words came down to r Z 10,000 and the alphabetical dictionary down to f Z 3. Data on the frequency of words, word classes and word forms contained in this dictionary and commented on in much detail functioned as quantitative norms for Czech. K In the 1960s studies appeared in the country inspired by Shannon’s study Prediction and Entropy of Printed English of 1951 (which was well-known through the Czech translation; cf. Doležel 1964). The studies investigated the value of entropy and redundancy for Czech as measures of functional load of linguistic elements (linguistic oppositions) and their systems, cf. for example, Doležel (1963), Komárek (1964), Doležel and Průcha (1966), Korvasová and Palek (1962), and others. In the same period there appeared “machines in linguistics” in Czechoslovakia K in the first stage there were punch-card machines which resulted in mechanical processing and automation of linguistic work and allowed the realization of an excellent lexicographic project which was fully up to the then world standards (Štindlová 1966; Štindlová 1968) and provided surprisingly fast results (Štindlová 1969). Notwithstanding the project was halted after several years and the mechanographical laboratory, established in the Institute for Czech Language of The Czechoslovak Academy of Sciences, was closed down. The mate-
132 rial contained in the four-volume Slovník spisovného jazyka českého [Dictionary of the Standard Czech Language] (1960K1971), which was compiled by the Lexicographic Department of the Institute and transferred into punch-card format in the mechanographical laboratory, is the basis of the one and only extant copy (a single “run-off”), printed on computer paper, still actively used today as a unique information source on Czech lexis, of a reverse entry list of this dictionary. Although the manuscript was ready for print, no viable opportunity has ever offered itself for the reverse dictionary to be published in book form. In 1961, quantitative linguistics achieved an institutional status in the Institute for Czech Language through the establishment of the Department for Mathematical Linguistics, whose staff included one to two mathematicians in addition to linguists. During the twenty-five years of its existence the team has made a highly detailed quantitative description of present-day standard Czech in both its written and spoken variety at all levels of linguistic description. The complex of quantitative characteristics contained the characteristics of the Czech phonemes (the frequency of phones and phoneme types, the combinatorial properties of phonemes, statistical characteristics of syllables), graphemes (the frequency of graphemes, their combinatorial properties), the structure of the Czech vocabulary according to the frequency zones of words, the characteristics of each word class, in the inflected words class the very detailed description of their specific morphological features. It also contained the characteristics of the simple sentence (the frequency of the syntactic functions of the word classes, the frequency of the clause elements, the frequency of the basic clause patterns, word-order and sentence-length characteristics), and those of the complex/compound sentence (the frequency of complex/compound-sentence types, the frequency of dependent clauses, connectives, etc.). The quantitative description was based on an original, tailor-made corpus of texts comprised of a total of 540,000 words. The value and uniqueness of this corpus, which represents the standard Czech of the 1970s, is in that each word was (manually) provided with detailed wordclass, morphological and syntactic information. The corpus has its value and uses even today. It is used at several academic and uni-
I. Allgemeines / General
versity centres as a training corpus for the development of algorithms for the automatic analysis of Czech, algorithms for the recognition of consecutive speech and for other types of quantitative research on Czech. The most important results of the quarter-of-acentury-long work were summarized in a monograph by Těšitelová (1985a), in a rich series of internal team-work prints published by the Institute for Czech Language (Těšitelová 1980a; 1980b; 1982; 1983a; 1983b; 1983c; 1983d; 1983e; 1984; 1985b), in dozens of articles more or less regularly appearing in the ten volumes of the periodical collections of papers Prague Studies in Mathematical Linguistics (Academia, Praha, 1966K1990), and elsewhere. The core of the team (which has naturally changed somewhat during the years) included for many years Jan Králík, specializing in the quantitative properties of the Czech graphemes, Marie Ludvíková, concerned with phonologically and in part morphological studies, and Iva Nebeská and Ludmila Uhlířová, concentrating on the features of the syntactic level. Těšitelová described especially the quantitative characteristics of the vocabulary and partially morphology. The abovementioned 1985 monograph, which still serves as a valuable source of information on Czech, preceded by one year the publication of the three-volume Mluvnice češtiny [Czech Grammar] (1986K1987), of which it was originally supposed to be the Appendix. This could not happen, however, for the two were not sufficiently methodologically compatible. The former was based on the traditional approaches to morphology and syntax, while Mluvnice češtiny consistently used an advanced valency-based approach to sentence syntax, text syntax, etc. The first volumes of the series Prague Studies in Mathematical Linguistics thematically and methodologically signalled their allegiance both to the work of Mathesius, Trnka, and Vachek (cf. Trnka 1966; Trnka 1972), and to the methodological results of contemporary mathematical linguistics in the world, especially in the Soviet Union and the U.S.A. It was meant to parallel the then renewed series Travaux linguistiques de Prague and, at least at the beginning, was to provide a publishing opportunity for particularly the young generation of linguists. Whereas Travaux linguistiques de Prague produced only four volumes K with long delays between issues (during 1964K1971); the renewed se-
8. Quantitative linguistics in the Czech Republic
ries under the modified title Prague Linguistic Circle Papers began to be published only since 1995, the Prague Studies in Mathematical Linguistics series achieved ten volumes (published between 1966 and 1990). The volumes carried a regular section on quantitative linguistics and a section on algebraic linguistics, and brought together original Czech and Slovak studies in the respective fields. In addition to papers authored by the above-mentioned team from the Institute for Czech Language, the quantitative linguistics section also featured studies by other Czech and Slovak quantitative linguists. Since the 1960s quantitative methods as a heuristic method in linguistics have not been confined to the determination of frequency counts only, but have included the application of more complex mathematical procedures and techniques, such as Wrocław taxonomy (Kraus/Vašák, 1967) and factor analysis (Kraus/Polák, 1967). The sphere of application broadened (including the glottochronology of the Slavonic languages K Čejka 1972); the quantitative analysis of the rhythmic and intonation properties of the sentence (Palková 1974) achieved new levels, while the “classical” areas of application, such as analyses for the purposes of shorthand application (Matula/Čáp/Petrásek 1961; Matula 1963), continued to be researched as well. The issues that were explored included the statistical representativeness of data samples, types of selection and selection methods (Königová 1976). Some also stressed the fundamental requirement that the empirically ascertained rules be derived by mathematical procedures on the basis of hypotheses about language and thus explained i. e. by becoming integrated in the system of our knowledge about language (Novák 1964, 131). The introduction of this requirement into the practice of quantitative linguistics, however, proceeded rather slowly, and only in the works of Hřebíček (1992; 1995; 1997) and Králík (1993; 1994; 1997) was it being applied in all respects. The other language apart from Czech which was studied most consistently from the quantitative aspects was English, especially in the work of Vachek’s student, the Brno anglicist Firbas, and later in the work of Firbas’ own students (cf. Svoboda 1981). Firbas consistently applied the idea of the Prague School that quantitative analysis is an indispensable complement of qualitative
133 analysis. Although he never considered himself a quantitative linguist, he used data on absolute and relative frequencies as one of the arguments for qualitative analysis and in this sense was a consistent promoter of the traditions of quantitative linguistics as it was understood in the classical period of the Prague School. Firbas became known worldwide through his functional sentence perspective (for summarization of the theory cf. Firbas 1992). His articles (cf. Firbas 1989; Firbas 1995; and others) provide data on the frequency of thematic and rhematic elements in texts, on different kinds of themes and rhemes, their degrees of communicative dynamism, their position (word and sentence order), intonation properties, the ways of their syntactic realization, the properties of thematic and rhematic series, etc., in English (old and modern) compared with Czech, German, Russian, and other languages. In the 1980s, quantitative linguistics, a predominantly descriptive discipline, by adopting probability models as a fundamental instrument for the investigation of quantitative linguistic phenomena, moved closer to theoretical linguistics. The mathematician Králík was the first in the Czech Republic to have defended his thesis Pravděpodobnostní modely v kvantitativní lingvistice [Probability Models in Quantitative Linguistics] (Králík 1994) and become a PhD in philological sciences, in the specialization mathematical linguistics. He has published a number of papers in this field (cf. Králík 1993; Králík 1997). The orientalist and textologist Hřebíček developed his original quantitative theory of text as a testable theory of text properties. The main tested hypothesis (law) on which Hřebíček focused was the Menzerath-Altmann law (“the longer the language construct, the shorter its constituents”). The consistent application of the Menzerath-Altmann law led Hřebíček to the discovery of a new text level, which was called aggregates, whose properties area are also in correspondence with this law. The aggregate is defined as a set of sentences in text in which a certain word (lexical unit) occurs. Hřebíček summarized his experiments with texts, mostly in Turkish, in his three monographs (Hřebíček 1992; 1995; 1997) and many articles. Philosophically he has become an advocate of synergetic linguistics (cf. art. No. 53). K Some of the individual linguistic projects made by Uhlířová in the 1980s and 1990s came into being in association, sometimes
134
I. Allgemeines / General Reinhard Köhler/Burghard B. Rieger). Dordrecht: Kluwer Academic Publishers, 227K240.
close, sometimes loose, with international typological quantitative projects (word order, word length, sentence length, correlation between sentence length, linearity, and semantics, cf. Uhlířová 1996; Uhlířová 1997).
Králík, Jan (1994), Pravděpodobnostní modely v kvantitativní lingvistice [Probability Models in Quantitative Linguistics]. Praha: manuscript.
3.
Králík, Jan (1997), A short comment on probability in quantitative linguistics. In: Journal of Quantitative Linguistics 4 (1K3), 126K130.
Literature (a selection)
Čejka, Mirek (1972), Lexicostatistic dating and Slavonic languages. In: Sborník prací Filozofické fakulty brněnské university, 39K52. Doležel, Lubomír (ed.), Teorie informace a jazykověda [Information Theory and Linguistics]. Praha: Academia, 1964. Doležel, Lubomír (1963), Předběžný odhad entropie a redundance psané češtiny [Preliminary Assessment of Entropy and Redudancy in Written Czech]. In: Slovo a slovesnost 24, 165K174.
Krámský, Jiří (1939), A study in the phonology of Modern Persian. In: Archiv orientální 11, 66K83. Krámský, Jiří (1942), Příspěvek k fonologické statistice staré a nové angličtiny [A Contribution to Phonological Statistics in Old and Modern English]. In: Časopis pro moderní filologii 28, 376K 384. Krámský, Jiří (1948), A Phonological analysis of Persian monosyllables. In: Archiv orientální 16, 103K134.
Doležel, Lubomír/Průcha, Jan (1966), A statistical law of grapheme combinations. In: Prague Studies in Mathematical Linguistics 1, 33K43.
Krámský, Jiří (1964), A quantitative phonemic analysis of Italian mono-, di- and trisyllabic words. In: Travaux linguistiques de Prague 1, 129K144.
Firbas, Jan (1989), Degrees of communicative dynamism and degrees of prosodic prominence. In: Brno Studies in English 18, 21K66.
Krámský, Jiří (1966), The frequency of occurrence of vowel phonemes in languages possessing vowel systems of identical structure. In: Prague Studies in Mathematical Linguistics 1, 17K31.
Firbas, Jan (1992), Functional sentence perspective in written and spoken communication. Cambridge: Cambridge University Press. Firbas, Jan (1995), Retrievability span in functional sentence perspective. In: Brno Studies in English 21, 17K45. Hřebíček, Luděk (1992), Text in communication: Supra-sentence structures. Bochum: Brockmeyer. Hřebíček, Luděk (1995), Text levels. language constructs, constituents and the Menzerath-Altmann law. Trier: WVT. Hřebíček, Luděk (1997), Lectures on text theory. Prague: Oriental Institute. Jakobson, Roman (1995), Poetická funkce [Poetic Function]. Praha: H & H. Jelínek, J./Bečka, J. V./Těšitelová, M. (1961), Frekvence slov, slovních druhů a tvarů v českém jazyce [Frequency Count of Words, Word Classes and Forms in the Czech Language]. Praha: Státní pedagogické nakladatelství. Komárek, Miroslav (1964), Sur l’appréciation fonctionelle des alternances morphonologiques. In: Travaux linguistiques de Prague 1, 145K161. Königová, Marie (1976), The scaling technique applied to text description. In: Prague Studies in Mathematical Linguistics 5, 211K221. Korvasová, Květa/Palek, Bohumil (1962), Některé vlastnosti entropie českého slovníku [Some Properties of Entropy in Czech Lexis]. In: Slovo a slovesnost 23, 58K66. Králík, Jan (1993), Probabilistic Scaling of Texts. In: Contributions to Quantitative Linguistics (ed.
Krámský, Jiří (1978), Quantitative analysis of near-identical phonological systems. In: Prague Studies in Mathematical Linguistics 6, 9K38. Krámský, Jiří (1990), Quantitative investigation of relative pronouns in modern English. In: Prague Studies in Mathematical Linguistics 10, 95K106. Kraus, Jiří/Polák, J. (1967), Text factors and characteristics. In: Prague Studies in Mathematical Linguistics 2, 155K171. Kraus, Jiří/Vašák, Pavel (1967), Popytka količestvennoj tipologii tekstov [An Attempt at Quantitative Typology of Texts]. In: Prague Studies in Mathematical Linguistics 2, 77K88. Mathesius, Vilém (1964a), La structure phonologique du lexique du tchèque moderne. In: Vachek 1964, 177K182 (Z Travaux du Circle linguistique de Prague 1, 1929, 67K84). Mathesius, Vilém (1964b), Zum Problem der Belastungs- und Kombinationsfähigkeit der Phoneme. In: Vachek 1964, 156K176. Matula, Miloš (1963), Frekvence kořenů slov [Frequency of Word Roots]. Praha: Státni pedagogocké nakladatelství. Matula, M./Čáp, J./Petrásek, S. (1961), Frekvence slov v stenografické praxi [Word Frequency in Shorthand Practice]. Praha: Státní ústav těsnopisný. Novák, Pavel (1964), Význam kvantitativních metod pro lingvistiku [Relevance of Quantitative Methods for Linguistics]. In: Cesty moderní jazykovědy, 126K133.
8. Quantitative linguistics in the Czech Republic Palková, Zdena (1974), Rytmická výstavba prozaického textu [The Rhythmic Structure of Prose Text]. Praha: Academia. Svoboda, Aleš (1981), Diatheme. Brno: Univerzita J. E. Purkyně. Štindlová, Jitka (1966), Problemes, plans et possibilités actuelles de la mécanisation et de l’automatisation dans la linguistique. In: Computational Linguistics 5, 149K157. Štindlová, Jitka (1968), Le dictionnaire de la langue tche`que littéraire et l’inscription de ses entrées et leurs caractéristique sur les cartes et la bande perforées pour les machines à traiter les informations. In: Les machines dans la linguistique. (ed. J. Štindlová). Praha: Academia. Štindlová, Jitka (1969), Konkordanční frekvenční index k Slezským písním Petra Bezruče [Frequency Concordance Index to The Silesian Songs by Petr Bezruč]. Praha et.al.: Mechanografická laboratoř ÚJČ ČSAV. Těšitelová, Marie (ed.), Frekvenční slovník současné české publicistiky [Frequency List of PresentDay Czech Journalism]. Praha: ÚJČ ČSAV, 1980a. Těšitelová, Marie (ed.), Frekvenční slovník současné české administrativy [Frequency List of PresentDay Czech Administration]. Praha: ÚJČ ČSAV, 1980b. Těšitelová, Marie (ed.), Kvantitativní charakteristiky současné české publicistiky [Quantitative Characteristics of Present-Day Czech Journalism]. Praha: ÚJČ ČSAV, 1982. Těšitelová, Marie (ed.), Kvantitativní charakteristiky současné odborné češtiny [Quantitative Characteristics of Present-Day Technical Czech Language]. Praha: ÚJČ ČSAV, 1983a. Těšitelová, Marie (ed.), Kvantitativní charakteristiky gramatických jevů v současné administrativě [Quantitative Characteristics of Grammatical Features in the Present-Day Language of Administration]. Praha: ÚJČ ČSAV, 1983b. Těšitelová, Marie (ed.), Psaná a mluvená odborná čeština z kvantitativního hlediska [Written and Spoken Technical Czech from a Quantitative Point of View]. Praha: ÚJČ ČSAV, 1983c. Těšitelová, Marie (ed.), Frekvenční slovník současné odborné češtiny [Frequency List of PresentDay Technical Czech]. Praha: ÚJČ ČSAV, 1983d. Těšitelová, Marie (ed.), Frekvenční slovník jazyka věcného stylu [Frequency List of Contemporary Workaday Technical Czech]. Praha: ÚJČ ČSAV, 1983e. Těšitelová, Marie (ed.), Kvantitativní charakteristiky gramatických jevů v češtině věcného stylu [Quantitative Characteristics of Grammatical Features in Workaday Technical Czech]. Praha: ÚJČ ČSAV, 1984. Těšitelová, Marie (ed.), Kvantitativní charakteristiky současné spisovné češtiny [Quantitative Char-
135 acteristics of Present-Day Standard Czech]. Praha: Academia. Těšitelová, Marie (ed.), Současná česká administrativa z hlediska kvantitativního [Present-Day Czech language of Administration from a Quantitative Point of View]. Praha: ÚJČ ČSAV, 1985b. Těšitelová, M./Petr, J./Králík, J. (1986), Retrográdní slovník současné češtiny [Reverse Dictionary of Present-Day Czech]. Praha: Academia. Theses présentées au Premier Congrès des philologues slaves. In: Vachek 1964, 33K58. Trnka, Bohumil (1935), A Phonological Analysis of Present-Day Standard English. Praha: Universita Karlova. Trnka, Bohumil (1937), Pokus o vědeckou teorii a praktickou reformu těsnopisu [An Essay in the Scientific Theory and a Pratical Reform of Shorthand]. Praha: Filosofická fakulta University Karlovy. Trnka, Bohumil (1950a), A Tentative Bibliography. Utrecht et al.: Publication of the Committee of Linguistic Statistics. Trnka, Bohumil (1950b), Review of: G. K. Zipf, The psychobiology of language; Human behavior and the principle of least effort. In: Časopis pro moderní filologii 33, 3K5. Trnka, Bohumil (1951), Kvantitativní lingvistika [Quantiative Linguistics]. In: Časopis pro moderní filologii 34, 66K74. Trnka Bohumil (1964), General laws of phonemic combinations. In: Vachek 1964, 294K300. Trnka Bohumil (1966), The distribution of vowel length and its frequency in Czech. In: Prague Studies in Mathematical Linguistics 1, 11K16. Trnka, Bohumil (1972), On the frequency and distribution of consonant clusters in Czech. In: Prague Studies in Mathematical Linguistics 3, 9K 14. Trnka, Bohumil (1982), Selected papers in structural linguistics. (ed. V. Fried.). Berlin: Mouton. Uhlířová, Ludmila (1996), How long are words in Czech? In: Glottometrika 15, (ed. P. Schmidt), 134K146. Uhlířová, Ludmila (1997), Length vs. order: Word length and clause length from the perspective of word order. In: Journal of Quantitative Linguistics 4 (1K3), 266K275. Uhlířová, Ludmila (2000), On language modelling in a speech recognition project. In: Forum Phoneticum 70, 177K186. Vachek, Josef (1940), Poznámky k fonologii českého lexika [Notes on the Phonology of Czech Lexis]. In: Listy filologické 67, 395K402. Vachek, Josef (ed.), A Prague Reader in Linguistics. Bloomington: Indiana University Press, 1964.
Ludmila Uhlířová, Prague (Czech Republic)
136
I. Allgemeines / General
9. Quantitative linguistics in Greece 1. 2. 3. 4. 5. 6. 7. 8.
Introduction Phonetics K Phonology Syntax Sociolinguistics Psycholinguistics Language acquisition and learning Natural Language Processing Literature (a selection)
1.
Introduction
The use of quantitative methods in Modern Greek linguistics started mainly in the eighties. Previously, there were only sporadic instances of quantitative research primarily of a descriptive nature. At present, Quantitative Linguistics (QL) is not considered in Greece as a separate branch of Linguistics. However, a number of interdisciplinary fields have initiated to take advantage of the insight that statistical methods can provide to the study of the language structure. Furthermore, the first postgraduate program employing QL courses, named Technoglossia was launched recently in Greece (1999). A number of postgraduate theses in QL have already been concluded (cf. Grousouzakou/ Grousouzakou/Prinou 2000; Bekiari/Papavasileiou/Pasxalis 2001), whereas many more are expected in the near future. The expanded use of quantitative methods is mainly related to the growing availability of Modern Greek linguistic resources and to the increased acknowledgement of the usefulness of data-driven approaches to linguistics. A fairly representative picture of the development of QL in Greece is given in the following chart:
Percentage of published Greek linguistic research
Cont rastive increase of published QL research in Greece 50 40
% Use of quantitative information
30
% Use of inferential statistics
20 10 0 19801985
19851990
19901995
19952000
Years
Fig. 9.1: Contrastive evolution of QL research in Greece. The use of inferential statistics is calculated as a percentage of the number of the papers that employ quantitative information.
Based on a sample of 975 published papers on Greek linguistics, this chart reveals a steady increase of research based on quantitative data during the last decade. It is also evident that the use of inferential statistical methods is gaining importance in quantitative methodology, thus denoting that the simple percentage reporting is superseded by a more sophisticated hypothesis testing. In this overview we have predefined some criteria regarding the research reported as relevant to QL. Since a report of all the research based on Greek empirical data would be beyond the scope of this presentation, we decided to summarize published research that has employed inferential statistical tests. Our presentation will sketch the Greek linguistic research that has successfully employed statistical methods during the last 20 years in the investigation of a variety of issues regarding Modern Greek.
2.
Phonetics K Phonology
Greek phonetic studies rely heavily on quantitative methods of analysis following a world-wide trend (Saukkonen 1994, 2). Panagopoulos (1974), in one of the first acoustical analyses of Greek phonetic data employed a variety of univariate statistical tests in order to compare electromyographic (EMG) and intraoral air pressure data for English and Greek plosives. He used different correlation indices (Pearson r, Spearman rank correlation coefficient rs) in order to investigate the correlation between peak intraoral air pressure and peak EMG amplitude. Furthermore, he used tests of difference of means (t-test, Mann-Whitney test) in order to confirm hypotheses regarding the EMG data. The same battery of statistical tests was used in a comparison of bilabial nasals in English and Greek (Panagopoulos 1976). In a study of the effect of various syntactic boundaries on the duration of the last syllable of a word Michalakopoulou (1993) applied a t-test in order to determine whether there exists a statistically significant difference between the final syllables of various syntactical categories. The same test was also deployed be Botinis (1989) and Georgountzou (1993) in production and perception experiments of stress and prosody of Modern Greek. Arvaniti (1992) used t-tests
137
9. Quantitative linguistics in Greece
for the analysis of acoustic measurements and χ2 tests for the perceptual experiments. Multivariate statistics have been introduced in Modern Greek phonetic research mainly since the mid eighties. Fourakis (1986) used ANOVA in order to study the effects of tempo and stress in segmental durations. In a more recent publication, Hawks/ Fourakis (1995) and Jongman/Fourakis/Sereno (1995) used Cohen’s Kappa (κ) index to test differences in vowel perception agreement between EnglishKGreek and GermanKGreek speakers respectively. Arvaniti (1991) used ANOVA in a series of experiments regarding the durational and amplitude characteristics of stressed and unstressed syllables. The same test was used for the analysis of stress acoustic characteristics (Arvaniti 1992; 1994). Arvaniti/Ladd/ Mennen (1998; 2000) have also used ANOVA with post hoc tests in various acoustic analyses of Modern Greek intonation. ANOVA has also been used by Nicolaidis (1993; 1997; 1999) in research regarding analysis of Electropalatography (EPG) data. Fallon (1993) examined hiatus across word boundaries and the application of a specific Vowel Degemination rule in these environments (Nespor 1987). He used logistic regression (Variable Rule analysis) in order to detect the factors that have statistically significant contribution to the application of the Vowel Degemination rule. Mikros/Gavriilidou/Lambropoulou et al. (1996) examined the distribution of specific consonant clusters in Modern Greek texts and investigated their correlation with text type and genre, using Cramer V correlation index. Mikros/Carayannis (forthcoming) apply logistic regression in order to detect the factors that are related to the final -n deletion in specific proclitic words.
3.
Syntax
Lascaratou (1984) in a corpus-based study attempts to account for the use and function of the passive mood in Modern Greek. She applied a series of χ2 tests in order to investigate the effect of different independent variables (text type, language variety etc.) on the type of voice used in Modern Greek texts. Hudson (1994) also used χ2 tests in quantitative data of word class, word order and syntactic complexity in order to prove the usefulness of statistical estimation in the
study of syntactical phenomena. The same test was also used by Lindvall (1997), who examined the correlation between aspect and definiteness in a corpus of written literary texts.
4.
Sociolinguistics
Sociolinguistic research, especially within the Labovian tradition, has always been an early adopter of various statistical techniques. This was mainly due to the multivariate nature of the sociolinguistic data themselves, which most times contain many linguistic and extralinguistic variables with numerical and categorical data. Greek sociolinguistic research in its vast majority has successfully employed a broad spectrum of statistical methods with interesting results regarding the interaction of social and linguistic factors in everyday communication. Pavlidou (1991) used ANOVA to compare cultural differences of Greek and German speakers in telephone behavior. The same test was used in order to investigate the influence of age and sex of the students on verbal initiative in classroom discourse (Pavlidou 1999). Iordanidou (1996) also employed ANOVA to compare the lexical richness of the oral communication of school children from various social backgrounds. Arvaniti (1995) used MANOVA in order to investigate patterns of phonetic variation in Modern Greek and uncover the extra-linguistic variables that condition it. Furthermore, Georgakopoulou (1995; 1997) analyzed a spoken corpus of Modern Greek story-telling. She used t-tests and ANOVA in order to investigate the effect of certain contextual features (e. g. teller’s gender, addressee’s age, topic etc.) on the selection and the frequency of specific textual features, such as types of evaluative devices, segmentation devices, tense shifts, connectives, participant forms etc. Linguistic data derived from local social networks in various locations in Greece have also been analyzed with various multivariate statistical methods. Pagoni (1990) performed cluster analysis in order to classify the speakers of an urban social network according to their resemblance in the usage of specific linguistic variables. Mikros (1995) used ANOVA and Φ correlation index in order to investigate the contribution of social network structure and other extra- and in-
138
I. Allgemeines / General
tra-linguistic variables on Modern Greek speech variation. In another study Mikros (1997) used linear regression and ANOVA in order to detect the independent variables related with speech variation in radio news bulletins in Greece. In Mikros (1999) a variety of multivariate statistics (ANOVA, logistic regression, discriminant function analysis) have been employed to analyze the factors affecting the usage of several linguistic variables in a close family network. Multidimensional scaling was applied in the same data set and proposed as a new way of displaying and analyzing social network language variation data (Mikros 2001). Papazachariou (1998) used Factor Analysis in order to explore the different distribution of social activities between adolescent boys and girls in a restricted linguistic community. In the same research, he employed linear regression to investigate the factors which influence intonational variation. He also used ANOVA with Duncan’s post hoc comparison tests in order to detect the close networks that presented statistically significant differences regarding the intonational variation of their speakers.
5.
Psycholinguistics
Panagopoulos (1982) evaluated different perception theories by presenting different word stimuli to a panel of hearers. He confirmed his research hypotheses using the sign test. Kambakis-Vougiouklis (1992) used ANOVA in order to investigate the mechanisms of inference of the hearer in word recognition tasks. In another perceptual study regarding the processing of morphologically complex words Dalakakis/Kehayia/Tsapkini (1999) used a t-test in order to test whether the reaction times were significantly higher when a diminutive instead of a simple word was presented to the subjects. The same test in combination with a correlation test (Pearson r) was used by Maratsos/Katis (1999) to confirm the validity of the linguistic relativity hypothesis and particularly the relation between grammatical patterning and conceptual understanding. Papadopoulou (1999) used ANOVA to investigate the factors affecting processing time of syntactically ambiguous sentences.
6.
Language acquisition and learning
Modern Greek language acquisition and learning research employs statistical analy-
ses of the research data to a considerable extent. Natsopoulos/Panagopoulou (1984) investigated the acquisition of verbal aspect by foreigners in dependent clauses and compared the results with data from native speakers. They applied ANOVA with Scheffe post hoc test in order to examine the effects of a series of independent variables in the learning rate. ANOVA has also been used in research regarding learning of English by Greek students (Scholfield 1991) as well as in the error analysis of data related to the acquisition of case marking in Modern Greek as a second language (Magana 1999). Gagatsis (1986) introduced the closure test for Modern Greek and evaluated its results in different testing conditions using the Pearson r correlation index. Research on child talk has also utilized various quantitative methods. Diakogiorgi (1998) has used ANOVA to compare grammaticality judgments of children. Stavrakaki/ Tsimpli (1999) used z test in order to analyze data from children with dysphasic language impairment. Hatzisavidis (1993) used correlation tests and Factor Analysis in order to investigate the socioeconomic and individual factors that influence the linguistic competence of school children.
7.
Natural Language Processing
A number of statistical measures have been used and compared in automatic Greek term extraction (mutual information, frequency of occurrence, cost-criteria, C-value) by Frantzi/Ananiadou (1996; 1998). Boutsis/ Piperidis (1997) also used statistical information in order to automatically extract bilingual word equivalences. Papageorgiou/Piperidis (1996) discuss some properties of stochastic approaches (Hidden Markov Models K HMM) to part-of-speech tagging. HMMs are also used for the automatic phonetic transcription of Modern Greek texts (Rentzeropoulos/Dermatas/Sgarbas et al. 1999). Parallel processing is another area where statistical techniques have been extensively applied and adapted to the Greek language. In particular, alignment methodologies based on statistical information have shown remarkably good performance (Papageorgiou/Cranias/Piperidis 1994). Moreover, a lot of research is being carried out on extracting equivalencies between lexical units such as words, terminological units (Boutsis/
9. Quantitative linguistics in Greece
Piperidis/Demiros 1999; Georgantopoulos/ Piperidis 1998) and clauses (Boutsis/Piperidis 1998) from aligned texts. This kind of statistical information is being exploited in the framework of example-based Machine Translation and translation aid tools (Piperidis/Carayannis 1994; Cranias/Papageorgiou/ Piperidis 1994; Piperidis/Malavazos/Triantafyllou 1998). Significant research has also been conducted in the field of automatic text categorization. Mikros/Carayannis (2000) propose a method based on discriminant function analysis in order to classify news texts in predefined thematic categories. For the same task, Tambouratzis/Markantonatou/Xairetakis et al. (2000) used cluster analysis with comparable results. Summarizing this brief overview of quantitative research in Modern Greek language we should underline the importance of the availability of the first general language corpus in Modern Greek called Hellenic National Corpus (HNC) developed by the Institute for Language and Speech Processing (ILSP). Its current size is 30 Mwords of various written texts across a broad spectrum of genre, medium and thematic categories. This corpus has already been used in order to study issues of major importance in QL such as the Zipf law (cf. Hatzigeorgiu/Mikros/ Carayannis 2001) as well as quantitative issues of representativity in corpus design (Mikros 2002). Its availability will boost quantitative research in Modern Greek language and establish QL as a major discipline in the Greek linguistic community.
8.
Literature (a selection)
Arvaniti, Amalia (1991), The phonetics of Modern Greek rhythm and its phonological implications. Unpublished Ph.D. dissertation, University of Cambridge. Arvaniti, Amalia (1992), Secondary stress: evidence from Modern Greek. In: Papers in laboratory phonology II: Gesture, segment, prosody. (eds. G. D. Docherty/D. R. Ladd). Cambridge: Cambridge University Press, 398K423. Arvaniti, Amalia (1994), Acoustic features of Greek rhythmic structure. In: Journal of Phonetics 22, 239K268. Arvaniti, Amalia (1995), Sociolinguistic patterns of prenasalization in Modern Greek. In: Studies in Greek Linguistics, Proceedings of the 15 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 209K220.
139 Arvaniti, Amalia/Ladd, D. Robert/Mennen, Ineke (1998), Stability of tonal alignment: the case of Greek prenuclear accents. In: Journal of Phonetics 26, 3K25. Arvaniti, Amalia/Ladd, D. Robert/Mennen, Ineke (2000), What is starred tone? Evidence from Greek. In: Papers in laboratory phonology V. (Eds. J. Pierrehumbert/M. Broe). Cambridge: Cambridge University Press, 119K131. Bekiari, Xara/Papavasileiou, Basilis/Pasxalis, S. (2001), Στατιστικ προσ γγιση του λογοτεχνικο φους µε εφαρµογ ς στον εντοπισµ γνωστου συγγραφ α. [Statistical approach of the literary style. Application to authorship attribution]. Ma dissertation, Interdisciplinary Postgraduate Program Technoglossia, Athens. Botinis, Antonis (1989), Stress and prosodic structure in Greek. A phonological, acoustic, physiological and perceptual study. Lund: Lund University Press. Boutsis, Sotiris/Piperidis, Stelios (1997), Αυτµατη εξαγωγ δγλωσσων λεκτικ ν ισοδυναµι ν απ σ µατα κειµ νων. [Automatic extraction of bilingual word equivalences from parallel corpora]. In: Studies in Greek Linguistics, Proceedings of the 17 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 521K531. Boutsis Sotiris/Piperidis Stelios (1998), Aligning Clauses in Parallel Texts. In: Third Conference on Empirical Methods in Natural Language Processing. Granada, Spain, 17K26. Boutsis, Sotiris/Piperidis, Stelios/Demiros, Iason (1999), Generating Bilingual Lexical Equivalences from texts. In: Applied Artificial Inteligence 13(6), 583K606. Cranias, Lambios/Papageorgiou, Harris/Piperidis, Stelios (1994), A Matching technique in ExampleBased Machine Translation. In: Proceedings of the Fifteenth International Conference on Computational Linguistics. Kyoto, Japan, 100K104. Dalakakis, Jenny/Kehayia, Eva/Tsapkini, Kvrana (1999), Constraints on morphological decomposition: Evidence from Greek diminutives. In: Greek Linguistics ’97, Proceedings of the 3 rd International Conference on Greek language. Athens, 789K798. Diakogiorgi, Kleopatra (1998), Ανπτυξη των µεταγλωσσικ ν ικανοττων και επεξεργασα της πρτασης ‘on-line’. [Development of metalinguistic skills and ‘on-line’ sentence processing]. In: Studies in Greek Linguistics, Proceedings of the 18 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 167K172. Fallon, Paul (1993), Naturally occurring hiatus in Modern Greek. In: Themes in Greek Linguistics. (eds. I. Philippaki-Warburton/K. Nikolaidis/M. Sifianou). Amsterdam: John Benjamins, 217K224.
140 Fourakis, Marios (1986), An acoustic study of the effects of tempo and stress on segmental intervals in Modern Greek. In: Phonetica 43, 172K188. Frantzi, Katarina/Ananiadou, Sophia (1996), Statistical approaches to collocation extraction and term recognition. In: Studies in Greek Linguistics, Proceedings of the 16 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 681K692. Frantzi, Katarina/Ananiadou, Sophia (1998), Context information for the extraction of terms. In: Studies in Greek Linguistics, Proceedings of the 18 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 198K210. Gagatsis, Athanassios (1986), Εφαρµογ του τεστ ‘closure’ σε ελληνικ κεµενα. [Application of closure test in Greek texts]. In: Studies in Greek Linguistics, Proceedings of the 7 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 337K353. Georgakopoulou, Alexandra (1995), Narrative organization and contextual constraints: the case of Modern Greek storytelling. In: Journal of Narrative & Life History 5, 161K189. Georgakopoulou, Alexandra (1997), Narrative Performances: A Study of Modern Greek Storytelling. Amsterdam/Philadelphia: Benjamins. Georgantopoulos, Byron/Piperidis, Stelios (1998), Automatic Acquisition of terminological resources for Information extraction Applications. In: Panhellenic Conference on New Information Technology. Athens. Georgountzou, Anastasia (1993), A comparison of the intonation of Modern Greek and English with special reference to Greek learners of English. Unpublished Ph.D. dissertation, University College of London. Grousouzakou, Dimitra/Grousouzakou, Efrosini/ Prinou, Eirini (2000), Αξιοποηση της γλωσσικς ποικιλας για την αυτ µατη ταξιν µηση κειµ νου. [Exploitation of language variation in automatic text categorization]. Ma dissertation, Interdisciplinary Postgraduate Program Technoglossia, Athens. Hatzigeorgiu, Nikos/Mikros, George/Carayannis, George (2001). Word length, word frequencies and Zipf’s law in the Greek language. In: Journal of Quantitative Linguistics 8, 175K185. Hatzisavidis, Sofronis (1993), ∆ιερενηση παραγντων που επηρεζουν το βαθµ γλωσσικς επρκειας των µαθητ ν στο σχολικ περιβλλον: πρ τες εκτιµσεις απ µια ‘µελ τη περπτωσης’. [Investigation of factors that influence linguistic compentence of students in the school environment: first appraisal from a case study]. In: Studies in Greek Linguistics, Proceedings of the 14 th Annual Meeting of the Department of Linguis-
I. Allgemeines / General tics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 384K398. Hawks, John/Fourakis, Marios (1995), The perceptual vowel spaces of American English and Modern Greek: A comparison. In: Language and Speech 38, 237K252. Hudson, Richard (1994), Theoretical syntax meets word counters in Greek and English. In: Proceedings of the 8 th Symposium on the description and/ or comparison of English and Greek. Aristotle University, Thessaloniki, 1K18. Iordanidou, Anna (1996), Η ‘λεξιπενα’ των µαθητ ν: ερευνητικ προσ γγιση. [The lexical ‘poverty’ of the pupils: a research approach]. In: Studies in Greek Linguistics, Proceedings of the 16 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 517K528. Jongman, Allard/Fourakis, Marios/Sereno, Joan (1995), The acoustic vowel space of Modern Greek and German. In: Language and Speech 38, 221K248. KambakisKVougiouklis, P. (1992), Greek and English readers. Accuracy and confidence when inferencing meanings of unknown words. In: Proceedings of the 6 th Symposium on the description and/or comparison of English and Greek. Aristotle University, Thessaloniki, 89K111. Lascaratou, Chryssoula (1984), The passive voice in Modern Greek. Unpublished Ph.D. dissertation, University of Reading. Lindvall, Ann (1997), Aspect and definiteness K a study of Modern Greek. In: Greek Linguistics ’95, Proceedings of the 2 nd International Conference on Greek Linguistics. Vol. II. Salzburg, 545K555. Magana, Anastasia (1999), Η κατκτηση του πτωτικο χαρακτηρισµο της ΝΕ ως ξ νης γλ σσας. [The acquisition of the case characterization of Modern Greek as foreign language]. In: Studies in Greek Linguistics, Proceedings of the 19 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 189K198. Maratsos, Michael/Katis, Demetra (1999), Grammatical structure and conceptual understanding of experiencer K agency relations: An empirical investigation of English and Greek speakers. In: Greek Linguistics ’97, Proceedings of the 3 rd International Conference on the Greek language. Athens, 817K825. Michalacopoulou, Penelope (1993), H διρκεια της τελικς συλλαβς σε διφορα συντακτικ ρια. [The duration of the final syllable in different syntactic boundaries]. In: Μελ τες στην Ελληνικ Προσωδα. Unpublished ms., University of Athens, 49K60. Mikros, George (1995), Ο καννας του τελικο -ν: κοινωνιογλωσσολογικ και υφολογικ ποικιλτητα. [Final -n rule: sociolinguistic and stylistic
9. Quantitative linguistics in Greece variation]. In: Studies in Greek Linguistics, Proceedings of the 15 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 155K166. Mikros, George (1997), Radio news and phonetic variation in Modern Greek. In: Greek Linguistics ’95, Proceedings of the 2 nd International Conference on Greek Linguistics. Vol. I. Salzburg, 35K 44. Mikros, George (1999), Κοινωνιογλωσσολογικ προσ γγιση φωνολογικν προβληµτων της Ν ας Ελληνικς: Φωνητικ ποικιλα του ρρινου συµφνου. [Sociolinguistic approach of phonological problems of Modern Greek: Phonetic variation of the nasal consonant]. Unpublished Ph.D. dissertation, University of Athens. Mikros, George (2001), Ανλυση πολυδιστατης κλιµκωσης και φωνητικ ποικιλα στα Ν α Ελληνικ. [Multidimensional scaling and phonetic variation of Modern Greek]. In: Πρακτικ του 4ου ∆ιεθνος Συνεδρου Ελληνικς Γλωσσολογας. Θεσσαλονκη: University Studio Press, 416K423. Mikros, George (2002), Quantitative parameters in corpus design: Estimating the optimum textsize in Modern Greek language. In: Proceedings of the 3rd International Conference on Language Resources and Evaluation, Vol. 3. Las Palmas, 834K838. Mikros, George/Gavriilidou, Maria/Lambropoulou, Penny/Doukas, George (1996), Χθες χτες; Μια ποσοτικ µελ τη φωνητικ ν και µορφολογικ ν στοιχεων σε κεµενα της Ν ας Ελληνικς. [Xthes or Xtes? A quantitative study of phonetic and morphological elements in Modern Greek texts]. In: Studies in Greek Linguistics, Proceedings of the 16 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 645K 656. Mikros, George/Carayannis, George (2000), Modern Greek corpus taxonomy. In: Proceedings of the 2nd International Conference on Language Resources and Evaluation, Vol. 1. Athens, 129K134. Mikros, George/Carayannis, George (forthcoming), Ποσοτικ ανλυση της χρσης του καννα του τελικο -ν σε κεµενα της Ν ας Ελληνικς. [Quantitative analysis of the final -n rule usage in texts of Modern Greek]. In: Glossologia. Natsopoulos, Demetrios/Panagopoulou, E. (1984), Η µθηση της ρηµατικς ψης της Ν ας Ελληνικς σε εξαρτηµ νες προτσεις απ ξενγλωσσους: εξελικτικ σγκριση προς τους φυσικος οµιλητ ς. [Modern Greek verbal aspect learning in dependent clauses from foreign speakers: comparison with the native speakers]. In: Studies in Greek Linguistics, Proceedings of the 5 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 185K200.
141 Nespor, Marina (1987), Vowel degemination and fast speech rules. In: Phonology Yearbook 4, 61K85. Nikolaidis, Katerina (1993), Vowel to Vowel coarticulatory effects in Greek. In: Proceedings of the 7 th Symposium on the description and/or comparison of English and Greek. Aristotle University, Thessaloniki, 239K254. Nikolaidis, Katerina (1997), Variability in vowelconsonant-vowel sequences in Greek: isolated words vs. connected speech. In: Greek Linguistics ’95, Proceedings of the 2 nd International Conference on Greek Linguistics. Vol. I. Salzburg, 45K 54. Nikolaidis, Katerina (1999), An electropalatographic study of Vowel-to-Consonant and Consonant-to-Vowel coarticulation. In: Greek Linguistics ’97, Proceedings of the 3 rd International Conference on Greek language. Athens, 400K408. Pagoni, Stamatoula (1990), Cluster analysis and social network structure: the Modern Greek evidence. In: Studies in Greek Linguistics, Proceedings of the 10 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 235K 253. Panagopoulos, E. (1974), A comparison of EMG and intraoral air pressure data for english and Greek plosives. In: The Faculty of Philosophy Yearbook. The University of Thessaloniki, Vol. 13, Thessaloniki. Panagopoulos, E. (1976), The bilabial nasal in English and Greek. In: The Faculty of Philosophy Yearbook. The University of Thessaloniki, Vol. 15, Thessaloniki. Panagopoulos, E. (1982), Experimental data on word recognition. In: Studies in Greek Linguistics, Proceedings of the 3 rd Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 219K226. Papadopoulou, Despina (1999), Πως φυσικο οµιλητ ς της ΝΕ ερµηνεουν συντακτικ αµφσηµες προτσεις: ενδεξεις απ αναφορικ ς προτσεις. In: Studies in Greek Linguistics, Proceedings of the 19 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 296K309. Papageorgiou, Harris/Piperidis, Stelios (1996), Στατιστικ, καννες, στατιστικο καννες για µορφολογικ σχολιασµ; [Statistics, rules or statistical rules for tagging?]. In: Studies in Greek Linguistics, Proceedings of the 16 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 669K680. Papageorgiou, Harris/Cranias, Lambros/Piperidis, Stelios (1994), Automatic Alignment in Corpora. In: Proceedings of 32 nd Annual Meeting of Asso-
142
I. Allgemeines / General
ciation of Computational Linguistics. Las Cruses, New Mexico, 334K336. Papazachariou, Demetris (1998), Εθνογραφικς ορισµς του ρου ‘κοινωνικ φλο’ και η συσχ τισ του µε τη γλωσσικ ποικιλα των εφβων της Γουµ νισσας» [Ethnographic definition of the term ‘gender’ and its correlation with the language variation of the adolescents of Goumenissa]. In: Studies in Greek Linguistics, Proceedings of the 18 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 386K 400. Pavlidou, Theodossia (1991), Η ευγ νεια στο τηλ φωνο: αντιπαραθετικ ανλυση Ελληνικς K Γερµανικς. [Politeness in the phone: contrastive analysis of Modern Greek K German]. In: Studies in Greek Linguistics, Proceedings of the 11 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 307K326. Pavlidou, Teodossia (1999), Η γλωσσικ πρωτοβουλα στη σχολικ διεπδραση. [Verbal initiative in classroom interaction]. In: Greek Linguistics ’97, Proceedings of the 3 rd International Conference on Greek language. Athens, 648K655. Piperidis, Stelios/Carayannis, George (1994), Translearn: Interactive Corpus-based Translation Drafting Tool. In: Proceedings of the European Convention of Language Engineering. Paris, France, 105K112. Piperidis, Stelios/Malavazos, Christos/Triantafyllou, Ioannis (1998), TRAID: A Memory-based Translation Aid Framework. In: Proceedings of the Natural Language Processing and Industrial Applications Conference. Moncton, Canada, 18K 21.
Rentzeropoulos, Panagiotos/Dermatas, Evangelos/Sgarbas, Kyriakos/Fakotakis, Nikos/Kokkinakis, George (1999), Αυτµατη µετατροπ µεταξ ορθογραφικς και φωνητικς γραφς για τη Ν α Ελληνικ γλ σσα. [Automatic transcription between graphemic and phonetic representation for Modern Greek language]. In: Studies in Greek Linguistics, Proceedings of the 19 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 404K418. Saukkonen, Pauli (1994), Main trends and results of quantitative linguistics in Finland. In: Journal of Quantitative Linguistics 1, 2K15. Scholfield, Phil (1991), Trends in Greek-English contrastive analysis: two recent studies. In: Proceedings of the 5 th Symposium on the description and/or comparison of English and Greek. Aristotle University, Thessaloniki, 279K302. Stavrakaki, Stavroula/Tsimpli, Ianthi-Maria (1999), Η εµφνιση λειτουργικ ν κατηγορι ν στη γλ σσα ενς δυσφασικο ελληνπουλου: συγκριτικ µελ τη δο σταδων στη γλωσσικ του ανπτυξη. [The appearance of functional categories in the speech of a dysphasic Greek child: comparative study of two stages in his language development]. In: Studies in Greek Linguistics, Proceedings of the 19 th Annual Meeting of the Department of Linguistics. Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki, 475K489. Tambouratzis, George/Markantonatou, Stella/ Xairetakis, Nikos/Carayannis, George (2000), Automatic style categorization of corpora in the Greek language. In: Proceedings of the 2nd International Conference on Language Resources and Evaluation, Vol. 1. Athens, 135K140
George K. Mikros, Athens (Greece)
10. Das Werk von G. K. Zipf 1. 2. 3. 4. 5.
Biographie Dynamische Philologie Das Prinzip des geringsten Aufwands Zipfs Bedeutung Literatur (in Auswahl)
1.
Biographie
George Kingsley Zipf wurde am 07. Januar 1902 in Freeport, Illinois, USA geboren. Nach seinem philologischen Studium graduierte er 1924 in Harvard summa cum laude (Miller 1968). 1925 schloß sich ein Studienaufenthalt in Deutschland an, den er in Bonn bei Prof. F. Sommer und Berlin bei
W. Schulze absolvierte (Birkhan 1979). Dort erhielt er auch den Anstoß, Sprache mit den Augen des Naturwissenschaftlers zu betrachten (Zipf 1968, 1). Vier Jahre später erschien seine Dissertation (Zipf 1929), für die ihm 1930 der Titel Ph.D. in vergleichender Philologie verliehen wurde. Er war danach in Harvard als Deutschlehrer tätig, ab 1936 als Assistant Professor of German. 1939 wurde er zum University Lecturer ernannt, was ihn von der Lehrtätigkeit weitestgehend freistellte. Zipf genoß das Vertrauen seiner Schüler (Crozier/Rogers/Walsh 1950), obwohl „er dafür bekannt war, daß man in seinen Semina-
10. Das Werk von G. K. Zipf
ren unablässig zu zählen hatte“ (Birkhan 1979, 50). Sein Interesse an der Biographie anderer Menschen fand Niederschlag in (Zipf 1938e), der einzigen literaturwissenschaftlichen Veröffentlichung Zipfs. Seine Sprachlehrtätigkeit wurde als sehr wirkungsvoll eingeschätzt (Crozier/Rogers/ Walsh 1950). Zipf hatte eine lexikalisch basierte Methode entwickelt, deren Prinzipien er in (Zipf 1938c) beschreibt. Seine Schüler erreichten damit innerhalb von zwei Jahren eine praktikable Beherrschung der deutschen Sprache. Nachdem die Folgestudien zu seiner Dissertation (Zipf 1932) und im Jahr 1935 „The Psycho-Biology of Language“ (Zipf 1968) erschienen waren, veröffentlichte Zipf jährlich (außer 1944) bis zu 5 Aufsätze und Monographien. 1940 wandelte sich sein Thema vom linguistisch orientierten „principle of frequency“ zum „principle of least effort“ (Zipf 1972), das er als fundamentales Prinzip sozialer Organisation (Zipf 1940a) bezeichnete. Im Jahr 1950 wurde ihm die Ehre einer Guggenheim Fellowship für das folgende Jahr zuteil, deren Früchte er jedoch nicht mehr genießen konnte. Bei den Untersuchungen, die im Rahmen des Stipendiums durchgeführt wurden, stellte man einen Krebs fest, dem er am 25. September 1950 erlag (Prün/Zipf 2002). Die Beschäftigung mit Zipfs Werk schreit geradezu nach besseren Erklärungen (Miller 1968) als denen, die Zipf selbst zu geben in der Lage war. Miller schreibt: „Zipf belongs among those rare but stimulating men whose failures are more profitable than most men’s successes“ [Zipf gehört zu diesen seltenen, aber anregenden Personen, deren Niederlagen ergiebiger sind als die Erfolge der meisten Menschen] (Übersetzung der Verfasserin) (Miller 1968, vii).
2.
Dynamische Philologie
Die erste Phase in Zipfs Werk wird durch die Beschäftigung mit Fragen der vergleichenden Sprachforschung charakterisiert. Er unternimmt den Schritt von der Beschreibung sprachlicher Phänomene zu einer Erklärung seiner Beobachtungen. Die Beschreibungsmethode, die seinen Erklärungen zugrunde liegt, ist quantitativ. Er zählt die Häufigkeiten sprachlicher Einheiten, um danach die Häufigkeiten der Einhei-
143 ten zueinander und zu anderen Eigenschaften der Einheiten in Beziehung zu setzen (Zipf 1929; 1932; 1968; 1937a; 1937b; 1938a; 1938b; 1938c; 1938d; 1945a; 1945b; 1946b; 1946f; 1947c; 1949; Zipf/Rogers 1939; Whitehorn/Zipf 1943). Die Erklärung der Beobachtungen basiert auf einem deduktivnomologischen Vorgehen (Birkhan 1979; Köhler 1986). Zipf (1929) analysiert die Funktion, die Eigenschaften sprachlicher Einheiten in der Rede haben (z. B. Verbesserung der Wahrnehmbarkeit, Erleichterung der Artikulation) und kann zeigen, daß die Veränderung der Häufigkeit zwangsläufig die Ausprägungen der verschiedenen Eigenschaften von Lauten, Silben und Wörtern verändert. 2.1. Die relative Häufigkeit von sprachlichen Einheiten In seiner ersten Veröffentlichung, Relative Frequency as a Determinant of Phonetic Change (Zipf 1929), postuliert er ein Prinzip, demzufolge die Häufigkeit einer sprachlichen Einheit ihre Form bestimmt. Das „Prinzip der relativen Häufigkeit“ lautet im Originaltext: „Principle of Frequency. The accent, or degree of conspicuousness, of any word, syllable, or sound, is inversely proportionate to the relative frequency of that word, syllable, or sound, among its fellow words, syllables, or sounds, in the stream of spoken language. As usage becomes more frequent, form becomes less accented, or more easily pronounceable, and vice versa.“ [Prinzip der Häufigkeit. Das Gewicht bzw. der Grad der Auffälligkeit eines Wortes, einer Silbe oder eines Lautes ist umgekehrt proportional zur relativen Häufigkeit dieses Wortes, dieser Silbe oder dieses Lautes in der Rede. Wenn der Gebrauch häufiger wird, verliert die Form an Gewicht und wird einfacher aussprechbar und umgekehrt.] (Zipf 1929, 4; Übersetzung der Verfasserin). Die Gültigkeit dieses Satzes leitet Zipf von zwei kommunikativen Notwendigkeiten ab: erstens muß die Unterscheidbarkeit sprachlicher Einheiten oder Merkmale gewährleistet sein, und zwar je seltener eine Einheit ist, desto besser muß sie von sich ähnlichen Einheiten und von den umgebenden Einheiten derselben Ebene abheben. Häufige Einheiten werden stärker erwartet; ihr Informationsgehalt ist geringer und es ist deshalb nicht so zwingend notwendig, daß sie genau verstanden bzw. aufwendig artiku-
144
I. Allgemeines / General
liert werden (vgl. Zipf 1929, 15). Zweitens muß der Aufwand beim Sprechen ökonomisch verteilt werden, das heißt, wenn ein Element häufig, aber aufwendig auszusprechen ist, dann tendieren die Sprecher dazu, die Aussprache zu vereinfachen (vgl. Zipf 1929, 38 ff.). Diese beiden Tendenzen, die seit Köhler (1986) als Systembedürfnisse „Minimierung des Dekodierungsaufwandes“ und „Minimierung des Produktionsaufwandes“ umschrieben werden, bilden einen Spannungsbereich, in dem geringer Sprecheraufwand mit hoher Häufigkeit und Redundanz mit geringer Häufigkeit funktional verbunden sind. In diesem Spannungsfeld verändert sich die Form sprachlicher Einheiten mit ihrer Frequenz wie vom Prinzip der relativen Häufigkeit vorhergesagt. Zipf (1929, 5; 92; etc.) nimmt eine starke Korrelation von aufwendiger Artikulation und hoher Deutlichkeit an. Er schlägt auch eine erste mathematische Formel vor, die das Verhältnis von Häufigkeit und Deutlichkeit (Auffälligkeit) als umgekehrt proportional bezeichnet (Zipf 1929, 89). Die Rezensenten seiner frühen Veröffentlichungen kritisieren vor allem Zipfs Auffassungen davon, welche Laute „schwächer“, und welche „deutlicher“ sein sollten (Twaddell 1929; Kent 1930; Richter 1930; Hermann 1931; Meriggi 1932), heben aber auch die Bedeutung seines Ansatzes hervor (Twaddell 1929; Richter 1930, 296; Sütterlin 1931; Meillet 1931).
stimmte Laute zu häufig für ihre schwierige Artikulation geworden sind. Andere Laute müssen jedoch von diesen sich ändernden Lauten unterschieden werden und verändern ihre Aussprache dementsprechend ebenfalls oder werden assimiliert K was wiederum die Häufigkeit des assimilierten Lautes erhöht. Zipf (1929, 39) diskutiert ferner die Existenz von Häufigkeitsschwellen, deren Überschreitung zu einer Lautveränderung führen kann.
2.1.1. Lautwandel Das Prinzip der relativen Häufigkeit ist in der Lage, Lautwandelprozesse zu erklären. Zipf leitet die Deutlichkeit, mit der ein Laut von ähnlichen und umgebenden Lauten unterschieden werden kann („conspicuousness“) vorallem von Lautmerkmalen ab. Dabei ist sowohl die Anzahl der Merkmale als auch ihre Art (angenommene artikulatorische Schwierigkeit und Wahrnehmbarkeit) entscheidend. Birkhan (1979) diskutiert diese Methode, das Prinzip muß jedoch nicht in Frage gestellt, sondern höchstens durch weitere Kriterien ergänzt werden. Zipfs Ergebnisse besagen, daß bei Lauten, die sich nur in der Ausprägung eines Merkmals unterscheiden, die energieärmere oder unscheinbarere Ausprägung beim häufigeren Laut zu finden ist (vgl. Zipf 1929, 34 ff.; Zipf 1932, 1 ff.; Zipf 1968, 49 ff.). Zipf (1929, 41) überträgt die Beobachtung auf eine diachronische Betrachtung und kann damit Lautverschiebungen erklären, indem be-
2.1.3. Wortlänge Für Wörter mißt Zipf den Aufwand bzw. die Deutlichkeit als Wortlänge. In (Zipf 1932, 8 ff.) zeigt er, wie die Deutlichkeit seltener gebrauchter Wörter dadurch gewährleistet wird, daß sie im Durchschnitt länger sind als die häufig gebrauchten Wörter. Dieses Verhältnis ist das Resultat von Abkürzungsprozessen, die alle überflüssigen Elemente eines Wortes wegfallen lassen, solange sich die Kürzung durch große Häufigkeit des Wortes vertreten läßt (Zipf 1932, 18 f.). Wie bei den Lauten gilt auch hier, daß häufige, stärker erwartete Elemente weniger Information tragen und deshalb unwichtiger sind bzw. leichter geraten werden können. Eine Folge davon ist, daß es wenige häufige, aber mit zunehmender Gebrauchshäufigkeit immer mehr verschiedene Wörter gibt. Auch diesen Zusammenhang drückt Zipf (1932, 24) mit einer Formel aus, nämlich (a Z Worthäufigkeit; b Z Anzahl Wörter mit Häufigkeit a)
2.1.2. Wortbetonung Eine starke Dynamik schreibt Zipf der Betonung von Silben im Wort zu. Betonung ist ein energiereiches Merkmal, das zur Kennzeichnung distinktiver Wortbestandteile verwendet wird. Je häufiger ein Wortbestandteil, desto seltener wird er betont. Zipf (1929, 4 ff.) zeigt, daß die häufigsten Wortformen indogermanischer Substantive stammbetont und die weniger häufigen endungsbetont sind. Er kann die Entstehung des Betonungsmusters im Lateinischen als Verallgemeinerung einer Betonungsverschiebung vom Präfix auf den Stamm erklären (Zipf 1929, 25 ff.) und weist darauf hin, daß im Deutschen abtrennbare Vorsilben in der Regel betont werden, während nicht abtrennbare dagegen so stark mit dem Wort verwachsen sind, daß sie nicht betont zu werden brauchen. Zudem sind letztere die häufiger gebrauchten (Zipf 1929, 33).
a b2 Z const.,
145
10. Das Werk von G. K. Zipf
FREQUENCY OF THE
OF
OCCURRENCE
WORDS
IN
ENGLISH
100
10
0
NUMBER OF OCCURRENCES
(ACCORDING TO R. C. ELDRIDGE.)
NUMBER OF WORDS 10
100
1000
Abb. 10.1: Häufigkeitsverteilungskurven für die englische Lexik (nach Zipf 1932, 25).
was später als eins der „Zipfschen Gesetze“ bezeichnet wird (auch als Frequenzklassenbelegungsgesetz und als Häufigkeitsverteilung eines Textes bezeichnet). In Abb. 10.1 ist auf der x-Achse abgetragen, wie viele Elemente dieselbe Häufigkeit y haben. 2.2. Psycho-Biologie der Sprache In seiner Monographie „The Psycho-Biology of Language“ (Zipf 1968) faßt Zipf die Erkenntnisse der vorherigen Publikationen zusammen und erweitert die Beispiele und Schlußfolgerungen des Prinzips der relativen Häufigkeit im Bereich der Lexik, der Phonologie, der Wortbetonung und der Syntax. Für die Lexik erweitert er das erste Gesetz so, daß er das berühmte Rang-Frequenz-Gesetz daraus ableiten kann (Zipf 1968, 45 ff.) (andere Bezeichnung: Häufigkeitsstruktur eines Textes, vgl. Orlov 1982). Dieses Gesetz besagt, daß in einer nach Häufigkeiten geordneten Wortliste die Position des Wortes in der Liste (sein Rang) und seine Frequenz in einem inversen Verhältnis zueinander stehen (vgl. Abb. 10.2). Zipfs erste Fassung des
Gesetzes lautet so, daß der durchschnittliche Abstand zweier Vorkommen eines Wortes im ausgezählten Text genau 10 mal dem Rang entspricht (Zipf 1968, 45). Für die Hypothesen zu Phonologie und Wortbetonung präsentiert er (Zipf 1968, 75) bessere Zählungen als in früheren Veröffentlichungen, die seine Annahmen stützen. Lautproduktion beschreibt Zipf (1968, 97) als einen „Zielerreichungsversuch“, der durch Änderungen der Häufigkeit und Einfluß der Lautumgebung verstärkte Schiefe aufweisen kann. Überschreitet diese Schiefe bestimmte Schwellen, dann pendelt sich ein neuer Zustand ein. Zipf (1968, 185 ff.) bezieht das Prinzip der relativen Häufigkeit auch auf die Syntax. Hier überträgt er seinen Begriff von Deutlichkeit und Auffälligkeit sprachlicher Einheiten auf die Stärke der Verbindung zwischen syntaktischen Elementen. Normabweichungen in der Kombination von Elementen ragen aus dem Fluß der Rede heraus, werden aus Bequemlichkeitsgründen seltener produziert und tragen viel Informa-
146
I. Allgemeines / General
10000
1000
I
II 100
FREQUENCY
10
1
RANK
10
100
1000
10000
Abb. 10.2: Häufigkeitsstruktur-Kurven. I: James Joyce, Ulysses. II: Stichproben amerikanischer Zeitungstexte (nach Zipf 1946, 336).
tion. Je häufiger eine bestimmte Kombination verwendet wird, desto stärker ist die Tendenz zur Verfestigung und Verschleifung. Durch solche Prozesse können sich Flexionen aus der Aneinanderreihung von Wörtern bilden, und es entwickeln sich bestimmte Verhältnisse von Flektiertheit und Freiheit in der Wortstellung in den verschiedenen Sprachtypen. Zipf (1968, 1 ff.; 263 ff.) legt dar, daß Sprache eine Form menschlichen Verhaltens ist, die von der Interaktion des Menschen mit seiner Umwelt wesentlich bestimmt wird. Sprache benennt die Wahrnehmungen, die der Mensch macht, und Sprache drückt aus, was der Mensch erreichen will. Als solche unterliegt sie den selben Prinzipen wie andere Verhaltensformen, besonders der Bestrebung zum Interessensausgleich zwischen
gegensätzlichen Tendenzen, die sich gerade im Prinzip der relativen Häufigkeit niederschlägt. 2.3. Dynamische Philologie Nach dem Erscheinen von Zipf (1968) beschäftigen vor allem drei Fragen Zipfs Rezensenten: die Frage nach dem wissenschaftstheoretischen Status (Cohen 1935; García 1968; Kühlwein 1968), nach den linguistischen Methoden (Joos 1936; Jost 1937; Trnka 1950) und nach den mathematischen Methoden (Empson 1936; Joos 1936; Thorndike 1936; Jost 1938) seiner Arbeit. Methoden und Terminologie des sich etablierenden linguistischen Strukturalismus setzen sich in Zipfs Werk nur langsam durch (Joos 1936; García 1968). Zipf (1937a) legt dar, daß der Vorwurf der Kausalität (Joos 1936)
10. Das Werk von G. K. Zipf
nicht gerechtfertigt ist, da die Bestrebung nach Gleichgewicht dynamische, keine deterministischen Prozesse auslöst. Zipfs stellt seinen eigenen Standpunkt, was den Beitrag der dynamischen Philologie zur Sprachwissenschaft betrifft, in (Zipf 1938d) dar. Er formuliert ein Konzept für die Zusammenarbeit der Fächer Phonometrie, die die Meßwerte liefert (entspricht in etwa der heutigen Phonetik), mit der Phonologie, die Klassifikationen und Regeln formuliert und der dynamischen Philologie, die die Beobachtungen der anderen Fächer interpretiert, erklärt und im Sinne einer Rückkopplung Korrektur und neue Ideen einbringt. Ein erstes Beispiel dieser Rückkopplung erarbeiten Zipf/Rogers (1939) in einer groß angelegten phonetisch-phonologischen Häufigkeitsstudie, mit der sie theoretische Phonemklassifikationen durch den Vergleich relativer Häufigkeiten bestätigen bzw. korrigieren können. In (Zipf 1937b) zeigt Zipf eine psychologische Interpretation der Rang-FrequenzVerteilung. Das Vokabular von Kindern ist kleiner als das von jugendlichen Schülern, aber die Form der Rang-Frequenz-Kurve ist dieselbe, woraus Zipf den Schluß zieht, daß Kinder jeden Alters die Sprache in einem eigenen, subjektiven Gleichgewicht von Aufwand und Deutlichkeit verwenden.
3.
Das Prinzip des geringsten Aufwands
Im Jahr 1940 markiert das Erscheinen zweier Artikel in der Zeitschrift „Psychological Record“ (Zipf 1940a; Zipf 1940b) die Hinwendung Zipfs zu allgemeineren Themen, besonders der Soziologie. 3.1. Die verallgemeinerte harmonische Reihe und sozio-ökonomische Strukturprinzipien Menschliches Verhalten, das versucht, mehrere Faktoren gleichzeitig zu optimieren, resultiert nach Zipfs Überzeugung grundsätzlich in einer bestimmten Struktur der Welt, die der Mensch gestaltet. Aus illustrativen Szenarien (Handwerker in der Werkstatt (Zipf 1940b); Besiedlung eines neuen Kontinents (Zipf 1941); Glöckneraufgabe (Zipf 1945b, 137)) leitet er ab, wie der Gesamtaufwand, der zur Lösung einer Aufgabe nötig ist, nur durch ein Abwägen von optimierten Einzellösungen in Zeit und Raum minimiert
147 werden kann. Das Abwägen geschieht dabei immer zwischen den beiden Lösungsmöglichkeiten Unifikation (Zusammenfassen) und Diversifikation (Eineindeutigkeit). Im Falle von Unifikation werden einem einzigen Element möglichst viele Funktionen zugewiesen und damit das Inventar unterschiedlicher Elemente minimiert. Diversifikation bezeichnet die gegenläufige Tendenz, für jede Funktion genau ein Element zur Verfügung zu haben, wodurch das Inventar der Elemente gleich groß wie die Menge der benötigten Funktionen wird. Es kommen immer beide Lösungsmöglichkeiten zum Einsatz, jedoch Unifikation stärker dort, wo häufig gebrauchte Funktionalitäten erfüllt werden müssen, und Diversifikation an den Stellen, wo seltener gebrauchte Funktionalitäten zur Verfügung stehen sollen. Das Resultat einer solchen Optimierung ist eine Rang-Frequenz-Struktur, wie sie vom Zipfschen Gesetz vorhergesagt wird. Zipf (1940a; 1940b; 1941; 1942b) verallgemeinert seine ursprüngliche Formulierung, bei der der Frequenzrang die zehnfache Wellenlänge eines Elements beträgt, indem er den Faktor nicht mehr fest, sondern variabel annimmt. Bevölkerungszahlen von Städten und Ortschaften (Zipf 1942b), Entfernungen zwischen ihnen (Zipf 1946a; Zipf 1946c; Zipf 1947a), aber auch Berufsgruppen (Zipf 1947b), Produktpaletten (Zipf 1950a; 1950b), Verbreitungsgebiete von Tageszeitungen (Zipf 1946e; 1948), Bibliotheken (Zipf 1945c), Konzertprogramme (Zipf 1946d), Lohn- und Gehaltsstufen (Zipf 1950c; Zipf 1950d; Zipf 1950e; Zipf/Rucker 1949) und viele andere sozio-ökonomische Strukturgrößen (Zusammenfassungen der vorgenannten Ergebnisse und weitere in Zipf 1972) gehorchen diesem Gesetz. Eine Erkenntnis, deren Bedeutung für die Linguistik noch nicht ausreichend erforscht wurde, ist die, daß die Rang-Frequenzverteilung immer nur innerhalb eines Ganzen (Staates, Textes, Industriebetriebes) gelten kann. Zipf geht sogar so weit (vgl. Zipf 1941, 36 ff.), Instabilität für das Ganze zu prognostizieren, wenn seine konstituierenden Elemente nicht dieser Verteilung folgen. Orlovs (1982) Hypothesen greifen diese Annahmen auf, die Zipf im Jahre 1938 zum ersten Mal formuliert hat (Zipf 1938b). 3.2. Mentale Strukturprinzipien Da die Sprache eine Form des Verhaltens ist, das innerhalb eines sozialen Konsens
148
I. Allgemeines / General
10
MEANINGS (AVERAGE)
5
2
1 5
1
2
5
10
20
RANK (IN THOUSANDS)
Abb. 10.3: Häufigkeitsrang und Bedeutungszahl (nach Zipf 1972, 30).
und menschlicher Interaktion existiert, verwundert es nicht, daß hier dieselben Strukturen zu finden sind, wie in Gesellschaft und Wirtschaft. Damit integriert Zipf (1945a) seine früheren Studien zur dynamischen Philologie in ein größeres Gebäude, das Sprache als eine Form menschlichen Verhaltens auffaßt. Die Elemente der Sprache unterliegen dem Druck, als effektive Kommunikationsmittel zu funktionieren, aber dabei Sprachverarbeitung und Gedächtnis möglichst minimal zu belasten. Unifikation entlastet den Sprecher, indem Wörter mehrere Bedeutungen tragen können und das Vokabular kleiner wird. Sie kann deshalb als die individualistische Tendenz verstanden werden. Diversifikation bewirkt, daß Wort und Bedeutung im 1:1-Verhältnis stehen und sichert damit die Informationsübertragung, weshalb ihre Funktion eine soziale ist. Zipf (1945a, 27 ff.; 67 ff.; 75 ff.) kann allerdings zeigen, daß die Häufigkeit der Wörter nicht linear mit der Anzahl ihrer Bedeutungen abnimmt, sondern Wörter mit mehreren Bedeutungen systematisch häufiger sind als solche mit wenigen und die Häufigkeiten der Zipfschen Kurve folgen (vgl. Abb. 10.3), d. h. wiederum wirkt Unifikation stärker im Bereich großer Häufigkeit, Diversifikation dagegen im Bereich geringer Häufigkeit. Bestimmte Charakteristika der Rang-Frequenz-Verteilung lassen Schlußfolgerungen
über den seelischen Zustand des Sprechers zu. Während Kinder ein verkleinertes Lexikon haben, das aber im Prinzip ökonomisch strukturiert ist (Zipf 1942a), haben Texte von Menschen in Streßsituationen oder mit psychischen Störungen deutlich abweichende Häufigkeitsstrukturen. Die Abweichung geschieht in der Regel in Richtung einer verstärkten Unifikation, was auf eine starke Ich-Orientierung der Probanden hinweist (Whitehorn/Zipf 1943; Zipf 1972, 288 ff.). Auch die Verwendung von gleich häufigen Wörtern (Zipf 1945b; 1972, 45 ff.) scheint ökonomisch zu geschehen, denn ihre Abstände nähern sich einer Gleichverteilung an. Zipf (1945b, 47 ff.) bringt dies mit einem Konzept der Zeit-Perspektive in Verbindung, die die Gestaltung von Texten bestimmt. In wie weit die Zeit-Perspektive mit dem Text als abgeschlossenem Ganzen (Orlov 1982) zusammenhängt, ist bis heute nicht wissenschaftlich bearbeitet worden. Zipfs Studien zum Wortalter zeigen ebenfalls Ergebnisse, die sich innerhalb der Hypothesen von Frequenz, Unifikation und Diversifikation erklären lassen. Je häufiger ein Wort ist, desto älter ist im Mittel die Sprachschicht, aus der es stammt (Zipf 1946b; 1947c; 1972, 110K120; vgl. Abb. 10.4). Dies bedeutet, daß häufigere Wörter sich schwerer aus dem Lexikon verdrängen lassen, als seltenere, was damit zusammenhängt, daß
149
10. Das Werk von G. K. Zipf
diese Wörter auch mehr verschiedene Bedeutungen tragen als die selteneren. Arapov/Cherc (1983, 51) bestätigen diese Ergebnisse und leiten die Exponentialverteilung als mathematisches Modell für den Zusammenhang von Wortalter und Worthäufigkeit ab.
steht auch mit Eigenschaften der Konstrukte, an denen das Element beteiligt ist, in enger Beziehung (Zipf 1968, 157; 191; 208; Zipf 1972, 71). Zipfs Überlegungen zu den Beziehungen der Konstituentenebenen untereinander wurden bisher nur in Prün (1999) ansatzweise untersucht.
4.
Abb. 10.4: Häufigkeitsrang und etymologische Schichten (nach Zipf 1972, 114).
Zipfs Studien deuten an, daß zwischen den unterschiedlichen Konstituentenebenen der Sprache ebenfalls Beziehungen bestehen, die quantitativ gefaßt und auf Grundlage des Axioms der sprachlichen Selbstregulation (Köhler 1986) erklärt werden können. Zipf bezeichnet das Aufbauprinzip der Sprache als Konfiguration von Konstituenten (Zipf 1968, 157; 188 ff.). Ihre Kombination und die Verfestigung von Kombinationen sowie die damit verbundene Kürzung der sprachlichen Konstrukte beschäftigen Zipf schon 1932. Die Inventargrößen sinken mit der Konstituentenebene, z. B. ist das Lexikon (die Wortliste eines Textes) ungleich größer als sein Inventar an Silben oder Morphemen. Dies wirkt sich auf die Form der Zipfschen Kurven aus (Zipf 1972, 80), die mit sinkender Inventargröße deutlich flacher werden. Die Häufigkeit von Elementen
Zipfs Bedeutung
Erst gegen Ende der 40er Jahre begann man, Zipf wirklich ernst zu nehmen. Das Stipendium, seine Vortragstätigkeit (vgl. Zipf 1950d), seine Beteiligung an einem psychologischen Handbuch (Zipf 1946 f.) und auch Berichte seines Sohnes (Prün/Zipf 2002) legen davon Zeugnis ab. Ebenso erschien auch Zipf (1972) nicht auf eigene Rechnung des Autors, wie Mandelbrot (1987, 411) vermutet; die Quittungen liegen der Familie Zipf (persönliche Mitteilung) vor. Es ist jedoch bezeichnend, daß außer dem Nachruf im Harvard Magazine (Crozier/ Rogers/Walsh 1950) nur in einer soziologischen, nicht in einer linguistischen Zeitschrift dem Tode Zipfs gedacht wird (Lundberg/Dodd 1950). Zipfs Denken findet man in vielen Disziplinen wieder, so in der Biologie, auch der Molekularbiologie, in Psychologie, Dokumentationswissenschaft, Bibliothekswissenschaft, Musikologie, Literaturwissenschaft, Soziologie und Soziometrie, Geographie, Mathematik, Physik, Systemtheorie, und zwar in Form von Potenzgesetzen, die oft direkt von Zipfs Entdeckungen inspiriert wurden. Gell-Mann (1996, 149) bezeichnet in seinem Buch zur Komplexitätsforschung die Phänomene, die Zipf beschreibt, als empirische Theorien, die sich jedoch bisher tieferem Verständnis entziehen. Nur ihre Bedeutung im Zusammenhang mit der Skaleninvarianz und den Fraktalen Benoit Mandelbrots sowie der Chaosforschung gilt als „verstanden“ (Gell-Mann 1996, 154). Mandelbrots Forschung erhielt durch Zipf (1972) wichtige Gedankenanstöße (Mandelbrot 1987, 411 f.; 429). Zipfs Rezensenten (Walsh 1949; Hudgins 1949; Cohen 1950; Chao 1950; Bentley 1951; García 1968; Kühlwein 1968; Průcha 1969) beteuern immer wieder die Wichtigkeit des quantitativen Ansatzes für die Linguistik. Die kritischeren Stimmen (Martinet 1949; Classe 1950) beklagen, daß Zipf wichtige Ergebnisse anderer nicht wahrnimmt. So beschränkte sich die Beschäftigung mit Zipfs
150
I. Allgemeines / General
Gesetzen immer auf Einzelpersonen (vgl. Birkhan 1979; Mandelbrot 1953) oder kleinere Gruppen, über viele Jahre besonders in der Quantitativen Linguistik der damaligen Sowjetunion. Altmanns Funktionalanalyse in der Linguistik (Altmann 1981) und Köhlers Axiom der sprachlichen Selbstorganisation (Köhler 1986) bieten einen wissenschaftstheoretischen Hintergrund, der es erlaubt, die Zipfschen Gesetze nicht mehr nur als Resultat stochastischer Prozesse abzutun, sondern die stochastischen Prozesse als funktional bezüglich der kommunikativen, kognitiven Anforderungen sowie physikalischen und anderen Randbedingungen, die an die Sprache gestellt werden, zu betrachten (García 1968).
5.
Literatur (in Auswahl)
Altmann, Gabriel (1981), Zur Funktionalanalyse in der Linguistik. In: Forms and Functions. (Hrsg. Jürgen Esser/Axel Hübler). Tübingen: Narr, 25K 32. Arapov, Michail V./Cherc, Maja M. (Hrsg.), Mathematische Methoden in der historischen Linguistik. Quantitative Linguistics 17. Bochum: Brockmeyer, 1983. Bentley, M. (1951), Human behavior and the principle of least effort. An introduction to human ecology. By George Kingsley Zipf. In: American Journal of Psychology 64, 149K150. Birkhan, Helmut (1979), Das „Zipfsche Gesetz“, das schwache Präteritum und die germanische Lautverschiebung. Sitzungsberichte der österreichischen Akademie der Wissenschaften, philosophisch-historische Klasse; 348. Wien: Verlag der Österreichischen Akademie der Wissenschaften. Chao, Yuen Ren (1950), Human behavior and the principle of least effort. An introduction to human ecology. By George Kingsley Zipf. In: Language 26, 394K401. Classe, A. (1950), G. K. Zipf: Human behavior and the principle of least effort. An introduction to human ecology. In: Archivum linguisticum 2, 76K78. Cohen, Marcel (1935), George Kingsley Zipf. K The psycho-biology of language. In: Bulletin de la société de linguistique de Paris 36, 8K11. Cohen, Marcel (1950), George Kingsley Zipf. K Human behavior and the principle of least effort. An introduction to human ecology. In: Bulletin de la société de linguistique de Paris 46, 12K13. Crozier/Rogers/Walsh: George Kingsley Zipf. In: Harvard University Gazette, 1950, 81K82. Empson, William (1936), He lisped in numbers. In: Spectator, Feb. 14, 1936, 270.
García, Erica (1968), Zipf, George K. The psychobiology of language: An introduction to dynamic philology. Introduction by George A. Miller. In: Romance philology 22, 39K42. Gell-Mann, Murray (1996), Das Quark und der Jaguar. Vom Einfachen zum Komplexen. Die Suche nach einer neuen Erklärung der Welt. München/Zürich: Piper. Hermann, Eduard (1931), George Kingsley Zipf: Relative frequency as a determinant of phonetic change. In: Philologische Wochenschrift 51, 598K 603. Hudgins, Clarence V. (1949), An integrating principle for human behavior. In: American speech 24, 293K295. Joos, Martin (1936), Review of G. K. Zipf. The psycho-biology of language. In: Language 12, 196K 210. Jost, Karl (1937), Besprechung von Zipf’s PsychoBiology. In: Indogermanische Forschungen 55, 139K142. Jost, Karl (1938), Entgegnung zu Zipfs Erwiderungen. In: Indogermanische Forschungen 56, 78K80. Kent, Roland G. (1930), Relative frequency as a determinant of phonetic change. By George Kingsley Zipf. In: Language 6, 86K88. Köhler, Reinhard (Hrsg.), Struktur und Dynamik der Lexik. Quantitative linguistics 31. Bochum: Brockmeyer, 1986. Kühlwein, H. A. W. (1968), George Kingsley Zipf, The psycho-biology of language: An introduction to dynamic philology. In: Linguistics 44, 98K99. Lundberg, G. A./Dodd, S. C. (1950), Obituary. In: American sociological review 15, 104. Mandelbrot, Benoît (1953), An informational theory of the statistical structure of language. In: Communication theory. (Hrsg. W. Jackson). London: Betterworth, 486K502. Mandelbrot, Benoît (1987), Die fraktale Geometrie der Natur. Basel/Boston: Birkhäuser. Martinet, André (1949), George Kingsley Zipf, Human behavior and the principle of least effort. In: Word 5, 280K282. Meillet, A. (1931), G. Kingsley Zipf. Relative frequency as a determinant of phonetic change. In: Bulletin de la société de linguistique de Paris 31, 17. Meriggi, Piero (1932), Zipf, George Kingsley: Relative frequency as a determinant of phonetic change. In: Indogermanische Forschungen 50, 246K247. Miller, George A. (1968), Introduction. In: Zipf 1968, iiiKx. Orlov, Jurij K. (1982), Dynamik der Häufigkeitsstrukturen. In: Studies on Zipf’s law. (Hrsg. H. Guiter/M. V. Arapov). Bochum: Brockmeyer, 116K153.
10. Das Werk von G. K. Zipf Průcha, Jan (1969), Psychobiologická teorie jazyka. In: Slovo a slovesnost 30, 96K98. Prün, Claudia (1999), G. K. Zipf’s conception of language as an early prototype of synergetic linguistics. In: Journal of quantitative linguistics 6, 78K84. Prün, Claudia/Zipf, Robert (2002), Biographical notes on G. K. Zipf. In: Glottometrics 3, 1K10. Richter, Elise (1930), Zipf, George Kingsley: Relative frequency as a determinant of phonetic change. In: Archiv für das Studium der neueren Sprachen 157, 291K296. Sütterlin, L. (1931), George Kingsley Zipf: Relative frequency as a determinant of phonetic change. In: Literaturblatt für germanische und romanische Philologie 52, Sp. 241K243. Thorndike, E. L. (1936), George Kingsley Zipf. The psycho-biology of language. In: Journal of educational psychology 27, 391. Trnka, Bohumil (1950), George Kingsley Zipf: The psycho-biology of language. An introduction to dynamic philology. K Human behavior and the principle of least effort. An introduction to human ecology. In: Philologica 5, 3K5. Twaddell, W. Freeman (1929), New light on phonetic change. In: Monatshefte für deutschen Unterricht 21, 230K237. Walsh, J. L. (1949), Another contribution to the rapidly growing literature of mathematics and human behavior. In: Scientific American, August 1949, 56K58. Whitehorn, J. C./ Zipf, George K. (1943), Schizophrenic language. In: Archive of neurology and psychiatry 49, 831K851. Zipf, George Kingsley (1929), Relative frequency as a determinant of phonetic change. In: Harvard studies in classical philology 40. Zipf, George Kingsley (1932), Selected studies of the principle of relative frequency in language. Cambridge/Mass.: Harvard Univ. Press. Zipf, George Kingsley (1937a), Observations on the possible effect of mental age upon the frequency-distribution of words from the viewpoint of dynamic philology. In: Journal of psychology 4, 239K244. Zipf, George Kingsley (1937b), Statistical methods in dynamic philology (Reply to M. Joos). In: Language 132, 60K70. Zipf, George Kingsley (1938a), Erwiderung. In: Indogermanische Forschungen 56, 75K77. [zu: Jost (1937)] Zipf, George Kingsley (1938b), Homogeneity and heterogeneity in language. In answer to Edward L. Thorndike. In: Psychological record 2, 347K 367. Zipf, George Kingsley (1938c), On the problem of grammatical rules and the study of ‘General
151 Language’. In: Modern Language Journal 22/4, 243K249. Zipf, George Kingsley (1938d), Phonometry, phonology, and dynamic philology. An attempted synthesis. In: American speech 13, 275K285. Zipf, George Kingsley (1938e), New facts in the early life of George Meredith. In: Harvard studies and notes in philology and literature 20. Zipf, George Kingsley (1940a), The generalized harmonic series as a fundamental principle of social organization. In: Psychological record 4, 43. Zipf, George Kingsley (1940b), On the economical arrangement of tools, the harmonic series and the properties of space. In: Psychological record 4, 147K159. Zipf, George Kingsley (1941), National unity and disunity. The nation as a bio-social organism. Bloomington/Ind.: Princeton Press. Zipf, George Kingsley (1942a), Children’s speech. In: Science 96, 344K345. Zipf, George Kingsley (1942b), The unity of nature, least-action, and natural social science. In: Sociometry 5, 48K62. Zipf, George Kingsley (1945a), The meaning-frequency relationship of words. In: Journal of general psychology 33, 251K256. Zipf, George Kingsley (1945b), The repetition of words, time-perspective and semantic balance. In: Journal of general psychology 32, 127K148. Zipf, George Kingsley (1945c), Some psychological determinants of the structure of publications. In: American Journal of Psychology 58, 425K442. PP Zipf, George Kingsley (1946a), The 1 2 hypotheD sis: The case of railway express. In: Journal of psychology 22, 3K8. Zipf, George Kingsley (1946b), Cultural-chronological strata in speech. In: Journal of abnormal and social psychology 41/3, 351K355. PP Zipf, George Kingsley (1946c), The 1 2 hypotheD sis: On the intercity movement of persons. In: American sociological review 11, 677K686. Zipf, George Kingsley (1946d), On the dynamic structure of concert programs. In: Journal of abnormal and social psychology 41, 25K36. Zipf, George Kingsley (1946e), Some determinants of the circulation of information. In: American journal of psychology 59, 401K421. Zipf, George Kingsley (1946f), The psychology of language. In: Encyclopedia of psychology. (Hrsg. P. L. Harriman). New York: Philos. Libr., 332K 341. Zipf, George Kingsley (1947a), On Dr. Miller’s PP contribution to the 1 2 hypothesis. In: American D journal of psychology 60, 284K287.
152
I. Allgemeines / General
Zipf, George Kingsley (1947b), The frequency and diversity of business establishments and personal occupations. A study of social stereotypes and cultural roles. In: Journal of psychology 24, 139K148. Zipf, George Kingsley (1947c), Prehistoric ,cultural strata‘ in the evolution of Germanic: The case of Gothic. In: Modern language notes 62, 522K 530. Zipf, George Kingsley (1948), On the number, circulation-sizes and the probable purchasers of newspapers. In: American journal of psychology 61, 79K89. Zipf, George Kingsley (1949), Relative frequency and dynamic equilibrium in phonology and morphology. In: Proceedings of the 6th international congress of linguists. Paris. 391K408. Zipf, George Kingsley (1950a), Brand names and related social phenomena. In: American journal of psychology 63, 342K366. Zipf, George Kingsley (1950b), Empiric regularities in the frequency-distribution of chemical manufacturers and chemical distributors by product-diversity in the U.S.A. In: American journal of psychology 30, 195K198. Zipf, George Kingsley (1950c), The frequency-distribution of wages and the problem of labor unrest. In: American journal of psychology 29, 315K 324. Zipf, George Kingsley (1950d), Empiric regularities in the frequency-distribution of directorships
in american corporations. In: American psychologist 5, 245 [Z Ankündigung eines Vortrags für den 7. 9. 1950]. Zipf, George Kingsley (1950e), Wage distribution and the problem of labor harmony. In: Explorations in altruistic love and behavior. (Hrsg. Pitirim Aleksandrovich Sorokin). Boston: Kraus, 333K 346. [Zipf, George Kingsley (1950f), Quantitative analysis of a Sears Roebuck catalog. New York. K Nicht greifbare Veröffentlichung, nachgewiesen in G. Billmeier und D. Krallmann: Bibliographie zur statistischen Linguistik. IPK Forschungsbericht 69/3. Hamburg: Buske, 1969, S. 144.] Zipf, George Kingsley (1968), The psycho-biology of language. An introduction to dynamic philology. Cambridge/Mass.: M.I.T. Press, 2nd ed. 1968 [Erstausgabe: Boston: Houghton-Mifflin, 1935]. Zipf, George Kingsley (1972), Human behavior and the principle of least effort. An introduction to human ecology. New York: Hafner reprint, 1972. [1. Aufl.: Cambridge/Mass., Addison-Wesley, 1949.] Zipf, George Kingsley/Rogers, Francis Millet (1939), Phonemes and variphones in four presentday Romance languages and Classical Latin from the viewpoint of dynamic philology. In: Archives néerlandaises de phonétique expérimentale 15, 111K147. Zipf, George Kingsley/Rucker, Allen W. (1949), How to set salary brackets that spur achievement. In: Modern management 9, 4K7.
Claudia Prün, Trier (Deutschland)
11. Das Werk von W. Fucks 1. 2. 3. 4. 5. 6. 7.
Biografische Skizze Das sprach- und literaturwissenschaftliche Werk Das musikwissenschaftliche Werk Das gesellschaftspolitische Werk Zusammenfassung Schriften von Wilhelm Fucks Literatur (in Auswahl)
1.
Biografische Skizze
Am 4. Juni 1902 wurde Wilhelm Fucks in Leverkusen geboren. Nach dem Abschluss des Gymnasiums studierte er an der Technischen Hochschule in München und promovierte zum Dr.-Ing. Im Jahre 1934 wurde er Privatdozent und 1938 außerordentlicher Professor an der Technischen Hochschule in Aachen. 1940 nahm er eine Gastprofessur für theoretische Physik an der Technischen
Hochschule Berlin an. Seine Tätigkeit als ordentlicher Professor und zugleich Direktor des 1. Physikalischen Instituts nahm Fucks 1941 in Aachen auf. Von 1950 bis 1952 stand er als Rektor der Technischen Hochschule Aachen vor. Als Vorsitzender des Wissenschaftlichen Rates zum Aufbau des Kernforschungszentrums in Jülich trug er entscheidend zur Gestaltung dieser Forschungseinrichtung bei, innerhalb derer er als Direktor dem Institut für Plasmaphysik von seiner Gründung 1956 bis zum Jahr 1966 vorstand. Nach seiner Emeritierung im Jahr 1970 wurde Fucks zusammen mit seinen Professorenkollegen Hugo Wilhelm Knipping und Wilhelm Groth 1971 zum wissenschaftlichen Ehrenmitglied der Kernforschungsanlage Jülich ernannt. Einige Jahre später erhielt er das große Bundesverdienstkreuz.
11. Das Werk von W. Fucks
Seit 1948 war er Mitherausgeber der Zeitschrift Studium Generale und seit 1959 auch der Zeitschrift Atomenergie. Am 1. April 1990 starb Wilhelm Fucks im Alter von 87 Jahren. Zu Fucks’ physikalischen Arbeitsfeldern gehörten hauptsächlich die Physik der Gasentladungen, die Plasmaphysik, Bogenentladungen sowie die Isotopendiagnostik. Neben seinen rund 80 Veröffentlichungen im Bereich der Physik hat Fucks rund 30 Arbeiten zu Sprache, Musik und Gesellschaft verfasst, in denen er exakt-mathematische Methoden auf geisteswissenschaftliche Disziplinen anwendet.
2.
Das sprach- und literaturwissenschaftliche Werk
Im Bereich der Sprach- und Literaturwissenschaft beschäftigt sich Fucks vornehmlich mit Fragen der Stilistik, Textauthentizität (Autorenbestimmung, Textverwandtschaft) und Morphologie. Die Vorgehensweise seiner Untersuchungen ist stets, bekannte und bewährte Methoden aus der Mathematik und Statistik auf andere Untersuchungsgegenstände anzuwenden, um schließlich allgemeine Zusammenhänge aufzudecken, „da es sich lohnt, überall nach Ordnungsbeziehungen zu suchen, die sich begrifflich beschreiben und quantitativ präzisieren lassen“ und da „kein Mensch etwas gänzlich Ungeordnetes machen kann“ (1968, 142). Das Ziel sind exakte und objektive Aussagen über die untersuchten Entitäten, d. h. die begriffliche Formulierung intersubjektiv überprüfbarer Ergebnisse K „mitteilbar mit Zustimmungszwang“ (1971b, 115). Bei dieser grundsätzlichen Suche nach tieferliegenden Ordnungszusammenhängen steht dem Physiker also letztendlich die Formulierung von Gesetzen im klassischen wissenschaftstheoretischen Sinne vor Augen. Hierbei geht es Fucks nicht um einen Gegensatz von Natur- und Geisteswissenschaft, vielmehr um die Ergänzung qualitativer und quantitativer Ansätze. So wie die Philosophie für Fucks als die allgemeinste Geisteswissenschaft gilt, so ist die Mathematik in ihrer rein geistig-abstrakten Weise für ihn die reinste aller Geisteswissenschaften, weswegen ihm ihre Anwendung auf geisteswissenschaftliche Gegenstände wie etwa Kunstwerke legitim und angemessen erscheint.
153 Als Anwendungsgebiet wählt Fucks beispielsweise den literarischen Stil. Stil ist für Fucks die Summe der objektiv fassbaren Eigenschaften eines Werkes, wobei die Semantik zunächst unberücksichtigt bleibt und formale Merkmale auf verschiedenen Ebenen die Datengrundlage bilden. Zwar gab es auch schon vor Fucks etliche Stiluntersuchungen, die sich jedoch vorwiegend auf wenige isolierte Parameter wie beispielsweise Wortfrequenzen stützten. Seit Fucks erlaubt die Erfassung und Kombination mehrerer Stilcharakteristika, Ähnlichkeiten und Unterschiede zwischen Werk-, Autoren- und Epochenstil auf besser fundierter Basis festzustellen. Als einfaches Stilkriterium dient beispielsweise das Maß der Wortlänge gemessen in Silben und die Satzlänge in Wörtern/Silben bezogen auf Texte von Dichtern und Textproduzenten allgemeiner Art (Politiker, Wissenschaftler, Philosophen). Durchschnittlich kürzere Wort- und Satzlängen scheiden die belletristischen Autoren von den übrigen Schriftstellern, und zwar sowohl im Deutschen als auch im Englischen (1968, 33 ff.). Differenzierter werden die Aussagen, wenn Fucks die Satzstrukturen bezogen auf Gliederung und Schachtelung genauer beschreibt. Hier gibt die Gliederungstiefe an, in welchem Umfang ein Satz aus Teilabschnitten (Sektionen oder Nebensätzen) besteht, d. h. Gliederungsmaß Z Summe der Sektionen. Die Schachtelungstiefe hingegen gibt an, in welchem Maß die Sektionen ineinander verschachtelt sind. Hier geschieht die Ermittlung der Schachtelungstiefe durch Rangzahlen, d. h. je weiter eine Sektion vom Hauptsatz entfernt ist, desto höher ihr Rang; die Summe aller Ränge für einen Satz ergibt das Maß der Schachtelungstiefe dieses Satzes. Um die Texte miteinander vergleichen zu können, ermittelt Fucks nun für sämtliche untersuchten Textproben der Prosatexte durch den Mittelwert aller Satzlängen und aller Schachtelungstiefen ein Gruppenmittel (100 %), was es ermöglicht, anzugeben, um wieviel Prozent ein bestimmtes Werk vom Mittelwert abweicht. Beispielsweise lässt sich so präzisieren, dass ein Kanttext 95 % längere und 94 % geschachteltere Sätze enthält als das Mittel aller untersuchten Texte. Ein Camustext hingegen liegt bei der Satzlänge 45 % unter und bei der Satzschachtelung 40 % unter dem Gruppenmittel. Qualitative und intuitive Eindrücke werden so mathematisch beschreibbar und objektiv vergleichbar. Ein weiteres Stilmerk-
154 mal im Textvergleich stellt die Abfolge von kurzen und langen Sätzen dar, d. h. wie groß ist die Häufigkeit, dass auf einen kurzen Satz ein langer oder ein kurzer folgt. Solche Häufigkeitsuntersuchungen ergeben beispielsweise für eine Textprobe Bismarcks von 2000 Sätzen, dass gleichnamige Satzkombinationen, d. h. die Satzfolge kurz-kurz und lang-lang, um 12 % häufiger auftreten als ungleichnamige. Fucks spricht hier von einer Bindungs- oder Anziehungskraft, durch die ein Satztyp die auf ihn folgenden Satztypen determiniert. Stärke und Reichweite dieser Kraft lassen sich messen. Liegt die Stärke der Anziehungskraft für gleichnamige Sätze für einen untersuchten Kleisttext bei 31 %, so beträgt sie bei Jean Paul lediglich 2 %. Die Reichweite der Bindungskraft ergibt beispielsweise für Balzac noch eine Stärke von 20 % beim vierten Satz, während sie beim Bismarcktext beim dritten Satz nur noch 5 % beträgt. Gerade diese Ergebnisse belegen für Fucks, dass es Ordnungsprinzipien gibt, denen ein Autor unbewusst folgt, und die ohne quantitative Verfahren nicht belegbar sind. Fucks’ einzelne Stiluntersuchungen bilden schließlich ein Instrumentarium, das es ermöglicht, exaktere Aussagen über mögliche Werkverwandtschaften zu treffen und damit nicht zuletzt zur Aufklärung offener Verfasserschaftsfragen beizutragen. In Ergänzung der bereits oben genannten stilistischen Parameter fügt er weitere hinzu, die bei der Klärung von Echtheitsfragen helfen sollen. Hierzu gehören bezogen auf verschiedene Textproben eines Textes sowie auf Vergleiche ganzer Texte untereinander zusätzlich Wortklassenhäufigkeiten und -unterschiede (Verschiedenheitsindex der Wortklassen), Wortklassenübergänge sowie Wortschatzvergleiche (Verschiedenheitsindex des Wortschatzes). Als Beispiel für die Anwendung des gesamten Instrumentariums von Untersuchungsmethoden vergleicht Fucks das Lukasevangelium und die Apostelgeschichte miteinander sowie das Johannesevangelium mit der Apokalypse. Es ergeben sich hieraus deutliche Unterschiede der miteinander verglichenen Texte auf fast allen Untersuchungsebenen. Bezüglich definitiver Antworten zur Verfasserschaft hält sich Fucks an dieser Stelle allerdings zurück, und er räumt ein, dass solche Aussagen schwierig sind und dass man sich häufig auf Tendenzen und Indizien beschränken muss. Erst in der Gegenüberstellung der ermittelten Ver-
I. Allgemeines / General
schiedenheitswerte mit entsprechenden Werten von Werken, die unzweifelhaft demselben Verfasser zuzuschreiben sind und die prinzipielle stilistische Variationbreite anzeigen, wird eine Beurteilung über einen möglichen gemeinsamen Autor zweier Texte möglich. Wurden bei früheren Stil- und Autorenschaftsuntersuchungen oft nur wenige Textkriterien wie Wort- und Satzlänge zugrundegelegt, so helfen die von Fucks berücksichtigten Merkmale Wortlängen, Wortklassenhäufigkeiten, Wortklassenübergänge, Satzlängen, Satzgliederung, Satzschachtelung und Wortschatzvergleich, die Analyse auf eine objektivere Basis zu stellen. Als künftige Perspektive stellt Fucks sich auf dieser Grundlage die „umfassende Entwicklung einer neuen Art von Wissenschaft [...], nämlich eines mit mathematischen Hilfsmitteln arbeitenden Zweiges der Literaturwissenschaft [...].“ vor (1968, 123). Über die deskriptive Ästhetik hinaus dient die Untersuchung literarischer Texte außerdem als Basis zur Ermittlung sprachenspezifischer Regelmäßigkeiten. So gelangt Fucks zu einer Formel, die basierend auf literarischem Textmaterial die Wortlängenverteilung für acht natürliche Sprachen beschreibt (1955d). Ausgehend von den tatsächlichen Silbenfrequenzen der untersuchten Sprachen ermittelt er eine mathematische Verteilung (verschobene Poisson-Verteilung), die es erlaubt, unter Geltung der Voraussetzung, dass jedes Wort aus mindestens einer Silbe besteht und dass kein Wort beliebig viele Silben hat, die tatsächliche Wortlängenverteilung formal-mathematisch zu beschreiben. Es handelt sich hierbei um eine statistische Verteilung mit Vorbelegung, die Fucks mit dem Galton’schen Brett als statistischem Verteiler experimentell durchführt. Die schließlich abgeleitete theoretische Verteilung für eine Mindestsilbenzahl von eins pro Wort lautet: ¯
pi Z
eK(iK1) (i¯ K 1)(iK1) (i K 1) !
(1)
Hierbei ist pi die relative Häufigkeit für ein Wort der Silbenzahl i und der Mittelwert der Verteilung. Allgemeiner lässt sich die Formel fassen, indem für 1 die Variable b eingesetzt wird, welche die Mindestsilbenzahl für die Wörter einer Sprache bezeichnet, also: ¯
pi Z
eK(iKb) (i¯ K b)(iKb) (i K b) !
(2)
155
11. Das Werk von W. Fucks
Zu Ehren von Fucks und des russischen Mediziners Čebanov, der bei Untersuchungen zur Wortlänge ebenfalls zu dieser verschobene Poisson-Verteilung gelangte, spricht man heute von der Čebanov-Fucksschen Verteilung (vgl. Piotrowski/Bektaev/Piotrowskaja 1985, 256). Grotjahn und später Altmann haben den Fucksschen Ansatz überprüft und modifiziert. Sie gelangten zu der besser an die Daten angepassten negativen Binomialverteilung (Grotjahn 1982) bzw. zur Hyperpoissonverteilung (z. B. Best/ Altmann 1996; Art. 19). Neben der Formel zur Wortlängenverteilung führte Fucks im Zusammenhang mit der mittleren Silbenzahl pro Wort das aus der Physik bekannte Maß für die Unordnung, die Entropie, in die Ästhetik ein. Beispielsweise herrscht bei einer Sprache, die ausschließlich aus einsilbigen Wörtern besteht, maximale Ordnung, da die Wortlänge immer gleich eins ist, die Streuung ist gleich null. Sobald die Wörter einer Sprache jedoch aus mehr als nur einer Silbe bestehen, steigt in der Verteilung sämtlicher Elemente die Streuung. Die Streuung der Wortlängen nimmt zu und damit das Maß der Unordung, die Entropie, in Bezug auf den Silbenmittelwert. Die Entropieformel lautet dann, wobei I gleich maximale Silbenzahl und pi gleich der relativen Häufigkeit der i-Silber ist: r
S Z K∑ pi log pi
(3)
1
Liegt die Entropie der Eigenschaft Wortlänge für das Englische bei 0,367 bei einer durchschnittlichen Wortlänge von 1,351 Silben, so beträgt die Entropie für das Lateinische 0,631 bei einer mittleren Wortlänge von 2,392 Silben. Diesen Zusammenhang weist Fucks für acht natürliche und eine künstliche Sprache (Esperanto) nach.
3.
Das musikwissenschaftliche Werk
Ebenso wie bei den sprach- und literaturwissenschaftlichen Untersuchungen geht es Fucks darum, auf stilistischer Basis Regelmäßigkeiten in musikalischen Kompositionen nachzuweisen und auf Ordnungszusammenhänge hinzuweisen. Hierdurch sollen Gesetzmäßigkeiten innerhalb der einzelnen Werke sowie übergreifend zwischen Werken eines Zeitabschnittes oder gar über größere Zeiträume hinweg aufgezeigt werden. So untersucht er beispielsweise die Häufigkeits-
verteilungen von Tonhöhen und Tondauern, die Häufigkeitsverteilungen bestimmter Intervalle, Übergangswahrscheinlichkeiten benachbarter Töne und Intervalle sowie Bindungskräfte, d. h. die Frage, inwiefern die Wahl bestimmter Töne oder Intervalle auf welche Entfernung hin die Wahl weiterer Töne oder Intervalle beeinflusst. Als Datengrundlage dienen ihm Dutzende vokaler und instrumentaler Kompositionen aus der Zeit des Vorbarock bis zur Zwölftonmusik unseres Jahrhunderts. Als wichtiges Vergleichsmaß für die Entwicklung der κ Z
S (x K x¯)4 px (S (x K x¯)2 px)2
(4)
Tonhöhenverteilung über die Jahrhunderte wählt Fucks die Kurtosis (κ) K den Quotienten aus dem vierten Moment und der Streuung in der vierten Potenz für eine Verteilung px mit dem Mittelwert K die bei der Gaußschen Normalverteilung stets 3 beträgt und als von der Streuung (Standardabweichung) und damit vom Tonumfang unabhängiges Maß angibt, um wieviel der Exzess (ε Z κ K 3, also 0 für die Gaußkurve) einer Verteilung über oder unter der Normalverteilung liegt. Für einen Zeitraum von fast 500 Jahren wächst der Kurtosiswert stetig an und drückt auf mathematischer Grundlage die formale Unterschiedlichkeit von Musikstücken verschiedener Epochen bezogen auf die Tonhöhenverteilung aus. Im 20. Jahrhundert hingegen lassen sich zwei parallele Tendenzen feststellen. Steigt die Kurtosis für einige Kompositionen stetig weiter, so sinkt sie für die Zwölftonmusik auf den Wert der Barockmusik und suggeriert hier zunächst eine formale Ähnlichkeit, die erst unter Heranziehung weiterer Merkmale, wie der Anordnung der musikalischen Elemente (Tonund Intervallfolgen), mathematisch überprüft werden kann. Hier zeigt sich, dass die Übergangsmatrizen für benachbarte Töne bei moderner Musik Werte aufweisen, wie sie für in einem Experiment zufällig erzeugte Tonfolgen gelten, und dass diese sich hierin signifikant von den Übergangshäufigkeiten älterer Musik unterscheiden. Die vordergründige Ähnlichkeit der Zwölftonmusik mit barocken Werken konnte somit unter Heranziehung eines weiteren Stilkriteriums mathematisch nicht bestätigt werden. Daneben misst Fucks die Stärke der Bindungskräfte von benachbarten und nicht benachbarten Tönen in einer Komposition bezogen
156
I. Allgemeines / General
auf die Tonhöhe, d. h. er ermittelt, wie stark die Wahl eines bestimmten Tones die Wahl des nächsten, übernächsten usw. Tones beeinflusst. Zeigen sich hier Korrelationen, die bei Bach eine Bindungskraft bis zum viertnächsten, bei Beethoven gar bis zum zwanzigsten Ton ausüben, so reicht diese Kraft bei Webern nicht bis zum unmittelbar folgenden Ton. Wie schon bei den literarischen Stilvergleichen wird deutlich, dass erst die Heranziehung möglichst vieler stilistischer Merkmale differenzierte und glaubhafte Ergebnisse ermöglicht. Fucks’ musikologische Untersuchungen fanden nicht immer uneingeschränkte Zustimmung. So äußerten die Musikwissenschaftler Wagner (1976) und Bauer (1976) herbe Kritik an der Vorgehensweise des Physikers. Wagner bezweifelt die Aussagekraft einzelner Messungen wie etwa der konsekutiven Intervalle und der Tonhöhenstreuung, während Bauer den Wert statistischer Beschreibungen auf die Bestätigung bereits bekannter Zusammenhänge beschränkt.
4.
Das gesellschaftspolitische Werk
Einer breiten Öffentlichkeit bekannt wurde Fucks durch das Buch Formeln zur Macht (1965b), das ab 1965 in mehreren Auflagen erschien, und ein Bestseller wurde. In diesem Werk beantwortet er vorrangig Fragen nach der zukünftigen Entwicklung der Menschheit, d. h. insbesondere nach der Bevölkerungsentwicklung und den künftigen Machtverhältnissen. Der Prognosezeitraum erstreckt sich von 1964 an auf ca. 75 Jahre, d. h. bis etwa zum Jahr 2040. Als Basis seiner Berechnungen dienen die für zurückliegende Zeiträume vorliegenden Werte für die Bevölkerungszahl und -entwicklung, sowie die gegenwärtigen Kenngrößen Stahl- und Energieproduktion. Macht (M) ist hierbei einmal das Produkt aus jährlicher Energieproduktion (P) und Bevölkerungszahl (Z) und desgleichen aus jährlicher Stahlproduktion (P) und Bevölkerungszahl (Z), also stark vereinfacht jeweils M Z P ! Z, wobei Z noch einen Exponenten (1/3) erhält, der sicherstellt, dass die Formel den tatsächlichen Gewichtungen der damaligen Realität entspricht; aus beiden Produkten wird schließlich der Mittelwert gebildet und so der Machtfaktor für eine Nation über die kommenden Jahrzehnte hinweg quantifiziert.
In Mächte von morgen (1978) werden die ursprünglichen Aussagen von 1965 noch stärker ausdifferenziert und den veränderten Gegebenheiten angepasst, beispielsweise durch die Einbeziehung der Schwellenländer Brasilien und Indien sowie der erstarkten japanischen Wirtschaftsmacht. Aus heutiger Sicht haben sich die Vorhersagen, deren Erfüllbarkeit Fucks selbst bereits einschränkt und von der Geltung bestimmter Randbedingungen abhängig macht, nicht voll bewahrheitet. Die Randbedingungen haben sich auch insofern verändert als die Stahlproduktion einen geringeren Stellenwert erhält etwa zugunsten des Faktors Information und Kommunikationsinfrastruktur. Auch der Zusammenbruch der Sowjetunion war in den sechziger und späten siebziger Jahren nicht zu vermuten. Dennoch stellen Fucks’ Berechnungen einen interessanten Versuch dar, intuitiv und qualitativ feststellbare Gegebenheiten und Entwicklungen zu quantifizieren und exakter zu beschreiben und vorherzusagen.
5.
Zusammenfassung
Die Höhe- und Schwerpunkte der quantitativen Arbeiten von Wilhelm Fucks sind die Einführung des aus der Physik bekannten Entropiemaßes in die Informationsästhetik, die Herleitung einer Verteilung der Wortlängen in Silben, sowie die praktische und nachvollziehbare Anwendung mathematischer Methoden auf geistes- und gesellschaftswissenschaftliche Sachverhalte. Mit seiner Forderung nach einem „Sprachingenieur“ und der Suche nach Gesetzmäßigkeiten war er Beförderer der Computerlinguistik und der quantitativen Linguistik überhaupt, noch bevor diese Fächer universitär etabliert waren. Seine Vorstellung von einer im Rahmen des „linguistic engineering“ zu schaffenden künstlichen Verkehrssprache, die in optimaler Weise den informationstheoretischen Erfordernissen K zumindest des Sprechers K entspricht, muß allerdings als aus mathematisch-physikalischer Sichtweise zwar verständlich, linguistisch jedoch als unrealistisch und nicht praktikabel gewertet werden. Es ist Fucks’ besonderes Verdienst, dass er durch sein Eintreten für die Anwendung exakter Methoden in den geisteswissenschaftlichen Disziplinen einerseits zu größerer Interdisziplinarität beitrug und anderer-
11. Das Werk von W. Fucks
seits durch seine populären Werke (1965b und 1968) diese Ansätze einem breiteren Publikum bekanntgemacht und den praktischen Nutzen quantitativer Methoden darlegen konnte. In Deutschland kann er als Anreger einer „exakten Literaturwissenschaft“ und der damit verbundenen Tagungen und der seit den 60er und 70er Jahren zu diesem Thema erschienenen Sammelbände gelten. In den quantitativ feststellbaren Wandlungen von Literatur, Musik und Kunst von konkreter Anschauung und Gegenständlichkeit hin zur Abstraktion sieht Fucks einen engen Zusammenhang zur wissenschaftlichtechnischen Entwicklung des Menschen im selben Zeitraum. Für ihn sind damit sämtliche kulturelle Erscheinungen eng aufeinander bezogen und stehen in enger Wechselwirkung miteinander, da sie alle Ausdruck dessen sind, „was man den Geist einer Epoche nennt“ (1963, 78).
6.
Schriften von Wilhelm Fucks
Da bisher an keiner anderen Stelle in der Literatur eine weitgehend vollständige Zusammenstellung der quantitativen Schriften von Wilhelm Fucks gefunden werden konnte, soll eine solche Übersicht im folgenden versucht werden.
Schriften von Wilhelm Fucks (1951) Über die Zahl der Menschen, die bisher gelebt haben. In: Zeitschrift für die gesamte Staatswissenschaft 107 (3), 439K449. (1952a) Arbeitslohnkomponenten und ihre Wechselwirkung. In: Zeitschrift für die gesamte Staatswissenschaft 108 (3), 495K503. (1952b) Die Naturwissenschaft, die Technik und der Mensch. Köln: Westdt. Verl. (Arbeitsgemeinschaft für Forschung des Landes Nordrhein-Westfalen; 8) (1952c) On mathematical analysis of style. In: Biometrika 39 (1/2), 122K129. (1952d) Mathematische Analyse des literarischen Stils. In: Studium generale 6 (9), 506K523. (1954) On Nahordnung and Fernordnung in samples of literary texts. In: Biometrika 41, 116K132. (1955a) Eine statistische Verteilung mit Vorbelegung. Anwendung auf mathematische Sprachanalyse. In: Naturwissenschaften 42 (1), 10. (1955b) Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen. Köln: Westdt. Verl. (Arbeitsgemeinschaft für Forschung des Landes Nordrhein-Westfalen; 34a).
157 (1955c) Mathematical theory of word-formation. In: Information theory. (Hrsg. C. Cherry). 3. London symposium on information theory, Sept. 12K 16, 1955. London: Butterworth, 154K170. (1955d) Theorie der Wortbildung. In: Mathematisch-Physikalische Semesterberichte 4 (3/4), 195K 212. (1955e) Unterschied von Dichtern und Schriftstellern nach der mathematischen Stilanalyse. In: Sprachforum 1 (3/4), 234K244. (1956a) Die mathematischen Gesetze der Bildung von Sprachelementen aus ihren Bestandteilen. In: Nachrichtentechnische Zeitschrift 3 (7), 7K21. (1956b) Zur Deutung einfachster mathematischer Sprachcharakteristiken. Köln: Westdt. Verl. (Forschungsberichte des Wirtschafts- u. Verkehrsministeriums Nordrhein-Westfalen; 344). (1957) Gibt es mathematische Gesetze in Sprache und Musik? In: Die Umschau 57 (2), 33K37. (1958) Mathematische Analyse der Formalstruktur von Musik. Köln: Westdt. Verl. (Forschungsberichte des Wirtschafts- u. Verkehrsministeriums Nordrhein-Westfalen; 357). (1960). Mathematische Analyse von Werken der Sprache und Musik. In: Physikalische Blätter 16 (9), 452K459. (1961) Mathematische Musikanalyse und Randomfolgen. Aachen: Techn. Hochschule. (1962) Mathematical analysis of formal structure of music. In: IRE transactions on information theory IT-8 (5), 225K228. (1963) Mathematische Analyse von Formalstrukturen von Werken der Musik. Köln: Westdt. Verl. (Arbeitsgemeinschaft für Forschung des Landes Nordrhein-Westfalen; 124). (1964) Über mathematische Musikanalyse. In: Nachrichtentechnische Zeitschrift (1), 41K47. (1965a) Exaktwissenschaftliche Musikanalyse. Mit J. Lauter. Köln: Westdt. Verl. (Arbeitsgemeinschaft für Forschung des Landes Nordrhein-Westfalen; 1519). (1965b) Formeln zur Macht. Stuttgart: Dt. Verl.Anst. Mehrere Auflagen. (1965c) Mathematische Analyse des literarischen Stils. Mit J. Lauter. In: Mathematik und Dichtung. (Hrsg. H. Kreuzer/R. Gunzenhäuser). München: Nymphenburger Verl., 107K122. (1968) Nach allen Regeln der Kunst. Diagnosen über Literatur, Musik, bildende Kunst K die Werke, ihre Autoren und Schöpfer. Stuttgart: Deutsche Verl.-Anst. (1969) Literatur eignet sich nicht für eine mathematische Behandlung K oder doch? In: IBMNachrichten 198, Dez. 1969. (1970a) Analysen formaler Eigenschaften von Texten mit mathematischen Hilfsmitteln. In: Der Berliner Germanistentag 1968. (Hrsg. K. H. Borck/ R. Henss). Heidelberg: Winter, 42K52.
158
I. Allgemeines / General
(1970b) Über eine exakte Wissenschaft von der Literatur. In: Aspekte 3, 34K37. (1970c) Über formale Struktureigenschaften musikalischer Partituren. In: Experimentelle Musik. (Hrsg. F. Winckel). Berlin: Mann, 33K58. (1971a) Possibilities of exact style analysis. In: Patterns of literary style. (Hrsg. J. Strelka). Pennsylvania State Univ. Press, 51K76. (1971b) Über den Gesetzesbegriff einer exakten Literaturwissenschaft, erläutert an Sätzen und Satzfolgen. In: Zeitschrift für Literaturwissenschaft und Linguistik 1 (1/2), 113K137. (1972) Maß und Zahl bei Dürer, Maß und Zahl heute. In: Am Beispiel Dürers. (Hrsg. H. Glaser). München: Bruckmann, 26K68. (1975) Gesetze der Dichtung. In: Bild der Wissenschaften, 78K84. (1978) Mächte von morgen. Stuttgart: Dt. Verl.Anst.
7.
Literatur (in Auswahl)
Bauer, Hans-Joachim (1976), Statistik, eine objektive Methode zur Analyse von Kunst? In: International review of the aesthetics and sociology of music 7, 249K263. Best, Karl-Heinz/Altmann, Gabriel (1996), Zur Länge der Wörter in deutschen Texten. In: Glottometrika 15. (Hrsg. P. Schmidt). Trier: Wissenschaftlicher Verlag, 166K180. Grotjahn, Rüdiger (1982), Ein statistisches Modell für die Verteilung der Wortlänge. In: Zeitschrift für Sprachwissenschaft 1, 44K75. Piotrowski, Rajmund G./Bektaev, K. B./Piotrowskaja, A. A. (1985), Mathematische Linguistik. Bochum: Brockmeyer. Wagner, Günther (1976), Exaktwissenschaftliche Musikanalyse und Informationsästhetik. In: International review of the aesthetics and sociology of music 7, 63K76.
Dieter Aichele, Worms (Deutschland)
11a. Mathematical aspects and modifications of Fucks’ Generalized Poisson Distribution (GPD) 1. 2.
5. 6.
Historical context Fucks’ Generalized Poisson Distribution (GPD) A generalization of the Fucks GPD (Fucks-Gačečiladze distribution) The Fucks GPD: parameter estimation based on µ, µ2, and first-class frequency (Bartkowiakowa/Gleichgewicht) Summary Literature (a selection)
1.
Historical context
3. 4.
German physicist Wilhelm Fucks (1902K 1990) is well-known for his influential studies in the field of quantitative linguistics and stylistics in the 1950K70s (cf. chapter 11.). His inspiring works as to a scientific approach to text and language K motivated by the desire to find laws in the strict meaning of this word, not only in the realm of nature, but in the social and cultural spheres, as well K remain worth while being analyzed, still today. Actually, however, due to the alleged clash between natural and human sciences, only part of his suggestions and ideas have met sufficient attention in the scientific community. And even in those fields, where reference is made to his work, this is done only
with regard to particular aspects of his general approach. As to the study of language(s), for example, Fucks’ studies on word length, or sentence length, have been extremely influential. Fucks (1955a; 1955b; 1956b) assumed that the 1-displaced Poisson distribution might serve as a general standard model for theoretically describing word length frequencies in syllable-based languages. Thus, Fucks considered the 1-displaced Poisson distribution to be the “mathematical law of the process of word-formation from syllables for all those languages, which form their words from syllables” (Fucks 1955b, 209). Fucks’ assumption was generally accepted in the 1960s and 70s; it inspired many follow-up studies all over the world, and the model suggested by him led to the fact that the 1-displaced Poisson distribution began to be termed “Fucks distribution” by the linguist community. The general celebration of this model as the Fucks distribution remained unchanged, when scholars began to realize that a Russian military doctor from Sankt Petersburg, Sergej Grigor’evič Čebanov (1897K1966), had tried to find a general model for the dis-
159
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
tribution of words according to the number of syllables, as early as in the 1940s. In fact, Čebanov was one of the first to propose a theoretical model of word length frequencies, which he considered to be valid for various languages (cf. Grzybek 2005). Having observed a specific relation between the mean word length λ of a text and the relative frequencies pi of the individual word length classes, Čebanov was the first to suggest the Poisson distribution as a general model for various languages. Since the texts studied by Čebanov contained no zero-syllable words, he suggested the 1-displaced Poisson distribution K see below, (22) K as an appropriate model for his data from various languages. Therefore, the 1-displaced Poisson distribution became to be referred to as the “Čebanov-Fucks distribution” by many linguists, thus adequately honoring the pioneering work of Čebanov. Despite this historical correction, it was rather Fucks than Čebanov, who would be credited for having established the 1-displaced Poisson distribution as a standard model for word length frequency distributions. In a way, this high estimation of Fucks’ is justified, since Fucks based his ruminations on elaborate mathematical ideas and embedded them in a broader context. Still, the appreciation covers only part of Fucks’s merits, since, in his concept, the 1-displaced Poisson distribution turns out to be one special case of a much more general model. This generalized model, which shall be termed Fucks’ Generalized Poisson Distribution (GPD) throughout this chapter, is a specific generalization of the Poisson distribution; in fact, we are concerned with a sum of weighted Poisson probabilities from which, under particular conditions, various special cases may be derived. However, this generalization takes no prominent place in Fucks’ linguistic analyses; rather, he mentioned it in some of his publications (e. g., Fucks 1956a; 1956d). Therefore, it is not surprising that Fucks’ GPD has hardly ever been discussed in detail. Curiously enough, however, if at all, the Fucks GPD has been discussed more intensively by a Russian-reading audience, due to the Russian translation of one of Fucks’ articles in 1957 (see below, Sec. 3). In fact, in that context, Fucks’ theoretical assumptions were not only generally accepted, but also served as a starting point for new developments as to alternative ways of parameter estimation and even further generalizations.
The purpose of this chapter is to consider the concept of Fucks’ GPD more precisely, as well as the above-mentioned modifications and generalizations. Since, in most cases, the relevant works are not systematic in their approaches, the corresponding derivations shall be calculated and presented, in detail.
2.
Fucks’ Generalized Poisson Distribution (GPD)
Assuming any text generation to be a stochastic process, Fucks arrived at a model, which later became to be known as the Fucks binomial distribution (cf. Fucks 1956a, 12). The derivation of the model need not be explained here, in detail. Ultimately, we are concerned with a generalization of the well-known binomial distribution as a sum of weighted binomial probabilities. Precisely, the Fucks binomial distribution is given as follows: N
pi Z P (X Z i) Z ∑ (εk K εkC1)$
( )
kZ0
n K k iKk $ q (1 K q)nKi. iKk
(1)
Here, the random variable X denotes the number of syllables per word, i. e. X Z i, i Z 0, 1, 2, 3, ..., n; pi Z P (X Z i) is the probability that a given word has i syllables, n
with
∑ pi Z 1; iZ0
0 ! p ! 1; q Z 1 K p; the
specific weights are denoted by εk, k indicating the number of components to be analyzed. The expected value or mean value is found to be µ Z (n K ε#) q C ε# with N
ε# Z
∑ εk. kZ1
Furthermore, for n / N and q / 0, with the condition µ K ε# Z (n K ε#) q Z constant, the Fucks binomial distribution (1) converges to the Fucks GPD, which shall be focused upon in this section. Generally speaking, Fucks’ GPD can be understood to be a sum of weighted Poisson probabilities. The corresponding weights are denoted by (εk K εkC1), k indicating the number of components to be analyzed. The Fucks GPD distribution is given by pi Z P (X Z i) N
λiKk
kZ0
(i K k)!
Z eKλ ∑ (εk K εkC1) $
.
(2)
160
I. Allgemeines / General
Here, the random variable X denotes the number of syllables per word, i. e. X Z i, i Z 0, 1, 2, 3, ..., I; pi Z P (X Z i) is the probability that a given word has i syllables, with I
∑ pi Z 1; iZ1
N
λ Z µ K ε#, ε# Z ∑ εk and kZ1
µ Z E (X), i. e. µ is the expected number of syllables per word. The parameters of the distribution {εk} are called the ε-spectrum. For (2), the following conditions were postulated by Fucks: (a) the condition εk K εkC1 R 0 implies that εkC1 % εk; (b) since the sum of all weights equals 1, we have
2.1.1. The probability generating function In a first step, it seems reasonable to determine the probability generating function of the Fucks GPD. Generally speaking, the probability generating function is useful in simplifying mathematical proofs for discrete distributions. Given the generating function of the Fucks GPD, and knowing the statistical relations between the probability generating function and the moments of a distribution, the factorial, initial and central moments of Fucks’ GPD will easily be derived. Let X be a random variable with values in {0, 1, 2, ...}. The probability generating function is then defined by
N
1 Z ∑ (εk K εkC1) kZ0 N
N
kZ0
kZ0
Z ∑ εk K ∑ εkC1 Z ε0 ; (c) from (a) and (b), we obtain 1 Z ε0 R ε1 R ε2 R ε3 R ... R εk R εkC1 ... It should be noted that (2) remains a valid probability distribution even when condition (a) is dropped. This more general case is not the aim of this chapter, but it will be discussed in subsequent papers. In the following section, we go more into details, concentrating on the derivation of the Fucks’ GPD and its generating function. Our aim will be to determine the unknown εk values which characterize the Fucks’ GPD as given in equation (2). 2.1. The probability generating function and moments Let us assume that the frequency distribution of some linguistic element is given; furthermore, we expect Fucks GPD (2) to fit the empirical data. Therefore, we know the theoretical representation of the observed distribution, if we find the estimated values of εk and λ. As to the estimation of the εk values, Fucks (1956d, 165) suggested to apply the method of moments. Since the moments are represented as polynomials in εk, one obtains algebraic equations for the εk, and the estimates by way of equating the theoretical with the empirical moments. The estimation process is rather complex because many equations with unknown parameters εk ask for their solution. For many linguistic problems, it is sufficient, however, to indicate only a few moments of a given distribution. Below, it will be shown that the estimation process is easier for simple special cases of the Fucks GPD.
N
G (t) Z ∑ pi t i Z E (t X) ,
(3)
iZ0
where pi Z P (X Z i), i Z 0, 1, 2, ... Having G (t) at our disposal, it is easy to find all factorial moments µ(k) by differentiating function G (t) k-times, and setting t Z 1, i. e. µ (k) Z
∂ kG (t) ∂t k
|
tZ1
N
Z
∑ i (i K 1) .
iZ0
(i K k C 1) pi.
(4)
Multiplying the expressions in parenthesis, we can represent the factorial moments in terms of the initial moments. For our purposes, we need the first three initial moments, which are given as N
µ (1) Z ∑ i pi Z µ#1 Z E (X) iZ0 N
N
N
iZ0
iZ0
iZ0
µ (2) Z ∑ i (i K 1) pi Z ∑ i 2 pi K ∑ i pi Z µ#2 K µ#1 N
µ (3) Z ∑ i (i K 1) (i K 2) pi iZ0 N
Z ∑ (i3 K 3i2 C 2i) pi iZ0
Z µ#3 K 3µ#2 C 2µ#1.
(5)
The central moments, too, can be represented in terms of the factorial moments which are given as: µ2 Z Var (X) Z µ#2 K (µ#1)2 Z µ(2) C µ(1) K µ2(1) µ3 Z µ(3) C 3µ(2) C µ(1) K 3µ(1) µ(2) K K 3 (µ(1))2 C 2 (µ(1))3 .
(6)
161
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
Knowing the probability generating function G (t), one can find all probabilities pi as the coefficients of t i by differentiating function G (t) i-times and setting t Z 0, i. e. pi Z
∂iG (t)
1 i!
$
∂t i
|
(7)
tZ0
Using equation (3), we can easily find the probability generating function of the Fucks GPD as N
G (t) Z e
λ (tK1)
∑ (εk K εkC1)t . k
(8)
kZ0
Fucks did not present the relevant calculation, in detail; rather, he discussed the results of these calculations and gave an idea how to arrive at the moments of the distribution, as a result of taking the probability generating function into consideration (cf. Fucks 1956c, 523). Before going into details as to the problem of the moments, it is necessary to note that there are three important relations, which are useful for finding the factorial moments:
that belong to the class i (absolute frequencies). Let us first concentrate on the definition of the theoretical factorial moments. Given that ∂kG (t)
µ(k) Z
|
tZ1 ∂tk Z E (X (X K 1) . (X K k C 1)),
(10)
it is possible to determine the factorial moments by differentiating the generating function G(t) k times, as was mentioned in Sec. 2.1.1. The first derivative of G (t) is given as ∂G (t) ∂t
N
Z e λ(tK1)λ ∑ (εk K εkC1)t k C kZ0 N
Ce
λ(tK1)
∑ ktkK1 (εk K εkC1) .
kZ0
Substituting t Z 1 in the first derivative of G(t), one obtains the first factorial moment: µ(1) Z
∂k G (t) ∂t
|
N
Z λ ∑ (εk K εkC1) C
tZ1
kZ0
N
∑ (εk K εkC1) Z ε0 Z 1 N
1
N
C ∑ k (εk K εkC1) Z λ C ε# Z µ.
kZ0
N
∑ k (εk K εkC1) Z kZ1 ∑ εk
ε#
kZ0 N
N
∑ k2 (εk K εkC1) Z kZ1 ∑ (2k K 1)εk .
(11)
kZ0
(9)
kZ0
Since the second derivative of G (t) is given as ∂2G (t)
2.1.2. Factorial moments Let us now concentrate on the factorial moments of the Fucks GPD. In doing so, we assume that the probability function, given in (2), is known, except for its parameters εk. Hence, our further investigation has to be concentrated on the estimation of the parameters εk, by way of recourse to the moments of the sample. As was mentioned above, the simplest method, also recommended by Fucks, is the method of moments; substituting the theoretical moments by the empirical ones, we obtain the estimates of the unknown parameters. Each text contains N words (w1, w2, ., wN). Word length is measured in syllables and can be different for each word; xj Z i denotes the word length of word wj, where j Z 1, 2, ., N; i Z 0, 1, 2, ., I. Actually, we are concerned with words of zero, one, two, three, ..., or I syllables. The whole number of words are divided into I C 1 frequency classes; fi refers to the number of elements
∂t 2
N
Z e λ(tK1) λ2 ∑ (εk K εkC1) t k C kZ0 N
C 2e λ(tK1)λ ∑ k (εk K εkC1) t kK1 C kZ0
N
C e λ(tK1) ∑ k (k K 1) (εk K εkC1) t kK2, kZ0
the second derivative of G (t) for t Z 1 results in the second factorial moment: µ(2) Z
∂2G (t) ∂t 2
|
tZ1
N
N
kZ0
kZ0
Z λ2 ∑ (εk K εkC1) C 2λ ∑ k (εk K εkC1) C ε
1
N
C ∑ k (k K 1) (εk K εkC1) kZ0
N
N
∑ (2k K 1)εk K∑ εk
kZ1
kZ1
N
Z λ C 2λε# C 2 · ∑ k$εk K 2ε#. 2
kZ1
#
162
I. Allgemeines / General
Written in a different way, with µ Z λ C ε#, we thus have: N
µ(2) Z µ2 K ε#2 K 2ε# C 2 ∑ kεk .
(12)
kZ1
Analogically, the third derivative of G (t) is given as ∂3 G (t) ∂t 3
N
Z e λ(tK1) λ3 ∑ (εk K εkC1) t k C kZ0 N 2
∑ k (εk K εkC1) t kK1 C
C 3e λ(tK1) λ
kZ0 N
C 3e λ(tK1) λ ∑ k (k K 1) (εk K εkC1) t kK2 C kZ0
N
Ce
λ(tK1)
∑ k (k K 1) (k K 2) (εk K εkC1) t kK3 .
kZ0
For t Z 1, the third derivative of G (t) thus provides the third factorial moment: N
N
kZ0
kZ0
µ(3) Z λ3 ∑ (εk K εkC1) C 3λ2 ∑ k (εk K εkC1) C 1 N
C 3λ ∑ k (k K 1) (εk K εkC1) C kZ0
N
ε# N
∑ k (k K 1) (k K 2) (εk K εkC1)
kZ0
N
∑ (2k K 1)εk K∑ εk
(
kZ1
kZ1
N
)
N
N
kZ1
kZ0
Z λ3 C 3λ2ε#C 3λ 2 ∑ kεk K 2ε# C ∑ k3 (εk K εkC1) K 6 ∑ kεk C 5ε#. kZ1
Again, written in a different way, with µ Z λ C ε#, we have:
N
N
µ2 Z µ K ε#2 K 2ε# C 2∑ kεk
µ(3) Z ∑ k3 (εk K εkC1) C kZ0
kZ1
N
N
C 6 (µ K ε#K1) ∑ kεk C 5ε# C
Z µ K ε# C 2∑ (k K 1) εk 2
kZ1
kZ1
µ3 Z µ C 2ε#3 C 3ε#2 K ε# K
C µ3 K 3µε#2 C 2ε#3 K K 6ε#µ C 6ε#2.
(13)
For an empirical distribution, the k-th factorial moment will consequently be calculated as 1
N
N
kZ1
kZ0
K 6ε#∑ kεk C ∑ k3 (εk K εkC1).
(14)
which serves as an estimate for the k-th theoretical factorial moment µ(k) 2.1.3. Central moments As to the estimation of the unknown parameters εk, Fucks (1956a, 12) suggested their calculation by reference to the central moments µk. In analogy to the procedure discussed above (cf. Sec. 2.1.1.), the second and third central moments of the Fucks GPD
(15)
The empirical central moment of the order k mk Z
I
$ ∑ [i (i K 1) (i K 2) N iZ0 . (i K k C 1) fi ],
m(k) Z
can be determined, using their relations to the factorial moments, given as
1 NK1
· ∑ (i K x¯)k · fi
(16)
i
is an estimate of the k-th theoretical central moment µk. For example, the second central moment (estimate for the variance σ 2) will be calculated as: m2 Z
1 NK1 1
Z NK1
· ∑ (i K x¯)2 · fi i
·
(∑ f · i K N · x¯ ). 2
i
i
2
(17)
2.1.4. Initial Moments The estimation of the unknown parameters can also be based on the initial moments of
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
a given distribution, as will be demonstrated below (cf. Sec. 3.). In this case, the parameters εk will be estimated not with recourse to the central moments, but to the initial moments of the empirical distribution. Now, knowing the theoretical factorial moments and the relations between factorial and initial moments, one can easily determine the theoretical initial moments for the Fucks GPD. The first three initial moments of the Fucks generalized distribution can be derived from equation (5): µ#1 Z µ(1) Z µ µ#2 Z µ(2) C µ(1) N
Z µ 2 C µ K ε#2 K 2ε# C 2 ∑ kεk
eters taken into consideration, one may distinguish one-, two-, and three-parameter special cases of Fucks’ GPD, which will be considered in this order. 2.2.1. A one-parameter special case (Fucks-Čebanov Distribution) Let us first direct our attention to the oneparameter model as the simplest of all special cases mentioned. As can be seen from equation (2), the Fucks GPD includes the Poisson distribution and the 1-displaced Poisson distribution, as two of its special cases. Assuming that ε0 Z 1 and ε1 Z ε2 Z ε3 Z ... Z 0, the Fucks GPD (2) leads to the Poisson distribution:
kZ1
µ#3 Z µ3 C 3µ2 C µ C 2ε#3 C 3ε#2 K ε# K
pi Z
eKλ · λi i!
N
K 3µε#2 K 6µε# C ∑ k3 (εk K εkC1) C N
kZ0
C 6 (µ K ε#)∑ kεk.
(18)
kZ1
By the method of moments, E (X) Z µ is estimated as the arithmetical mean. We thus obtain (19) as the estimate of the first initial moment µ: m#1 Z x¯ Z
1 N
I
· ∑ i · f i.
(19)
iZ1
Generally, the k-th initial moment will be estimated as m#k Z
1 N
I
· ∑ i k · f i.
(20)
iZ1
2.2. Special cases of the Fucks GPD As was mentioned above, the Fucks GPD has hardly ever been applied to linguistic material. As to this question, Fucks favored the 1-displaced Poisson distribution, which he considered to be the “mathematical law of the process of word-formation from syllables for all those languages, which form their words from syllables” (cf. Fucks 1955b, 209). It seems to be this particular focus on the 1-displaced Poisson distribution, why this model, though being only one special case of this GPD, has often been assumed to be “the Fucks distribution”. In this section, it will be shown that the 1-displaced Poisson distribution is a special case of the Fucks GPD; additionally, two more special cases which can be derived from the Fucks GPD, will be discussed in detail: depending on the number of param-
163
, i Z 0, 1, 2 ...
(21)
where λˆ Z x¯. If we choose ε0 Z ε1 Z 1 and ε2 Z ε3 Z ... Z 0 (i. e. assuming our sample has no zero-syllable words), we obtain the 1-displaced Poisson distribution: pi Z eKλ ·
λiK1 (i K 1)!
, i Z 1, 2, ...
(22)
Here, λ Z µK1, µˆ Z x¯. Fucks repeatedly applied the 1-displaced Poisson distribution to linguistic data from various languages. Unfortunately, he did not, however, calculate any tests to check the significance of the goodness of his fits, as was quite usual at his time. In order to compensate this lack, one of the possibilities would be to calculate Pearson’s χ2, as defined by formula (23): (fi K Ei)2 . Ei iZ1 I
χ2 Z ∑
(23)
In formula (23), I denotes the number of classes, fi is the observed absolute frequency of a given class, and Ei is the theoretical absolute frequency. The statistical significance of this χ2 value depends on the degrees of freedom (d. f.) of the corresponding χ2 distribution, which are calculated with regard to the number of classes I minus 1, on the one hand, and the number of parameters k, which have to be estimated, on the other hand: d. f. Z I K k K 1. Being convinced that his data were not particularly adequate for the application of the χ2 test, Fucks went a different way and tried to empirically prove the adequacy of this model, using graphical techniques, only. One of the reasons for Fucks’ rejection of the the χ2 test
164
I. Allgemeines / General
probably is the fact that the χ2 value linearly increases with an increase of the sample size K and linguistic samples tend to be rather large. From a contemporary point of view, to avoid this problem, it has become a common practice to calculate a standardization of χ2 scores. Thus, in contemporary linguistics, the so-called discrepancy coefficient (C) meets broad acceptance, being defined as C Z χ2 / N. The discrepancy coefficient has the advantage that it is not dependent on the degrees of freedom. One speaks of a good fit for C ! 0.02, and of a very good fit for C ! 0.01. It seems reasonable to run a re-analysis of linguistic data given by Fucks, and to statistically test the goodness of fit of the 1-displaced Poisson distribution, including the χ2 value as well as the discrepancy coefficient C. Unfortunately, Fucks never presented any raw data (what was quite usual at his times); rather, he confined himself to presenting relative instead of absolute frequencies. This fact renders it almost impossible to control the results at which he arrived; the only way to do a re-analysis, is to create artificial samples of ca. 10.000 each, by way of multiplying the relative frequencies given by him with 10.000. Table 11a.1 represents data from various languages presented by Fucks (1956a, 10;
Table 11a.1: Relative frequencies and mean word length for different languages (Fucks 1956a) English German Esperanto Arabic Greek 1 2 3 4 5 6 7 8
0.7152 0.1940 0.0680 0.0160 0.0056 0.0012 K K
0.5560 0.3080 0.0938 0.0335 0.0071 0.0014 0.0002 0.0001
0.4040 0.3610 0.1770 0.0476 0.0082 0.0011 K K
0.2270 0.4970 0.2239 0.0506 0.0017 K K K
x¯ 1.4064
1.6333
1.8971
2.1032 2.1106
Japanese Russian Latin
Turkish
0.3620 0.3440 0.1780 0.0868 0.0232 0.0124 0.004 0.0004 0.0004
0.3390 0.3030 0.2140 0.0975 0.0358 0.0101 0.0015 0.0003 K
0.2420 0.3210 0.2870 0.1168 0.0282 0.0055 0.0007 0.0002 K
0.1880 0.3784 0.2704 0.1208 0.0360 0.0056 0.0004 0.0004 K
x¯ 2.1325
2.2268
2.3894
2.4588
1 2 3 4 5 6 7 8 9
0.3760 0.3210 0.1680 0.0889 0.0346 0.0083 0.0007 K
1956d, 157). In addition to the relative frequencies of x-syllable words, also mean word length for each of the nine languages are contained. Table 11a.2 represents the results of the goodness-of-fit test, giving the C values for each language. It is obvious that the 1-displaced Poisson distribution is not equally appropriate for the linguistic data given by Fucks: the model is appropriate only for Esperanto (best fit), Latin, and German, but inappropriate for the remaining six languages. One reason for this failure might be the fact that the data for each of the languages originated from text mixtures, not from individual texts. Therefore, the material might be characterized by an internal heterogeneity, violating the statistical principle of data homogeneity. Since this point cannot be pursued in detail, here, it will be ignored, and Fucks’ data shall be used throughout this text, understanding them as exemplary linguistic data. Table 11a.2: Discrepancy coefficient C as a result of fitting the 1-displaced Poisson distribution to different languages (Fucks 1956a) English
German Esperanto Arabic
Greek
0.0903
0.0186
0.0328
0.0023
0.1071
Japanese Russian Latin
Turkish
0.0380
0.0231
0.0208
0.0181
Another way to test the 1-displaced Poisson distribution has been presented by Grotjahn (1982). Grotjahn discussed the 1-displaced Poisson distribution, particularly focusing the question, under which empirical conditions this model may turn out to be adequate for word length frequencies. Again, faced with the problem of the χ2 test for the analysis of linguistic data, Grotjahn (1982, 53) suggested to calculate the dispersion quotient (δ), defined as the quotient of the theoretical values for the variance (σ2) and the mean (µ): δZ
σ2 µ
.
(24)
For r-displaced distributions, the corresponding equation is δZ
σ2 µKr
,
r being the displacement parameter.
(25)
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
It goes without saying, that the coefficient δ can be estimated from the data as dZ
m2 x¯ K r
.
(26)
Table 11a.3: Values of the dispersion quotient d for different languages English
German Esperanto Arabic
Greek
1.3890
1.1751
1.2179
0.9511
0.5964
Japanese Russian Latin
Turkish
1.2319
0.8015
1.1591
0.8704
Now, it is easy to check the goodness of fit of the Poisson model to empirical data. For this purpose, it is necessary to calculate the empirical value d, and to compare it with the theoretical value δ. Since, for the 1-displaced Poisson distribution, the variance Var (X) Z σ 2 Z µ K 1 and E (X) Z µ, we have δZ
µK1 µK1
Z 1.
There is an important consequence to be drawn from the fact that, for the 1-displaced Poisson distribution, δ Z 1: it can be an adequate model only as long as an empirical sample delivers d z 1. Therefore we calculate the d values for each of the nine languages represented in Table 11a.1 above; the results are given in Table 11a.3. Now checking again the adequacy of the 1-displaced Poisson distribution, as represented in Table 11a.2, and comparing it with the d values in Table 11a.3, it can easily be seen that in fact, there is no good fit (C O 0.02) for those cases where d is significantly different from d Z 1. Summarizingly, we can thus say that, although Fucks himself did not apply any test to check the goodness-of-fit for the 1-displaced Poisson distribution, and although the graphical illustrations of Fucks’ fittings force us to believe that the 1-displaced Poisson distribution can be expected to be adequate, statistical tests show that is the case only for samples with d z 1. In other words: the 1-displaced Poisson distribution must be rejected as an acceptable, overall valid standard model for word length frequencies. With this conclusion in mind, the next logical step is an analysis of Fucks’ two- and three-parameter special cases of his GPD.
165
2.2.2. A two-parameter special case (Dacey-Poisson Distribution) In the previous section, the Poisson distribution was discussed, both in its ‘ordinary’ and in its 1-displaced form, as a one-parameter special case of the Fucks GPD. In either case, only one parameter (λ) has to be estimated. In this section, we will concentrate on another special case of the Fucks GPD, with two parameters to be estimated. Setting ε0 Z 1, ε1 Z α and εk Z 0, k R 2 in Fucks GPD (2), yields a two-parameter distribution. This distribution, which tends to be termed Dacey-Poisson distribution in contemporary research (cf. Wimmer/Altmann 1999, 111), has been discussed by Fucks (1955b, 207) as another special case of his GPD, though not by this name, and only in its 1-displaced form K see below, (29). In its ordinary form, it takes the following shape: pi Z (1 K α)
eKλ λi
Cα
eKλ λiK1
, (i K 1)! i Z 0, 1, 2, ... (27) with λ Z µ K α. In addition to λ, a second parameter (α) has to be estimated, which, referring to (15), can be estimated as αˆ Z Ox¯ K m2. Before analyzing this model (in its 1-displaced form) and testing its adequacy, it seems worthwhile mentioning, that on particular conditions, namely for µ Z 2α, ε0 Z 1, ε1 Z α and εkZ 0, k R 2, the Fucks GPD implies the so-called Kemp-Kemp-Poisson distribution (cf. Wimmer/Altmann 1999, 344) with: pi Z (1 K α)
eKλ · λi i! ·α
e
Kα
Z (1 K α) e
Kα
Z i!
·α
i!
i!
Cα
i
Cα
eKλ · λiK1 (i K 1)! eKα · αiK1 (i K 1)!
i
· (i K α C 1) ,
i Z 0, 1, 2, ... (28) Here, we have λ Z µ K α Z α. Similarly, for ε0 Z ε1 Z 1, ε2 Z α and εk Z 0, k R 3, the 1-displaced Dacey-Poisson model results from the Fucks GPD (2) (cf. Wimmer/Altmann 1999, 111) as pi Z (1 K α) · eKλ C α · eKλ
λiK1 (i K 1)!
λiK2
C
, i Z 1, 2, ...,
(i K 2)!
(29)
166
I. Allgemeines / General
with λ Z µ K α K 1. In this case, α can be estimated as αˆ Z Ox¯ K 1 K m2 , what can be concluded from equation (15). Now, turning to the two-parameter Dacey-Poisson distribution (29), discussed by Fucks (though not by this name), it might be interesting to apply this model to Fucks’ data (cf. Table 11a.1) and relate the results to the values of the dispersion quotient (cf. Table 11a.3). For this purpose, a re-analysis of Fucks’ data is necessary. The results are represented in Table 11a.4, indicating the values of the discrepancy coefficient C for each language, as a result of fitting the 1-displaced Dacey-Poisson model.
of Esperanto, Arabic, Latin and Turkish: in all these cases, the d value is smaller than 1. This rather poor result leads to the question whether the three-parameter special case of the Fucks GPD is more adequate as an overall model for his data. 2.2.3. A three-parameter special case In case of the three-parameter model, in addition to µ, two more parameters (ε2 and ε3) from the whole ε-spectrum have to be estimated. Setting ε0 Z ε1 Z 1 and εk Z 0, k R 4, and ε2 Z α, ε3 Z β, results in the three-parameter special case of the Fucks GPD: pi Z P (X Z i) 3
Table 11a.4: Discrepancy coefficient C as a result of fitting the 1-displaced (two-parameter) DaceyPoisson distribution to different languages English C K d 1.3890
German Esperanto Arabic Greek K 1.1751
0.0019 0.9511
Japanese Russian Latin C K d 1.2319
K 1.1591
0.0149 0.8704
0.0077 0.5964
K 1.2179
Turkish 0.0021 0.8015
As can be seen from Table 11a.4, in some cases, the results are slightly better than those obtained from fitting the 1-displaced Poisson distribution (cf. Table 11a.2). Again, the best fit is obtained for Esperanto. The 1-displaced Dacey-Poisson model provides a very good fit for Arabic, in contrast to the 1-displaced Poisson model. In some cases, however, no valid results can be obtained; this is due to the fact that the estimate αˆ Z Ox¯ K 1 K m2 of α is not defined if x¯ K 1 % m2. In order to arrive at an explanation of this problem, we refer again to Grotjahn’s work, analyzing the theoretical scope of Fucks’ two-parameter model. Let us, in analogy to the procedure above, discuss the theoretical dispersion quotient δ for Fucks’ two-parameter distribution (29). Since in this case, Var (X) Z µ K 1 K ε 22 and E (X) Z µ, it turns out that δ % 1. This means that the two-parameter model is likely to be adequate as a theoretical model for empirical samples with d % 1. Now, once again checking the dispersion quotient d for the specific languages (cf. Table 11a.4), it becomes clear, why the results for the two-parameter model are appropriate only in case
Z eK(µK1KαKβ) ∑ (εk K εkC1) · kZ1
(µ K 1 K α K β)iKk . · (i K k)!
(30)
Replacing λ Z µ K 1K α K β, the probability function has the following form: p1 Z eKλ · (1 K α) p2 Z eKλ · [(1 K α) · λ C (α K β)]
[
pi Z eKλ (1 K α) C (α K β)
λiK1 (i K 1)!
λiK2 (i K 1)!
Cβ
C λiK3 (i K 3)!
]
,
i R 3. (31) In the next step, α and β have to be estimated; in order to do so, we can use the second and third theoretical central moment of the Fucks GPD; according to (15), we thus obtain equation (32) µ2 Z µ K (1 C α C β)2 C 2 (α C 2β) Z µ K 1 K (α C β)2 C 2β µ3 Z µ C 2 (1 C α C β)3 K 3 (1 C α C β)2 K K 6 (α C β) (α C 2β) C 6β. (32) Simplifying the system of equations (32) with αC Z α C β, we get the following formula: µ2 Z µ K 1 K α2C C 2β µ3 Z µ C 2 (1 C αC)3 K 3 (1 C αC)2 K K 6αC (αC C β) C 6β 3 2 Z µ K 1C2αC K3αC K6αCβC6β.
(33)
The solution of the 2 ! 2 system (33) is a cubic equation with regard to parameter αC:
167
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
α3C K 3αC (µ K 1 K µ2) C µ3 K K 3µ2 C 2µ K 2 Z 0.
(34)
In other words: substituting the theoretical moments by the empirical ones and setting a Z αˆ C, we get a3 K 3a (x¯ K 1 K m2) C m3 K K 3m2 C 2x¯ K 2 Z 0.
(35)
As a result of this equation, three solutions are obtained, not all of which are necessarily real ones. For each real solution a (possibly ai, i Z 1, 2, 3), the values for ε2 Z α and ε3 Z β have to be estimated; this can easily be done by computer programs. Before further analyzing this estimation, let us remind that there are two important conditions: (a) ε2 Z α % 1 and ε3 Z β % 1, (b) ε2 Z α R β Z ε3. With these two conditions, we can now analyze the data presented in Table 11a.1, this time fitting Fucks’ three-parameter model. The results are listed in Table 11a.5; results not satisfying the two conditions above, are marked as :.
Relating these results to the d values of the individual languages (cf. Table 11a.3), one can also see that the three-parameter model may be an appropriate model for empirical distributions, in which d O 1 (what was a crucial problem for the two models described above). Thus, in the Russian sample, for example, where d Z 1.1590, the discrepancy coefficient is C Z 0.00054. However, as the results for the German and Japanese data (with d Z 1.175 and d Z 1.2319, respectively) show, d does not seem to play the decisive role in case of the three-parameter model. Obviously, there seem to be other limitations responsible for the possible inadequacy of this model. In fact, in each of these examples where there is no solution for Fucks’ three-parameter distribution, condition ε2 Z α R β Z ε3 is not fulfilled. Using the fact that a Z αˆ C βˆ implies aˆ Z a K βˆ , as well as m2 Z x¯ K 1 Ka2 C 2βˆ a2 C m2 K x¯ C 1 , condition implies βˆ Z 2 ˆ αˆ R β can be written as: 2a K a2 K m2 C x¯ K 1 2
Table 11a.5: Discrepancy coefficient C as a result of fitting Fucks’ three-parameter Poisson distribution to different languages English C : εˆ 2 K εˆ 3 K
German Esperanto Arabic Greek : K K
0.00004 0.3933 0.0995
Japanese Russian Latin C : εˆ 2 K εˆ 3 K
0.0005 0.2083 0.1686
0.0003 0.5728 0.2416
0.0021 : 0.5463 K K0.1402 K Turkish 0.0023 0.6164 0.1452
It can be observed that, quite reasonably, in some cases the results for the three-parameter model are better than those of the two models discussed above (cf. the results represented in Tables 11a.2 and 11a.4). As to the result for Arabic, it should be noted that the value for εˆ 3 is negative; this is due to the fact that we confine ourselves to Fucks’s conditions (a)K(c) outlined above (cf. Sec. 2). The introduction of the additional condition, 0 !εk !1, k Z 2, 3, results in another solution which is slightly worse, with εˆ 2 Z 0.7174, εˆ 3 Z 0.1805, C Z 0.0058. It can also be seen that there are no solutions for four of the languages, and it seems worth while trying to find an explanation for this finding.
R
R
a2 C m2 K x¯ C 1 2
.
(36)
We thus define the difference M Z x¯ K m2, i. e. the difference between the mean of the empirical distribution (x¯) and its variance (m2). As a result, equation (36) can be simplified to 2a K a2 C M K 1 R a2 K M C 1, Likewise, it can be written as: a2 K a C (KM C 1) % 0. As a consequence, one obtains the following two conditions: (a) The sum a Z εˆ 2 C εˆ 3 Z αˆ C βˆ must be in a particular interval for each of three possible solutions of a: ai 2
[
]
1 K O4M K 3 1 C O4M K 3 , 2 2 i Z 1, 2, 3.
Thus, there are two interval limits ai1 and ai2: ai1 Z
1 K O4M K 3 2
and ai2 Z
1 C O4M K 3 2
.
168
I. Allgemeines / General
Table 11a.6: Violations of the conditions for Fucks’ three-parameter model C εˆ 2 εˆ 3 a Z εˆ 2 C εˆ 3 ai1 ai2 ai1 ! a ! ai2
English
German
: K K
: K K
Esperanto
Arabic
Greek
!0.01 0.3933 0.0995
!0.01 0.5463 K0.1402
: K K
K0.0882 0.1968 0.8032 K
K0.1037 0.1270 0.8730 K
0.4929 K0.0421 1.0421 #
0.4061 K0.3338 1.3338 #
0.2799 0.4108 0.5892 K
x¯ m2 M Z x¯ K m2 M R 0.75
1.4064 0.5645 0.8420 #
1.6333 0.7442 0.8891 #
1.8971 0.8532 1.0438 #
2.1032 0.6579 1.4453 #
2.1106 1.3526 0.7580 #
C εˆ 2 εˆ 3
: K K
Japanese
a Z εˆ 2 C εˆ 3 ai1 ai1 ai1 ! a ! ai2 x¯ m2 M Z x¯ K m2 M R 0.75
Russian
Latin
Turkish
!0.01 0.2083 0.1686
!0.01 0.5728 0.2416
!0.01 0.6164 0.1452
K0.1798 ⺓ ⺓ K
0.3769 0.2659 0.7341 #
0.8144 K0.1558 1.1558 #
0.7616 K0.2346 1.2346 #
2.1325 1.3952 0.7374 K
2.2268 1.4220 0.8048 #
2.3894 1.2093 1.1800 #
2.4588 1.1692 1.2896 #
(b) In order to be a 2 ⺢, the root 4M K 3 must be positive, i. e. 4M K 3 R 0; therefore, M Z x¯ K m2 R 0.75. Inspecting the results in Table 11a.6, it can clearly be seen why, in four of the nine cases, the results are not satisfying: there are a number of violations, which are responsible for the failure of Fucks’ three-parameter model. These violations can be caused by two facts: (a) As soon as M ! 0.75, the definition of the interval limits of ai1 and ai2 involves a negative root K this is the case with the Japanese data, for example; (b) Even if the first condition is fulfilled with M R 0.75, fitting Fucks’ threeparameter model may fail, if a ! ai1 K this is the case for English, German, and Greek K or if a O ai2. The three-parameter Fucks’ model thus is adequate only for particular types of empirical distributions, and it can not serve as an overall model for language, not even for languages which form their words from syllables, as Fucks himself claimed. However, some of the problems faced might have their foundation in related issues.
As was mentioned above, one possible explanation might be the heterogeneity of the data material, inherent in any linguistic corpus; another reason might be motivated by the specific manner of estimating the parameters, suggested by Fucks K and this, in turn, might be the cause why some authors, though generally following Fucks’ line of thinking, tried to find alternative ways to estimate the parameters of the Fucks GPD.
3.
A generalization of the Fucks GPD (Fucks-Gačečiladze Distribution)
As to the reception of Fucks’ ideas, it is strange enough that they were relatively soon well-known among scholars from Eastern European and the former Soviet Union. Quite early, for example, three Georgian scholars, G. N. Cercvadze, G. B. Čikoidze, and T. G. Gačečiladze (1959), applied Fucks’ ideas to Georgian linguistic material, mainly concentrating on phoneme frequencies and word length frequencies. Their study, which was translated into German in 1962, was originally inspired by the Russian translation of Fucks’ English-written article “Mathemat-
169
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
ical Theory of Word Formation” (Fucks 1956d). In fact, Cercvadze, Čikoidze, and Gačečiladze (1959) based their analyses on Fucks’s generalization of the Poisson distribution. These authors, in turn, once more generalized Fucks’ model. This additional generalization is not explicitly discussed in the early 1959 paper; rather, these authors’ extension is represented in subsequent papers K cf. Gačečiladze/Cercvadze/Cˇikoidze (1961); Bokučava/Gačečiladze (1965), Bokucˇava et al. (1965), and Gačečiladze/Cilosani (1971). Basically, this extension contains an additional factor (φk), which, in turn, depends on three parameters: (a) the sum of all εk Z A (termed ε# by Fucks), (b) the mean of the sample (µ), and (c) the relevant class i. As a result, the individual weights of the Fucks GPD, defined as (εk K εkC1), are multiplied by the function φk. n
V (i; p, q) Z ∑ (εk K εkC1)$ kZ0
Unfortunately, Gačečiladze/Cilosani (1971, 114) do not exactly explain the process by which φk may be theoretically derived; they only present the final formula (39). In the earlier papers mentioned above (cf. Gačečiladze/Cercvadze/Čikoidze 1961, 5; Bokučava/Gačečiladze 1965, 174), some of the relevant ideas are presented, but not the exact procedure how to arrive at formula (39). The same lack of information characterizes subsequent reports on the Georgians’ work as, e. g., by Piotrovskij/Bektaev/Piotrovskaja (1977, 195). These Russian scholars, too, who term formula (39) the “Fucks-Gacečiladze distribution”, give no derivation of φk. Basically, the Gačečiladze generalization, resulting in the Fucks-Gačečiladze distribution (39), is based on the assumption that the process of text generation is a stochastic process; elaborating this assumption, Gačečiladze/Cercvadze/Čikoidze (1961, 5) arrive at the following formula, representing a sum of weighted binomial probabilities:
( )
n K k iKk iKk p q [1 K p C p (1 K q)]nKi. iKk
(37)
Here, the difference (εk K εkC1) represents the statistical weight of the system’s status before the beginning of the distribution process. If p 2 [0, 1], equation (37) takes the following form: n
P (i; q) Z ∑ (εk K εkC1)$ kZ0 n
Z ∑ (εk K εkC1)$ kZ0
( )∫ ( )∫ nKk iKk
nKk iKk
1
piKk qiKk [1 K p C p (1 K q)]nKi dp
0 1
(p $ q)iKk (1 K p q)nKi dp.
(38)
0
For q / 0, n / N, as the limit of (38), we obtain the generalized Fucks-Gačečiladze distribution (39): N (µ K A)iKk pi Z P (X Z i) Z eK(µKA) ∑ (εk K εkC1) $ φk (A, µ, i) (39) (i K k)! kZ0 with φk (A, µ, i) Z
1
C1
∫ (t C 1)
iKk K(µKA) $ t
2 K1
e
dt.
Here, µ denotes the mean word length: n
µ Z ∑ i P (X Z i)
(
iZ0
q Z 2
nK1
)
nK1
n K ∑ εk C ∑ εk kZ1
kZ1
In the next step, we want to represent formula (39) similarly as formula (2); denoting λ Z (µ K A), we thus obtain: N
λiKk
kZ0
(i K k)!
pi Z eKλ ∑ (εk K εkC1)
with A being defined as N
A Z ∑ εk !C N (the series converges). kZ1
φk (λ , i) Z
1
φk (λ, i)
C1
∫ (t C 1)
2 K1
iKk
eKλ $ t dt.
(40)
170
I. Allgemeines / General
Again, in (40) as well as in case of the Fucks GPD (2), the conditions ε0 Z 1 R εk R εkC1, k R 1 are stated. In principle, distribution (40) is the already known Fucks GPD, multiplied, however, by the function φk K cf. formula (2). As to φk, it can be shown that the following recurrent relation holds: φk Z K
2kK1 eKλ
k C $ φkK1. λ
λ
(41)
In order to prove relation (41), it is necessary to re-write function φk in a different form. Therefore denoting i K k Z l, and assuming that in the function φk, z Z (t C 1) λ, we can write: φl Z
1
∫ (t C 1) e
e 2 ∫ ( λ)
1 Z
Kλ $ t
λKz
·
Z
∫
2 λlC1
2kK1 eKλ ZK
z e
Kz
dz.
(42) 1 Z
e
1 Z
λ
· 2 λkC1
eλ
1
C · 2 λkC1
λ
(∫
Z
·
eλ
2 λkC1
∫z
kK1 Kz
e
kK1 Kz
·
eλ
2 λkC1
(∫
eλ 2 · λkC1
e
dz K
)
K (k · zkK1 eKz K zk eKz) dz 1 Z
·
eλ
2 λkC1
2λ
∫z
k Kz
0
e
dz.
()
N
∫
k (2λ)kKs · a s eKa da s 0
}
Γ (k C 1) K
sZ0
k · zkK1 eKz dz K
0
{ k
0
∫
Γ (k C 1) K
K eK2λ ∑
2λ
2λ
{
sZ0
)
0
)
k
0
∫
1
2 · λkC1
dz
Z
kK1 Kz
zk eKzdz K
0
K eK2λ ∑
K (zk eKz)#dz
Z
Z
0
2λ
2λ
N
eλ
)
)
∫
0
0
0
2λ
(∫ (∫
N
z k eKz dz K z k eKz dz
∫
0
e
dz
N
eλ
dz
2λ
∫k·z
e
K eK2λ (a C 2λ)k eKa da
k · zkK1 eKz dz K
k·z
·
k Kz
0
N
2λ
(∫
eλ
2 λkC1
2λ
K (2λ)k · eK2λ 1
·
∫z
2 λkC1
l
k 1 eλ C · · λ 2 λk
λ
k (2λ)kKs as s
2λ
eλ
·
2 λkC1 1
Let us prove (41), transforming the righthand side of the relation (41) and using (42): φk Z K
1
Z
0
2kK1 eKλ
()
k k (2λ)k a 0 C ... C (2λ)0 a k 0 k
sZ0
2λ
eλ
() ∑( ) k
Z
dz λ
0
1
(a C 2λ)k Z
φk Z
l
z
0
Substituting z Z a C 2λ in the transformed form of equation (42), and using the fact that
dt
2 K1 2λ
N
∫
Γ (a) Z z aK1 eKz dz, a O 0.
the following equations hold:
C1
l
Another way to express function φk would imply a recourse to the Γ function, defined as
()
}
k (2λ)kKs Γ (s C 1) . s
(43)
Comparing the two distributions (2) and (40), it can easily be seen that (40) yields the Fucks GPD, for φk / 1. Hence, the Fucks GPD turns out to be a special case of the Fucks-Gačečiladze distribution. Yet, as mentioned above, the Georgian authors only presented their generalization of Fucks’ GPD, without mathematical derivation. Also, they applied this generalized model to specific linguistic data (letter frequencies), but without empirically testing its goodness of fit (cf. Gačečiladze/Cercvadze/ Čikoidze, 1961, Bokučava/Gačečiladze 1965, Gačečiladze/Cilosani 1971). In the next step,
171
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
our aim is to estimate parameters εk which characterize distribution (40). Therefore, it is a tempting step to apply their generalized model and to observe in how far it improves the results obtained for the ordinary Fucks GPD. In a corresponding re-analysis, the value µ will be estimated by the sample mean, and the weight coefficients εk will be determined by the first three initial moments of the empirical distribution. The generating function corresponding to distribution (40) is given as: G (t) Z
1 e2λ (tK1) K 1 · · 2 λ (t K 1) N
·
∑ (εk K εkC1) t k. kZ0
Using the fact that µ(k) Z
∂k G (t) ∂tk
|
tZ1
(44)
,
it is easy to get the factorial moments of the distribution (40). The moments, derived from (44), are functions of µ and {εk}. Now, similarly as in case of the Fucks GPD, we will first determine the factorial moments, and then the initial moments of the FucksGačečiladze distribution. The set of relations (9) implies the following results. The first derivative of G (t) for t Z 1 provides the first factorial moment N
µ(1) Z ∑ (k C λ) (εk K εkC1) Z A C λ Z µ. kZ0
The second derivative of G (t) for t Z 1 provides the second factorial moment: µ(2) Z
1
N
∑ (6kλ C 4λ2 C 3k2 C 3k) · 3 kZ0 · (εk K εkC1)
N 4 Z (2λ K 2) A C λ2 C 2 ∑ kεk 3 kZ0
or, substituting λ Z µ K A, µ(2) Z
N 2 2 µ2 K µA K A2 K 2A C 2 ∑ kεk. 3 3 3 kZ1
4
or, substituting, λ Z µ K A, µ(3) Z 2µ3 K 2µ2A K 2µA2 K 6µA C 2A3 C N
C 6A2 C 5A C (6µ K 6A K 6) ∑ kεk C kZ0
N
C
∑k
3
kZ0
(εk K εkC1).
The only difference as compared to Fucks’s approach thus is the manner how the parameters εk are estimated. As opposed to Fucks, the Georgian authors suggest to estimate εk not with recourse to the central moments, but to the initial moments of the empirical distribution. Obviously, central moments and initial moments can be transformed into each other, i. e., both methods lead to identical parameter estimates. Still, the numerical procedure of estimating is different and shall be demonstrated in detail, here. Gačečiladze/Cilosani (1971, 115) discussed two possibilities to estimate εk: (a) by deriving the theoretical initial moments from the generating function of the Fucks-Gačečiladze distribution (44); (b) by approximately equating the frequencies of the empirical and the theoretical distributions, using the fact that n
∑ pi z 1. iZ0 Arguing that the second way is more convenient to be pursued, since the first includes a system of transcendental equations, Gačečiladze/Cilosani (1971, 116) favored the second option. Since, in our case, we consider only special cases of the generalized Fucks-Gačečiladze distribution, the system is reduced to less complex systems which today can easily solved by help of computer programs. Gačečiladze/Cilosani (1971) did not show how the theoretical initial moments can be derived from the generating function. Therefore, it seems reasonable to recapitulate this step, following the same line of thinking already presented in context of the Fucks GPD (see above, Sec. 2.1.1). As a result, the initial moments of the Fucks-Gačečiladze distribution (40), are given as follows, with N
Likewise, the third derivative of G (t) for t Z 1 provides the third factorial moment: N
µ(3) Z ∑ (K3kλ K 3k2 C 3k2λ C 4λ2k C kZ0 3
3
C 2λ C 2k C k ) (εk K εkC1)
∑ εk Z A, kZ1 (a) The first initial moment: µ#1 Z µ(1) Z
∂G (t) ∂t
|
tZ1
Z µ,
(45)
172
I. Allgemeines / General
Let ε0 Z 1, ε1 s 0, ε2 s 0 and εk Z 0 for k R 3. Replacing ε1 with α, and ε2 with β, and denoting a Z α C β, it is possible to get the following 2 ! 2 equations system, from equations (46) and (47):
(b) The second initial moment µ#2 Z µ(1) C µ(2) ∂2G (t) Z ∂t 4 Z 3
|
∂G (t)
tZ1
2
C
∂t 2
2
|
tZ1
(a) µ#2 Z
µ K µA C µ K A K 3 3 2
2
N
K 2A C 2 ∑ kεk ,
(46)
kZ1
(c) The third initial moment ∂3G (t) µ#3 Z µ(3) C 3µ(2) C µ(1) Z C tZ1 ∂t 3 C3
∂2G (t) ∂t 2
|
∂G (t)
tZ1
C
∂t
|
tZ1
p1 Z eKλ [(1 K α) λ φ0 (1) C (α K β) φ1 (1)] pi Z eKλ [(1 K α) (47)
kZ1
The empirical initial moments are defined as N
∑i i
· fi.
The initial moments are necessary for the establishment of the equation system, which, in turn, is needed for the estimation of the parameters εk of the distribution (40). Thus, using the relations between factorial and central moments (6), the second and third central moments of the Fucks-Gačečiladze distribution are given as µ2 Z
C (α K β)
N 2 2 µ2 K µA K A2 K 2A C 2 ∑ kεk C µ 3 3 3 kZ1
Cβ
N
kZ1
kZ1
(48)
Given these definitions, we can now, in the next step, direct our attention on the threeparameter special case of the Fucks-Gačečiladze distribution. 3.1. A three-parameter special case of the Fucks-Gačečiladze Distribution In case of the Fucks-Gačečiladze three-parameter model, the three parameter µ, ε2 and ε3 have to be estimated. The estimation depends on the fact whether a class of 0-syllable words has to be taken into consideration, or not.
φ0 (i) C φ1 (i) C
(i K 1)!
λiK2 ! (i K 2)!
φ2 (i)]. i R 2
(49)
2 4 2 2 µ K µa C µ K a2 C 3 3 3 C 2 (α C 2β)
(a) µ#2 Z
(b) µ#3 Z 2µ3 K 2µ2a C 4µ2 K 2µa2 C µ K K 8µa C 2a3 C 4a2 C (6µ K 6a) · · (a C α C 2β)C6α C 18β.
µ3 Z µ2 C µ K 2µA C 2A3 C 4A2 K A K N
i!
Now, setting εo Z ε1 Z 1, εk Z 0 for k R 4 and ε2 s 0, ε3 s 0, results in the 1-displaced three-parameter special case of the FucksGačečiladze distribution. Furthermore replacing ε2 with α, and ε3 with β, and denoting a Z 1 C α C β, we obtain the following system of equations:
1
K 6A ∑ kεk C∑ k3 (εk K εkC1).
λi
λiK1
N
kZ1
m#r Z
K 8µa C 2a3 C 4a2 C C (6µ K 6a) (a C β) C 6β.
p0 Z eKλ (1 K α) φ0 (0)
C (6µ K 6A) ∑ kεk C ∑ k3 (εk K εkC1).
r
(b) µ#3 Z 2µ3 K 2µ2a C 4µ2 K 2µa2 C µ K
Subsequent to the solution for α and β, we thus have the following distribution:
K 8µA C 2A3 C 4A2 K A C
1
2 2 µ2 K µa C µ K a2 C 2β 3 3 3
|
Z 2µ3 K 2µ2A C 4µ2 K 2µA2 C µ K N
4
After the solution for α and β, we thus have the following probabilities: p1 Z eKλ (1 K α) φ1 (1) p2 Z eKλ [(1 K α) λφ1 (2) C (α K β) φ2 (2)]
[
pi Z eKλ (1 K α) C (α K β) λiK3
λiK1 (i K 1)! λiK2
(i K 2)!
φ1 (i) C
φ2 (i) C
]
φ3 (i) , i R 3 (i K 3)! with λ Z µ K 1K α K β.
Cβ
(50)
173
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
Table 11a.7: Discrepancy coefficient C as a result of fitting 1-displaced Fucks-Gačečiladze (three-parameter) distribution to different languages English
German
Esperanto
Arabic
Greek
C (3-par.) εˆ 2 εˆ 3
: K K
: K K
0.0007 0.4490 0.1261
0.0088 0.7251 0.1986
0.0014 K0.0731 K0.1508
Japanese
Russian
Latin
Turkish
C (3-par.) εˆ 2 εˆ 3
: K K
0.0028 0.3821 0.1885
0.0035 0.6230 0.3050
0.0087 0.6870 0.2606
It is interesting to see, now, which results are obtained with regard to the Fucks data repeatedly analyzed above. Table 11a.7 represents the values of the discrepancy coefficient C as a result of the relevant re-analysis. As can be seen from Table 11a.7, an acceptable result is indeed obtained for Greek, too, what was not the case when fitting the three-parameter Fucks distribution (cf. Table 11a.5). In fact, The Fucks-Gačečiladze distribution provides very good fits in six of the nine samples (C % 0.01). Table 11a.7 also shows that the values for εˆ 2 and εˆ 3 are negative in case of the Greek sample. Again, this is due to the fact that we confine ourselves to Fucks’s conditions (a)K(c) outlined above (cf. Sec. 2). The introduction of the additional condition, 0 ! εk ! 1, k Z 2, 3, results in another solution which is slightly worse, with εˆ 2 Z 0.3013, εˆ 3 Z 0.1511, and C Z 0.0144. Still, there are no solutions for the English, German and Japanese data. The reason for this failure might be the fact that, for φk / 1, the FucksGačečiladze distribution (40) converges to the Fucks GPD, and under this condition provides identical results. As opposed to this, the fact that the Georgian authors base their estimations on the initial moments, rather than on the central moments, plays no role, because central moments and initial moments can be transformed into each other. Thus, the results can be expected to be identical in either case. This will be shown for our data. The first three initial moments of Fucks distribution, which are necessary for the equation system to be established, are given as: µ#1 Z µ N
µ#2 Z µ2 C µ K ε#2 K 2ε# C 2 ∑ kεk kZ1
µ#3 Z µ3 C 3µ2 C µ C 2ε#3 C 3ε#2 K ε# K N
K 3µε#2 K 6µε# C ∑ k3 (εk K εkC1) C kZ0
N
C 6 (µ K ε#) ∑ kεk.
(51)
kZ1
Now, replacing ε2 with α, and ε3 with β, and denoting a Z 1 C α C β, we obtain the following system of equations: (a) µ#2 Z µ2 C µ K a2 K 2a C 2 (a C α C 2β) (b) µ#3 Z µ3 C 3µ2 C µ C 2a3 C C 3 (1 K µ) a2 C 6α C 18β K K 6µa C 6 (µ K a) (a C α C 2β). After the solution for α and β, we thus have the following probabilities: p1 Z eKλ · (1 K α) p2 Z eKλ · [(1 K α) · λ C (α K β)]
[
pi Z eKλ (1 K α) C (α K β)
λiK1 (i K 1)! λiK2
(i K 2)!
C
Cβ
λiK3 (i K 3)!
]
,
i R 3 (52) with λZµ K 1 K α K β. Table 11a.8 contains the results with parameter estimations based both on central and initial moments. As can easily be seen, the results are almost identical, as was to be expected. In summary, one can thus state that neither the Fucks-Gačečiladze distribution nor the Fucks GPD, as one of its special cases (for φk / 1), turn out to be adequate as a general standard model, capable to cover all nine data sets presented by Fucks.
174
I. Allgemeines / General Table 11a.8: Fucks’ three-parameter model, with parameter estimation, based on moments Esperanto
Arabic
Russian
Latin
Turkish
0.3933 0.0995 0.00004
0.5463 K0.1402 0.0021
0.2083 0.1686 0.0005
0.5728 0.2416 0.0003
0.6164 0.1452 0.0023
0.3933 0.0994 0.00004
0.5464 K0.1402 0.0021
0.2083 0.1685 0.0005
0.5728 0.2415 0.0004
0.6164 0.1451 0.0023
m2 , m 3 εˆ 2 εˆ 3 C m#2, m#3 εˆ 2 εˆ 3 C
The Fucks-Gačečiladze distribution seems to be a better model only for some special data compared to three-parameter Fucks distribution, since it provides good fits for Greek, too (cf. Table 11a.7). As to the estimation of the parameters, there are no differences as to the method of estimation (be it based on the initial or central moments).
4.
The Fucks GPD: parameter estimation based on µ, µ2, and first-class frequency (Bartkowiakowa/Gleichgewicht)
pi Z (1 K ε2) · giK1 C (ε2 K ε3) · giK2 C (55) C ε3 · giK3 , i R 3 with λ Z µ K (1 C ε2 Cε3). As to the estimation of ε2 and ε3, the authors did not set up an equation system on the basis of the second and third central moments (µ2 and µ3), as did Fucks, thus arriving at a cubic equation. Rather, they first defined the portion of one-syllable words (p1), and then modelled the whole distribution on that proportion. Thus, by way of a logarithmic transformation of p1 Z (1 K ε2) · g0 in formula (55), one obtains the following sequence of transformations:
An alternative to estimate the two parameters ε2 and ε3 of the Fucks’ three-parameter distribution was suggested by two Polish authors (Bartkowiakowa/Gleichgewicht 1964; 1965). Based on the Poisson distribution, given as gk Z
λk k!
ln ln ln
eKλ, k Z 0, 1, 2, ...
(53)
and referring to Fucks’ GPD (2), the authors re-formulated the latter as N
λiKk
kZ0
(i K k)!
pi Z ∑ (εk K εkC1) eKλ
Z ∑ (εk K εkC1) · giKk.
(54)
kZ0
Determining ε0 Z ε1 Z 1, and εk Z 0 for k O 3, the two parameters ε2 Z ε3 s 0 remain to be estimated on basis of the empirical distribution. Based on these assumptions, the following special cases are obtained for (54): p1 Z (1 K ε2) · g0 p2 Z (1 K ε2) · g1 C (ε2 K ε3) · g0
(1 K ε2) p1 (1 K ε2) p1 (1 K ε2)
Z ln g0 ZKλ Z K [µ K (1 C ε2 C ε3)].
Referring to the empirical distribution, a first equation for an equation system to be solved (see below) can thus be gained from the first probability p1 of the empirical distribution: ln
N
p1
pˆ1 (1 K εˆ 2)
Z K [x¯ K (1 C εˆ 2 C εˆ 3)].
(56)
The second equation for this system is then gained from the variance of the empirical distribution. Thus one gets µ2 Z µ K (1 C ε2 C ε3)2 C 2 · (ε2 C 2 · ε3) resulting in the second equation for the equation system to be established: m2 Z x¯ K (1 C εˆ 2 C εˆ 3)2 C C 2 · (εˆ 2 C 2εˆ 3).
(57)
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
With the two equations (56) and (57), we thus have the following system of equations, adequate to arrive at a solution for ε2 and ε3: (a) ln
pˆ1 (1 K εˆ 2)
175
selected passages, only the dialogical sequences of a given text, etc.). The results of the analysis indeed proved their approach to be successful. As can be seen from Table 11a.9, the discrepancy coefficient is C ! 0.01 in all cases; furthermore, in six of the nine samples, the result is clearly better as compared to Fucks’ original estimation. For the sake of comparison, Table 11a.9 contains both the dispersion quotient d and the difference M Z x¯ K m2 between the mean of the empirical distribution and its variance for each of the samples, in addition to the results for the (1-displaced) Poisson and the (1-displaced) Dacey-Poisson distributions, which were calculated in a re-analysis of the raw data provided by the Polish authors. A closer look at these data shows that the Polish text samples are relative homogeneous: for all texts, the dispersion quotient is in the interval 0.88 % d % 1.04, and 0.95 % M % 1.09. This may explain, why the theoretical model turns out to be adequate for all samples. Therefore, the Polish authors’ approach will also be tested with Fucks’ linguistic data repeatedly analyzed above. Before this additional re-analysis, it seems worthwhile testing the performance of the χ 2 minimization method suggested by Bartkowiakowa/Gleichgewicht (1964). The question is if there is an additional improve-
Z K [x¯ K (1 C εˆ 2 C εˆ 3)]
(b) m2 K x¯ Z K (1 C εˆ 2 C εˆ 3)2 C C 2 (εˆ 2 C 2εˆ 3) Bartkowiakowa/Gleichgewicht (1964) did not theoretically discuss the corresponding estimation procedure of ε2 and ε3 in detail. Rather, they preferred to present the results of empirical studies, based on selected Polish literary texts, which served as a test of their approach. In addition to the difference as to the estimation of ε2 and ε3, the two Polish authors argued in favor of a statistical test in order to evaluate the goodness of fit of the theoretical distribution, comparing it with the empirical distribution on the basis of the χ2test; in doing so, they suggest to repeat the process of estimation as long as a minimal value for the χ2 function is obtained (the socalled χ2 minimization method). Of course, this method is much more expensive as compared to the other approach, based on the relative frequency pˆ1 and the two moments x¯ and m2. The analyses included nine Polish literary texts, or specific segments thereof (e. g., only
Table 11a.9: Fucks’ three-parameter model, with parameter estimation (Polish data) 1
2
3
4
5
x¯ m2 d M
1.81 0.76 0.93 1.05
1.82 0.73 0.88 1.09
1.96 0.87 0.91 1.09
1.93 0.94 1.00 0.99
2.07 1.07 0.99 1.00
C values: Poisson Dacey-Poisson m2 , m 3 pˆ1, m22
0.00420 0.00250 0.00240 0.00197
0.00540 0.00060 0.00017 0.00043
0.00370 0.00200 0.00226 0.00260
0.00170 : 0.00125 0.00194
0.00520 0.00531 0.00085 0.00032
6
7
8
9
x¯ m2 d M
2.12 1.10 0.98 1.02
2.05 0.98 0.94 1.07
2.18 1.21 1.03 0.97
2.16 1.21 1.04 0.95
C values: Poisson Dacey-Poisson m2 , m 3 pˆ1, m2
0.00810 0.00862 0.00084 0.00030
0.00220 0.00145 0.00120 0.00077
0.01360 : 0.00344 0.00216
0.00940 : 0.00383 0.00271
176
I. Allgemeines / General
120
60
80
40
40 0 0.1
20 0.2
0.12
0.14 epsilon3 0.16
0.18
0.2
0.5
0.45
0.25 0.3 0.35 0.4 epsilon2
0.01
0.02
0.03 epsilon3 0.04
(a) “Anielka (without dialogues)”
0.05
0.06
0.4
0.35
0.1 0.15 0.2 0.25 0.3 epsilon2
˙ (b) “ Zywo t”
Fig. 11a.1: χ 2 function for two Polish texts
ment of the results trying to minimize χ 2 subsequent to the described estimation of the parameters ε2 and ε3. By way of an example, let us test the productivity of this additional procedure, analyzing two Polish texts by B. Prus and M. Rej, taking the relevant data from Bartkowiakowa/Gleichgewicht’s article. Estimating the parameters ε2 and ε3 for “Anielka” (without dialogues) by B. Prus, and minimizing the χ 2 function, the Polish authors obtained the following estimates: εˆ 2 Z 0.390, εˆ 3 Z 0.145 and χ 2 Z 5.041. It seems that we are concerned here with an error: taking the estimated values for ε2 and ε3 suggested by Polish authors, and calculating once again the expected theoretical distribution, it turns out that there is a mistake in the Polish calculation, since for these ε values, a much better value of χ 2 Z 3.534 is obtained. Our further re-analysis of the Polish data, which is based on more exact computer methods as compared to the methods available at the times of the Polish study, includes two steps: (a) In a first step, we look for a numerical solution of the equation system (56) and (57), thus obtaining estimators for ε2 and ε3. (b) In a second step, we plot the χ2 function, since we are interested to know whether the estimators obtained in the first step differ from the minimum values of the χ2 function, or not. As to the numerical solution, solving the system of equations (56) and (57), we obtain a value of χ 2 Z 1.5696 with εˆ 2 Z 0.4378 and εˆ 3 Z 0.1784. As minimal value of χ 2 one obtains χ 2 z 1. Figure 1(a) exhibits the plot
of the χ 2 function for the above-mentioned text. A closer look at it shows that the values obtained for ε2 and ε3 by way of the numerical re-analysis, are near to the values where the minimum of χ 2 is attained. The same observation can be made with regard to M. Rej’s text “Z˙ywot”. As a result of our re-analysis, a value of χ 2 Z 7.880 is obtained (with εˆ 2 Z 0.3564 and εˆ 3 Z 0.0599). As compared to this, the Polish authors arrived at χ 2 Z 7.934 (for εˆ 2 Z 0.345 and εˆ 3 Z 0.054). Our re-analysis shows that the minimum is smaller than χ 2 Z 7.88. Thus, again the ordinary estimation method yields good results. Figure 1(b) illustrates the relevant plot of the χ 2 function. Summarizingly, one can say that, at least as far as these two exemplary texts are concerned, the best results of estimation are already reached by solving equation system (56) and (57), without any remarkable improvement by way of the χ 2 minimization. With this in mind, it will be interesting to see in how far the estimation procedure suggested by Bartkowiakowa/Gleichgewicht (1964) is able to improve the results for the nine different languages analyzed by Fucks (cf. Table 11a.1). Table 11a.10 represents the results of the corresponding re-analysis. Table 11a.10 compares the results obtained by two different ways of parameter estimation: the original procedure as suggested by Fucks and the modification suggested by the Polish authors. The comparison is done only for data sets, appropriate for the application of Fucks’ three-parameter distribution model. As a result, we can conclude that the procedure to estimate the two parameters ε2 and ε3, as suggested by
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
177
Table 11a.10: Fucks’ three-parameter model, with parameter estimation Esperanto
Arabic
Russian
Latin
Turkish
0.3933 0.0995 0.00004
0.5463 K0.1402 0.0021
0.2083 0.1686 0.0005
0.5728 0.2416 0.0003
0.6164 0.1452 0.0023
0.3893 0.0957 0.00001
0.7148 0.1599 0.0042
0.2098 0.1695 0.0005
0.5744 0.2490 0.0003
0.6034 0.1090 0.0018
m2 , m 3 εˆ 2 εˆ 3 C pˆ1, m2 εˆ 2 εˆ 3 C
Bartkowiakowa/Gleichgewicht (1964), results in better estimates, at least for the data analyzed. A possible interpretation is the better aptness of the modified approach which might have its foundation in the fact that this estimation procedure is particularly adequate when the frequency in the first class is relatively large; thus, more weight is given to this large frequency value of the first class, as compared to the the third moment which is more affected by the frequencies of the higher classes.
5.
Summary
In the history of word length studies, an important step was made by German physicist Wilhelm Fucks: his theoretical model, often termed as “the Fucks model”, turned out to be the most important model discussed from the 1950s until the late 1970s. From that time on until today, Fucks is broadly credited for having promoted the 1-displaced Poisson distribution to be an adequate model for word length frequencies, at least for all those languages, which form their words from syllables. At a closer mathematical inspection of Fucks’ works, it turns out, however, that the 1-displaced Poisson distribution is only one special case of a broader generalization of the Poisson distribution suggested by Fucks; this model, a specific sum of weighted Poisson probabilities, is termed the Fucks Generalized Poisson Distribution (GPD) throughout this paper. In addition to presenting this model, in detail, different methods to estimate its parameters are discussed, which have been suggested not only by Fucks himself, but by researchers following him. Also an even more far-reaching generalization of the
Fucks GPD, as developed by Georgian scholars in the early 1960s, is discussed, on the background of which Fucks’ GPD, in turn, appears to be a special case of one further generalization, namely, the so called Fucks-Gačečiladze distribution. By way of a number of re-analyses, not only the Fucks GPD, but also some of its special cases, as well as the above-mentioned Georgian generalization are fitted to data from various languages, presented by Fucks himself (cf. Fucks 1956a). As a result of these analyses, a number of conclusions can be drawn. Ultimately, these conclusions are related to the summarizing Tables 11a.11 and 11a.12: whereas Table 11a.11 contains four relevant characteristics of the nine language samples, Table 11a.12 summarizes the results of fitting the discussed distributions. Table 11a.11: Mean word length, variance, d value and difference M for nine languages x¯ m2 d M x¯ m2 d M
English
German Esperanto Arabic Greek
1.4064 0.5645 1.3890 0.8420
1.6333 0.7442 1.1751 0.8891
1.8971 0.8532 0.9511 1.0438
2.1032 0.6579 0.5964 1.4453
Japanese Russian Latin
Turkish
2.1325 1.3952 1.2319 0.7374
2.4588 1.1692 0.8015 1.2896
2.2268 1.4220 1.1591 0.8048
2.3894 1.2093 0.8704 1.1800
2.1106 1.3526 1.2179 0.7580
1. 1. The 1-displaced Poisson distribution, as one-parameter special case of the Fucks GPD, cannot be accepted as a general standard model for word length frequency distributions: specifically, it can be an adequate model only, as long as the dispersion quotient d Z m2 / (x¯ K 1) z 1 in an empirical sample.
178
I. Allgemeines / General
2. The first special case of the Fucks GPD, the two-parameter (1-displaced) DaceyPoisson distribution, is an adequate theoretical model only for a specific type of empirical distributions, too: this model is likely to be an adequate theoretical model for empirical samples with d ! 1. Therefore, of the nine languages tested, only four (Esperanto, Arabic, Latin, and Turkish) meeting this condition can be successfully modelled (cf. Table 11a.12). 3. The three-parameter special case of Fucks’ GPD provides clearly better results as compared to those of the one-parameter and two-parameter special cases; and can be an appropriate model also for empirical distributions in which d O 1. However, valid estimators exist only if both M Z x¯ K m2 % 0.75 and parameter a Z εˆ 2 C εˆ 3 fulfill some additional conditions. Thus, the first restriction rules out the Japanese sample, and the second restriction is violated for the English, German and Greek data. A very good fit is obtained for those four texts with d ! 1, and for the Russian sample with d z 1.16. The three-parameter Fucks model thus too, is adequate only for particular types of empirical distributions, and it cannot serve as an overall model for language, even if restricted to syllabic languages. 4. The generalization of the three-parameter GPD by Gačečiladze et al. additionally delivers valid estimations and appropriate models for the Greek (d Z 1.1218) sample, but it too, is not able to fit the English, German and Japanese data. 5. The three-parameter GPD, combined with the alternative estimation method based on x¯, m2 and the first-class fre-
quency pˆ1 provides a slightly better fit than the method using the first three moments x¯, m2 and m3 and is also comparable with the much more expensive χ 2 minimization method. The results obtained for the Fucks-Gačečiladze distribution were slightly better as compared to those for the three-parameter Fucks GPD. Figure 11a.2 illustrates the results of fitting of the discussed estimation methods for the two- and three-parameter modifications. Generally speaking, from a contemporary point of view, there are a number of theoretical and practical drawbacks of the Fucks GPD, including its modifications and generalizations: (a) There is no a priori information how many components of the ε-spectrum are necessary for a linguistic application of the Fucks GPD; furthermore, all available suggestions as to a linguistic interpretation are nothing but heterogeneous ad hoc assumptions; (b) the support of a word length frequency distribution cannot be infinite, notwithstanding the fact that this circumstance tends to be ignored in practical applications; Therefore, our present research on word length frequencies focuses not only on an empirical test of the Fucks GPD, including its modifications and generalizations discussed in this chapter (cf. Grzybek/Stadlober 2005a), but also on further generalizations and modifications of the Poisson distribution (cf. Grzybek/Stadlober 2005b). One of these lines is along the three-parameter GPD distribution, hereby dropping the unnecessary condition εkC1 % εk as stated by
Table 11a.12: Comparison of fitting nine languages, based on discrepancy coefficient C (acceptable best fits for for each language are in bold face) Discrepancy coefficient values (C) for English German Esperanto Arabic Greek Japanese Russian Latin Turkish
Poisson
Dacey-Poisson
(m2, m3)
(pˆ1, m2)
Fucks-Gačečiladze
0.0903 0.0186 0.0023 0.1071 0.0328 0.0380 0.0208 0.0181 0.0231
: : 0.0019 0.0077 : : : 0.0149 0.0021
: : 0.0000 0.0021 : : 0.0005 0.0003 0.0023
: : 0.0000 0.0042 : : 0.0005 0.0003 0.0018
: : 0.0007 0.0088 0.0014 : 0.0028 0.0035 0.0087
11a. Mathematical aspects and modifications of Fucks Generalized Poisson Distribution (GPD)
179
0,020 Latin Arabic Turkish Esperanto
0,015
0,010
0,005
0,000 Dacey-Poisson
Fucks (3-param.)
Fucks-Gacˇ ecˇ iladze
p1, x, m2
Fig. 11a.2: Comparison of fitting results (C) for the two- and three-parameter models
Fucks. Another line of research in this context concentrates on the generalization of the Poisson distribution as discussed by Consul (1989), and on the Hyperpoisson distribution (cf. Wimmer/Altmann 1999: 281 f.). In any case, we concentrate on concrete individual texts from various languages, rather than on text mixtures (corpora) allegedly describing the abstract norm of a given language. First results show that these generalizations may lead to valid estimations and appropriate fits of a large class of word length distributions with empirical dispersion quotients 0.5 % d % 1.5.
6.
Literature (a selection)
Bartkowiakowa, Anna/Gleichgewicht, Boleslaw (1964), Zastosowanie dwuparametrowych rozkłado´w Fucksa do opisu długości sylabicznej wyrazo´w w ro´z˙nych utworach prozaicznych autoro´w polskich. In: Zastosowania matematyki 7, 345K 352. Bartkowiakowa, A./Gleichgewicht, B. (1965), O rozkładach długos´ci sylabicznej wyrazo´w w ro´z˙nych tekstach. In: Poetyka i matematyka. (ed M. R. Mayenowa). Warszwawa: Państwowy instytut wydawniczy, 164K173. Bokučava, N. V./Gačečiladze, T. G. (1965), Ob odnom metode izučenija statističeskoj struktury pečatnoj informacii. In: Trudy Tbilisskogo gosudarstvennogo universiteta, t. 103, 174K180. Bokučava, N. V./Gačečiladze, T. G./Nikoladze, K. Ja.; Cilosani, T. P. (1965), Zamečanie k matematičeskoj modeli dlja slogoobrazovanija v gruzinskom jazyke. In: Trudy Tbilisskogo gosudarstvennogo universiteta, t. 103, 169K172. Cercvadze, G. N./Čikoidze, G. B./Gačečiladze, T. G. (1959), Primenenie matematičeskoj teorii slovoobrazovanija k gruzinskomu jazyku. In: Soobšcenija akademii nauk Gruzinskoj SSR, t. 22/6, 705K 710.
Cercvadze, G. N./Čikoidze, G. B./Gačečiladze, T. G. (1962), see: Zerzwadse et al. (1962) Consul, Prem C. (1989), Generalized Poisson Distributions. New York/Basel: Dekker. Fucks, Wilhelm (1955a), Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen. Arbeitsgemeinschaft für Forschung des Landes Nordrhein-Westfalen. Köln/Opladen: Westdeutscher Verlag. Fucks, Wilhelm (1955b), Theorie der Wortbildung. In: Mathematisch-Physikalische Semesterberichte zur Pflege des Zusammenhangs von Schule und Universität 4, 195K212. Fucks, Wilhelm (1955c), Eine statistische Verteilung mit Vorbelegung. Anwendung auf mathematische Sprachanalyse. In: Die Naturwissenschaften 421, 10. Fucks, Wilhelm (1956a), Die mathematischen Gesetze der Bildung von Sprachelementen aus ihren Bestandteilen. Nachrichtentechnische Fachberichte, [Z Beiheft zu Nachrichtentechnische Fachzeitschrift] 3, 7K21. Fucks, Wilhelm (1956b), Mathematische Analyse von Werken der Sprache und der Musik. In: Physikalische Blätter 16, 452K459 & 545. Fucks, Wilhelm (1956c), Statistische Verteilungen mit gebundenen Anteilen. In: Zeitschrift für Physik 145, 520K533. Fucks, Wilhelm (1956d), Mathematical theory of word formation. In: Information theory. (ed. C. Cherry). London: Butterworth, 154K170. Fucks, Wilhelm (1957), Matematičeskaja teorija slovoobrazovanija. In: Teorija peredači soobščenij. Moskva: Izdatel’stvo inostrannoj literatury, 221K 247. Gačečiladze, T. G./Cercvadze, G. N./Čikoidze, G. B. (1961), Ob ε-strukture raspredelenija probelov. In: Trudy instituta élektroniki, avtomatiki i telemechaniki 2, 3K15. Gačečiladze, T. G./Cilosani, T. P. (1971), Ob odnom metode izučenija statističeskoj struktury teksta. In: Statistika reči i avtomatičeskij analiz teksta. Leningrad, Nauka: 113K133.
180 Grotjahn, Rüdiger (1982), Ein statistisches Modell für die Verteilung der Wortlänge. In: Zeitschrift für Sprachwissenschaft 1, 44K75. Grzybek, Peter (2005), History and Methodology of Word Length Studies K The State of the Art. In: Contributions to the Science of Language (ed. P. Grzybek). [in print] Grzybek, Peter/Stadlober, Ernst (2005a), The Performance of Fucks’ Generalized Poisson Distribution in the Study of Word Length Frequencies. [in prep.] Grzybek, Peter/Stadlober, Ernst (2005b), The Performance of Generalized Poisson Models in Word Length Frequency Studies. [in prep.] Piotrovskij, Rajmond G./Bektaev, Kaldybay B./ Piotrovskaja, Anna A. (1977), Matematičeskaja
I. Allgemeines / General lingvistika. Leningrad: Nauka. [German trans.: Piotrowski, R. G.; Bektaev, K. B.; Piotrowskaja, A. A.: Mathematische Linguistik. Bochum: Brockmeyer, 1985. [Z Quantitative Linguistics; 27] Wimmer, Gejza/Altmann, Gabriel (1999), Thesaurus of univariate discrete probability distributions. Essen: Stamm. Zerzwadse, G./Tschikoidse, G./Gatschetschiladse, Th. (1962), Die Anwendung der mathematischen Theorie der Wortbildung auf die georgische Sprache. In: Grundlagenstudien aus Kybernetik und Geisteswissenschaft 4, 110K118.
Gordana Antić, Peter Grzybek, Ernst Stadlober, Graz (Austria)
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology 12. Phonemdistribution 1. 2.
4.
Einführung Distribution ohne Berücksichtigung der Frequenz Distribution mit Berücksichtigung der Frequenz Literatur (in Auswahl)
1.
Einführung
3.
Die Beschreibung der phonologischen Struktur einer Sprache besteht aus einer paradigmatischen und einer syntagmatischen Komponente, d. h. aus einer Beschreibung der phonologischen oder distinktiven Merkmale eines jeden Segments, also eines jeden Phonems, und aus einer Beschreibung der Distribution der Segmente, d. h. der Kombinationen, die die Phoneme miteinander eingehen. Dies kann man auch die Analyse der internen und der externen Eigenschaften der Phoneme nennen. Selbstverständlich setzen die vorstehenden Bestimmungen voraus, dass wir uns an solchen sprachwissenschaftlichen Konzeptionen orientieren, die mit einer phonologischen Ebene operieren, einer Ebene also, deren Grundeinheiten die für eine gegebene Sprache feststellbaren Phoneme ausmachen. Freilich ist es „nicht immer leicht zu entscheiden, wo die Syntagmatik aufhört und die Paradigmatik beginnt“ (Birnbaum 1967, 318). So ist es bei einigen Lautklassen schwierig, zu bestimmen, ob wir es mit einem Einzelphonem oder mit einer Phonemverbindung zu tun haben. Als Beispiel hierfür können Sprachen dienen, in denen bei den Konsonanten der Gegensatz Aspiriertheit ~ Nichtaspiriertheit phonologisch relevant ist. Ob wir hier etwa ein aspiriertes Einzelphonem /p‘/ oder eine Phonemfolge /ph/ ansetzen sollen, ist nicht objektiv entscheidbar, sondern hängt von bestimmten Vorstellungen der Linguisten über Symmetrie, Einfachheit der Beschreibung des Phonemsystems usw. ab (vgl. Greenberg 1964, 44). Fast immer wirken distributionelle Gesichtspunkte bei der Aufstellung des Phoneminventars mit, indem beispielsweise Lautgruppen, die sich distributionell so verhalten wie
ansonsten einzelne Laute, eben deshalb oft monophonematisch gewertet werden (vgl. etwa die Interpretation von norw. /sp/, /st/, /sk/ als compound phonemes bei Vogt 1942). Die Erforschung der Phonemdistribution mit Hilfe quantitativer Methoden, wie sie den Gegenstand dieses Kapitels bildet, ist an die Voraussetzung gebunden, dass Probleme der geschilderten Art bereits in der einen oder der anderen Art gelöst sind, d. h., dass das Phoneminventar jeweils festgelegt und bekannt ist. Die Untersuchung beider Bereiche, der Paradigmatik wie auch der Syntagmatik, gehört seit der Entwicklung der Phonologie zu deren Programm. So fordert Trubetzkoy (1939), es müssten „alle jene Regeln, die den Gebrauch der einzelnen Phoneme und ihre Kombinationen irgendwie einschränken, bei der Beschreibung eines phonologischen Systems immer sorgfältig angegeben werden“ (Trubetzkoy 1939, 219). Derartige Regeln führten zu einer von ihm so genannten funktionellen Einteilung der Phoneme. Trubetzkoy denkt auch bereits an den Vergleich der phonologischen Struktur mehrerer Sprachen unter dem Gesichtspunkt der Syntagmatik und deutet damit insgesamt eine im Prinzip auch noch heute gültige Gliederung der Distributionsuntersuchung an. Zum Zwecke des Sprachvergleichs fordert er „eine möglichst einheitliche Methode der Kombinationslehre“ (Trubetzkoy 1939, 225), die folgende Untersuchungsschritte zu berücksichtigen habe: Festsetzung einer Rahmeneinheit, Einteilung der Rahmeneinheiten im Hinblick auf ihre phonologische Struktur, Erforschung der Phonemverbindungen innerhalb der zu unterscheidenden Strukturtypen, wobei Anlaut-, Inlaut- und Auslautstellung jeweils gesondert zu bearbeiten sind. Pro Stellung muss ermittelt werden, welche Phoneme miteinander eine Verbindung eingehen und welche nicht und in welcher Reihenfolge sie sich verbinden. Die Beobachtung, dass sich in keiner bekannten Sprache jedes Phonem mit allen Phonemen des betreffenden Inventars verbindet, welche Rahmeneinheit und welche
182
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Stellung wir auch untersuchen mögen, führt zu der Vermutung, dass in jeder Sprache „die Phonemkombinationen speziellen Gesetzen unterworfen“ (Trubetzkoy 1939, 220) seien, wobei sich die weitere Frage ergibt, „ob nicht wenigstens ein Teil dieser Gesetze für alle Sprachen gilt“ (Trubetzkoy 1939, 220). Mit dieser Frage hat sich bereits B. Trnka (1936) beschäftigt. Nach Trnka gibt es ein allgemeines Gesetz, „wonach innerhalb eines Morphems zwei Glieder eines Korrelationspaares nicht nebeneinander stehen dürfen“ (Trubetzkoy 1939, 221). Trubetzkoy zufolge ist Trnkas Gesetz in dieser Fassung „sicher unhaltbar“ (Trubetzkoy 1939, 221) und gilt „nicht einmal für jene Oppositionen, die B. Trnka selbst als Korrelationen anerkennt“ (Trubetzkoy 1939, 221). Bei dem, was hier von Trnka wie auch von Trubetzkoy als Gesetz bezeichnet wird, handelt es sich auf jeden Fall eher um eine Tendenz als um ein Gesetz im heutigen wissenschaftstheoretischen Verständnis dieses Begriffes. Ähnlich wie Trnka ist Trubetzkoy allerdings der Ansicht, „daß die Phoneme [.], die im Rahmen eines Morphems in unmittelbarer Berührung miteinander stehen, ein gewisses Minimum von Unterschied aufweisen müssen“ (Trubetzkoy 1939, 222), jedoch lasse sich „dieses Minimum für jede Sprache anders bestimmen. [.] Somit muß das Kontrastminimum für jede Sprache selbständig gefunden und definiert werden und die »universal unzulässigen« Phonemverbindungen helfen dabei nicht viel“ (Trubetzkoy 1939, 223). Trnkas Hypothese ist später von J. Greenberg wieder aufgegriffen worden. Nach diesem Autor ist sie unter bestimmten Bedingungen für einige distinktive Merkmale durchaus gültig (vgl. Greenberg 1964, 41). Man kann sich leicht klarmachen, dass es von vorneherein aussichtslos wäre, wollte man sämtliche Regelhaftigkeiten im Bereich der Phonemdistribution allein aus den internen Eigenschaften der Phoneme erklären, ganz gleich, wie diese Eigenschaften bestimmt werden mögen: „[.]: wie immer man sie auch mißt K die phonologische Ähnlichkeit ist eine reziproke Relation, d. h. die Ähnlichkeit von beispielsweise /p/ zu /r/ ist die gleiche wie zwischen /r/ und /p/. Wenn nun die Folge /pr-/ am Wortanfang vorkommt, /rp-/ aber nicht, so ist klar, daß noch andere Faktoren im Spiel sein müssen“ (Kempgen 1995, 197).
Abgesehen von dem Problem, welche Phoneme sich in einer Sprache K jeweils im Rahmen einer bestimmten Einheit und in einer bestimmten Stellung K überhaupt miteinander verbinden, stellt sich die Frage, wovon die Häufigkeit der Verwendung der verschiedenen Phonemverbindungen abhängt, sei es innerhalb eines Inventars von Rahmeneinheiten (types), sei es innerhalb eines bestimmten Textkorpus (tokens). Vermutlich als erster hat Saporta (1955) diese Frage unter Zuhilfenahme quantitativer Methoden untersucht. Aufgrund von Überlegungen zum Enkodierungsaufwand des Sprechers und zum Dekodierungsaufwand des Hörers stellt Saporta folgende Hypothese auf: „the average frequency of a consonant cluster is a function of the difference between the phonemes in the cluster: low frequencies are expected for clusters which are either extremely similar or extremely dissimilar; high frequencies are expected for clusters which are at neither extreme“ (Saporta 1955, 25). Die methodischen Mängel des von Saporta zur Überprüfung seiner Hypothese angewandten Verfahrens sind bereits von Carroll (1958) benannt und berichtigt worden (vgl. auch Kempgen 1995, 199) und brauchen daher hier nicht noch einmal erörtert zu werden. Während Saporta sein Augenmerk lediglich auf die Textfrequenz von Konsonantenverbindungen richtet, also tokens untersucht, fragt Carroll darüber hinaus auch nach dem Zusammenhang, der möglicherweise zwischen den Phonemdistanzen und der Anzahl verschiedener Kombinationen pro Distanz besteht, unabhängig von deren Auftretenshäufigkeit. In diesem Kapitel soll es darum gehen, die Grundzüge einiger Verfahren anzugeben, die darauf abzielen, eine Reihe von distributionellen Phonemeigenschaften mit Hilfe quantitativer Methoden zu erfassen und auszuwerten. Unter Distribution verstehen wir die syntagmatischen Relationen von Einheiten eines einzigen Typs zueinander, also etwa, wie in dem uns hier interessierenden Fall, die syntagmatischen Relationen zwischen den Phonemen einer Sprache. Die distributionellen Relationen sind von den funktionellen zu unterscheiden, d. h. von den Beziehungen von Einheiten eines niedrigeren Typs zu Einheiten eines höheren Typs. Ein Beispiel für eine funktionelle Relation ist die Position eines Morphems am Anfang, in der Mitte oder am Ende einer Wortform. In der Praxis ist es nicht immer
183
12. Phonemdistribution
einfach, distributionelle und funktionelle Relationen säuberlich voneinander zu trennen. Wenn wir beispielsweise die Regelhaftigkeiten der Phonemkombinatorik im Inlaut von Morphemen untersuchen, so analysieren wir eben die Phonemdistribution nicht an und für sich, sondern in einem bestimmten funktionellen Rahmen. Es ist aber klar, dass die Untersuchung der distributionellen Phonemeigenschaften sinnvollerweise nicht losgelöst von einer Rahmeneinheit durchgeführt werden sollte, weil diese Eigenschaften von Rahmeneinheit zu Rahmeneinheit und von Position zu Position innerhalb der Rahmeneinheiten unterschiedlich sein können und es zumeist auch sind. Diejenige Rahmeneinheit, die selbst noch der phonologischen Ebene angehört, ist die Silbe, innerhalb derer die Inlaut- und die Auslautposition zu unterscheiden sind. Freilich setzt die Möglichkeit, die Silbe als Rahmeneinheit zu verwenden, ein Verfahren zur Zerlegung von Wortformen in Silben voraus. Ein solches Verfahren basiert indessen bereits auf der Kenntnis distributioneller Phonemeigenschaften, so dass darauf geachtet werden muss, Zirkularität zu vermeiden. So wichtig die erörterten Probleme im Zusammenhang mit der Auswahl und der konkreten Abgrenzung einer Rahmeneinheit auch sind, so brauchen sie uns doch hier nicht weiter zu interessieren, weil die in diesem Kapitel vorzustellenden Verfahren und Methoden nicht auf eine ganz bestimmte Rahmeneinheit bezogen, sondern allgemein anwendbar sind. Die Untersuchung der Phonemdistribution unter Zuhilfenahme quantitativer Verfahren gliedert sich sinnvollerweise in folgende, aufeinander aufbauende Schritte: (1) Metrisierung und Messung distributioneller Eigenschaften von Einzelphonemen bzw. der distributionellen Ähnlichkeit von jeweils zwei Einzelphonemen. Dieser Schritt bildet die Grundlage (2) der Klassifizierung der Phoneme unter dem Gesichtspunkt ihrer distributionellen Eigenschaften. Derartige Klassifikationen sind kein Selbstzweck, sondern bilden ihrerseits die Grundlage für weiterführende Untersuchungen, so etwa für die Suche nach Zusammenhängen zwischen den distributionellen Gemeinsamkeiten der Phoneme einer Klasse und anderen, nichtdistributionellen Gemeinsamkeiten. Den (3) Schritt bilden Beschreibung und Klassifizierung ganzer Phonemsysteme aufgrund der distributionellen Eigenschaften ihrer Ele-
mente zum Zwecke des Sprachvergleichs. Bei allen drei Schritten ist noch einmal danach zu unterscheiden, ob die Frequenz der Phonemverbindungen vernachlässigt oder berücksichtigt wird. Der begrenzte Umfang des Artikels und der mit dem Handbuch verfolgte Zweck erlauben es nicht, sämtliche bekannten Verfahren der quantitativen Untersuchung der Phonemdistribution in allen Einzelheiten vorzustellen. Wir werden unser Augenmerk daher auf die Darlegung der Grundzüge einiger wichtiger Verfahren richten und insbesondere einige prinzipielle Probleme etwas eingehender erörtern.
2.
Distribution ohne Berücksichtigung der Frequenz
2.1. Metrisierung und Messung distributioneller Eigenschaften von Einzelphonemen bzw. der distributionellen Ähnlichkeit von jeweils zwei Einzelphonemen Wenn wir die distributionellen Relationen eines gegebenen Phonems K jeweils innerhalb einer bestimmten Rahmeneinheit K betrachten, so sind genau zwei Fälle zu unterscheiden: das fragliche Phonem kann entweder vor oder nach einem anderen Phonem vorkommen, kann also in einer zweigliedrigen Phonemverbindung entweder Vorgänger- oder Nachfolgerphonem sein. Folglich ist die Distribution eines Phonems die Menge derjenigen Phoneme, zu denen es in einer distributionellen Relation steht. Hierbei ist zwischen den beiden genannten Stellungen zu differenzieren, d. h. zwischen der Menge derjenigen Phoneme, denen das betrachtete Phonem vorausgeht, und der Menge derjenigen Phoneme, denen es folgt. Aus der isolierten Betrachtung dieser beiden Mengen sowie aus ihrem Vergleich unter wechselndem Gesichtspunkt lassen sich mehrere Distributionsmaße ableiten, die wir aber nicht sämtlich vorstellen werden. Bei der Bestimmung der distributionellen Ähnlichkeit von jeweils zwei Phonemen sind zwei Vorgänger- und zwei Nachfolgermengen zu berücksichtigen. Um zu distributionellen Einzel- und Vergleichsmaßen zu gelangen, sind vorher einige Festsetzungen zu treffen: P sei die Menge der Phoneme der Sprache L, und R sei die Relation „wird unmittelbar gefolgt von“. Dann kann man für je-
184
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
des Phonem i zwei Teilmengen von P bilden, und zwar Ai Z {j 2 P | jRi},
(1)
d. h. die Menge aller Vorgänger von i, und iB Z {j 2 P | iRj},
(2)
d. h. die Menge aller Nachfolger von i. Die Eigenschaft eines Phonems, Vorgänger zu haben, bezeichnen wir als „Attraktivität“, die Eigenschaft, Nachfolger zu besitzen, als „Aggressivität“. Die Eigenschaft eines Phonems i, sich mit anderen Phonemen oder mit sich selbst zu Phonempaaren zu verbinden, gleichgültig, ob diese Phoneme zu Ai oder zu iB gehören, nennen wir „Assoziativität“. Beispiel: Im Russischen kommen im Rahmen der Silbe nach Kempgen (2001, 130) vor dem Phonem /b/ folgende Phoneme vor: Ab Z {a, e, i, o, u, v, g, d, ž, z, j, l, l’, m, n, r} Nachfolger von /b/ sind folgende Phoneme: bB Z {a, e, i, o, u, v, v’, g, d, d’, ž, z, z’, l, l’, n, n’, r, r’, c, č} | Ai | und | iB | bedeuten die Anzahl der Phoneme in den jeweiligen Mengen. Im Russischen ist beispielsweise | Ab |Z 16, | bB | Z 21. | Ai | und | iB | geben Auskunft über die Stärke der Attraktivität bzw. der Aggressivität von i. Solange wir uns auf die Untersuchung einer einzigen Sprache beschränken, können wir | Ai | und | iB | unmittelbar zum Ausgangspunkt einer Klassifikationsprozedur nehmen, mit deren Hilfe entschieden werden soll, ob sie jeweils einen hohen, einen mittleren oder einen niedrigen Grad der Attraktivität bzw. der Aggressivität anzeigen (vgl. 2.2.). Sobald aber dieser Rahmen aus irgendwelchen Gründen überschritten wird, stellt sich das Problem der Vergleichbarkeit und macht die Relativierung der absoluten Zahlenwerte von | Ai | und | iB | erforderlich. Harary und Paper (1957) haben vorgeschlagen, das Maß der Attraktivität und das Maß der Aggressivität von i in der Weise zu definieren, dass | Ai | bzw. | iB | stets auf K Z | P | bezogen werden, d. h. auf die Anzahl der Menge der Phoneme der gegebenen Sprache: At (i) Z Ag (i) Z
K Ai K K K iB K K
(3) (4)
Die Werte dieser beiden Maße fallen in das Intervall C0; 1D, so dass das Problem der Vergleichbarkeit tatsächlich gelöst ist. In der angegebenen Form haben das Attraktivitätsund das Aggressivitätsmaß recht weite Verbreitung gefunden (vgl. Altmann/Lehfeldt 1980, 229 f.). Hinter der Relativierung von | Ai | und | iB | auf K steckt natürlich der Gedanke, dass K die Anzahl der theoretisch möglichen Phonempaare mit i als einem Element sei. Es fragt sich aber, ob dieser Gedanke zutrifft, ob er in dieser allgemeinen Form durchgehalten werden kann. Zu dieser Frage hat Kempgen (1999) Überlegungen entwickelt, auf die wir uns im folgenden beziehen wollen. Wenn wir, wie in dem Beispiel oben, die Phonemdistribution im Russischen untersuchen und dies in bezug auf die Rahmeneinheit Silbe tun, so müssen wir die Möglichkeit der Verbindung eines Vokalphonems mit einem weiteren Vokalphonem von vorneherein ausschließen, da derartige Verbindungen im Silbenrahmen nicht vorkommen können, vielmehr das Vorliegen von zwei Silben anzeigen. Es ist also unrealistisch, bei der Bestimmung des Wertes des Attraktivitäts- bzw. des Aggressivitätsmaßes für ein russisches Vokalphonem | Ai | bzw. | iB |auf K zu beziehen, da die Anzahl der Phonempaare, in die ein solches Phonem im Silbenrahmen maximal eingehen kann, kleiner ist als K. Analoge Überlegungen müssen für jedes Phonem und für jede Phonemklasse angestellt werden. Allgemeiner formuliert: für jedes Phonem einer gegebenen Sprache sollte vor der Ermittlung der Werte des Attraktivitäts- und des Aggressivitätsmaßes festgestellt werden, welche Phonemverbindungen modellintern von vorneherein ausgeschlossen sind und daher bei der empirischen Untersuchung seiner Distribution gar nicht mehr auftreten können. Wenn ich beispielsweise einen russischen, in kyrillischer Schrift geschriebenen Text zum Zwecke der Untersuchung der Phonemdistribution phonologisch transkribiere und mich dabei an einem Modell orientiere, demzufolge vor stimmhaften Konsonanten nur paarig stimmhafte und vor stimmlosen Konsonanten nur paarig stimmlose stehen können, dann werde ich die Verbalform sglotnút’ phonologisch als /zglotnut’/ transkribieren. Eine Konsonantenverbindung wie etwa /sg/ ist ja modellintern von vorneherein ausgeschlossen.
185
12. Phonemdistribution
Bei der empirischen Untersuchung der Phonemdistribution einer gegebenen Sprache und damit im Zusammenhang bei der Ermittlung der Werte des Attraktivitätsbzw. des Aggressivitätsmaßes ist K jeweils, d. h. für jedes einzelne Phonem, um die Anzahl der strukturellen, modellbedingten Lücken zu vermindern. Die Lücken, die dann noch übrigbleiben, stellen Kombinationsmöglichkeiten dar, die modellintern nicht verboten sind, aber aus irgendwelchen Gründen zu einem gegebenen Zeitpunkt nicht ausgenutzt werden. Wenn wir mit Mi die Menge derjenigen Phoneme symbolisieren, die aus modellbedingten Vorkommensbeschränkungen nicht vor i auftreten können, und mit iM die Menge der Phoneme, die aus analogen Gründen als Nachfolger von i nicht in Frage kommen, dann gelangen wir zu folgenden modifizierten Maßen, die wir als Maß der modellinternen Attraktivität bzw. als Maß der modellinternen Aggressivität bezeichnen wollen (vgl. Kempgen 2001, 128): K Ai K
At m (i) Z
K K K Mi K
Agm (i) Z
K iB K K K K iM K
(5) (6)
Auch die Werte dieser Maße fallen in das Intervall (0;1). Beispiel: Wie wir gesehen haben, gilt für das Russische, dass | Ab |Z 16, | bB |Z 21. Der Umfang des von Kempgen seinen Untersuchungen zugrundegelegten Phoneminventars beträgt K Z 39. Die Werte des Maßes der Attraktivität und des Maßes der Aggressivität in deren ursprünglicher, von Harary und Paper (1957) definierter Form berechnen sich als At (b) Z Ag (b) Z
16 39 21 39
Z 0,410 Z 0,538
Nach Kempgen (1999, 181) sind als Vorgänger von /b/ im Silbenrahmen die Phoneme /k, k’, p, p’, s, s’, t, t’, f, f’, š/ modellbedingt von vorneherein ausgeschlossen, d. h. Mb Z {k, k’, p, p’, s, s’, t, t’, f, f’, š}, | Mb |Z 11 Analog gilt, dass bM Z {b’, k, k’, p, p’, s, s’, t, t’, f, f’, š}, | bM |Z 12
Die Werte des Maßes der modellinternen Attraktivität und des Maßes der modellinternen Aggressivität berechnen sich als At m (b) Z Ag m (b) Z
16 39K11 21 39K12
Z 0,571 Z 0,778
Die Werte der modifizierten Maße sind größer als die der ursprünglichen Maße, da wir der Berechnung jetzt eine viel realitätsnähere Obergrenze der prinzipiell empirisch möglichen Phonemkombinationen zugrundegelegt haben. Die Ermittlung der Werte der modifizierten Maße erfordert zwar einen größeren Aufwand, als das bei den ursprünglichen Maßen der Fall ist, doch ist dieser Aufwand eben wegen der größeren Realitätsnähe der Ergebnisse gerechtfertigt und erforderlich. Wir haben uns hier recht ausführlich mit einigen Problemen beschäftigt, die bei der Festlegung von nur zwei Assoziativitätsmaßen auftreten. Auf diese Weise sollte demonstriert werden, wie wichtig es ist, bei der Definition solcher und anderer Maße von distributionellen Phonemeigenschaften mathematische und linguistische Gesichtspunkte gleich sorgfältig zu beachten. Harary und Paper (1957) und in ihrer Nachfolge eine Reihe anderer Autoren haben zahlreiche weitere Distributionsmaße entwickelt, die wir hier aber nicht im einzelnen vorstellen wollen, da sie in der einschlägigen Literatur leicht nachgelesen werden können (vgl. Altmann/Lehfeldt 1980, 217 ff.): Maß der Assoziativität, d. h. der Fähigkeit eines Phonems i, sich mit anderen Phonemen zu Phonempaaren zu verbinden, gleichgültig, ob diese Phoneme zur Vorgängeroder zur Nachfolgermenge von i oder zu beiden Mengen gleichzeitig gehören; Maß der Symmetrie, d. h. der Fähigkeit eines Phonems i, sich mit anderen Phonemen sowohl als Vorgänger wie als Nachfolger zu verbinden; Maß der Reflexivität, d. h. der Fähigkeit eines Phonems i, mit sich selbst eine Phonemverbindung einzugehen. Auch im Hinblick auf diese Maße sollte daran gedacht werden, sie unter Berücksichtigung der modellintern jeweils ausgeschlossenen Phonemverbindungen zu modifizieren. Bisher war stets die Rede von Maßen, die jeweils bestimmte distributionelle Eigenschaften von einzelnen Phonemen erfassen.
186
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Wenn ich zwei Phoneme im Hinblick auf die Ausprägung irgendeiner distributionellen Eigenschaft vergleichen will, so kann ich das in der Weise tun, dass ich die Werte betrachte, die das entsprechende Maß für sie annimmt. Es ist aber auch ein anderer Weg möglich, indem ich das Verhältnis der distributionellen Eigenschaften zweier Phoneme zueinander in einem einzigen Ausdruck erfasse. Dies geschieht mit Hilfe von Ähnlichkeits- oder ihnen komplementären Differenzmaßen. Auch diese Möglichkeit soll hier nur in ihren Grundzügen erörtert werden, wobei wir als Beispiel die attraktive distributionelle Ähnlichkeit zweier Phoneme i und j auswählen. Diese Ähnlichkeit ist dann am größten, wenn alle Phoneme, die vor i vorkommen, gleichzeitig auch vor j stehen und umgekehrt. Dabei spielt es keine Rolle, wie groß die Anzahl dieser Phoneme ist. Daher ist die Zahl der Phoneme, die sowohl in Ai wie in Aj zu finden sind, auf das jeweilige Maximum möglicher Übereinstimmung zu beziehen, das von Fall zu Fall verschieden sein kann. Als dieses Maximum ist nach dem Gesagten die Zahl der Phoneme in der Vereinigungsmenge von Ai und Aj anzusehen. Die attraktive distributionelle Ähnlichkeit von i und j ist somit definiert als Satt (i, j) Z
K Ai h Aj K
(7)
K Ai g Aj K
Da bei der Definition dieses Maßes nur wirklich existierende Phonemverbindungen berücksichtigt werden, entfallen hier die Probleme, die wir bei den distributionellen Einzelmaßen kennengelernt haben. Beispiel: Es soll die attraktive distributionelle Ähnlichkeit der Phoneme /g/ und /n’/ des Russischen bestimmt werden. Wenn wir uns wieder auf die Distributionsmatrix von Kempgen (1999, 181) beziehen, so sehen wir, dass Ag Z {a, e, i, o, u, b, v, g, d, ž, z, j, l, l’, m, n, r, x, c, č} An’ Z {a, e, i, o, u, b, v, g, d, ž, z, z’, k, l, l’, m, p, r, s’, t, x, c, š} Ag h An’ Z {a, e, i, o, u, b, v, g, d, ž, z, l, l’, m, r, x, c} Ag g An’ Z {a, e, i, o, u, b, v, g, d, ž, z, j, z’, k, l, l’, m, n, p, r, s’, t, x, c, č, š} Also gilt, dass Satt (i, j) Z
K Ai h Aj K K Ai g Aj K
17 Z 26
Z 0,654.
2.2. Distributionelle Klassifikation der Phoneme Die Werte, die die im vorangehenden Abschnitt in ihren Grundzügen vorgestellten und an wenigen Beispielen illustrierten distributionellen Einzel- und Vergleichsmaße jeweils annehmen, sind nichts anderes als in Zahlen ausgedrückte deskriptive Aussagen. Das Ziel einer Untersuchung der Phonemdistribution einer Sprache kann sich nicht in der Ermittlung solcher Werte erschöpfen. Vielmehr müssen diese Werte interpretiert und linguistisch ausgewertet werden. Der erste Schritt hin zur Verwirklichung dieser Vorstellung kann darin bestehen, dass wir die Phoneme einer Sprache aufgrund des Grades der Ausprägung einer distributionellen Eigenschaft oder auch mehrerer solcher Eigenschaften gleichzeitig klassifizieren. So würden beispielsweise alle Phoneme, die hochgradig attraktiv sind, eine Klasse, diejenigen, die hochgradig inattraktiv sind, eine weitere Klasse bilden, und dazwischen würde die Klasse der Phoneme mittlerer oder durchschnittlicher Attraktivität liegen. Eine auf diese Weise zustandegekommene Klassifikation könnte dann ihrerseits als Grundlage weiterführender Untersuchungen dienen, etwa dergestalt, dass gefragt wird, ob die Angehörigen einer distributionellen Klasse, die ja sämtlich einen bestimmten Ausprägungsgrad einer distributionellen Eigenschaft repräsentieren, weitere, nichtdistributionelle Gemeinsamkeiten aufweisen. Die Frage, die als erste zu beantworten ist, lautet, wie die distributionelle Klassifikation durchgeführt werden kann. Wenn wir uns, wie angedeutet, an der Vorstellung orientieren, dass jeweils drei Phonemklassen gebildet werden sollen, dann müssen die Grenzen zwischen diesen Klassen mit Hilfe eines dazu geeigneten Verfahrens bestimmt werden. In der Literatur sind dazu etliche Vorschläge gemacht worden. Hier kann es wiederum nur darum gehen, einen dieser Vorschläge in seinen Grundzügen vorzustellen, um zu demonstrieren, wie für die Beantwortung bestimmter linguistischer Fragestellungen die geeigneten mathematischen Modelle ausgewählt werden können. Wie wir in Abschnitt 2.1. gesehen haben, nimmt das Maß der modellinternen Attraktivität für das Phonem /b/ des Russischen den Wert 0,571 an, der entsprechende Wert des Maßes der modellinternen Aggressivität beträgt 0,778. Repräsentieren diese Werte einen hohen, einen mittleren oder einen
187
12. Phonemdistribution
niedrigen Grad an Attraktivität bzw. an Aggressivität, liegt der Aggressivitätsgrad signifikant höher als der Attraktivitätsgrad? Diese Frage soll hier mit Hilfe eines statistischen Modells beantwortet werden. Dazu müssen wir die Wahrscheinlichkeit kennen, mit der /b/ als Vorgänger bzw. als Nachfolger all derjenigen Phoneme vorkommt, mit denen es sich modellintern überhaupt verbinden kann. Da wir im gegenwärtigen Untersuchungsstadium diese Wahrscheinlichkeit nicht aus der Frequenz der einzelnen Phonemverbindungen mit /b/ als einem Glied abschätzen können, müssen wir mit a priori festgelegten Wahrscheinlichkeiten arbeiten, indem wir annehmen, dass jede Phonemverbindung mit gleicher Wahrscheinlichkeit zustandekommt und dass die Wahrscheinlichkeit der Realisierung einer jeden bestimmten Phonemverbindung gleich der Wahrscheinlichkeit ihrer Nichtrealisierung ist. Beschränken wir unsere Betrachtung zunächst auf die Attraktivität und fragen danach, ob ein gegebenes Phonem i attraktiv (d. h. hochgradig attraktiv), nichtattraktiv (d. h. hochgradig inattraktiv) oder semiattraktiv (d. h. durchschnittlich attraktiv) ist. Dazu stellen wir folgendes Gedankenexperiment an: Aus der Menge der Phoneme der gegebenen Sprache entfernen wir all diejenigen Phoneme, von denen wir bereits wissen, dass sie sich modellintern nicht mit i als ihrem Nachfolger verbinden können. Die derart reduzierte Phonemmenge umfasst jetzt noch K K | Mi | Elemente. In Bezug auf diese Restmenge unternehmen wir ein Zufallsexperiment, indem wir für jedes der in ihr enthaltenen Phoneme fragen, ob es sich mit i als zweitem Glied zu einem Phonempaar verbindet. Für dieses Experiment gelten folgende Bedingungen: (1) Bei jedem Einzelversuch sind stets nur zwei Ausgänge möglich: entweder existiert die in Rede stehende Verbindung, oder sie existiert nicht. (2) Die Wahrscheinlichkeit p (ij) eines positiven Ausgangs ist für jeden Einzelversuch gleich der Wahrscheinlichkeit q (ij) eines negativen Ausgangs, und zwar beträgt sie gemäß der oben getroffenen Festsetzung p (ij) Z q (ij) Z 0,5. (3) Die Versuche sind unabhängig voneinander, d. h. allgemein, der Ausgang der Untersuchung der Verbindung ij hat keinen Einfluss auf den Ausgang der Untersuchung der Verbindung ik usw.
Die genannten Bedingungen unseres linguistischen Experiments treffen auf die Binomialverteilung zu. Das heißt, die Zufallsvariable X Z ,Anzahl der realisierten Phonemverbindungen mit i als zweitem Glied‘ ist binomial verteilt. Demnach berechnet sich die Wahrscheinlichkeit, dass ein Phonem i genau | Ai | Vorgänger hat, als P (X Z K Ai K ) K K K Mi K Z p K Ai K q KK K Ai K Z
( (
) )
|
Mi K K K Ai K
K K K Mi K 0,5 KK KMi K K Ai K
(8)
Für den von uns angestrebten Zweck benötigen wir nicht nur die Wahrscheinlichkeit dieses einen Ausgangs, sondern auch die all derjenigen Ausgänge, die extremer als | Ai | sind. Dazu bilden wir die Summe der Wahrscheinlichkeiten für verschiedene Werte von X. Und zwar durchläuft X die Werte von 0 bis | Ai |, wenn | Ai | kleiner als der Erwartungswert ist, oder von | Ai | bis K K | Mi |, wenn | Ai | über dem Erwartungswert liegt: P (X R K Ai K ) K Ai K K K K Mi K Z∑ p xq KKK Mi KKx x xZ0
(
)
P (X R K Ai K ) KKK Mi K K K K Mi K p xq KKK Mi KKx Z ∑ x xZK Ai K
(
)
(9)
(10)
Der Erwartungswert für X berechnet sich als E (X) Z (K K | Mi |) p Z (K K | Mi |) 0,5, d. h. als die Hälfte der Zahl der Phoneme, die sich modellintern mit i verbinden können. Um bestimmen zu können, ob der jeweilige Wert von | Ai | einen hohen, einen mittleren oder einen niedrigen Attraktivitätsgrad anzeigt, suchen wir jetzt zwei Zahlen x1 und x2, von denen gilt: P (X % x1) Z P (X R x2) Z 0,025 Wir setzen also ein Intervall fest, von dem gilt, dass seine untere oder seine obere Grenze mit einer Wahrscheinlichkeit von 0,025 überschritten wird. Wenn das geschehen ist, können wir unsere Ausgangsfrage wie folgt beantworten: (a) Ist | Ai | % x1, dann betrachten wir das Phonem i als nichtattraktiv. (b) Ist | Ai | größer als x1, aber kleiner als x2, dann betrachten wir das Phonem i als semiattraktiv.
188
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
(c) Ist | Ai | R x2, dann betrachten wir das Phonem i als attraktiv. Die Berechnungen für | iB | sind ganz analog. Beispiel: Das russische Phonem /b/ verbindet sich nach Kempgen (1999, 181) mit 16 Vorgängerphonemen, d. h. | Ab | Z 16. Der Erwartungswert berechnet sich als E (X) Z (K K | Mb |) 0,5 Z (39 K 11) 0,5 Z 14. Nunmehr bestimmen wir ein Intervall, wie oben dargelegt. Mit Hilfe der Tafel der Binomialverteilung stellen wir fest, dass x1 Z 9 und x2 Z 19. Daraus folgt, dass /b/ im Russischen semiattraktiv ist, d. h. einen „durchschnittlichen“ Attraktivitätsgrad aufweist. K Dasselbe Phonem /b/ verbindet sich mit 21 Nachfolgerphonemen, d. h. | bB | Z 21. Der Erwartungswert berechnet sich als E (X) Z (K K | bM |) 0,5 Z (39 K 12) 0,5 Z 13,5. x1 Z 8, x2 Z 19. Folglich ist /b/ im Russischen aggressiv, d. h., weist einen hohen Aggressivitätsgrad auf. NB: Wie aus den theoretischen Erörterungen und den Beispielen ersichtlich, ist es erforderlich, für jedes Phonem und dabei gesondert für | Ai | und | iB | die Intervallgrenzen x1 und x2 neu zu bestimmen, da der Wert von K K | iM | bzw. K K | Mi | variieren kann. In dieser wichtigen Hinsicht unterscheidet sich das dargelegte Entscheidungsverfahren von der bei Altmann/Lehfeldt (1980, 258 ff.) zu findenden Prozedur, bei der | Ai | und | iB | stets auf K bezogen werden. 2.3. Distributionelle Sprachklassifikation Wenn es darum geht, dass Eigenschaften der Phonemdistribution beim typologischen Sprachvergleich berücksichtigt werden sollen, ist es aus leicht einsehbaren Gründen nicht möglich, einzelne Phoneme oder Phonemverbindungen und die ihnen zugeordneten Werte der verschiedenen Distributionsbzw. Ähnlichkeitsmaße zueinander in Beziehung zu setzen. Vielmehr ist es zu diesem Zweck erforderlich, die Phonemsysteme durch distributionelle Totalmaße zu charakterisieren, deren Werte für mehrere Sprachen miteinander verglichen werden können. Ein Beispiel ist das Maß der totalen Assoziativität. Es berechnet sich, indem wir die Anzahl R aller in einer Sprache zu einem gegebenen Zeitpunkt realisierten Phonempaare zur Zahl aller theoretisch denkbaren Phonempaare in Beziehung setzen, um auf diese Weise zu ermitteln, in welchem Aus-
maß das theoretische Maximum an Verbindungsmöglichkeiten ausgenutzt wird. Dieses Maximum ergibt sich, indem wir von K 2K Anzahl der Phonempaare, wenn sich jedes Phonem mit allen anderen Phonemen und mit sich selbst kombinierte K die Anzahl Rm der modellintern ausgeschlossenen Kombinationen subtrahieren, d. h. Asm (L) Z
R 2
K K Rm
(11)
Nach den Untersuchungen von Kempgen (2001, 129) nimmt dieses Maß für das Russische den Wert 0,6702 an. Leider besitzen wir im Moment noch keine weiteren Werte für andere Sprachen. Die in einer Reihe von Publikationen vorgelegten Werte sind noch in der Weise zustandegekommen, dass R stets einfach auf K 2 bezogen wurde. Sie müssten jetzt erst in der oben vorgeschlagenen Weise modifiziert werden. Hierbei stellt sich das Problem der Vergleichbarkeit in aller Schärfe: Damit die Werte des Maßes Asm (L) zu aussagekräftigen Vergleichen führen können, müssen der Ermittlung des Phonemsystems und der Bestimmung der modellintern ausgeschlossenen Phonemverbindungen von Sprache zu Sprache die gleichen theoretischen Prinzipien zugrundegelegt werden. Bei einer sogenannten polythetischen Sprachklassifikation sind die Sprachwissenschaftler daran interessiert, die untersuchten Sprachen im Hinblick auf möglichst viele Merkmale der verschiedenen Sprachebenen gleichzeitig zu vergleichen, um die oftmals nur latenten, nicht auf der Oberfläche liegenden Merkmalszusammenhänge zu ermitteln. Das kann in der Weise geschehen, dass für die einzelnen Sprachen Vektoren aufgestellt werden, die aus den Werten verschiedener K phonologischer, morphologischer, syntaktischer u. a. K Totalmaße bestehen. Wenn wir uns hier auf die Phonemdistribution beschränken, so könnte ein solcher Vektor etwa die Werte der Maße der totalen Assoziativität (vgl. 2.1.), der totalen Symmetrie, der totalen Reflexivität u. a. enthalten, die aus der Literatur bekannt sind. Auf der Grundlage derartiger Vektoren kann dann die Ähnlichkeit bzw. die Differenz von je zwei Sprachen hinsichtlich der berücksichtigten Parameter ermittelt werden, und diese Werte können dann ihrerseits als Grundlage für eine hierarchische Sprachklassifikation dienen, deren Klassen vielfäl-
12. Phonemdistribution
tigen Interpretationsmöglichkeiten offenstehen, sei es, dass danach gefragt wird, welche der bei der Klassifikation berücksichtigten Parameter für die Klassenbildung eine Schlüsselrolle spielen (interne Interpretation), sei es, dass zur Interpretation weitere Merkmale herangezogen, d. h. neue Merkmalszusammenhänge aufgedeckt werden (externe Interpretation). K Wir müssen es aus Platzgründen mit diesen notgedrungen allgemeinen Bemerkungen sein Bewenden haben lassen und verweisen den Leser auf die Literatur, in der nähere Informationen zu finden sind; vgl. Altmann/Lehfeldt (1972); Lehfeldt (1972); Altmann/Lehfeldt (1980, 282K293).
3.
Distribution mit Berücksichtigung der Frequenz
In den in Abschnitt 2. vorgestellten bzw. angedeuteten Untersuchungsverfahren wurde stets nur danach gefragt, ob eine bestimmte Phonemverbindung ij in einer Sprache zu einem gegebenen Zeitpunkt vorkommt oder nicht, letzteres aus modellinternen oder aus zufälligen Gründen. Das heißt, dass solche Verbindungen, die beispielsweise nur in wenigen, möglicherweise auch noch selten gebrauchten Fremdwörtern begegnen, genau so wie die für eine Sprache typischen, häufig verwendeten Verbindungen behandelt werden. Die Vernachlässigung der distributionellen Frequenz führt also zu einer Nivellierung wichtiger Unterschiede, die nur solange hingenommen werden kann, wie keine brauchbaren Frequenzangaben zur Verfügung stehen. Die Analyse solcher Daten ermöglicht es, existierende Phonemverbindungen danach zu beurteilen und zu klassifizieren, in welchem Maße sie in das phonotaktische System der gegebenen Sprache eingegliedert sind. Hierbei ist zu unterscheiden zwischen der systemischen Frequenz, d. h. der Häufigkeit von Phonemverbindungen innerhalb eines Inventars von Rahmeneinheiten, deren Gebrauchsfrequenz unberücksichtigt bleibt, und der pragmatischen Frequenz, d. h. der Häufigkeit von Phonemverbindungen innerhalb eines bestimmten Textkorpus. Die Beurteilung der K systemischen oder pragmatischen K Frequenz einer Phonemverbindung ij geschieht am geeignetsten auf der Grundlage eines passenden statistischen
189 Modells. Im folgenden seien nur die Grundzüge eines möglichen Verfahrens angegeben. Zu den mathematischen Einzelschritten, deren Darstellung viel Platz beanspruchen würde, sei auf die Spezialliteratur verwiesen. Wir gehen von der Vorstellung aus, dass die aus einem bestimmten Inventar oder Textkorpus ermittelten Frequenzen sämtlicher existierenden Phonemverbindungen in einer Tabelle zusammengestellt sind. Um die Frequenz einer gegebenen Phonemverbindung ij danach zu beurteilen, was sie uns über den Grad der Eingliederung dieser Verbindung in das phonotaktische System der fraglichen Sprache zu sagen vermag, gehen wir von folgender probabilistischer Grundvorstellung aus: Wenn die Wahrscheinlichkeit pij dieser Verbindung gleich dem Produkt der Wahrscheinlichkeiten ihrer Komponenten i und j ist, d. h., wenn pij Z pi pj, dann gelten die Phoneme i und j als stochastisch voneinander unabhängig. In linguistischer Interpretation bedeutet dies, dass die Phoneme i und j in der Anordnung ij weder eine Tendenz zur Assoziation, noch eine solche zur Dissoziation aufweisen, d. h., sie ziehen sich nicht besonders stark an, stoßen sich aber auch nicht besonders stark ab, sondern verhalten sich zueinander neutral. In dem Maße, in dem der Unterschied zwischen pij und pi pj zunimmt, verstärkt sich die Tendenz zur Assoziation bzw. die zur Dissoziation. Das heißt, wir haben mit Hilfe eines geeigneten statistischen Modells die Differenz pij K pi pj und die Richtung dieses Unterschieds zu beurteilen. Hierbei sind drei Arten von Ergebnissen denkbar: (a) Wenn die Differenz positiv und signifikant groß ist, dann sprechen wir von einer assoziativen Tendenz von i und j im Verhältnis zueinander und in der Anordnung ij. Die Phonemverbindung ij selbst wird als bevorzugt, abgekürzt P (für preferred), eingestuft. (b) Wenn die Differenz negativ und signifikant groß ist, dann sprechen wir von einer dissoziativen Tendenz. Die Phonemverbindung ij selbst bezeichnen wir als marginal, abgekürzt M. (c) In allen anderen Fällen, d. h., wenn die Differenz nicht signifikant groß ist, ungeachtet ihrer Richtung, dann verhalten sich i und j in der Anordnung ij neutral zueinander. Die Phonemverbindung ij
190
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
heißt in einem solchen Fall aktuell, abgekürzt A. Die angedeuteten Rechnungen werden auch dann durchgeführt, wenn die Frequenz nij von ij gleich Null ist, zumindest dann, wenn das Nichtvorkommen von ij nicht modellintern bedingt ist, d. h., der Grad der Eingliederung von ij in das phonotaktische System wird auch dann beurteilt, wenn ij in dem untersuchten Korpus oder Inventar zufällig nicht belegt ist. Ist bei einer nicht belegten, aber modellintern nicht ausgeschlossenen Verbindung ij die Differenz zwischen pij und pi pj nichtsignifikant groß, bezeichnen wir ij als virtuell (V). Die übrigen nicht belegten Verbindungen gelten als unzulässig, abgekürzt I (für inadmissible). Wenn wir die angedeutete Prozedur auf die gesamte Distributionstabelle anwenden, werden deren Frequenzangaben jeweils durch eines der Symbole P, M, A, V, I ersetzt, die die Zugehörigkeit einer Phonemverbindung zu einer der fünf genannten Distributionsklassen anzeigen. Die neue Tabelle, die wir auf diese Weise erhalten, kann nun ihrerseits weiter ausgewertet werden, wofür es eine Reihe von Möglichkeiten gibt. Beispielsweise können wir jedes einzelne Phonem i im Hinblick auf seine Attraktivität charakterisieren, indem wir einen Vektor aus fünf Elementen bilden, wobei jedes Element die Anzahl der Phoneme angibt, mit denen i einen der genannten Typen von Attraktivität K P, M, A, V oder I K eingeht. Dazu brauchen wir lediglich in der Spalte von i abzuzählen, wie oft dort P, M, A, V oder I verzeichnet sind. Derartige Vektoren K wie sie natürlich auch im Hinblick auf die Aggressivität und die Assoziativität gebildet werden können K, können die Grundlage für den distributionellen Phonemvergleich abgeben, indem die attraktive Ähnlichkeit bzw. die attraktive Distanz gemessen wird. Für den Sprachvergleich empfiehlt sich die Bildung eines Vektors, dessen fünf Elemente anzeigen, wie viele P-, M-, A-, Vbzw. I-Verbindungen die betreffende Sprache aufweist. Auf diese Weise wird ein frequenzbasierter distributioneller Vergleich ganzer Sprachen möglich K ein Parameter, der in typologischen Untersuchungen eine Rolle spielen kann. K Zu den Einzelheiten des hier nur angedeuteten Verfahrens vgl. Altmann/Lehfeldt (1980, 295 ff.).
4.
Literatur (in Auswahl)
Altmann, Gabriel/Lehfeldt, Werner (1972), Typologie der phonologischen Distributionsprofile. In: Beiträge zur Linguistik und Informationsverarbeitung 22, 8K32. Altmann, Gabriel/Lehfeldt, Werner (1980), Einführung in die Quantitative Phonologie. Bochum: Brockmeyer. Birnbaum, Henrik (1967), Syntagmatische und paradigmatische Phonologie. In: Phonologie der Gegenwart. (Hrsg. J. Hamm). Graz u. a.: Böhlau, 307K352. Carroll, John B. (1958), The assessment of phoneme cluster frequencies. In: Language 34, 267K 278. Greenberg, John H. (1964), Nekotorye obobsˇcˇenija, kasajusˇcˇiesja vozmozˇnych nacˇal’nych i konecˇnych posledovatel’nostej soglasnych. In: Voprosy jazykoznanija 4, 41K65. Harary, Frank/Paper, Herbert H. (1957), Toward a general calculus of phonemic distribution. In: Language 33, 143K169. Kempgen, Sebastian (1995), Phonemcluster und Phonemdistanzen (im Russischen). In: Slavistische Linguistik 1994. (Hrsg. D. Weiss). München: Sagner, 197K221. Kempgen, Sebastian (1999), Modellbedingte Distributionsbeschränkungen in der Phonologie. In: Ars Philologica. Festschrift für Baldur Panzer zum 65. Geburtstag. (Hrsg. K. Grünberg/W. Potthoff). Frankfurt a. M. u. a.: Lang, 179K184. Kempgen, Sebastian (2001), Assoziativität der Phoneme im Russischen. In: Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Festschrift in Honour of L. Hrˇebícˇek. (Hrsg. L. Uhlírˇová). Trier: VWT, 124K135. Lehfeldt, Werner (1972), Phonologische Typologie der slavischen Sprachen. In: Die Welt der Slaven 17, 318K340. Saporta, Sol (1955), Frequency of consonant clusters. In: Language 31, 25K31. Trnka, Bohumil (1936), General laws of phonemic combinations. In: Travaux du Cercle Linguistique de Prague 6, 57K62. Trubetzkoy, Nikolaj S. (1939), Grundzüge der Phonologie. Travaux du Cercle Linguistique de Prague 7. Prague. [Nachdruck: Nendeln: Kraus, 1968] Vogt, Hans (1942), The structure of the Norwegian monosyllable. In: Norsk Tidsskrift for Sprogvidenskap 12, 5K29.
Werner Lehfeldt, Göttingen (Deutschland)
191
13. Phonic word structure
13. Phonic word structure 1. 2. 3. 4. 5. 6. 7. 8.
Introduction Data Positional distribution of phonemes The overall exploitation of phonemes Harmony Symmetry Canonical forms Literature (a selection)
1.
Introduction
The entity word K being one that can be defined in different ways K displays different measurable properties. It consists of smaller elements like phonemes (letters), syllables, morphemes or even moras and bars, all building distinct structures. Some linguistic schools prefer even distinctive features, which can be more advantageous for some purposes but not for the capturing of the phonic word structure since (i) one always examines and presents a system as a whole consisting of immediate constituents (subsystems) (cf. e. g. Miller 1978) and (ii) taking in account too many steps in the hierarchy of subsystems the dependencies get either too complex or irrelevant. One does not describe the movement of planets around the sun as a sum of movements of a set of atoms. Phonic structures within the word arise by the effect of background mechanisms, they have a stochastic character and can be captured by means of hypotheses, which are inductive at the beginning and deductive later on. The entity word has not only phonic properties, but also grammatical, semantic, emotional, polyanna, aesthetical, pragmatic, courtesy etc. ones. If one restricts oneself to phonic components of the word, then hypotheses of the following kind can be set up: (1) Hypotheses about the frequency of phonemes or syllables at which they take part in the construction of words. (2) Hypotheses about the combinatorial and the positional distribution of phonemes in the word (see article no. 12). (3) Hypotheses about canonical forms which are built by few phoneme classes e. g. V(owel) and C(onsonant). V and C are the coarsest categories, other classifications are easily possible (cf. Roberts 1965).
The first investigations concerning hypotheses of type (3) have been performed by Uhlenbeck (1949; 1950) who prepared an extensive descriptive statistics of Javanese words, while Menzerath (1950a; 1950b) was first interested in typology and later wrote an extensive study on the word structure of German. Greenberg (1950) studied the combinability of the three consonants in Arabic words. These works experienced a rich echo. Uhlenbeck’s example gave rise to monographs about Afrikaans (Odendahl 1962) and Indonesian (Dubovská s. d.), somewhat different is that by Roberts (1965). Menzerath’s example gave rise to a number of hardly accessible dissertations at the University of Bonn. Tests for combinatorial hypotheses and canonical forms have been performed by Greenberg (1950), Ross (1950), Herdan (1966 and others), Krupa (1966; 1967a; 1967b; 1971), Altmann (1967; 1968; 1986), Schulz/Altmann (1988), Altmann/ Bagheri/Goebl et al. (2002) and others. Since only a few languages have been processed so far, one can proceed rather exploratively at the beginning.
2.
Data
The object of examination is always the whole dictionary which should be as extensive as possible. However, one should not use a mixture of dictionaries. Quite different results can be obtained if one uses texts as starting point, since in synthetic languages the affixes are counted, too. The phonological transcription must, of course, be clarified before the analysis begins. The source data are usually presented in the form of tables which optically stimulate the setting up of inductive hypotheses. For the formal analysis of words one needs (1) a table of phoneme frequencies in three positions: initial, medial and final, whose marginal distribution shows in turn the exploitation of phonemes in the construction of words; (2) a table of frequencies of phoneme sequences. At the beginning sequences of two phonemes are sufficient. This enables us to study the distribution of phonemes. If necessary, special tables of phoneme combinations in non-neigh-
192
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
bouring positions can be prepared, in order to study other, more latent patterns; (3) a table of the distribution of word length according to the number of phonemes and syllables allowing us to set up other construction hypotheses. When processing a dictionary for this purpose one encounters a number of problems that must be taken into account because their solution can influence the results. Unfortunately, merely recommendations can be given here, because in every language there are different special problems. For the study of the phonological word structure the following elementary recommendations can be given: (a) Take into account all variants K phonological, morphological, lexical K if they are presented in the dictionary. For example all three variants of zas, zasa, zase (again) in Slovak, hamv, hamu (Ashes) in Hungarian, pairs like nesti, nosit’ (to carry) depending on aspect in Russian etc. In the same way lexical variants of which one is denoted as correct the other one as incorrect e. g. pásavka and mandelinka (Colorado beetle) in Slovak, because the so-called incorrect variant is probably the victim of purism. (b) Do not take into account conversions. Thus, in English convict (to convict, the convict) should be counted only once. The same holds for German where the conversion of verbs to nouns does not cause a formal change. However, if one studies the distribution of meanings, then one should add all meanings. Lexemes of this kind simply belong to several word classes and each membership should be taken into account. (c) Skip all abbreviations. These encompass not only abbreviations written with capitals (e. g. EC, European Community) but also cm, km and all short words that arose in an artificial way especially in East European languages like robkor (worker reporter), politbjuro (political bureau) in Russian filling a whole dictionary and disappearing slowly. Abbreviations distort both the picture of phoneme distribution and that of canonical forms. (d) Skip the names of letters. Take into account the names of notes, strings and
(e)
(f) (g)
(h)
3.
transcribe them phonetically if they are in the dictionary, e. g. ce, de, sol, la. Words with hyphen should be processed separately in every language. In Indonesian it is recommended to consider reduplications as one word, in German to ignore hyphenated words because they do not have the status of full compounds. In English there are special rules demonstrating different coherence, e. g. spaceship, space-saving, space station. Words marked as archaic, old or belonging to a jargon, argot etc. should rather be ignored. In Slavic languages it is usual to present the masculine form of adjectives in the dictionary. Nevertheless, one can also use the feminine or neutral form or skip the affix if it seems reasonable, e. g. if this procedure does not give rise to new canonical forms. In a Hungarian dictionary, however, one finds the shortest form, namely the third person singular, shortening thereby the length of verbs by two phonemes and one syllable. In Indonesian one finds the basic form under which all derivates and compounds are presented. There are languages in which it is possible to form a verb from any word. One should take them into account only if they are presented in the dictionary. Foreign words can be treated differently. Some of them can be fully eliminated K if one thinks that they strongly distort the construction principles of words. But if one takes them all into account, one obtains a more actual picture of language than without them. Phonetically, the word computer does not belong to all languages but can hardly be (without shortsighted government authority) banished from a modern language.
Positional distribution of phonemes
In every language there are not only distributional but also positional restrictions applying to phoneme occurrence in words. Their ascertainment is important for the mechanical deciphering of the morphology of language K a problem pursued by computer linguists since the sixties (cf. Andreev 1967) K and the ascertainment of the phonemic
193
13. Phonic word structure
principles of word construction. Unfortunately, the number of examined languages is too small so that we must accept restriction to empirical results and elementary test methods. With respect to the positional aspect we distinguish three positions only: initial, medial and final. In the Indonesian dictionary (Echols/Shadily 1963) that was completely transcribed phonemically we found the frequencies of phonemes at those positions as given in Table 13.1. As can be seen easily, at each position there are some restrictions broken merely by foreign words. In order to measure the constructional potential of individual phonemes one must test each cell of the table. Let nij be the number in the table, ni. the marginal sum of the ith row (the right margin of the table), n.j the marginal sum of the column j (the marginal sum in the last row of the table) and n the total (here: 188446). The test for an individual cell can be performed according to the formula
Table 13.1: Positional frequency of Indonesian phonemes Phoneme Initial
a * m n r i u k t s p l b s o d h e g ñ q c j nij K Eij y (1) zZ w Oni. n.j (n K ni.) (n K n.j) / [n2 (n K 1)] f where z is the quantil of the normal distribux tion, Eij is the expected number in the cell S 具i, j典 estimated as z
ni. n.j
. n As an example, let us consider the frequency of the phoneme /b/. At initial position we have nbI Z 3143 and EbI Z 6712 (24336) / 188446 Z 866.79. Inserting these numbers into (1) we obtain Eij Z
zZ
0 K 866.79 26.98
Z K32.13
Sum
1918 52 534 7143 1427 2044 570 21 1806 2106 631 931 0 990 145 0 1298 83 0 0 2110 4 0 338 135 40 7 3 0
30223 20348 12962 12371 11706 10394 9422 9304 8364 7740 6995 6720 6712 6562 4176 3388 3283 3126 2902 2654 2242 2080 1895 1083 1016 388 189 101 93
24336
139774
24336
188446
We make decisions according to Table 13.2 (cf. Altmann/Lehfeldt 1980, 301) in which the first row gives the statistical criterion (z-test) and the first column the existence
O6712 (24336) (188446 K 6712) (188446 K 24336) / [1884462 (188445)]
i. e. a strong negative tendency, and for the medial position
zZ
Final
27693 20218 5570 5056 9686 8114 8640 6656 4968 5600 3273 5174 3569 3911 3921 2905 1746 2951 2275 2625 132 1607 1481 723 763 244 143 61 69
3143 K 866.79
Since 84.36 is much higher than | z0.05 | Z 1.96 we say that /b/ is strongly associated with the initial position, i. e. it prefers this position. For /b/ at the end of the word we obtain zZ
Total
Medial
612 78 6858 172 593 236 212 2627 1590 34 3091 615 3143 1661 110 483 239 92 634 29 0 469 414 22 118 104 39 37 24
Z 84.36.
criterion. That is, we distinguish whether the phoneme occurs in a position at all (nij O 0) or not (nij Z 0). If it does not occur and its expectation is also low, then it is possible that it could occur (virtual), but if its expectation is high there is a structural gap and we denote it as inadmissible. If one performs this test for all phonemes in all positions and denotes the results by corresponding letters (A, I, M, P, V), then
3569 K 4978.42 O6712 (139774) (188446 K 6712) (188446 K 139774) / [1884462 (188445)]
Z K40.02.
194
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology Table 13.2: Decision criteria nij O 0 nij Z 0
z R 1.96
K1.96 ! z ! 1.96
z % K1.96
preferred P K
actual A virtual V
marginal M inadmissible I
Table 13.3: Positional tendencies of phoneme occurrence Phoneme
Initial
Medial
Final
Phoneme
Initial
Medial
Final
a * m n r i u k t s p l b s o
M M P M M M M P P M P M P P M
P P M M P P P M M M M P M M P
M M M P M P M M P P M P I P M
d h e g ñ q c j y w f x E z
P M M P M I P P M A P P P P
P M P P P M P P M A M A M A
I P M I I P M I P A A M M I
one obtains the results as displayed in Table 13.3. Evidently, one can perform here either another test or choose another quantil as decision criterion in order to increase the number of actual (A) occupancies. In Indonesian we find non-negative tendencies (A and P) in 15 cases (0.52) initially, in 16 cases (0.55) medially and in 11 cases (0.38) finally. Other languages must be examined in order to ascertain whether these proportions are constants of language construction.
4.
The overall exploitation of phonemes
As seen in the last column of Table 13.1 phonemes are used with different frequency for construction purposes. It will be difficult to explain why a phoneme occurs in the given proportion even if there is a number of hypotheses (cf. v. Ginneken 1932; Trubetzkoj 1939; Martinet 1955; Nikonov 1963; Zipf 1968; Segal 1972; Altmann/Lehfeldt 1980, 112 f.). Here we merely are interested in the question whether the rank-ordered frequencies represent a regular series. This was, too, the object of different hypotheses and tests (cf. Sigurd 1968; Orlov/Boroda/Nadarejšvili 1982; Pääkkönen 1993; Altmann 1993; for a survey cf. Martindale/Gusein-
Zade/McKenzie et al. 1996) but possibly one obtains different results for texts and dictionaries. When modelling this rank order we start from the assumption that the most frequent phoneme yielding the greatest redundancy presents a standard for that of the others. If it occurs y1 times then the next one occurs merely with a smaller, proportionate frequency, i. e. y2 w y1, the third one occurs proportionally to the second, y3 w y2, etc. We assume that proportionality is not constant but changes with each phoneme, i. e. yx Z f (x) yxK1
(2)
where x is the rank and yx the frequency of the xth phoneme. The proportionality function can be tentatively determined as the ratio of two linear functions, namely f (x) Z
bCx aCx
(3)
where b is the changing, a the stabilizing force and a O b. Inserting (3) into (2) we obtain yx Z
bCx aCx
yxK1, x Z 2, 3, ..., K
(4)
where K is the number of phonemes in the inventory. Solving (4) for yx we obtain
195
13. Phonic word structure
{
y1, yx Z (b C 2) (b C 3) ... (b C x) y1, (a C 2) (a C 3) ... (aCx)
xZ1 x Z 2, 3, ..., K
Since y1 can be estimated from the relative frequency of the first phoneme, the computation of the other values by means of (4) is very simple. It is recommended to estimate the parameters a and b iteratively. If one computes the percentages from the frequencies in the right marginal sums of Table 13.1 and fits (5), one obtains the results shown in Table 13.5 and graphically in Fig. 13.1. The determination coefficient D Z 0.95 signals a good agreement. For the connection of (5) with rank order distributions cf. Altmann/ Bagheri/Goebl et al. (2002). Several questions remain to be answered: (1) Why are there great “jumps” at some 16 14 12 10 8 6 4
(5)
places of the distribution? K being rather a local problem. (2) Does (5) hold for all languages? Evidently one must test several competing curves until the problem can be embedded into a theory. (3) What do the parameters a and b depend on?
5.
Harmony
The usual linguistic distribution of phonemes in words can display different combinatorial tendencies (cf. art. 12). Some phoneme combinations may come into existence in speech (cf. Hug 1997 for French), other ones can be fixed, but there are even inadmissible ones. But even more distant phoneme neighbours in words can display some tendencies. There is e. g. vowel harmony existing not only within the word stem but also in the affixes. If a tendency of this kind is strong enough, then one finds it in grammar among the rules otherwise it will not even be mentioned. However, tendencies of this kind seem to exist in all languages and an aim of quantitative linguistics is to find them and embed them into a nomological net.
2 0
5
10
15
20
25
Fig. 13.1: Fitting (5) to Indonesian data
5.1. Vowel harmony Vowel harmony is known as a grammatical phenomenon, e. g. in finno-ugric languages
Table 13.4: Fitting the series (5) to Indonesian data Rank
% empirical
% theoretical
Rank
% empirical
% theoretical
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16.04 10.80 6.88 6.56 6.21 5.51 5.00 4.94 4.44 4.11 3.71 3.57 3.56 3.48 2.22
16.04 11.45 8.82 7.14 5.97 5.12 4.47 3.96 3.55 3.21 2.93 2.68 2.48 2.31 2.15
16 17 18 19 20 21 22 23 24 25 26 27 28 29
1.80 1.74 1.66 1.54 1.41 1.19 1.10 1.01 0.57 0.54 0.21 0.10 0.05 0.05
2.02 1.89 1.79 1.69 1.60 1.52 1.45 1.38 1.32 1.27 1.21 1.17 1.12 1.08
a Z 1.9844, b Z 0.8431, D Z 0.95
196
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
in which the vowel of the suffix adapts itself to the vowel of the stem. In Hungarian e. g. ház-nak means “to the house” but kerék-nek “to the wheel”, ház-tól “from the house” but kerék-töl “from the wheel”. Other languages have invariable affixes, but a kind of vowel harmony can develop within the stem (cf. Emeis 1955). Let us consider the combination of the first two vowels in disyllabic words of the Hanunoo language (Philippines) in the dictionary by Conklin (1953) in Table 13.5 and ask whether the diagonal where the combinations of equal vowels (/a/-/a/, /i/-/i/,/u/-/u/) are situated displays as a whole a tendency, i. e. whether it is significantly stronger than expected by chance. For testing this hypothesis Altmann (1986) proposed two alternative but equivalent tests.
K 1347) (2767 K 1243) C C 515 (463) 2252 (2304) C C 905 (1061) 1852 (1706) Z 372.6964
a First syllable
a i u
Total
i
zZ
425 151 485
1347 515 905
1243
463
1061
2767
χ12
(a) If the notation is the same as in section 3., then we test the weight of the diagonal by means of the criterion S K∑ zZ
1326 K 1038.2982 O372.6964 C 211.1583
Z 11.91.
Since this number is much greater than 1.96 (| z0.05 |) we can accept the existence of the tendency to place equal vowels in disyllabic Hanunoo words, i. e. to accept the existence of vowel harmony of the stem. This tendency is shared by most Austronesian languages (cf. Krupa 1966; Krupa 1967a; Krupa 1967b; Krupa 1971; Altmann 1986; Schulz/ Altmann 1988). (b) The second possibility which is a little faster can be the use of the criterion
Sum
224 143 96
2
Inserting these numbers into (6) we obtain
u
698 221 324
! 2767 (2766) ! 1347 (1243) 515 (463) C C 1347 (1243) 905 (1061) C C 515 (463) 905 (1061)] Z 211.1583.
i!i#
Table 13.5: Vowel combinations in disyllabic words in Hanunoo Second syllable
2
2 ∑ ni. n.i ni#. n.i# Z
n (n S K∑ ni. n.i)2 Z
i
∑i ni. n.i (n
2
K∑ ni. n.i)
,
(7)
i
representing a chi-square with 1 degree of freedom and being identical with (6); then
ni. n.j
i
n
√n (nK1) [∑n . n. (n K n .) (n K n. ) C 2 ∑ n . n. n . n. ]
.
1
2
i
i
j
i
Here is S Z n11 C n22 C ... C nkk, i. e. the sum of the numbers on the diagonal. Inserting the numbers from Table 13.5 into this formula we obtain S Z 698 C 143 C 485 Z 1326
∑i
ni. n.i n
1 Z
[1347 (1243) C 515 (463) C
2767 C 905 (1061)] Z 1038.2982
1 n2 (n K 1)
∑i ni. n.i (n K ni.) (n K n.i) Z 1
Z 2
2767 (2766)
[1347 (1243) (2767 K
j
i
i
i#
i#
i!i#
the following applies: z2 Z χ12. The pertinent numbers computed above are S Z 1326, n Z 2767 Σni. n.i Z 1038.2982 (2767) Z 2872971. Inserting them into (7) we obtain χ12 Z
2767 [2767 (1326) K 2872971]2 2872971 (27672 K 2872971)
Z 127.60
As is evident, O127.60 Z 11.30, being approximately identical with the z above. Since both tests are asymptotic the results can be considered identical. This test can be used K mutatis mutandis K for any combination of cells, thus it is a
197
13. Phonic word structure
equate for comparative purposes (cf. Table 13.7).
good instrument for the discovery of tendencies. In order to characterize the strength of vowel harmony one can use Cohen’s (1960) coefficient kappa, namely κZ
n S K∑ ni. n.i i
5.2. Krupa’s consonant disharmony In several works Krupa (1966; 1967a; 1967b; 1971) showed that the opposite tendency must hold with consonants at the first and second positions, namely that consonants of the same class separated by a vowel display a dissociative tendency. The consonants can be classed in front (F), middle (M), back (B) and “no consonant present” (:). (6) or (7)
(8)
n2 K∑ ni. n.i i
whose variance is (cf. Fleiss/Cohen/Everitt 1969)
Var (κ) Z
n2 ∑ ni. n.i C (∑ ni. n.i)2 K n ∑ ni. n.i (ni. C n.i) i
i
i
(9)
n (n2 K∑ ni. n.i)2 i
With the help of (9) one can construct an asymptotic confidence interval K, K for κ as K Z κ K z OVar (κ), K Z κ C z OVar (κ)
(10)
where z is the quantil of the normal distribution. For Hanunoo we have κZ
2767 (1326) K 2872971 27672 K 2872971
Z 0.1664.
Table 13.6: Tests for the diagonal of some languages (Schulz/Altmann 1988) Language
z
κ
(K, K)
ProtoAustronesian Hanunoo Bare’e Indonesian Sundanese Angkola-Batak Hawaiian Tahitian Tuamotu
12.93
0.1720
(0.1460, 0.1981)
11.90 18.99 18.36 47.63 27.25 5.43 4.50 4.83
0.1664 0.1523 0.1255 0.2143 0.1591 0.0851 0.0762 0.0701
(0.1390, (0.1366, (0.1121, (0.2055, (0.1477, (0.0544, (0.0430, (0.0417,
0.1938) 0.1680) 0.1389) 0.2232) 0.1705) 0.1157) 0.1094) 0.0986)
For the variance we still need
∑i ni. n.i (ni. C n.i) Z
Z 1347 (1243) (1347 C 1243) C C 515 (463) (515 C 463) C C 905 (1061) (905 C 1061) Z Z 6457453630.
This yields
Var (κ) Z
can be used for testing. Using Krupa’s data for Hawaiian (Krupa 1971) in Table 13.7 we obtain n Z 778, S Z 16 C 22 C 62 C 77 Z 177 Σ ni. n.j Z 132 (118) C 178 (125) C C 243 (248) C 225(287) Z 162665,
27672 (2872971) C 28729712 K 2767 (6457453630) 2767 (27672 K 2872971)2
from which for Hanunoo follows KZ 0.1664 K 1.96 O0.000196 Z 0.1390 K Z 0.1664 C 1.96 O0.000196 Z 0.1938 It can easily be seen that κ / OVar yields results which are identical to the ones of (6). Schulz/Altmann (1988) presented a table for some Austronesian languages which is ad-
Z 0.000196 ,
so that from (7) we finally obtain χ12 Z
778 [778 (177) K 162665]2 162665 (7782 K 162665)
Z 6.61.
The chi-square always results in a value greater than 0. In order to ascertain whether we have an associative or dissociative tendency we compare S with E (S) Z Σ ni. n.i /n. Here is S Z 117, E (S) Z 162665/778 Z
198
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Table 13.7: Consonant combinations in Hawaiian words (first and second positions) according to Krupa (1971) C2
:
F
M
B
Sum
C1 : F M B Total
16 27 37 38
26 22 44 33
40 69 62 72
50 60 100 77
132 178 243 235
118
125
248
287
778
209.01, i. e. the expectation is greater than the observation and the chi-square is significant, thus there is a disharmony of consonants. This hypothesis must be tested in many languages and consonant classes. Some results for Krupa’s data can be found in Table 13.8. Table 13.8: Dissociation of consonants in some languages (Krupa 1967a; Schulz/Altmann 1988) Language
Z
κ
Hawaiian K3.95 K0.1031 Tahitian K4.35 K0.1222 Tuamotu K5.47 K0.1397 Afrikaans K5.75 K0.1434 Arabic 1K2 K20.00 K0.2647 Arabic 1K3 K10.61 K0.1381 Arabic 2K3 K8.21 K0.1123
(K, K) (K0.1543, (K0.1773, (K0.1775, (K0.1923, (K0.2906, (K0.1636, (K0.1392,
K0.0519) K0.0671) K0.0839) K0.0945) K0.2388) K0.1126) K0.0855)
In Arabic all combinations of the three consonants in the radix have been tested. As can be seen all are significant but the disharmony decreases with increasing distance.
6.
Symmetry
While the harmony is, as a matter of fact, a sign of significant reflexivity (see art. no. 12) of sequences, there is also a test for the equality of frequencies of symmetric sequences. This is a further tendency in lexeme construction having two aspects. In the first case we ask whether symmetric cells have equal frequencies, e. g. (a, i) vs. (i, a), (b, d) vs. (d, b) and join the results in one criterion. In the second case we consider the rows and columns globally and test the homogeneity of marginal sums. 6.1. Bowker’s test for symmetry If one considers the cells of Table 13.5 containing different vowels (i. e. not those on the diagonal), one sees that the cells (a, i)
and (i, a) have almost the same frequency, namely 221 and 224 respectively, while (u, i) and (i, u) seem to be very different (96 vs. 151). The test for the symmetry of the whole table can be perfornmed according to Bowker (1948) by means of the criterion X2 Z ∑
i!j
(nij K nji)2 nij C nji
.
(11)
If the quadratic contingency table has r cells then X 2 is distributed like a chi-square with r (r K 1) / 2 degrees of freedom. For Hanunoo we obtain X2 Z
(224 K 221)2
(425 K 423)2 C
224 C 221
425 C 324
2
(151 K 96) C
151 C 96
Z 25.89
2 Since 25.89 is greater than χ 3;0.05 Z 7.81, we accept the hypothesis that Hanunoo prefers an asymmetric placing of vowels in disyllabic stems. Schulz and Altmann (1988) prepared tests for several languages as shown in Table 13.9.
Table 13.9: Bowker’s test for symmetry in some languages Language
X2
Hanunoo V 25.89 Proto Austronesian V 92.03 Bare'e V 73.56 Angkola-Batak V 163.97 Sundanese V 572.23 Hawaiian V 15.43* Tahitian V 13.33* Tuamotu V 16.58* Hawaiian C Tahitian C Tuamotu C Afrikaans C Arabic 1K2 C Arabic 1K3 C Arabic 2K3 C
21.26 19.05 24.04 62.61 57.79 72.91 4.26*
Degrees of freedom 3 6 10 10 21 20 20 20 3 3 3 3 3 3 3
* means the acceptance of the null hypothesis at the level α Z 0.05
6.2. Stuart’s test for marginal homogeneity In the second case we ask whether the marginal sums of the contingency table (like Table 13.6) are homogeneous or not, i. e. we test the global symmetry. To this end one uses e. g. Stuart’s criterion (1955)
199
13. Phonic word structure rK1 rK1
Q Z d#VK1d Z ∑
∑ V ij di dj iK1 jK1
(12)
where d is the vector with the elements di Z ni . K n.i (i Z 1, 2, ..., rK1) and V ij are the elements of the inverse matrix VK1 defined as follows Vij Z
{
ni . C n. iK2nii for iZj K (nijCnji) for isj
The criterion Q is distributed like a chisquare with r K 1 degrees of freedom. For the sake of illustration we compute the marginal homogeneity of Hanunoo starting from Table 13.5. We obtain d1 Z n1. K n.1 Z 1347 K 1243 Z 104 d2 Z n2. K n.2 Z 515 K 463 Z 52. Further we have V11 Z n1. C n.1 K 2n11 Z 1347 C 1243 K2 (698) Z 1194 V12 Z V21 Z K (n12 C n21) Z K (224 C 221) Z K 445 V22 Z n2. C n.2 K 2n22 Z 515 C 463 K 2 (143) Z 692 from which VZ
[
]
1194 K445 K445 692
and the inverse matrix follows as VK1 Z
[
]
0.001102 0.000708 0.000708 0.001901
The test statistics yields then Q Z V11 d1 d1 CV12 d1 d2 CV21 d2 d1 C V22 d2 d2 Z 0.001102 (104)2 C 2 (0.000708) 104 (52) C C 0.001901 (52)2 Z 24.71. 2 Since this value is greater than χ 2;0.05 Z 5.99, we reject the hypothesis of marginal homogeneity. Schulz and Altmann (1988) presented a table with tests in several languages (cf. Table 13.10) It must be remarked that Bowker’s test for symmetry is simpler than Stuart’s and in general it is sufficient. If Bowker’s symmetry is given then also marginal homogeneity holds (cf. Caussinus 1965). The examinations of harmony/disharmony and symmetry/asymmetry concern specific construction trends resulting from
the fact that even vowels and consonants placed in non-immediate neigbourhood are subject to restrictions which can develop to special patterns. The above mentioned ones are not the only ones that are possible but they are the most prominent ones. Further research is necessary to achieve progress in this area. The methods shown above allow us to study historical or geographical development trends in a language or a language family. Table 13.10: Stuart’s test for marginal homogeneity in some languages Language
Q
Degrees of freedom
Hanunoo V 24.71 Proto Austronesian V 87.07 Bare’e V 44.01 Angkola-Batak V 87.08 Sundanese V 424.24 Hawaiian V 9.21* Tahitian V 4.08* Tuamotu V 4.60*
2 3 4 4 6 4 4 4
HawaiianC TahitianC TuamotuC AfrikaansC Arabic 1K2 C Arabic 1K3 C Arabic 2K3 C
2 2 2 2 2 2 2
19.22 18.17 23.95 62.43 57.78 72.60 2.82*
* means the acceptance of the hypothesis of marginal homogeneity at the level α Z 0.05
7.
Canonical forms
Under a canonical form we understand a representation of the phonic structure of the word in terms of phoneme classes, e. g. V Z vowel, C Z consonant, being the most common representation. Thus we obtain types like V, CV, VCV, CCVC etc., called CVtypes by Tuldava (1998). Tables can be set up according to the number of phonemes and syllables and the consecutive consonants are captured with a number, e. g. CCVC Z 2V1, VCCCV Z V3V, etc. In Table 13.11 one finds an extract from Indonesian data (1- and 2-syllabic canonical forms) (cf. Altmann/Bagheri/Goebl et al. 2002). In Indonesian the syllabic length is identical with the number of vowels in the word. From tables of this kind one sets up summarizing tables in which either merely the number of different canonical forms (cf. Table 13.12) or merely their frequency is given (cf.
200
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Table 13.11: Monosyllabic and disyllabic canonical CV forms in the Indonesian language 2
3
4
5
1
1V 16 V1 5
2V 4 1V1 216 V2 1
2V1 1V2
26 14
3V1 2V2 1V3
2
VV 1
1VV 24 V1V 52 VV1 9
2VV 1V1V 1VV1 V2V V1V1
2 646 196 35 310
2V1V 22 1V2V 370 1V1V1 3052 V3V 3 V2V1 203 V1V2 1
6
7
2V2V 11 2V1V1 42 1V3V 4 1V2V1 1561 1V1V2 2 V3V1 10 V2V2 1
3V2V 2V3V 2V2V1 1V3V1 1V2V2 1V1V3 V4V1 V3V2
8
3 3 3 1 1 33 53 4 1 2 1
3V2V1 2V3V1 1V3V2 1V2V3
1 3 1 1
Table 13.12: Number of CV types in terms of the numbers of phonemes and syllables in Indonesian 20
1
19
5
1
1
2
2
18 17
1
16
1 6 1
6
4
11
4
20
12
6
2
20
2
30
15
3
13
12
14
10
25
10
45
21
24
4
51
13
2
12
8
27
25
60
2
17
35
9
63
10
5
27
29
8
69
9
15
26
14
55
11
8
3
13
21
8
45
7
7
13
11
1
32
6
7
10
4
21
5
3
6
7
16
4
2
5
1
8
3
3
3
2
6
2
1
1
2
3
4
5
6
7
8
9
3
10
32
66
116
149
121
51
11
1
Table 13.13). Classifications of other kinds are possible and could be useful. Similar, but only one-dimensional tables can be set up for syllables as well. 7.1. Distribution of length As can be seen in Table 13.13 word length analyzed on the basis of lexicon entries is a
552
variable in most languages, even if it need not be necessarily so. There are monosyllabic languages in which only the phonemic length is variable, but not the syllabic one. Since according to Menzerath’s law (cf. art. no. 47) the immediate constituent of the word is syllable, we shall examine only this variable, as it is given in the last row of
201
13. Phonic word structure
Table 13.13: Frequency of CV types in terms of the numbers of phonemes and syllables in Indonesian 20
1
19 18 17
1
16 15 14
1
8
1
2
2
2
16
21
4
9 1
7 42
48
10
3
61
91
90
21
2
204
155
131
14
300
13
4
451
90
6
551
12
193
392
82
667
11
2
925
474
17
1418
10
17
2107
278
9
2411
9
605
1841
77
2523
8
5
3079
956
15
4055
7
95
3658
151
1
3905
19
6
1630
1174
8
3652
139
3799
4
40
1189
3
1232
3
221
85
306
2
21
1
22
5
2823
1
2
3
4
5
6
7
8
9
290
6657
8677
6196
1935
485
83
12
1
Table 13.14. Altmann/Bagheri/Goebl et al. (2002) propose the model of 1-displaced hyperbinomial distribution, namely
Px Z
(
( ) n xK1
mCxK2 xK1
)
2F1
it can be derived from a birth-and-death process.
qxK1 P1 , x Z 1, 2, ..., n C 1
where P1 Z [2F1 (Kn, 1; m; Kq)]K1 is the normalizing constant represented by the hypergeometric function (Kn, 1; m; K q) Z 1 C
nq
C m n (n C 1) q2
C
m (m C 1)
C ...
At present, the model can be considered well founded because it belongs to the class of distributions used for synergetic modelling (cf. Altmann/Köhler 1996) and, besides,
24336
(13)
For modelling we start from the assumption that the number of words of length x increases by the prolongation of shorter words (of length xK1) through affixation, or by shortening of longer words caused by their frequent use. We ignore other changes in magnitude, or, in other words, we equal their probability to zero. We further assume that there is an upper limit for the syllabic length that can be denoted as n. The smaller the birth rate λx , the greater x, which can be expressed symbolically as λx Z (n K x) q, with 0 ! q ! 1. Analogically, the higher the
202
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
death rate, the greater x, which is expressed as µx Z m C x K 1. Inserting these quantities in the steady-state process one obtains
Table 13.14: Fitting of distribution (13) to Indonesian data x
fx
NPx
n qP0 Z m P1 [(n K 1) q C m] P1 Z n qP0 C (m C 1) P2 ................................................................. [(n K x) q C m C x K 1] Px Z Z (n K x C 1) qPxK1 C (m C x) PxC1 , x Z 1, 2, ..., n K 1 (14) (m C n K 1) Pn Z qPnK1
1 2 3 4 5 6 7 8 9
290 6657 8677 6196 1935 485 83 12 1
237.25 6051.23 8902.08 6013.14 2395.78 617.07 106.32 12.24 0.91
Stepwise solution of (14) yields the hyperbinomial distribution. For languages without zero-syllabic words it must be displaced one step to the right in order to obtain (13). On the basis of the recurrence formula for (13) that can be obtained when solving (14) and displacing 1 step to the right, namely
n Z 10, m Z 0.0685, q Z 0.1747, X 42 Z 205.63, C Z 0.0084, N Z 24336
PxC1 Z
(n K x C 1)
q Px , mCxK1 x Z 1, 2, ..., n C 1 (15)
we see that the “birth rate” is simply the share of the speaker’s creativity, while the “death rate” is the braking, controlling effect of the language community. The longer the words become, the stronger the effect of this braking force. In Table 13.14 and Fig. 13.2 one finds the fitting of (13) to Indonesian data, in Table 13.15 and Fig. 13.3 fitting to Hungarian data. As expected, the chi-square value is in both cases very high, which is usual with great sample sizes. Therefore one prefers to
Table 13.15: Fitting (13) to Hungarian data x
fx
NPx
1 2 3 4 5 6 7 8 9
1421 12333 20711 15590 5543 1510 289 60 1
1524.36 13230.05 19887.95 14491.51 6259.13 1721.77 306.62 34.39 2.22
n Z 9, m Z 0.2420, q Z 0.2334, X 32 Z 293.28, C Z 0.0051, N Z 57458
use the contingency coefficient C Z X 2 / N and accepts the fitting if C % 0.02. In both figures the fitting is optically very good as well.
Altmann 663.dat - Hyperbinomial f [x] NP[x]
9.000 8.000
Altmann Fitter 2.1
7.000 6.000 5.000 4.000 3.000 2.000 1.000 0 1
2
3
4
5 f [x], NP[x]
6
7
Fig. 13.2: Fitting the hyperbinomial distribution to Indonesian data
8
9
203
13. Phonic word structure Altmann 663.dat - Hyperbinomial f [x] NP[x]
22.000 20.000 18.000 Altmann Fitter 2.1
16.000 14.000 12.000 10.000 8.000 6.000 4.000 2.000 0 1
2
3
4
5 f [x], NP[x]
6
7
8
9
Fig. 13.3: Fitting the hyperbinomial distribution to Hungarian data
7.2. The relation of lengths A look at Table 13.12 or 13.13 shows that the increase in the number of syllables in the lexeme is accompanied by the linear increase in the number of phonemes. The values lie in a very narrow range on either side of a straight line but the dispersion can be greater in languages admitting rich consonant clusters. Here, Menzerath (1964) supposed a linear relation. Since according to Menzerath’s law the number of phonemes stochastically depends on the number of syllables (cf. section 6.3.) we consider the number of syllables the independent variable. For Table 13.12 we obtain (Y Z mean number of phonemes, X Z number of syllables)
18 16 14 12 10 8 6 4 1
2
3
4
5
6
7
8
Fig. 13.4: The relationship between syllabic and phonemic length of Indonesian lexemes
y Z 1.96517 C 1.8630x
One can assume that the linear relation holds for all languages but it is necessary to examine further languages.
yielding the determination coefficient D Z 0.9933, and for Table 13.13 containing the “weighted” values
7.3. Menzerath’s law The validity of Menzerath’s law (cf. art. No. 47) can also be ascertained in the lexicon. In our case this means: the syllables of a lexeme are shorter on average (measured in terms of the average number of phonemes)
y Z 1.6033 C 1.9300x with D Z 0.9883. The difference between the straight lines is not significant. The values of this regression can be found in Table 13.16 and graphically in Fig. 13.4.
Table 13.16: The relation of syllabic and phonemic length of lexemes in Indonesian Obs. Theor
9
1
2
3
4
5
6
7
8
9
3.12 3.53
5.07 5.46
7.33 7.39
9.52 9.32
11.85 11.25
13.80 13.18
15.83 15.11
16.75 17.04
18.00 18.97
204
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Table 13.17: Menzerath’s law for syllable length Mean phonemic length of lexemes Mean length of syllables Theoretical values
1
2
3
4
5
6
7
8
9
3.12
5.07
7.33
9.52
11.85
13.80
15.83
16.75
18.00
3.12
2.54
2.44
2.38
2.37
2.30
2.26
2.09
2.00
3.02
2.69
2.51
2.39
2.30
2.23
2.17
2.12
2.08
In Table 13.12 which represents a coordinate system !S, PO (S K syllable, S Z 1, 2, ..., 9, P K phoneme, P Z 2, 3, ..., 20) we see that not all cells of the Table are occupied. Every language is more or less parsimonious and uses consonant clusters to a restricted degree, Let B be the number of occupied cells. Here B Z 60, since exactly 60 cells are occupied. The number of all cells Z is here Z Z 9 (19) Z 171. The simplest occupancy measure for Indonesian is
3.4 3.2 3 2.8 2.6 2.4 2.2 2 1
2
3
4
5
6
7
8
9
Fig. 13.5: Menzerath’s law for syllable length in Indonesian
the longer the lexeme (measured by the number of syllables). Menzerath’s law is expressed in the form of a power curve y Z axKb. Data necessary for the computing of the parameters a and b can be obtained from Table 13.13 or directly from Table 13.16 where one finds the mean phonemic lengths. Computation proceeds as follows: If the mean phonemic length of a disyllabic word is 5.07 (second row in Table 13.16) then the mean length of these two syllables is 5.07 / 2 Z 2.54. For trisyllabic words we have 7.33 / 3 Z 2.44 etc. as can be seen in the third row of Table 13.17. Using the third row in Table 13.17 we easily obtain y Z 3.0226xK0.1697 whose values are in the fourth row of Table 13.17. The dependence is shown graphically in Fig. 13.5. Altmann/Bagheri/Goebl et al. (2002) show further alternatives of this law. 7.4. The exploitation of types There are several ways to characterize the degree of exploitation of the CV types. Here merely some approaches are to be shown, deeper theoretical work can begin only after several languages have been studied. (i) Occupancy measure B1
B1 Z
60
B Z Z
171
Z 0.35.
B1 Z 0.35 is, of course, merely an estimate that can change if the dictionary increases. This measure could increase if an empty cell is filled, but it could also decrease if a 10syllabic or 21-phonemic word is added because the table would increase by a whole row or column but merely one new cell would be occupied. The computation of confidence intervalls is therefore somewhat more complicated than usually. We would obtain another result if we theoretically admit S Z 0, 1, ..., 9 and P Z 1, 2, ..., 20 being the case in Slavic languages (having 0-syllabic words). In that case we would obtain B1 Z 60/200 Z 0.3. (ii) Occupancy function Bx A look at Table 13.11 shows that not all theoretically possible CV types are realized. In Indonesian one does not find VV2, VV3, 4V1V, 3V1V1 etc. Forms without vowels in which the syllabic role is taken over by a consonant are missing here but cf. in Czech vlk (wolf), smrt (death), štvrt (quarter). There are neither 0-syllabic words here as in Czech k, s, z, v (to, with, from, in) but theoretically one should admit them. The theoretically possible number of x-phonemic CV types (i. e. CV types with phonemic length x) is 2x because in each of the x positions either a vowel or a consonant can be placed. However, since x is variable there is a different occupancy measure for
205
13. Phonic word structure
Altmann Fitter 2.1
Altmann 663.dat - Mixed Poisson 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0
f [x] NP[x]
2
4
6
8
10 12 f [x], NP[x]
14
16
18
20
Fig. 13.6: Distribution of exploitation
each length. For example, for length x Z 2 the maximal number of types is 22 Z 4; thus, in the last column of Table 13.12 one finds B2 (2) Z 3 / 22 Z 0.75. For x Z 8 we have 28 Z 256 and there are 45 CV-types of this kind, i. e. B2 (8) Z 45 / 256 Z 0.1758, etc. In Table 13.18 one finds the maximal exploitation 2x (second column), the observed explotation B2 (x) (third column) and the explotation coefficient for each length Ax Z
100 B2 (x)
(16)
2x
where B2 (x) corresponds to the marginal sums of Table 13.11. Since Ax represents a curve or a series, one must find its form. To this end it is reasonable to consider B2 (x) a discrete distribution and find an appropriate model. With the help of a model-building software (cf. Altmann-Fitter 1997) it is easy to ascertain that the data follow well the mixed Poisson distribution Px Z
α axK1 eK a (x K 1)!
(1Kα) bxK1 eKb C
, (x K 1)! x Z 1, 2, ... , (17)
which has been here shifted one step to the right and whose values can be found in the fifth column of Table 13.18. The mixing of distributions can be justified by the fact that
the CV types consist of two layers, namely words of Austronesian origin and of foreign words which enrich each class with new CV types. As can be seen in Fig. 13.6 the fitting is very good. The empirical coefficient of exploitation (16) can be well approximated with the theoretical exploitation coefficient Bx Z
100 N Px
(18)
2x
where NPx are the expected frequencies according to (17) (N is the sample size, here 557). Since the first two classes are pooled for the fitting of (17) and x Z 1 does not exist in Indonesian, the occupancy function has the form
Px# Z
{
100 N (P1 C P2 ) 4 400 N Px 2x
,
xZ2 (19)
,
x Z 3, 4, ..., 20
whose values are presented in Table 23.18. A graphical representation can be seen in Fig. 13.7. It must be examined whether a similar form is adequate for other languages. (iii) The extremes Bm and BM A third possibility to characterize the exploitation consists in the ascertainment of curves capturing the minimal and maximal numbers of phonemes for the individual syllabic lengths. Considering Table 13.12 again
206
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Table 13.18: Exploitation function for types Length x
Maximal exploitation
Observed exploitation
Exploitation coefficient 100 B2 (x) / 2x
Theoretical exploitation
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576
0 3 6 8 16 21 32 45 55 69 63 60 51 45 30 20 20 6 6 1
0.00 75.00 75.00 50.00 50.00 32.81 25.00 17.58 10.74 6.74 3.08 1.46 0.62 0.27 0.09 0.03 0.02 0.002 0.001 0.0001
0.5861S 2.4649R 5.5111 9.2965 14.2782 21.6831 32.1137 44.4267 55.9203 63.5895 65.5022 61.4949 52.9743 42.1402 31.1322 21.4676 13.8784 8.4445 4.8527 5.2428
Theoretical coefficient of exploitation (19) 76.28 68.89 58.10 44.62 33.88 25.09 17.35 10.92 6.21 3.20 1.50 0.65 0.26 0.09 0.03 0.01 0.003 0.001 0.0005
The theoretical distribution (17) has the parameters a Z 10.3439, b Z 4.0433, α Z 0.9429 and X 2 Z 8.5911, DF Z 15, P Z 0.90
a languge in a well proportioned manner. While in Polynesian languages there are no consonant clusters but a rich development of vowel sequences, in Slavic languages it is the other way round. These curves have in common that they are consequences of Menzerath’s law and must have the same analytical form, namely
70 60 50 40 30
y Z Axb.
20 10 0 2
4
6
8
10
12
14
16
18
20
Fig. 13.7: Exploitation of CV types in Indonesian
one sees that the maximal number of phonemes in monosyllables is P1, max Z 5, for disyllables it is P2, max Z 8, etc. The minima for mono- and disyllabic words are P1, min Z P2, min Z 1, further P3, min Z 4, etc. One obtains a curve if one connects the cells at the extremes with a line. The whole field could be captured with an ellipse but one cannot expect a symmetry around the axis y Z 1.9517 C 1.8630x that has been computed in section 7.2. The curve of the minima characterizes the building of vocalic sequences, that of the maxima the building of consonant clusters but these need not develop in
(20)
Since with the course of maxima the cluster building decreases, the exponent must lie between 0 and 1; the building of vowel sequences increases with the course of minima (on the same ground), thus the exponent must be greater than 1. Table 13.19 Syllabic length
Minimum
Mintheor
Maximum
Maxtheor
1 2 3 4 5 6 7 8 9
2 2 4 6 7 10 13 15 18
1.37 2.95 4.61 6.34 8.11 9.92 11.76 13.63 15.52
5 8 11 13 17 18 20 19 18
5.27 8.24 10.70 12.87 14.86 16.71 18.46 20.11 21.70
207
13. Phonic word structure
Altmann-Fitter (1997), Iterative fitting of probability distributions. Lüdenscheid: RAM.
22 22
Andreev, Nikolaj D. (1967), Statistiko-kombinatornye metody v teoretičeskom i prikladnomjazykoznanii. Leningrad: Nauka.
18 16 14
Bowker, Albert H. (1948), A test for symmetry in contingency tables. In: Journal of the American Statistical Association 13, 572K574.
12 10 8
Caussinus, Henri (1965), Contribution à l’analyse statistique des tableaux de correlation. In: Annales de la Faculté des Sciences de l’Université de Toulouse 77K183.
6 4 2 1
2
3
4
5 x
6
7
8
9
Fig. 13.8: Maxima and minima of syllabic length
Cohen, J. (1960), A coefficient of agreement for nominal scales. In: Educational and Psychological Measurement 20, 37K46. Conklin, Harold C. (1953), HanunóoKEnglish dictionary. Berkeley, Los Angeles.
In Table 13.19 one finds the observed values for maxima and minima respectively in the second and fourth column. The individual curves are BM Z 5.2731x0.6438 Bm Z 1.3708x1.1044 and the determinantion coefficients are DM Z 0.90 and Dm Z 0.95. The graphical representation is displayed in Fig. 13.8. Curves of the same type would be obtained if phonemic length were the independent variable.
8.
Literature (a selection)
Altmann, Gabriel (1967), The structure of Indonesian morphemes. In: Asian and African Studies 3, 23K36. Altmann, Gabriel (1968), Combination of consonants in Indonesian morphemes of the CVCVC type. In: Mitteilungen des Instituts für Orientforschung 14, 108K125. Altmann, Gabriel (1986), Tendenzielle Vokalharmonie. In: Glottometrika 8 (ed. I. Fickermann). Bochum: Brockmeyer, 104K112. Altmann, Gabriel (1993), Phoneme counts. Marginal remarks to Pääkkönen’s article. In: Glottometrika 14 (ed. G. Altmann). Trier: VWT, 54K68. Altmann, Gabriel/Bagheri, Darius/Goebl, Hans/ Köhler, Reinhard/Prün, Claudia (2002), Einführung in die quantitative Lexikologie. Göttingen: Peust & Gutschmidt. Altmann, Gabriel/Köhler, Reinhard (1996), “Language Forces” and synergetic modelling of language phenomena. In: Glottometrika 15 (ed. P. Schmidt). Trier: WVT, 62K76. Altmann, Gabriel/Lehfeldt, Werner (1980), Einführung in die quantitative Phonologie. Bochum: Brockmeyer.
Dubovská, Zorica (s.d.), Struktura indonézské morfémy. Praha: Diss. Echols, John E./Shadily, Hassan (1963), An IndonesianKEnglish Dictionary. Ithaca: Cornell University Press. Emeis, Marinus G. (1955), Vocaal-harmonie in de Maleise kern van de Indonesische vocabulaire. In: Bijdragen tot de Taal-, Land- en Volkenkunde 111, 191K201. Fleiss, J. L./Cohen, J./Everitt, B. S. (1969), Large sample standard errors of kappa and weighted kappa. In: Psychological Bulletin 72, 323K327. Ginneken, Jacobus v. (1932), De ontwikkelingsgeschiedenis van de systemen der menschelijke taalklanken. Amsterdam: Kon. Akad. Wetensch. Greenberg, Joseph H. (1950), The patterning of root morphemes in Semitic. In: Word 6, 162K181. Herdan, Gustav (1966), The advanced theory of language as choice and chance. Berlin: Springer. Hug, Marc (1997), Disturbing factors in a linguistic usage test. In: Journal of Quantitative Linguistics 4, 110K121. Krupa, Viktor (1966), The phonemic structure of bivocalic morphemic forms in Oceanic languages. In: Journal of the Polynesian Society 75, 458K497. Krupa, Viktor (1967a), Dissociations of like consonants in morphemic forms. In: Asian and African Studies 3, 37K44. Krupa, Viktor (1967b), On phonemic structure of morpheme in Samoan and Tongan. In: Beiträge zur Linguistik und Informationsverarbeitung 12, 72K83. Krupa, Viktor (1971), The phonotactic structure of the morph in Polynesian languages. In: Language 47, 668K684. Martindale, Collin/Gusein-Zade, S. M./McKenzie, Dean/Borodovsky, Mark Y. (1996), Comparison of equations describing the ranked frequency distributions of graphemes and phonemes. In: Journal of Quantitative Linguistics 3, 106K112.
208
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Martinet, André (1955), Économie des changements phonétiques. Berne: Francke. Menzerath, Paul (1950a), Sprachtyplogische Untersuchungen. 1. Allgemeine Einführung und Theorie der Wortbildung. In: Studia Linguistica 4, 54K93. Menzerath, Paul (1950b), Typology of languages. In: Journal of the American Acoustical Society 45, 698K701. Menzerath, Paul (1964), Die Architektonik des deutschen Wortschatzes. Bonn: Dümmler. Miller, James G. (1978), Living systems. New York: MacGraw-Hill. Nikonov, Vladimir A. (1963), Interpretacija fonetičeskich častot. In: Učenye zapiski Instituta slavjanovedenija AN SSSR 27, 359K270. Odendal, François F. (1962), Die struktuur van die Afrikaanse wortelmorfeem. Kaapstad: H.A.U.M. Orlov, Jurij K./Boroda, Moisei G./Nadarejšvili, Isabella Š. (1982), Sprache, Text, Kunst. Quantitative Analysen. Bochum: Brockmeyer. Pääkkönen, Matti (1993), Graphemes and context. In: Glottometrika 14 (ed. G. Altmann). Trier: WVT, 1K53. Roberts, Aaron Hood (1965), A statistical linguistic analysis of American English. The Hague: Mouton.
Ross, Alan S. C. (1950), Philological probability problems. In: Journal of the Royal Statistical Society 12, 19K41. Schulz, Klaus-Peter/Altmann, Gabriel (1988). Lautliche Strukturierung von Spracheinheiten. In: Glottometrika 9 (ed. K. P. Schulz). Bochum: Brockmeyer, 1K47. Segal, D. M. (1972), Osnovy fonologičeskoj statistiki (na materiale pol’skogo jazyka). Moskva: Nauka. Sigurd, Bengt (1968), RankKfrequency distribution for phonemes. In: Phonetica 18, 1K15. Stuart, Alan (1955), A test for homogeneity of the marginal distribution in a twoKway classification. In: Biometrika 42, 412K416. Trubetzkoy, Nikolai S. (1939), Grundzüge der Phonologie. Prague: Harrasowitz. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systemischen Lexikologie. Trier: WVT. Uhlenbeck, Eugenius M. (1949), De structuur van het Javaanse morpheem. Bandoeng: Nix. Uhlenbeck, Eugenius M. (1950), The structure of the Javanese morpheme. In: Lingua 2, 239K270. Zipf, George K. (1968), The psycho-biology of language. An introduction to dynamic philology. Cambridge, Mass.: The MIT Press.
Gabriel Altmann, Lüdenscheid (Germany)
14. Längen rhythmischer Einheiten 1. 2. 3. 4. 5. 6. 7. 8. 9.
1.
Rhythmische Einheiten in der Forschung Annahmen zu einer Theorie der Verteilungen von rhythmischen Einheiten verschiedener Länge Was ist eine rhythmische Einheit? Länge der rhythmischen Einheiten Die Verteilung von rhythmischen Einheiten verschiedener Länge Das Ordsche Kriterium Parameterbeziehungen Perspektiven Literatur (in Auswahl)
Rhythmische Einheiten in der Forschung
Untersuchungen zu rhythmischen Einheiten gehen auf den deutschen Psychologen Karl Marbe (1904) zurück, der bei der Lektüre von Goethes „Sankt Rochusfest zu Bingen“ und Heines „Harzreise“ den Eindruck gewann, dass beide Werke sich in ihrem Rhythmus deutlich unterschieden und da-
durch unterschiedliche ästhetische Wirkungen beim Leser erzeugen. In der Nachfolge wurden entsprechende Untersuchungen von seinen Schülern (Marbe 1945, 10 f.) zu verschiedenen Sprachen und von Thumb (1913) zum Griechischen durchgeführt. Besonderes theoretisches Interesse können diese Untersuchungen deshalb beanspruchen, weil Marbe (1913, 37) Zusammenhänge zwischen dem Rhythmus von Texten sowie dem Grad ihrer Gefühlsbetontheit, der Länge der in ihnen enthaltenen Wörter und Silben und der Lesegeschwindigkeit beansprucht. In diesem Artikel soll es aber um einen speziellen Aspekt gehen, um die Frage nämlich, ob sich rhythmische Einheiten verschiedener Länge in Texten gesetzmäßig verteilen, und wenn ja, welchen Verteilungen sie folgen. Diese Thematik drängt sich auf, wenn man erfahren hat, dass andere sprachliche Entitäten sich in Texten ebenso wie im Lexikon gesetzmäßig verhalten. (vgl. Art. 18, 19, 22.)
209
14. Längen rhythmischer Einheiten
2.
Annahmen zu einer Theorie der Verteilungen von rhythmischen Einheiten verschiedener Länge
Ausgangspunkt für Überlegungen zu einer Theorie der Verteilungen rhythmischer Einheiten verschiedener Länge kann ebenso wie bei anderen Sprachentitäten die Annahme von Fucks (1956, 20) sein, dass eine „allgemeine Theorie der Sprachelemente“ möglich ist, die „jedes Sprachelement in jeder Sprache in seinem Aufbau aus seinen Komponenten anschaulich deutet und quantitativ beschreibt.“ Bisher existiert eine Theorie mit derart allgemeinem Anspruch nicht; es gibt aber keinen zwingenden Grund, warum die Längen rhythmischer Einheiten sich anders verhalten sollten als Satz- und Wortlängen, für die Gesetzeshypothesen entwickelt wurden (zu Satzlängen: Altmann 1988a; Altmann 1988b, 63 ff.; zu Wortlängen: Wimmer/Köhler/Grotjahn u. a. 1994; Wimmer/Altmann 1996). Danach kann angenommen werden, dass rhythmische Einheiten einer beliebigen Längenklasse P2 proportional zu der Längenklasse P1 vorkommen werden: P2 w P1. Das bedeutet, dass die Häufigkeit des Vorkommens rhythmischer Einheiten der Länge x abhängig ist von der Häufigkeit, mit der rhythmische Einheiten der Länge xK1 vorkommen. Da die Proportion sich von Längenklasse zu Längenklasse ändert, kann man dies mit der Funktion Px Z g (x) PxK1.
(1)
zum Ausdruck bringen. Dabei steht die Funktion g (x) für die Änderung der Proportionen bei den verschiedenen Längenklassen rhythmischer Einheiten. Die Funktion g (x) kann nun verschiedene Formen annehmen, die sich allerdings bisher noch nicht von vornherein aufgrund theoretischer Überlegungen vorhersagen lässt, wie dies eigentlich wünschenswert wäre. Stattdessen ist vorläufig nur der umgekehrte Weg möglich: Man erstellt Dateien zur Häufigkeit der unterschiedlichen Längen rhythmischer Einheiten und untersucht, welche der Verteilungen, die aufgrund der Theorie dafür infrage kommen, an die betreffenden Dateien mit Erfolg angepasst werden können. Danach kann versucht werden, dieses Ergebnis zu interpretieren. Das Verfahren gestaltet sich also ganz analog zu dem, das bei der Bearbeitung von Wortlängen (vgl. Art. 19) ange-
wendet wurde. Es ist auch denkbar, dass die Ergebnisse bei rhythmischen Einheiten einmal ganz ähnlich sein werden, wie sie sich bei Wortlängen gezeigt haben. Dies könnte bedeuten, dass ein Grundmodell zu finden sein sollte, das sich oft bei verschiedenen Sprachen, Autoren, Stilen, Textsorten etc. bewährt; andere Modelle können dann notwendig werden, wenn einzelne der genannten Faktoren sich besonders stark bemerkbar machen. Auch hier ist zunächst einmal damit zu rechnen, dass vor allem die jeweils untersuchte Sprache ein besonders bestimmender Einflussfaktor sein wird. All dies ist aber vorläufig Spekulation, da zu den Verteilungen rhythmischer Einheiten verschiedener Länge bisher nur wenig Erfahrungen vorliegen. Zusammenfassend noch einmal die Überlegungen, die den Untersuchungen der Längenverteilung rhythmischer Einheiten zugrunde liegen: (a) Es wird angenommen, dass die Längen rhythmischer Einheiten grundsätzlich Gesetzen folgen, so wie das die Längen anderer Einheiten offensichtlich ebenfalls tun. (b) Mangels einer speziellen Theorie der Längenverteilung rhythmischer Einheiten wird in Anknüpfung an Fucks (1956) angenommen, dass sie grundsätzlich den gleichen Gesetzen unterliegen wie Satz- und Wortlängen.
3.
Was ist eine rhythmische Einheit?
Will man die Längen rhythmischer Einheiten in Texten hinsichtlich ihrer Häufigkeitsverteilungen untersuchen, muss man das Problem lösen, die „rhythmische Einheit“ zu definieren. Prinzipiell macht dies keine besonderen Schwierigkeiten: Liest man einen Prosatext und markiert die betonten Silben in den Sätzen, so kann man feststellen, dass zwischen zwei betonten unterschiedlich lange Passagen unbetonter Silben vorkommen; dies sind die „rhythmischen Einheiten“: folgen zwei betonte Silben direkt aufeinander, so hat man eine rhythmische Einheit der Länge 1, liegt zwischen ihnen nur eine unbetonte, so ist dies eine rhythmische Einheit der Länge 2, bei zwei unbetonten Silben ist es eine der Länge 3, etc. Die rhythmischen Einheiten sind damit die Folgen von Silben, die von zwei betonten Silben im Text begrenzt werden. In der For-
210
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
schungspraxis gibt es jedoch erhebliche Probleme mit der Bestimmung rhythmischer Einheiten, sind sie doch im Gegensatz zu „Satz“ und „Wort“ nicht formal erkennbar. Bei der Bearbeitung schriftlicher Texte hat man in nahezu jedem Satz die Möglichkeit, bestimmte Silben als betont ebenso wie als unbetont zu interpretieren. Damit ändert sich aber die Einteilung ein und desselben Textes in rhythmische Einheiten. Dafür, dass man bei ein und demselben Text unterschiedliche Akzentuierungen vornehmen kann, gibt es objektive und subjektive Gründe. Die objektiven bestehen u. a. darin, dass manche Wörter unterschiedliche Betonungen zulassen (wéshalb oder weshálb); die subjektiven ergeben sich daraus, dass man Textpassagen verschieden auffassen kann, ohne dass eine der Interpretationen zwingend anderen Möglichkeiten vorzuziehen ist. Vielleicht sollte man deshalb die erstellten Akzentuierungen eher als Momentaufnahmen des Textverständnisses durch den jeweiligen Bearbeiter auffassen, das sich bei erneuter Lektüre oder Bearbeitung durchaus auch ändern kann. In diesem Zusammenhang drängt sich der Gedanke auf, dieses Problem dadurch zu umgehen, dass man sich auf mündlich ausgeführte Texte beschränkt. Dieser Ausweg ist nur ein scheinbarer: Man bekommt dadurch eine momentane Interpretation durch einen Sprecher oder Vorleser; auch diese ist nur scheinbar endgültig. Außerdem verhindert man mit einer solchen Maßgabe die Bearbeitung aller der Texte, die nur in schriftlicher Form vorliegen. Das Dilemma, dass rhythmische Einheiten nicht ein für alle Mal eindeutig zu bestimmen sind, bleibt erhalten. Marbe (1904, 4) und Gropp (1915, 22) schätzen dieses Problem als nur minimal ein; unsere eigenen Erfahrungen mahnen eher zur Vorsicht.
4.
Länge der rhythmischen Einheiten
Die Länge der rhythmischen Einheiten ergibt sich automatisch: sie bemisst sich entsprechend der Zahl der unbetonten Silben zwischen zwei betonten.
5.
Die Verteilung von rhythmischen Einheiten verschiedener Länge
Das Problem, welche Verteilung daraufhin zu prüfen ist, ob sie ein geeignetes Modell für die Häufigkeitsverteilung rhythmischer
Einheiten darstellt, wurde wie folgt vorläufig gelöst: Bei der Untersuchung von Wortlängen in vielen Sprachen hat sich gezeigt, dass die 1-verschobene Hyperpoisson-Verteilung Px Z
axK1 b(xK1) 1F1 (1; b; a)
, x Z 1, 2, ...
(2)
so etwas wie ein Grundmodell darstellt, das in besonders vielen Sprachen angewendet werden kann (Best 2001a; 2001b, 3); diese Verteilung hat sich auch bei anderen Spracheinheiten (Morph-, Satzlängen) vielfach bewährt. Da zu den Häufigkeitsverteilungen rhythmischer Einheiten keine speziellen Theorien vorliegen, wurde versuchsweise dieses erfolgreiche Modell daraufhin getestet, ob es sich möglicherweise auch in diesem Fall bewährt. In Formel (2) sind a und b Parameter; 1F1 (1; b; a) ist die konfluente hypergeometrische Funktion, d. h. 1F1
(1; b; a) Z 1 C
a2
a b
C
b (b C 1)
C ...
und b(xK1) Z b (b C 1) (b C 2) ... (b C x K 2). Zur Verteilung rhythmischer Einheiten verschiedener Länge in Texten gibt es bisher nur wenige Untersuchungen. Einige Daten dazu findet man in den Untersuchungen von Marbe (1904) sowie seiner Schüler und seines Kollegen Thumb (1913). Einige dieser Dateien sind für eine Anpassung der Hyperpoisson-Verteilung nicht geeignet, da sie wie etliche der von Thumb (1913) für das Altgriechische genannten Tabellen lediglich Prozentwerte angeben und nicht absolute Werte. Alle anderen Dateien, die in einer dazu geeigneten Form vorlagen, wurden mit Hilfe des Altmann-Fitters (1994/97) getestet; die Anpassung der Hyperpoisson-Verteilung gelang bei den von Marbe (1904) zu Goethe und Heine mitgeteilten Daten in 7 von 8 Fällen (Best 2001c); sie gelang bei den von anderen Autoren mitgeteilten Dateien in den meisten Fällen nicht. Als Gründe für diesen teilweisen Misserfolg kann man bedenken: (1) Marbe, Thumb u. a. haben immer nur willkürlich festgesetzte Textteile bearbeitet, in der Regel um 500 oder 1000 Wörter lang; die genaue Länge ist deshalb z. T. etwas größer, weil bei Errei-
211
14. Längen rhythmischer Einheiten
chen der festgesetzten Wortzahl bis zum Ende des begonnenen Satzes gezählt wurde. Die Bildung willkürlicher Textabschnitte verletzt jedoch die erforderliche Homogenität der Daten: „Bei Texten zähle man nur geschlossene Textteile aus ...“ (Altmann 1992, 296). (2) Seltsamerweise kann man trotz der willkürlichen Texteinteilung an die von Marbe vorgestellten Dateien zu Goethe und Heine meist gute Anpassungen der Hyperpoisson-Verteilung durchführen; bei den Daten von Marbes Schülern gelingt das nur selten. Oft können auch keine anderen, infrage kommenden Verteilungen verwendet werden. Um herauszufinden, ob mit der Auswertung vollständiger Texte bessere Ergebnisse zu erzielen sind, wurden weitere Untersuchungen durchgeführt. Ein erster Versuch galt drei Fabeln von Pestalozzi (Best 2001b, 4 ff.), ein weiterer 16 kurzen Prosatexten von Strittmatter (Best 2002); an alle 19 Textdateien kann die Hyperpoisson-Verteilung angepasst werden. Dies gilt auch für den folgenden Prosatext „Fugen“ (Vesper 1985, 18K22). Dabei bedeuten: x
nx
NPx
1 2 3 4 5 6 7 8 9
69 188 191 124 50 27 7 2 1
67.24 183.20 192.73 125.64 59.33 21.97 6.69 1.73K 0.48K
S a b X2 FG P
659 Z 1.7138 Z 0.6290 Z 3.127 Z5 Z 0.68
Abb. 14.1: Anpassung der Hyperpoisson-Verteilung an G. Vesper, Fugen
a, b K Parameter der Verteilung; x K Zahl der unbetonten Silben zwischen zwei betonten Silben; x Z 1: keine unbetonte; x Z 2: eine unbetonte; etc. nx K beobachtete Zahl der rhythmischen Einheiten der Länge x; NPx K aufgrund der 1-verschobenen Hyperpoisson-Verteilung berechnete Zahl der rhythmischen Einheiten der Länge x;
X2 K das Chiquadrat; FG K Freiheitsgrade; P K Überschreitungswahrscheinlichkeit des Chiquadrats. Eine Anpassung ist zufriedenstellend, wenn P R 0.05, was in diesem Fall und bei den anderen 19, hier nicht dokumentierten Texten ebenfalls gegeben ist. Auch die folgende Graphik bestätigt die gute Übereinstimmung zwischen den beobachteten und berechneten Werten: 200 150 beob. theor.
100 50 0
Abb. 14.2: beobachtete und theoretische Werte der Verteilung rhythmischer Einheiten in G. Vesper, Fugen
Man darf also feststellen, dass diese ersten Untersuchungen zur Verteilung rhythmischer Einheiten verschiedener Länge in deutschen Prosatexten die Erwartung erfüllen, dass auch in diesem Fall offenkundig eine Gesetzmäßigkeit zugrunde liegt. Die Ergebnisse der Analyse vollständiger Texte scheinen deutlich besser zu sein als bei den willkürlich gebildeten Textabschnitten, die Marbe u. a. bearbeiteten. Bei deutschen Texten bewährt sich die Hyperpoisson-Verteilung als Modell in allen Fällen. Dies gilt auch für eine weitere Untersuchung, die gerade von Kaßel (2002) an je 15 deutschen und englischen Briefen und Pressetexten, also insgesamt 60 Texten, durchgeführt wird. In allen Fällen erweist sich wieder die Hyperpoisson-Verteilung als gutes Modell, auch bei den englischen Texten.
6.
Das Ordsche Kriterium
Wie bei den Verteilungen der Wortlängen kann man auch bei Längen rhythmischer Einheiten die Frage stellen, ob die Texte, die zu einer bestimmten Gruppe gehören, sich untereinander ähnlich sind oder nicht. Um dies herauszufinden, lässt sich wiederum eine empirische Abwandlung des Ordschen Kriteriums (Ord 1972, 98 f.; 133 ff.) verwenden, das sich auf die Momente der benutzten Verteilungen stützt (Altmann 1988b, 48 ff.). Dabei handelt es sich um
212
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
m1 Z mr Z
1 N 1
Die Graphik zeigt, dass in dieser kleinen Gruppe von 16 Prosatexten eine erhebliche Streuung zu beobachten ist; es handelt sich damit nicht um eine in sich homogene Textgruppe.
S xfx (Mittelwert), und S (x K m1)r fx ,
N
r R 2,
wobei m2 die Varianz und m3 die Schiefe oder Asymmetrie der Verteilung darstellen. Hieraus lassen sich nun zwei Größen, I Z m2 / m1 und S Z m3 / m2 berechnen. Die Größen I und S kann man in ein Koordinatensystem !I, SO eintragen und zur Veranschaulichung der Homogenität der Textgruppe verwenden. Dies sei am Beispiel der in Best (2002) bearbeiteten Prosatexte von Strittmatter demonstriert, die ja einer einzigen Textsorte angehören und daher untereinander eine gewisse Homogenität aufweisen könnten. m2
m3
I
S
3.48 3.63 3.70 3.50 3.33 3.39 3.70 3.75 3.39 3.26 3.79 3.69 3.50 3.43 3.41 3.58
1.45 2.55 2.90 2.22 1.57 2.75 1.83 2.92 2.16 1.86 2.24 2.83 2.12 1.96 2.03 1.94
0.85 3.39 5.31 2.76 1.09 4.10 0.86 3.28 1.92 2.10 1.01 4.46 2.77 1.56 2.19 1.24
0.42 0.70 0.78 0.63 0.47 0.81 0.49 0.78 0.64 0.57 0.59 0.77 0.61 0.57 0.60 0.54
0.59 1.33 1.83 1.24 0.69 1.49 0.47 1.12 0.89 1.13 0.45 1.58 1.31 0.80 1.08 0.64
Parameterbeziehungen
Wie bereits erwähnt konnte die Hyperpoisson-Verteilung an die Verteilung der rhythmischen Einheiten in den von Best und Kaßel untersuchten 50 deutschen und 30 englischen Texten angepasst werden. Zwischen den Parametern dieser Verteilung besteht ein klarer Zusammenhang, wie nun gezeigt werden soll. Text
a
b
Text
a
b
1 2 3 4 5 6 7 8
1.65 2.46 2.93 1.97 1.58 2.80 2.03 3.35
0.11 0.83 1.29 0.38 0.23 1.47 0.28 1.72
9 10 11 12 13 14 15 16
2.10 1.62 2.30 2.28 1.88 1.90 1.76 1.93
0.69 0.30 0.46 0.57 0.34 0.44 0.26 0.31
Abb. 14.5: Beziehungen zwischen den Parametern a und b der Hyperpoisson-Verteilung am Beispiel der Kurzprosatexte von E. Strittmatter
Die folgende Graphik veranschaulicht diese Zusammenhänge. 2 1,5 a
m1
7.
Abb. 14.3: Das Ordsche Kriterium für rhythmische Einheiten, angewendet auf 16 Kurzprosatexte von E. Strittmatter
1 0,5 0 0
Daraus ergibt sich folgende Graphik:
2 b
3
4
Abb. 14.6: Die Beziehungen zwischen den Parametern a und b der Hyperpoisson-Verteilung am Beispiel der Längen rhythmischer Einheiten in 16 Kurzprosatexten von E. Strittmatter
2 1,5 S
1
Es wird sehr deutlich, dass zwischen den Parametern ein enger, linearer Zusammenhang besteht.
1 0,5 0 0
0,2
0,4
0,6
0,8
1
I
Abb. 14.4: Das Ordsche Kriterium für Längen rhythmischer Einheiten in 16 Kurzprosatexten von E. Strittmatter
8.
Perspektiven
Da die Untersuchungen zu den Verteilungen der Längen rhythmischer Einheiten in Texten verschiedener Sprachen gerade erst
14. Längen rhythmischer Einheiten
begonnen haben, kann man sich bisher noch nicht auf gesicherte Ergebnisse stützen. Die hier referierten ersten Versuche sind vor allem im Kontext mit den wesentlich weiter fortgeschrittenen Untersuchungen zu den Verteilungen von Wort-, Satz- und Silbenlängen zu sehen. Es zeigen sich jedoch Übereinstimmungen mit den Erfahrungen bei anderen Sprachentitäten, die erwarten lassen, dass sich bei weiterer Forschung vergleichbare Ergebnisse einstellen werden. D. h., man darf annehmen, dass die erfolgreiche Anpassung der Hyperpoisson-Verteilung an die Verteilung rhythmischer Einheiten verschiedener Länge bei 50 deutschen und 30 englischen Texten kein Zufall ist, sondern dass auch bei weiteren Arbeiten diese oder eine der anderen Verteilungen, die sich bei anderen Sprachentitäten bewährt haben, auch bei rhythmischen Einheiten erfolgreich sein werden. Bei allen Untersuchungen rhythmischer Einheiten spielt die momentane Interpretation der Texte durch den jeweiligen Bearbeiter eine größere Rolle als bei anderen, früher untersuchten Einheiten. Bisher stützen sich Untersuchungen zu Längenverteilungen beliebiger Einheiten auf theoretische Begründungen, die speziell für Satz- und Wortlängen entwickelt wurden. Der Grundgedanke dabei ist, dass andere Einheiten sich prinzipiell genau so verhalten sollten. Es war jedoch noch nicht möglich, a priori zu bestimmen, welche Verteilung genau unter welchen Bedingungen (Sprache, gewählte Einheit, Autor, Textsorte, etc.) als geeignetes Modell zu erwarten ist. Möglicherweise bringt das von P. Grzybek initiierte Grazer Projekt zu Wortlängenverteilungen „Quanta“ (Grazer Projekt zur Quantitativen Textanalyse) einmal Ergebnisse, die sich auch auf die ähnlich gelagerten Probleme mit den rhythmischen Einheiten übertragen lassen. Weitere Perspektiven lassen sich dadurch gewinnen, dass rhythmische Einheiten nicht nur hinsichtlich ihrer Häufigkeitsverteilung in Texten, sondern auch im Hinblick auf ihre Sequenzen untersucht werden, wie dies für die Abfolge von Wortarten in Ziegler/Best/ Altmann (2001, 102 ff.; 2002, 80 ff.) entwickelt wurde.
9.
Literatur (in Auswahl)
Altmann, Gabriel (1988a), Verteilungen der Satzlängen. In: Glottometrika 9. (Ed. Klaus-Peter Schulz). Bochum: Brockmeyer, 147K169.
213 Altmann, Gabriel (1988b), Wiederholungen in Texten. Bochum: Brockmeyer. Altmann, Gabriel (1992). Das Problem der Datenhomogenität. In: Glottometrika 13. (Hrsg. Burghard Rieger). Bochum: Brockmeyer, 287K 298. Altmann-Fitter (1994), Lüdenscheid: RAM-Verlag. Altmann-Fitter. Iterative Fitting of Probability Distributions (1997). Lüdenscheid: RAM-Verlag. Best, Karl-Heinz (2001a), Kommentierte Bibliographie zum Göttinger Projekt. In: Best 2001, 284K310. Best, Karl-Heinz (2001b), Probability Distributions of Language Entities. In: Journal of Quantitative Linguistics 8, 1K11. Best, Karl-Heinz (2001c), Zur Verteilung rhythmischer Einheiten in deutscher Prosa. In: Best 2001, 162K166. Best, Karl-Heinz (Hrsg.), (2001), Häufigkeitsverteilungen in Texten. Göttingen: Peust & Gutschmidt. Best, Karl-Heinz (2002), The distribution of rhythmic units in German short prose. In: Glottometrics 3 (To Honor G. K. Zipf), 136K142. Fucks, Wilhelm (1956), Die mathematischen Gesetze der Bildung von Sprachelementen aus ihren Bestandteilen. In: Nachrichtentechnische Fachberichte 3, 7K21. Gropp, Friedrich (1915), Zur Ästhetik und Statistik des Prosarhythmus. Würzburg, diss. phil. Grazer Projekt zur Quantitativen Textanalyse (2002), http://www-gewi.uni-graz.at/quanta/ projekt_descr.htm Kaßel, Anja (2002), Zur Verteilung rhythmischer Einheiten in deutschen und englischen Texten. Staatsexamensarbeit, Göttingen. Marbe, Karl (1904), Über den Rhythmus der Prosa. Giessen: J. Ricker’sche Verlagsbuchhandlung. Marbe, Karl (1913), Die Bedeutung der Psychologie für die übrigen Wissenschaften und die Praxis. In: Fortschritte der Psychologie und ihrer Anwendungen, I. Bd., 1. H. (Hrsg. Karl Marbe). Leipzig/ Berlin: Teubner. Marbe, Karl (1945), Selbstbiographie des Psychologen Geheimrat Prof. Dr. Karl Marbe in Würzburg. Halle: ohne Verlag (Selbstbiographien von Naturforschern, Nr. 4). Ord, J. K. (1972), Families of frequency distributions. London: Griffin. Thumb, Albert (1913), Satzrhythmus und Satzmelodie in der altgriechischen Prosa. In: Fortschritte der Psychologie und ihrer Anwendungen, I. Bd., III. H. (Hrsg. Karl Marbe). Leipzig/Berlin: Teubner, 139K168.
214
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Vesper, Guntram (1985), Kriegerdenkmal ganz hinten. Frankfurt: Fischer Taschenbuch Verlag, 18K22. Wimmer, Gejza/Altmann, Gabriel (1996), The Theory of Word Length Distribution: Some Results and Generalizations. In: Glottometrika 15. (Hrsg. Peter Schmidt). Trier: Wissenschaftlicher Verlag Trier, 112K133. Wimmer, Gejza/Köhler, Reinhard/Grotjahn, Rüdiger/Altmann, Gabriel (1994), Towards a Theory
of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 98K106. Ziegler, Arne/Best, Karl-Heinz/Altmann, Gabriel (2001), A contribution to text spectra. In: Glottometrics 1, 97K108. Ziegler, Arne/Best, Karl-Heinz/Altmann, Gabriel (2002), Nominalstil. In: etc 2, 72K85.
Karl Heinz Best, Göttingen (Deutschland)
15. Zusammenhänge 1. 2. 3. 4. 5. 6.
Einführung Das Phoneminventar Das Merkmalinventar Entropie und Redundanz Phoneminventar und Länge Literatur (in Auswahl)
1.
Einführung
Während die diesem Beitrag vorangehenden Artikel einzelne phonologische Eigenschaften von Sprachen vorstellen sowie dem Leser Anleitungen und das statistische Rüstzeug an die Hand geben, Daten zu erheben, auszuwerten und zu beurteilen, sollen in diesem Beitrag einige Zusammenhänge herausgestellt werden, die zwischen Eigenschaften der phonologischen Sprachebene untereinander oder Beziehungen zu Größen anderer sprachlicher Ebenen existieren oder wenigstens existieren können. Am einem Beispiel soll die Plausibilität solcher Zusammenhänge verdeutlicht werden: Eine fiktive Sprache mit nur 2 unterschiedlichen Segmenten /a/ und /b/ kann daraus die folgenden vier zweistelligen „Wörter“ bilden: aa, ab, ba, bb. Mit 3 Phonemen /a/, /b/, /c/ wären bereits neun Kombinationen möglich: aa, ab, ac, ba, bb, bc, ca, cb, cc. Die Anzahl der zweigliedrigen Einheiten, die aus einem gegebenen Inventar maximal gebildet werden können, beträgt also n2, wobei n die Anzahl der Segmente darstellt. Allgemein können mit n Segmenten n k k-stellige Einheiten gebildet werden. Ausgehend von der Annahme, dass in allen Sprachen eine ausreichende Menge an Bedeutungen kodiert werden muss (z. B. in Form von Morphemen), lässt sich nun vermuten, dass ein inverser Zusammenhang zwischen dem
Umfang des Phoneminventars und der durchschnittlichen Morphemlänge besteht: Sprachen, die nur wenige Phoneme besitzen, kompensieren diesen „Mangel“ über eine Erhöhung der durchschnittlichen Morphemlänge, oder umgekehrt formuliert: einer Sprache mit reichhaltigem Phoneminventar stehen größere Ressourcen zur Bildung kürzerer Einheiten zur Verfügung. Auf diesen Zusammenhang zwischen Phoneminventar und Wortlänge wird weiter unten ausführlich eingegangen werden. In der Universalienforschung und der Sprachtypologie wird gerne der Versuch unternommen, solche hypothetischen Zusammenhänge anhand von passenden sprachvergleichenden oder sprachentwicklungsgeschichtlichen Beispielen zu belegen. Zur Illustration eines Zusammenhangs ist das zwar nützlich, allerdings ist ein eindeutiger Nachweis von systematischen Beziehungen auf solchem Wege natürlich nicht möglich. Genauso, wie sich für jeden angenommenen Zusammenhang positive Beispiele finden lassen, können meist auch genügend Gegenbeispiele angeführt werden, da es sich hierbei nicht um deterministische Gesetze handelt, sondern lediglich um stochastische Tendenzen. Diese lassen sich nur belegen, indem eine ausreichende Menge an Sprachen bezüglich der in Frage stehenden Eigenschaften auf dieselbe Art und Weise untersucht und die Ergebnisse unter Zuhilfenahme statistischer Methoden ausgewertet werden. Selbst bereits vorhandene sprachliche Daten zu vergleichen, kann problematisch sein, wenn diese nicht auf exakt dieselbe Art und Weise gewonnen und ausgewertet wurden. Dass Unterschiede bei der Datenerhebung gewichtige Unterschiede zur Folge haben können, wird im Verlauf dieses Beitrags noch deutlich zu machen sein.
15. Zusammenhänge
2.
Das Phoneminventar
Die Erhebung des Phoneminventars einer Sprache gehört seit der Prager Schule wahrscheinlich zu den am besten operationalisierten Gebieten in der Linguistik, und Verfahrensweisen zur Segmentierung und Klassifizierung von Phonemen für die Bestimmung des Phoneminventars wie Minimalpaaranalyse lassen sich in jeder LinguistikEinführung nachlesen. Das soll allerdings nicht darüber hinwegtäuschen, dass es sich auch beim Phonem lediglich um ein theoretisches Konstrukt handelt, das zwar zur Beschreibung von Sprachen nützlich ist, aber nicht notwendigerweise sprachliche Realität darstellt. So gibt es bis zum heutigen Tage beispielsweise keine Kriterien, die eine eindeutige Wertung von Affrikaten als ein oder zwei Phoneme zulassen würden K nicht die Sprache verhält sich hier zweideutig, sondern die unterschiedlichen Methoden bei der Bestimmung von Phonemen lassen keine eindeutige Interpretation zu. Eine weitere Unsicherheit stellen Laute dar, die beinahe ausschließlich in Fremdwörtern der untersuchten Sprache vorkommen, wie z. B. [η], das im Französischen vornehmlich bei aus dem Englischen entlehnten Wörtern auftritt: camping, smoking, usw. Auch wenn sich einzelne Minimalpaare finden lassen (camping vs. campine), lassen bestehende Kriterien keine Entscheidung zu, ab wann eine Opposition phonologisch relevant bzw. ein Laut tatsächlich als Phonem anzusehen ist. Problemen der geschilderten Art wird man immer wieder begegnen. Wichtig ist es daher, bei eigenen Erhebungen zweifelhafte Fälle in allen Sprachen möglichst einheitlich zu handhaben und unterschiedliche Ansätze auch beim Vergleich bestehender Daten zu beachten. Auch unter Berücksichtigung gewisser Unsicherheiten bezüglich der Bestimmung der genauen Menge der Phoneme einer Sprache scheint die Anzahl der Phoneme, die verschiedene Sprachen nutzen, extrem variabel zu sein. Bei Maddieson (1984) ergab eine Stichprobe von 317 Sprachen aus unterschiedlichen Sprachfamilien Inventargrößen, die von 11 (Rotokas) bis 141 (!Xu˜) reichen (Maddieson 1984, 7). Die meisten Sprachen (70 %) benutzen demnach allerdings zwischen 20 und 37 Segmenten (der Mittelwert ist 31).
215 Der Erhebung von Altmann/Lehfeldt (1980) liegt eine Stichprobe von 600 Sprachen zugrunde K auch dort „wurde darauf geachtet, möglichst viele Sprachfamilien angemessen zu berücksichtigen“ (Altmann/ Lehfeldt 1980, 88). Die dort ermittelten Inventargrößen reichen von 13 bis 61. Bei beiden Erhebungen zeigte sich, dass die Inventargröße offensichtlich nicht normalverteilt ist. Für in Fünfer-Klassen zusammengefasste Inventargrößen stellt nach Lehfeldt die Gamma-Verteilung eine gute Approximation dar (Lehfeldt 1975, 274 f.). Mithilfe verschiedener statistischer Verfahren gelangt der Autor zu einer Einteilung der Sprachen in 3 Klassen: die Klasse mit hoher Phonemzahl umfasst Sprachen mit 48 oder mehr Phonemen, als Sprache mit niedriger Phonemzahl werden Sprachen bewertet, die weniger als 18 Phoneme besitzen, die übrigen Sprachen (zwischen 18 und 47 Phonemen) haben eine „normale“ Phonemanzahl. Allerdings entspringen einige Entscheidungen bei der Anwendung der statistischen Verfahren rein praktischen Gründen und lassen sich linguistisch nicht begründen. Trotz dieser hohen Variabilität der Phonemanzahl von Sprachen wurde die Frage, ob Faktoren existieren, die die Größe des Phoneminventars irgendwie beeinflussen, oder ob es eine „optimale“ Anzahl an Phonemen gibt, bislang kaum untersucht. Zwar kann man plausiblerweise eine theoretische Höchstgrenze annehmen, ab der die einzelnen Phoneme nicht mehr zuverlässig voneinander unterscheidbar sind, und auch eine theoretische Mindestzahl, die zur Bildung höherer Spracheinheiten notwendig ist. Jedoch bleibt vollkommen unklar, wo genau diese Grenzen liegen oder ob eine Annäherung an die obere oder die untere Grenze das Sprachsystem in einen instabilen Zustand versetzt, so dass Lautwandelprozesse in die jeweils umgekehrte Richtung in Gang gesetzt werden. Nach Maddieson (1984, 7 ff.) zeigen weder die Sprache !Xu˜ (aus dem Sprachstamm Khoisian), die mit 141 Phonemen das umfangreichste Inventar der von ihm untersuchten 317 Sprachen aufweist, noch Hawaiianisch, das sich bezüglich des Phonemreichtums mit 13 Segmenten am unteren Ende befindet, gegenläufige Tendenzen in Richtung einer „normalen“ Inventargröße. Sowohl besonders umfangreiche als auch besonders arme Phoneminventare können sich demnach als durchaus stabile Merkmale von Sprachen erweisen. Maddie-
216
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
son argumentiert aus diesem Grund, dass Wandelprozesse, die sich normalisierend auf die Phonemanzahl auswirken, erst durch massiven Kontakt mit Sprachen mit deutlichen anderem Phoneminventar ergäben. Für die beiden oben genannten Sprachen gilt dies nicht: Sprachkontakt bestehe hier primär zu phonologisch ähnlichen Sprachen der jeweils selben Sprachfamilie. Er schließt daraus, dass selbst eine extreme Phonemanzahl alleine keinen Druck in Richtung Vereinfachung/Anreicherung des Phoneminventars ausübe. Darüber, welche Phoneme sich bevorzugt innerhalb eines Inventars befinden, wurden im Bereich der Universalienforschung zahlreiche „Regeln“ aufgestellt vgl. z. B. Greenberg (1966), auf die an dieser Stelle nicht näher eingegangen werden soll. Eine allgemeine Anforderung an das Phoneminventar besteht sicherlich darin, dass die in ihm enthaltenen Phoneme perzeptorisch unterschiedlich genug sein müssen, so dass der Hörer sie auseinanderhalten kann. Dies bezieht sich sowohl auf die syntagmatischen Beziehungen, die in Form von Kontrasten zwischen benachbarten Elementen der Lautkette vorhanden sein müssen, als auch auf die paradigmatischen Beziehungen (Oppositionen) der Phoneme untereinander, die dem Hörer die Unterscheidung von mein und Wein ermöglichen. Da die Dekodierung um so leichter fallen dürfte, je unterschiedlicher oder kontrastiver die einzelnen Laute sind, würde der Hörer ideale Zustände in einer Sprache vorfinden, in der das Phonemsystem ausschließlich nach dem Prinzip der maximalen Distinktivität der Segmente aufgebaut wäre. Tatsächlich finden sich jedoch keine Sprachen, in denen sich fünf Vokale nicht nur im Artikulationsort, sondern zusätzlich darin unterscheiden, dass einer nasaliert, einer behaucht, einer pharyngalisiert und der letzte laryngalisiert wird. Auch Schnalz-Laute werden, obwohl sie vermutlich sehr „auffällig“ sind, in vergleichsweise wenigen Sprachen verwendet. So stellt sich das Prinzip des geringsten Aufwandes auf der Sprecherseite auch vollkommen anders dar als auf der Hörerseite: Die von der Hörerseite gewünschte maximale Kontrastivität bedeutet für den Sprecher nur unwillkommenen artikulatorischen Aufwand, den er seinerseits minimieren will. In Köhlers (1986, 24; vgl. Art. Nr. 53) synergetischem Regelkreis werden daher die Minimierung des Artikulationsaufwands sowie die Mini-
mierung des Dekodierungsaufwands als Systembedürfnisse eingeführt, denen die Sprachen mehr oder weniger gerecht werden müssen. Zu hohe artikulatorische Komplexität ist dabei genauso ungünstig wie zu geringe Distinktivität. Gleichzeitig sind die konträren Bedürfnisse von kommunizierenden Menschen in ihrer jeweiligen Rolle als Sprecher bzw. Hörer Grundlage der Dynamik des Systems und letztlich auch Voraussetzung für den Lautwandel. Trotz des offensichtlichen Zusammenhangs mit dem Thema dieses Beitrags kann aus Platzgründen auf Lautwandelprozesse nicht näher eingegangen werden.
3.
Das Merkmalinventar
Auf der nächst tieferen Ebene bestehen Phoneme aus Merkmalen, d. h. einerseits im Sinne von konstruktiven Merkmalen, andererseits im Sinne von distinktiven Merkmalen, die dazu dienen, Phoneme voneinander zu unterscheiden. Wie ein Merkmalssystem im einzelnen auch aussehen mag, so muss es zumindest eine ausreichende Anzahl an Merkmalen und Merkmalsausprägungen besitzen, um jedem Phonem eine eindeutige Kombination zuweisen zu können. Darüber hinaus sind natürlich zahlreiche unterschiedliche Systeme denkbar, die diese Anforderung erfüllen. Was also oben für die Bestimmung des Phoneminventars gesagt wurde, gilt in wahrscheinlich noch größerem Maße für eine Aufstellung der Merkmale, die zur Bildung und Differenzierung der phonemischen Lautklassen genutzt werden: Abhängig von der jeweiligen Zielsetzung können Merkmalssysteme für eine und dieselbe Sprache unterschiedliche Elemente enthalten und folglich auch im Umfang variieren. Dem einen Forscher mag es mehr auf ein möglichst effizientes, also aredundantes System ankommen, und er wird versuchen, mit einem Minimum an Merkmalen auszukommen. Eine andere Zielsetzung kann darin bestehen, ein Merkmalssystem zu entwerfen, mit dessen Hilfe die „Phonemkomplexität“ (im Sinne von artikulatorischem Aufwand) bestimmt werden soll. Für derartige Zwecke muss die Analyse der Phoneme in möglichst enger Übereinstimmung mit artikulatorischen Gegebenheiten vorgenommen werden, wobei alle artikulatorischen Merkmale berücksichtigt werden müssen, also auch die redundanten. Auch die Frage, ob man nur binäre Merkmalsausprägungen zu-
217
15. Zusammenhänge
lassen will oder auch mehrwertige, hat entscheidenden Einfluss auf die Anzahl der Merkmale, die man benötigt, um alle Phoneme als eindeutige Merkmalsbündel beschreiben zu können. Während man mit einem Merkmal, das 4 Ausprägungen annehmen kann, 4 Phoneme voneinander abgrenzen kann, benötigt man für diese 4 Phoneme 2 Merkmale, wenn man nur die Werte ,C‘ und ,K‘ zulassen will. Nun fließen Anzahl und Art der Merkmale in zahlreiche Berechnungen sprachlicher Parameter ein (z. B. Merkmalsredundanz, Ausnützungsgrad des Phonemsystems, Phonemähnlichkeit, usw.). Die so gewonnenen Parameter verschiedener Sprachen sind praktisch nicht vergleichbar, wenn die jeweiligen Merkmalssysteme der zu vergleichenden Sprachen nicht nach denselben Prinzipien gewonnen wurden. Man muss sich bei verschiedenen Messungen klar machen, dass man in erster Linie Eigenschaften eines phonologischen Modells misst, die nicht unbedingt auch Eigenschaften der Sprache sein müssen.
hältnis zu anderen Zeichen vorkommt, desto geringer ist die Information, die es überträgt, es ist schlicht erwartbarer als ein anderes Zeichen. Ein geeignetes numerisches Maß für die Unsicherheit, mit dem ein Symbol vorkommt, bzw. für dessen Neuigkeitswert ist der partielle Informationsgehalt eines Symbols (Meyer-Eppler 1965, 78; vgl. auch Art. Nr. 60 und 61)
4.
Um also die syntagmatische Entropie oder Redundanz eines Phonemsystems zu berechnen, benötigt man die aus einer pragmatischen oder einer systemischen Stichprobe gewonnenen relativen Häufigkeiten jedes einzelnen Phonems, aus denen die Auftretenswahrscheinlichkeiten geschätzt werden. Beispielhafte Berechnungen und Anmerkungen zur Messung von Phonemhäufigkeiten finden sich z. B. bei Altmann/Lehfeldt (1980, 169 f.) oder Grassegger (1977, 4). Die Entropie erreicht ihr Maximum, wenn alle Symbole mit derselben Häufigkeit auftreten, also keines erwartbarer ist als irgendein anderes. In diesem Falle ist also
Entropie und Redundanz
Weil mit Sprache in erster Linie kommuniziert werden soll und dies bestenfalls auch bei Vorliegen von nicht idealen Bedingungen funktionieren sollte, findet sich auf allen Sprachebenen eine gewisse Redundanz, die den Kommunikationsteilnehmern die Dekodierung der Mitteilung erleichtert oder unter widrigen Umständen (undeutliche Aussprache, Störungen im Übertragungskanal usw.) überhaupt erst ermöglicht. Redundanz weist viele Formen auf. Eine offensichtliche Form besteht z. B. in der Wiederholung von Sachverhalten in derselben oder einer anderen Ausdrucksweise. Weniger offensichtliche Formen entstehen durch unterschiedliche Vorkommenshäufigkeiten und die Nichtausnutzung von Kombinationsmöglichkeiten sprachlicher Elemente. Diese Erscheinungen von Redundanz entziehen sich größtenteils der Steuerung der Sprachteilnehmer, da sie in den sprachlichen Regeln und Strukturen fest verankert sind. Sie lassen sich jedoch mit informationstheoretischen Methoden messen. 4.1. Syntagmatische Entropie/Redundanz Jedes sprachliche Zeichen, hier also das Phonem, kommt mit einer bestimmten Wahrscheinlichkeit vor. Je öfter es im Ver-
1 ci Z ld ZKld pi (in bt/Symbol); pi
(1)
pi ist dabei die Wahrscheinlichkeit des Auftretens eines Symbols. Wenn sie 1 beträgt, wenn also nur ein Zeichen verwendet wird, nimmt dieses Maß den Wert 0 an. Minimale Entropie bzw. maximale Redundanz läge also vor, wenn ein Phonem in 100 % aller Fälle vorkäme, alle anderen nie. Die mittlere Informationsentropie eines Inventars berechnet sich nach der von Shannon entwickelten Formel durch k
H Z K ∑ pi ld pi .
(2)
iZ1
1 p1 Z p2 Z ... Z pk Z . k
(3)
Die Entropie kann in diesem Falle einfach berechnet werden durch Hmax Z ld k (in bt/Symbol).
(4)
Umfasst ein Inventar z. B. 32 Elemente, die alle gleich häufig auftreten, so beträgt der Informationsgehalt je Symbol 5 Bit. Diesen Wert kann man sich folgendermaßen verdeutlichen: wenn man eine beliebige Zahl von 32 möglichen erraten sollte, so gelangt man mit genau 5 (richtig gestellten) Fragen zum Ergebnis.
218
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Der Wert, den das Entropiemaß H annehmen kann, liegt also im Bereich C0; ld kD und ist somit abhängig vom Umfang des jeweiligen Inventars, also z. B. von der Anzahl der Phoneme. Im allgemeinen steigt dabei die durchschnittliche Entropie mit zunehmender Phonemanzahl im Inventar, da ja mehr Phoneme zur Auswahl stehen (ein mathematisches Modell dieses Zusammenhangs findet sich in Altmann/Lehfeldt 1980. Um ein bezüglich der Inventargröße relativiertes Maß zu erhalten, berechnet man einfach den Quotienten von H und Hmax: hZ
H Hmax
(5)
Die relative Redundanz ist das Komplement der Entropie auf 1, also r Z 1 K h.
(6)
Die „relative Entropie“ bewegt sich im Intervall C0; 1D, und so können auch unterschiedlich große Phoneminventare miteinander verglichen werden. Ein solcher Sprachvergleich findet sich bei Altmann/ Lehfeldt (1980, 171 f.). Die Entropiewerte der verglichenen 63 Sprachen reichen von ca. 0,79 bis 0,92. Die Bestimmung der Phoneminventare und der Phonemzählungen wurden allerdings nicht von den Autoren selbst vorgenommen, so dass hier eine gewisse Unsicherheit bezüglich der Zuverlässigkeit der Daten besteht. Auf der Merkmalsebene können analoge Berechnungen durchgeführt werden. Altmann und Lehfeldt führen in diesem Bereich das „Maß der Gleichmäßigkeit der Merkmalsausnutzung“ ein, wenngleich sich dieses Maß nicht auf das Merkmalssystem einer Sprache, sondern auf eines seiner möglichen Modelle bezieht. Die Frage nach dem Gültigkeitsbereich von Messungen und Maßen insbesondere auf der Ebene distinktiver oder konstruktiver Merkmale wurde ja bereits oben erläutert. Das Maß der Gleichmäßigkeit der Merkmalsausnutzung bezieht sich nun eigentlich nicht auf die Merkmale selbst, sondern auf deren Ausprägungen. Hat man es in einem Merkmalssystem mit mehrwertigen Merkmalen zu tun, so werden dabei die einzelnen Ausprägungen in Binärmerkmale umgeformt: aus einem Merkmal, das 5 verschiedene Werte annehmen kann, werden so 5 Merkmale, die entweder positiv oder negativ spezifiziert sind. Diese Merkmale sind al-
lerdings nicht mehr unabhängig voneinander, weil ja nur eines von ihnen positiv spezifiziert sein kann. Für die Ausprägungen soll nun gemessen werden, wie gleichmäßig sie im beschriebenen Phonemsystem zur Anwendung kommen. Eine Merkmalsausprägung sei in einem Phonem vertreten, wenn sie für dieses Phonem positiv spezifiziert ist. Für die Berechnung zählt man zunächst die Vorkommenshäufigkeiten f der einzelnen Ausprägungen in den Phonemen. Wenn die Ausprägungen ganz gleichmäßig ausgenützt würden, so würde sich die Gesamtanzahl der positiven Bewertungen aller Merkmalsausprägungen r gleichmäßig auf alle Merkmalsausprägungen m verteilen, jedes r Merkmal wäre also -mal positiv spezifim ziert. Mithilfe des χ2-Tests ließ sich dabei für das Merkmalsystem der „prime features“ von Ladefoged für das Amerikanische Englisch zeigen, dass die Merkmale signifikant ungleichmäßig verteilt sind, dass also offenbar auch auf dieser Ebene Redundanz vorliegt. Die Entropie berechnet sich in diesem Fall als H Z ld r K
1 r
m
∑ fi ld fi ,
(7)
iZ1
da die Wahrscheinlichkeit einer positiven fi Merkmalsspezifikation pi Z beträgt. r Die relative Entropie erhält man wiederum durch Division von H durch seinen möglichen Maximalwert, in diesem Fall Hmax Z ld m. Auch für dieses Maß kann mit Hilfe des χ2-Tests eine signifikant unregelmäßige Verteilung nachgewiesen werden. Obwohl verschiedentlich anders dargestellt, ist eine andere Form der Redundanz, die durch phonotaktische Regeln einer Sprache entsteht, im relativen Redundanzmaß r nicht enthalten. Angenommen, eine fiktive Sprache enthält 4 Phoneme /a, b, c, d/, die alle dieselbe relative Häufigkeit von 0.25 aufweisen. Die nach der oben genannten Formel berechnete relative Redundanz dieses Phoneminventars ist also 0. Trotzdem kann der Fall eintreten, dass manche dieser Phoneme in der Sprache mit hundertprozentiger Genauigkeit vorausgesagt werden können, nämlich dann, wenn die Sprache aus diesem Inventar nur die beiden Silben ab und cd bildet, wenn also Phonem /a/ immer
219
15. Zusammenhänge
gefolgt wird von /b/ und /c/ von /d/. Die Elemente /b/ und /d/ tragen in diesem Fall keinerlei Information, weil sie vollkommen vorhersehbar sind. 4.2. Paradigmatische Entropie/Redundanz Ein dem Sprachsystem zugrundeliegendes ökonomisches Prinzip ist das der Konstituenz: Einheiten niedriger Sprachebenen werden auf höheren Ebenen kombiniert (Merkmale zu Phonemen, Phoneme zu Silben/ Morphemen usw.), und auf diese Weise können mit einer relativ überschaubaren Menge an Grundeinheiten unzählige Inhalte kodiert werden. Einzelne sprachliche Subsysteme lassen sich nun danach beurteilen, inwieweit mögliche Kombinationen auch tatsächlich ausgenutzt werden. Im Bereich der Phonologie betrifft das einerseits die Kombination von Merkmalen zu Phonemen, andererseits die Aneinanderreihung von Phonemen zu den nächsthöheren Einheiten der Silben oder der Morphe(me). 4.2.1. Merkmalsredundanz oder Effizienz des Merkmalinventars Die Effizienz eines Merkmalinventars ist abhängig von der Anzahl der Merkmale und der Anzahl der mit ihnen gebildeten Phoneme. Mit zwei binären Merkmalen lassen sich maximal 4 Phoneme bilden, mit 3 Merkmalen bereits 8, usw. Allgemein können also mit m Merkmalen 2m Phoneme gebildet werden. Umgekehrt lässt sich der Merkmalsbedarf für eine gegebene Anzahl an Phonemen mit m Z ld n
(8)
berechnen (ungerade Werte für m müssen aufgerundet werden). Setzt man dieses Maß nun in Beziehung zur tatsächlich verwendeten Anzahl von Merkmalen, erhält man ein Maß für die Effizienz bzw. für die Entropie des Merkmalsystems: hZ
ld n m
(9)
Die Redundanz berechnet sich auch hier als 1 K h. In einer sprachvergleichenden Untersuchung von Greenberg/Osgood/Saporta (1965) wiesen die 6 untersuchten Sprachen ein relativ ausgeglichenes 50 : 50-Verhältnis von Entropie und Redundanz auf. Die Autoren nennen dieses Verhältnis „Entropiegleichgewicht“ (Greenberg/Osgood/Saporta
1965, 156) und begründen es folgendermaßen: unter den mit dem gegebenen Merkmalsinventar möglichen Merkmalsbündeln werden die Kombinationen ausgewählt, die perzeptiv möglichst unähnlich sind. Daher würden von 2m möglichen maximal 2mK1 Phoneme wirklich verwendet, also eben genau die Hälfte. Dass die Vermeidung allzu ähnlicher Phoneme bei der Existenz von Redundanz auf dieser Ebene eine Rolle spielen mag, scheint plausibel, warum dem allerdings genau 50 % der möglichen Phoneme zum Opfer fallen sollen, erscheint nicht nachvollziehbar. Beim Vergleich der von (Kucera/Monroe 1968) angegebenen Werte der syntagmatischen Redundanz für die 3 Sprachen Deutsch, Russisch und Tschechisch mit den von ihm errechneten paradigmatischen Merkmalsredundanzen beobachtete Grassegger (1977, 90) einen inversen Zusammenhang zwischen beiden Maßen: je höher die paradigmatische Redundanz, desto niedriger die syntagmatische. Er interpretiert diesen Zusammenhang als Wiederherstellung des fehlenden Entropiegleichgewichts (vgl. Abschnitt 4.1.) auf der Merkmalsebene durch eine erhöhte syntagmatische Entropie auf der Phonemebene. Ein mit der Effizienz eng verbundenes Maß ist der Ausnützungsgrad des Phonemsystems. Hier stellt man die Anzahl der Phoneme, die mit der gegebenen Anzahl distinktiver (binärer) Merkmale gebildet werden können, der Anzahl der tatsächlich mit ihnen gebildeten Phoneme gegenüber. Bei Altmann/Lehfeldt (1980, 68) wird eine Variante obiger (paradigmatischer) Entropie-Formel entwickelt, welche die Tatsache berücksichtigt, dass, um n Phoneme unterscheiden zu können, maximal n-1 distinktive Merkmale mit binärem Wertebereich benötigt werden. Daher bewegt sich der ld n Wert von h im Intervall 具 ; 1 典 . Der MinK1 nimalwert ist also abhängig von der Phonemanzahl. Eine Transformation gleicht diesen Umstand aus: ld n m EL Z 1 K ld n
K1
nK1
.
(10)
K1
Da der Ausdruck ld n die minimal benötigte Anzahl binärer Merkmale berechnet, hat die
220
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Anwendung beider Formeln natürlich nur für solche Systeme Sinn, deren Merkmale ebenfalls nur zweiwertig sind. Zwar lassen sich Systeme mit mehrwertigen Merkmalen ohne weiteres in binäre Systeme überführen (ein Merkmal, das n Werte annehmen kann, lässt sich in n binäre Merkmale transformieren), dennoch ist ein solches Vorgehen ungültig, da die Merkmale dann nicht mehr unabhängig voneinander sind K nur eines kann jeweils positiv spezifiziert sein K was Kombinationsmöglichkeiten dieser Merkmale untereinander ausschließt. Generell stellt sich die Frage, ob man Abhängigkeiten zwischen einzelnen Merkmalen, die in den meisten Systemen existieren, nicht berücksichtigen müsste: z. B. können es bei der Analyse der Vokale mit den Merkmalen [high] und [low] nur die Kombinationen [Chigh, Klow], [Khigh, Clow], [Khigh, Klow] existieren, [Chigh, Clow] ist dagegen artikulatorisch kaum machbar. Greenberg/Osgood/Saporta sprechen hierbei von einer „inherent redundancy, where the physiology of the articulatory processes requires it“ (Greenberg/Osgood/Saporta 1965, 153). Tatsächlich scheint diese Form der Redundanz allerdings eher im Modell zu liegen. Ein weiteres, in aller Regel unberücksichtigt bleibendes Problem im Zusammenhang mit binären Merkmalen besteht darin, dass in den gängigen Merkmalssystemen binäre Merkmale zweierlei Anwendung erfahren: die Ausprägung kann in einem Fall tatsächlich für die An- oder die Abwesenheit eines Merkmals stehen (z. B. Stimmhaftigkeit). Daneben gibt es jedoch eine Form distinktiver Merkmale, die eigentlich zwischen 2 Ausprägungen unterscheidet, z. B. das Merkmal [back], welches zwischen Vorder- und Hinterzungenvokalen unterscheidet. Vokale, die als [Kback] spezifiziert sind, haben ja trotzdem einen Artikulationsort. Allerdings wird dieser Sachverhalt erst dann problematisch, wenn man die Gültigkeit eines mit der Merkmalsanzahl gewonnenen Maßes vom Modell auf die Sprache übertragen will. Man misst hier, wie effizient die Phoneme einer Sprache S mit dem gewählten Merkmalssystem analysiert werden können, und eben nicht die Effizienz der Sprache auf der Merkmalsebene. Altmann/Lehfeldt (1980, 66) nennen dieses Maß daher folgerichtig „Effektivität des Transkriptionscodes“. Sie weisen ferner darauf hin, dass die Redundanz unter bestimmten Umständen nicht das Gegenstück zur Effizienz darstellt: zwar ist ei-
nerseits ein maximal effizienter Code tatsächlich redundanzfrei, jedoch müssen weniger effektive Systeme nicht unbedingt Redundanz aufweisen. Dieser Fall kann allerdings nur bei Merkmalssystemen eintreten, in denen die Möglichkeit vorgesehen ist, bestimmte Merkmale für eine Reihe von Phonemen als irrelevant zu kennzeichnen (,0‘). Innerhalb eines solchen Systems kann es dann zwar mehr Merkmale geben als unbedingt notwendig, aber die Anzahl der spezifizierten, also nicht als irrelevant gekennzeichneten Merkmale kann sich trotzdem wieder dem theoretischen Minimum nähern. Statt der Gesamtanzahl der Merkmale wird in diesem Fall der Minimalanzahl notwendiger Merkmale die durchschnittliche Anzahl spezifizierter Merkmale pro Phonem gegenübergestellt. Die Autoren nennen dieses Maß „Redundanzfreiheit des Transkriptionscodes“ (Altmann/Lehfeldt 1980, 72). Auch hier zeigt sich in aller Deutlichkeit die Abhängigkeit der in diesem Bereich erhobenen Maße vom gewählten Modell. Zusammenfassend stellen sich die Beziehungen zwischen Effizienz, Redundanz und Gleichmäßigkeit der Merkmalsausnutzung folgendermaßen dar: Ein vollkommen effizienter Code lässt keine mögliche Merkmalskombination ungenutzt, er ist gleichzeitig auch immer redundanzfrei. Außerdem liegt eine vollkommen gleichmäßige Ausnutzung aller Merkmale vor, da sie sämtlich genauso oft positiv wie negativ spezifiziert werden. Ein nicht vollkommen effizienter Code liegt dann vor, wenn es mehr Merkmale gibt, als man eigentlich braucht. Trotzdem können die Merkmale gleichmäßig ausgenutzt sein, und auch der Code kann praktisch redundanzfrei sein, wenn nämlich nur so viele Merkmale mit Werten belegt werden, wie unbedingt notwendig sind. 4.2.2. Merkmalsredundanz und Sprachverständlichkeit Stellt man einmal die Zweifel hintenan, ob die besprochenen Maße überhaupt etwas über Sprache aussagen, und geht davon aus, dass nach den gleichen Prinzipien bzw. mit demselben einheitlichen Merkmalssystem analysierte Phonemsysteme verschiedener Sprachen sich bezüglich ihrer Merkmalsredundanz vergleichen lassen, so kann man sich die Frage stellen, welche Auswirkungen es hat, wenn eine Sprache mehr oder weniger Redundanz in diesem Bereich aufweist. Ein besonders effizientes System zeichnet
15. Zusammenhänge
sich also dadurch aus, dass es wenige mögliche Merkmalskombinationen offen lässt, dass also die meisten möglichen Unterscheidungen bedeutungsunterscheidend eingesetzt werden. Man könnte also annehmen, dass sich die solchermaßen gebildeten Phoneme ähnlicher sind, als wenn für die gleiche Anzahl von Phonemen mehr Merkmale zum Einsatz kämen, was wiederum Auswirkungen auf die Sprachverständlichkeit hat. Diesen Zusammenhang untersuchte Grassegger (1977) in einem Sprachverständlichkeits-Experiment mit deutschen und französischen Schülern. Isoliert gesprochene Wörter wurden dabei mit einem Störsignal variierender Intensität überdeckt, und gemessen wurde jeweils die Anzahl richtiger Worterkennungen. Der Autor ging von der Annahme aus, dass sich für das Französische, dessen Merkmalsredundanz ca. 43 % beträgt, gegenüber dem Deutschen, das, abhängig von der gewählten Phonemanalyse, deutlich höhere Redundanzwerte von 49 %K53 % aufweist, im Experiment eine niedrigere Sprachverständlichkeit ergeben müsse. Das Gegenteil war der Fall, d. h. die französischen Sprachteilnehmer erreichten signifikant höhere Wortverständlichkeitswerte. Als Interpretation dieses Ergebnisses stellte der Autor die Hypothese auf, dass französische Hörer gerade aufgrund der niedrigen Redundanz ihres Phonemsystems gegenüber dem deutschen Hörer ein erhöhtes Differenzierungsvermögen und die Bereitschaft zu gesteigerter Aufmerksamkeit erworben haben, was sich in „Prüfungssituationen“ oder in Situationen gestörter Kommunikation hilfreich bemerkbar mache. Natürlich sind Begründungen dieser Art nicht vollkommen ausgeschlossen, jedoch scheint es hilfreicher zu sein, zunächst andere als mehr oder weniger unnachweisbare externe Erklärungen zu suchen. Erstens ist eine Stichprobe von 2 Sprachen offensichtlich bei weitem zu klein, um einen möglichen Zusammenhang zwischen Merkmalsredundanz und Sprachverständlichkeit bestätigen oder widerlegen zu können. Zweitens bestand das Experiment aus einem Worterkennungstest. Zwischen der Merkmals- und der Wortebene bieten Sprachen noch ausreichend andere Gelegenheiten, Redundanz einzubauen. Drittens stellt sich die Frage, ob sich ein Modell, das größtenteils anhand von artikulatorischen Kriterien aufgestellt wurde, überhaupt ohne weiteres auf die perzeptive Seite der Kommunikationskette übertragen lässt, obwohl eine
221 solche Vorgehensweise auch bei Untersuchungen zur Phonemähnlichkeit gängige Praxis ist. Zusammengefasst: Selbst wenn die Merkmalsredundanz tatsächlich eine Eigenschaft der Sprache wäre, die im gewählten Merkmalssystem berücksichtigten distinktiven Merkmale die einzig mögliche Quelle der Worterkennung darstellten und alle Merkmale und Merkmalskombinationen im selben Maße zur Phonemidentifikation beitrügen, so könnte eine Stichprobe von 2 Sprachen einen Zusammenhang trotzdem lediglich verdeutlichen, keinesfalls jedoch bestätigen oder widerlegen. 4.2.3. Kombinationsmöglichkeiten von Phonemen Ähnlich, wie nicht alle möglichen Merkmalskombination als Phoneme in eine Sprache eingehen, so können auch Phoneme nicht in beliebiger Weise zur Bildung höherer Einheiten kombiniert werden. Auch hier spielen vermutlich unter anderem physiologische Gründe eine Rolle: der Kontrast zwischen zwei benachbarten Phonemen muss deutlich wahrnehmbar sein, während die Sequenzen artikulierbar bleiben müssen (vgl. Art. Nr. 12). Als Sequenz lassen sich dabei verschiedene sprachliche Einheiten untersuchen, die durch Aneinanderreihung von Phonemen entstehen, seien es Konsonantencluster, Silben, Morpheme oder auch Wörter. Redundanz entsteht bei der Zusammensetzung von Phonemen zu Sequenzen auf vielfältige Weise: Zum einen kommen nicht alle aus einem gegebenen Phoneminventar denkbaren Phonemkombinationen tatsächlich vor. Die tatsächlich vorkommenden haben jeweils unterschiedliche Auftretenswahrscheinlichkeiten, und sie können positionsabhängig sein (manche Konsonantenverbindungen existieren nur am Wortende, andere nur am Anfang). Darüber hinaus können Abhängigkeiten zwischen diskontinuierlichen Strukturen existieren, wie man sie zum Beispiel im Falle der Vokalharmonie vorfindet. Da die meisten der genannten Abhängigkeiten in anderen Artikeln ausführlich behandelt werden, soll an dieser Stelle eine wiederholte Darstellung entfallen. Neben den dort vorgestellten Methoden gibt es noch einen anderen Ansatz, die Strukturen, die in einer Sprache aus einem gegebenen Phoneminventar gebildet werden können, zu untersuchen. Betrachtet man zwei in einer Kette aufeinanderfolgende
222
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
Phoneme, deren allgemeine Auftretenswahrscheinlichkeiten jeweils pi und pj betragen, so stellt sich heraus, dass die Wahrscheinlichkeit, mit der Phonem j auf Phonem i folgt, nicht einfach dem Produkt der beiden Einzelwahrscheinlichkeiten entspricht. Dies wäre der Fall, wenn es sich um unabhängige Ereignisse handelte. In dem oben erwähnten Beispiel einer Sprache, die jeweils nur die Sequenzen /ab/ und /cd/ enthält, während die relativen Häufigkeiten der einzelnen Phoneme jeweils 0,25 betragen, müsste K wären die beiden Positionen in den Sequenzen unabhängig voneinander K die Wahrscheinlichkeit für das Auftreten der Sequenz p (a, b) Z 0,25 * 0,25 Z 0,125 sein. Sie wäre damit genauso hoch wie die Wahrscheinlichkeit einer Sequenz /ac/. Tatsächlich ergibt sich die Wahrscheinlichkeit für die Sequenz /ab/ aus der Wahrscheinlichkeit, dass /a/ an erster Stelle steht, und der bedingten Wahrscheinlichkeit, dass /b/ auf /a/ folgt, die in diesem Fall deutlich höher als erwartet ist. Damit ist auch der mit /b/ verbundene Informationsgehalt wesentlich geringer (im vorliegenden Fall trägt /b/ überhaupt keine Information). Die gleiche Überlegung könnte man im übrigen auch in umgekehrter Richtung anstellen, wenn man beobachtet, wie viele mögliche Vorgänger ein Element an einer Position hat. Wenn man nun einen sprachlichen Ausdruck als Aneinanderreihung von Phonemen auffasst und an jeder Stelle dieser Kette die Anzahl möglicher Nachfolgeelemente bestimmt, so ergibt sich folgender Zusammenhang: Innerhalb eines Morphems nimmt die Anzahl möglicher Nachfolger und damit die hinzukommende Information von Position zu Position ab, während sie an den Morphemgrenzen wieder ansteigt. Mit einem auf dieser Erkenntnis beruhenden Verfahren von Harris (1954) lässt sich daher sehr zuverlässig eine automatische Segmentierung einer Phonemkette in Morpheme vornehmen: Eine Morphgrenze befindet sich immer da, wo ein plötzlicher Anstieg in der Anzahl möglicher Nachfolger bzw. der Entropie zu verzeichnen ist (Harris 1954, 146; Meyer-Eppler 1965, 423). Auf eine damit eng verwandte Weise lassen sich sprachliche Konstruktionsmechanismen und die dabei auftretenden Restriktionen mit Hilfe von Markov-Prozessen beschreiben. Eine ausführliche Darstellung dieses Verfahrens ist im Rahmen dieses Beitrags nicht möglich, daher sei an dieser
Stelle lediglich auf die Arbeiten von Köhler (1983, 134) und Meyer-Eppler (1965, 89) verwiesen.
5.
Phoneminventar und Länge
5.1. Wortlänge Während sich die Anzahl der theoretisch möglichen Phoneme aus der Anzahl der Merkmale leicht errechnen lässt, ist die Anzahl der Wörter, die sich aus einem gegebenen Phoneminventar bilden lassen, hingegen unbegrenzt, da Wörter ja theoretisch eine beliebige Länge annehmen können. Nun lässt sich die Vermutung aufstellen, dass Sprachen, die über ein geringeres Phoneminventar verfügen, dies möglicherweise über die Wortlänge kompensieren oder dass umgekehrt reicher bestückte Phoneminventare kürzere Wörter ermöglichen. Auch bestimmte Sprachwandelprozesse scheinen eine solche Beziehung nahezulegen: so wurde aus dem Lateinischen fames im Französischen faim; eine Expansion des Vokalsystems scheint mit Konsonanten- oder Silbenwegfall einher zu gehen. Den umgekehrten Prozess kann man bei der Übernahme von Fremdwörtern in ein abweichendes Phonemsystem beobachten: z. B. werden die französischen Nasalvokale im Deutschen durch eine Kombination inventareigener Phoneme ersetzt, Balkon wird bspw. als [balkoη] realisiert. Köhler (1986, 53 f.) hat diesen plausiblen Zusammenhang in ein synergetisches Modell der Lexik integriert. Demnach wirken neben der Phonemzahl noch die Lexikongröße und die notwendige Übertragungssicherheit auf die durchschnittliche Wortlänge. Je mehr lexikalische Einheiten benötigt werden, desto länger müssen die Wörter bei konstantem Phoneminventar durchschnittlich sein. Und auch die Übertragungssicherheit, gleichbedeutend mit der Redundanz, die durch einen geringen Ausnutzungsgrad von Kombinationsmöglichkeiten zur Bildung lexikalischer Einheiten entsteht, wirkt in Richtung auf eine Wortverlängerung. Darüber hinaus können auch suprasegmentale Eigenschaften von Sprachen, also Töne oder beweglicher Akzent, zu einer Verringerung der durchschnittlichen Wortlänge beitragen. Dabei ist zu beachten, dass es sich hierbei um stochastische Zusammenhänge, nicht um deterministische Gesetze handelt, die sich auf einzelne Wörter anwen-
223
15. Zusammenhänge
l Z gA RedZ pKP
(11)
Dabei ist l die durchschnittliche Wortlänge, g die Lexikongröße, Red die notwendige Redundanz und p die Phonemanzahl. Ein Vergleich von 10 Sprachen (Nettle 1995, 359 f.) ergab eine Bestätigung des Zusammenhangs zwischen Phoneminventar und mittlerer Wortlänge, d. h. je weniger Phoneme, desto größer die durchschnittliche Wortlänge. Darüber hinaus prüfte der Autor die Angemessenheit von Köhlers Modell. Dabei nahm er die erforderliche Übertragungssicherheit als konstant und die Lexikongröße als vernachlässigbar an, woraus sich folgendes vereinfachtes Modell ergibt, in dem L die mittlere Wortlänge und S die Phonemanzahl darstellt: L Z a Sb
Tab. 15.1: Phonemanzahl (nach Nettle 1995, 362) Sprache
S
Hawaiianisch 18 Nahuatl 23 Türkisch 28 Italienisch 30 Georgisch 34 Hindi 41 Deutsch 41 Mandarin 53 Thai 76 !Xu˜ 119
(S)
und
Wortlänge
L(emp.)
LZ29.35*SK0,43
7,08 8,69 6,44 7 7,74 5,57 6,44 5,4 3,65 4,02
8,47 7,62 7,00 6,80 6,44 5,94 5,94 5,32 4,56 3,76
10
durschn. Wortlänge
den lassen, um beispielsweise eine konkrete Wortlänge vorauszusagen. Den Zusammenhang zwischen Phonemanzahl, Lexikongröße und Übertragungssicherheit formuliert Köhler durch folgende Gleichung, wobei der mögliche Einfluss suprasegmentaler Eigenschaften unberücksichtigt bleibt:
9 8 7 6 5 4 3 2 0
20
40
60
80
100
120
140
Phonemzahl
Abb. 15.1: Phonemanzahl und Wortlänge (nach Nettle 1995, 365)
(12)
Eine Anpassung dieser Formel an die Daten ergab gute Ergebnisse. Eine Gegenüberstellung der empirischen und der theoretischen Werte für die Wortlänge findet sich in Tab. 15.1 und Abb. 15.1. Der Schwierigkeit, im Mandarin-Chinesischen eine dem Wort äquivalente Einheit zu bestimmen, begegnete der Autor, indem er die in einem englisch-chinesischen Wörterbuch für die englischen Begriffe angegebenen Übersetzungen benutzte, was für einen Teil des Testmaterials 2-silbige Ausdrücke ergab. Vokalquantität und Töne wurden behandelt, indem sämtliche möglichen Vokal-Ton/ Quantität-Kombinationen als eigene Phoneme gewertet wurden. Bei dieser Vorgehensweise ist anzumerken, dass auf diese Weise die möglicherweise getrennt zu analysierenden Zusammenhänge zwischen Phonemanzahl und Wortlänge einerseits und suprasegmentaler Komplexität und Wortlänge andererseits zusammengefasst werden. Zwar scheinen die vorgefundenen Ergebnisse die Hypothese zu unterstützen, dennoch ist Vorsicht angebracht: die hier untersuchten Sprachen unterscheiden sich neben der Phonemanzahl durch bei weitem mehr
Faktoren. Zum jetzigen Zeitpunkt ist nicht bekannt, ob es nicht andere sprachliche Eigenschaften gibt, die sich direkt oder indirekt systematisch auf die Wortlänge auswirken. Ebenso wenig darf man diesen Zusammenhang als zwanghaft betrachten: die Kodierung von Inhalten, um die es hierbei letztendlich geht, kann sich ebenso gut syntaktischer Mittel bedienen. Daneben ist unklar, inwieweit nicht auch ein erhöhtes Aufkommen von homophonen Ausdrücken tolerierbar wäre. Eine weitere Möglichkeit, ein „zu geringes“ Phoneminventar zu kompensieren, könnte auch in der Verminderung der Redundanz bei der Wortbildung bestehen. In diesem Zusammenhang stellten Schultz/Altmann folgende Hypothese auf: „Je mehr Phoneme eine Sprache hat, desto mehr leere Zellen kann sie zulassen bzw. desto stärkere Präferenzen kann sie bilden“ (Schultz/Altmann 1988, 31). Mit „leere Zellen“ sind hier von Sprachen nicht ausgenutzte mögliche Phonemkombinationen gemeint. 5.2. Morphemlänge Des weiteren stellt sich die Frage, ob sich derselbe Zusammenhang zeigt, wenn man
224
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
statt der Wortlänge die durchschnittliche Morphemlänge von Sprachen betrachtet. Hockett, der einen solchen Zusammenhang für wahrscheinlich hält, illustriert ihn indes nur sehr unkonkret: „In Hawaiian and the other Polynesian languages, only a handful of morphemes consist of a single syllable, most consist of two, and a fair number of more than two. At the opposite extreme, in some of the languages of the Caucasus practically every successive phoneme in a word is a separate morpheme.“ (Hockett 1958, 93). Maddieson (1984, 7 ff.) hält demgegenüber fest, dass bei Sprachen mit wenigen Segmenten keine Anzeichen mangelnder kombinatorischer Möglichkeiten wie z. B. „unmanageably long morphemes“ zu finden seien, das Hawaiianische habe beispielsweise eine durchschnittliche Morphemlänge von 3,5 Phonemen. Offensichtlich tragen solcherart isoliert vorgebrachten Einzelfälle wenig zur Überprüfung einer Hypothese bei. Tatsächlich könnte es ja sein, dass Sprachen mit wenigen Phonemen eigentlich keine überdurchschnittlich langen Morpheme bilden. Da auch hier die benötigte Redundanz „eingebaut“ würde, wäre die Konsequenz der geringen Phonemanzahl auf dieser Ebene zunächst eine geringere Anzahl der gebildeten Morpheme. Um diese zu kompensieren, würden dann erst bei der Wortbildung längere Ketten von Morphemen benötigt. Eine Alternative besteht eben darin, dass ein geringes Phoneminventar bereits durch die Morphemlänge ausgeglichen wird. Durch die Bestimmung der Wortlänge unmittelbar als Anzahl der Phoneme werden dagegen beide Möglichkeiten gleichermaßen erfasst, ohne dass man sagen könnte, auf welcher Ebene genau sich der Ausgleich abspielt. Für eine Sprache mit kleiner Phonemanzahl könnten sich also u. a. folgende Möglichkeiten anbieten: (a) Je geringer die Phonemanzahl, desto kleiner die daraus gebildete Anzahl an Morphemen, desto größer die durchschnittliche Wortlänge. (b) Je geringer die Phonemanzahl, desto größer die durchschnittliche Morphemlänge, desto kleiner die durchschnittliche Wortlänge. Dies stellt die untersuchte Beziehung in einen interessanten Zusammenhang mit dem Menzerathschen Gesetz (Menzerath 1954,
101; Altmann 1980, 1 f. vgl. Art. Nr. 47), welches für verschiedene sprachliche Subsysteme einen inversen Zusammenhang zwischen der Konstrukt- und der Konstituentenlänge postuliert („Je größer das Ganze, um so kleiner die Teile!“ (Menzerath 1954, 101)). Auf den vorliegenden Fall bezieht sich die spezielle Hypothese „Je größer die durchschnittliche Wortlänge (in Anzahl der Morpheme), desto kleiner die durchschnittliche Morphlänge (in Anzahl der Phoneme)“, die bereits empirisch überprüft und bestätigt werden konnte (Gerlach 1982, 95; Krott 1996, 29). Menzerath selbst führte als Begründung für den Zusammenhang an, dass das „Ganze“ überschaubar gehalten werden müsse, so dass also Komplexität (im Sinne von Länge) auf einer Ebene ausgeglichen wird durch Einfachheit auf einer anderen. Die Interpretation bzw. Herleitung des Zusammenhangs zwischen Phonemanzahl und Wortlänge ist dem sehr ähnlich: die Einfachheit, die sich aus einer geringen Phonemzahl ergibt, erfordert eine erhöhte Komplexität (Länge) auf einer anderen Ebene. Es wäre also sehr interessant, folgende Zusammenhänge an verschiedenen Sprachen zu untersuchen und zu vergleichen: (a) Phoneminventar K durchschnittliche Morphlänge (b) Phoneminventar K Morphinventar (c) durchschnittliche Morphlänge K durchschnittliche Wortlänge 5.3. Phoneminventar K Suprasegmentalia Die Frage, ob ein Mangel an Segmenten durch die Phonologisierung suprasegmentaler Eigenschaften kompensiert werden kann, untersuchte Maddieson (1984, 20 ff.) anhand von jeweils 28 Sprachen mit besonders niedriger (! 20) und besonders hoher (O 45) Phonemanzahl. Er erwartete, dass die Sprachen mit kleinem Phoneminventar besonders häufig distinktiven Gebrauch von suprasegmentalen Möglichkeiten wie kontrastivem Akzent oder Tönen machen. Die Ergebnisse seines Tests scheinen der Hypothese genau zu widersprechen: Sprachen mit kleiner Phonemanzahl weisen weniger häufig kontrastiven Akzent und Tonsysteme auf als die Sprachen mit besonders hoher Phonemanzahl. Die Ergebnisse sind in Tabelle 15.2 dargestellt (das ,?‘ bei der Eigenschaft „pitch accent“ wurde aus dem Original übernommen und ist dort nicht kommentiert). Der Autor zieht aus dem Ergebnis fol-
225
15. Zusammenhänge Tab. 15.2: Inventarumfang und suprasegmentale Eigenschaften (nach Maddieson 1984, 20) Languages with small segment inventory (! 20)
Languages with large segment inventories (O 45)
stress contrastive stress predictable stress pitch accent (?) no stress inadequate data
6 7 2 5 8
8 9 2 4 5
2 2 22 2
6 4 15 5
Tone complex tone systems simple tone systems no tones inadequate data
genden Schluss: „The overall tendency appears once again to be more that complexity of different kinds goes hand in hand, rather than for complexity of one sort to be balanced by simplicity elsewhere.“ (Maddieson 1984, 21). Andererseits muss man beachten, dass es sich hierbei um eine völlig andere Art von Kompensationshypothese handelt, die sich im Gegensatz zum Zusammenhang zwischen Inventar und Morph-/Wortlänge nicht zwischen unterschiedlichen Sprachebenen abspielt, sondern einfach die Zusammensetzung des Inventars bedeutungsunterscheidender Elemente betrifft. Für die Bildung höherer Einheiten spielt es zwar eine Rolle, wie viele Einheiten in distinktiver Funktion eingesetzt werden, es spielt allerdings keine Rolle ob es sich dabei um segmentale oder um suprasegmentale Einheiten handelt, so dass beide Möglichkeiten bezüglich dieser Funktion äquivalent sind. Im vorliegenden Fall könnte man ebenso gut die Hypothese aufstellen, dass suprasegmentale Unterscheidungsmöglichkeiten aus irgendwelchen artikulatorischen oder perzeptorischen Gründen erst dann zum Einsatz kommen, wenn die segmentalen Möglichkeiten ausgeschöpft sind. 5.4. Akzent K Wortlänge Den von Köhler angedeuteten Einfluss des freien Akzents auf die Wortlänge untersuchte Kempgen (1990, 115 f.). Auch der freie Akzent ist dabei lediglich als funktionales Äquivalent zur Bereitstellung bedeutungsunterscheidender Ressourcen auf segmentaler Ebene zu betrachten. Wie der Autor anmerkt, ist es sehr schwierig, Sprachen
zu finden, bei denen man ggf. gefundene Unterschiede in der durchschnittlichen Wortlänge eindeutig dem Vorhandensein oder dem Fehlen eines freien Akzents zuschreiben könnte. Insbesondere sollten die untersuchten Sprachen eine möglichst ähnliche Phonemanzahl aufweisen, da diese ja möglicherweise systematischen Einfluss auf die Wortlänge ausübt. Als in diesem Sinne besonders geeignet erwiesen sich die beiden Sprachen Bulgarisch und Makedonisch, da sie durch ihre enge Verwandtschaft ein sehr ähnliches Phoneminventar aufweisen und sich in erster Linie durch das Vorhandensein eines freien Akzents im Bulgarischen gegenüber einem festen Wortakzent im Makedonischen unterscheiden. Untersucht wurde, ob das Bulgarische signifikant kürzere Wörter als das Makedonische bildet. Die Wortlänge wurde dabei sowohl in Silben als auch in Graphemen gemessen. Für die silbische Wortlänge stellte sich kein nennenswerter Unterschied in den beiden Sprachen heraus. Bei der in Graphemen gemessenen Länge ergab sich, dass das Bulgarische entgegen den Erwartungen etwas längere Wörter bildet als das Makedonische. Als mögliche Begründung führt der Autor an, dass man analog zum Russischen für das Bulgarische annehmen könne, dass der freie Akzent weniger zur Bildung lexikalischer Minimalpaare als vor allem grammatisch genutzt werde. Nur in ersterem Fall könnte man überhaupt annehmen, dass sich ein merklicher Einfluss auf die Wortlänge ergibt. Darüber hinaus gibt der Autor zu bedenken, dass das Vorhandensein eines freien Akzents nur soviel leistet wie ein zusätzliches Phonem und man
226
II. Gebiete und Phänomene: Phonologie / Fields and phenomena: phonology
nicht erwarten kann, dass ein Phonem mehr oder weniger bereits einen deutlichen Einfluss auf die Wortlänge ausübt.
6.
Literatur (in Auswahl)
Altmann, Gabriel (1980), Prolegomena to Menzerath’s law. In: Glottometrika 2. (Hrsg. R. Grotjahn). Bochum: Brockmeyer, 1K10. Altmann, Gabriel/Lehfeldt, Werner (1980), Einführung in die Quantitative Phonologie. Bochum: Brockmeyer. Gerlach, Rainer (1982), Zur Überprüfung des Menzerathschen Gesetzes im Bereich der Morphologie. In: Glottometrika 4. (Hrsg. W. Lehfeldt/ U. Strauß). Bochum: Brockmeyer, 95K102. Grassegger, Hans (1977), Merkmalsredundanz und Sprachverständlichkeit. Hamburg: Buske. Greenberg, Joseph H. (1966), Language Universals. The Hague: Mouton. Greenberg, Joseph H./Osgood, Charles E./Saporta, Sol (1965), Language Change. In: Psycholinguistics. A Survey of Theory and Research Problems. (Hrsg. Ch. E. Osgood/T. A. Sebeok). Bloomington: Indiana University Press. Harris, Zelig S. (1954), Distributional Structure. In: Word 10, 146K162. Hockett, Charles F. (1958), A Course in Modern Linguistics. Toronto: McMillan. Kempgen, Sebastian (1990), Akzent und Wortlänge: Überlegungen zu einem typologischen Zusammenhang. In: Linguistische Berichte 26, 115K 134.
Köhler, Reinhard (1983), Markov-Ketten und Autokorrelation in der Sprach- und Textanalyse. In: Glottometrika 5 (Hrsg. R. Köhler/J. Boy). Bochum: Brockmeyer, 134K167. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Krott, Andrea (1996), Some remarks on the relation between word length and morpheme length. In: Journal of Quantitative Linguistics 3, 29K37. Kucera, Henry/Monroe, George K. (1968), A comparative quantitative phonology of Russian, Czech, and German. New York, American Elsevier Pub. Co. Lehfeldt, Werner (1975), Die Verteilung der Phonemanzahl in den natürlichen Sprachen. In: Phonetica 31, 274K287. Maddieson, Ian (1984), Patterns of sounds. Cambridge: Cambridge University Press. Menzerath, Paul (1954), Die Architektonik des deutschen Wortschatzes. Bonn: Dümmler. Meyer-Eppler, Werner (1965), Grundlagen und Anwendungen der Informationstheorie. Berlin: Springer. Nettle, Daniel (1995), Segmental inventory size, word length, and communicative efficiency. In: Linguistics 33, 359K367. Schulz, Klaus-Peter/Altmann, Gabriel (1988), Lautliche Strukturierung von Spracheinheiten. In: Glottometrika 9 (Hrsg. K. P. Schulz). Bochum: Brockmeyer, 1K47.
Sabine Weber, Landscheid-Burg (Deutschland)
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology 16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme 1. 2. 3. 4. 5. 6. 7. 8. 9.
1.
Einleitung: Morphologische Einheiten und ihre Eigenschaften Häufigkeit von Morphen und Morphemen in Texten Häufigkeit von Morphen und Morphemen im Lexikon, Produktivität Morphlänge Semantische Diversifikation von Morphen Wortarten Zusammenhänge zwischen sprachlichen Eigenschaften Zusammenfassung und Ausblick Literatur (in Auswahl)
Einleitung: Morphologische Einheiten und ihre Eigenschaften
Die Morphologie als Lehre von der Struktur der Wörter (vgl. Bauer 2003, 3 ff.; Flohr/ Pfingsten 2002; Matthews 1991, 9) befasst sich mit der Form und der Bildung von Wörtern. Sie untersucht sprachliche Einheiten, die unter den vagen Begriff „Wort“ fallen (Wortformen, Wortformentoken, Wortformentypes, Lexeme, Lemmata) und kategorisiert sie (Inhaltswörter vs. Funktionswörter, offene vs. geschlossene Wortklassen, Wortarten). Für die Untersuchung der inneren Struktur werden die Bestandteile von Wortformen, die Morpheme, beschrieben und klassifiziert, und es wird erfasst, wie diese syntagmatisch kombiniert werden können. Prinzipiell wird bei der Kombination von Morphemen unterschieden zwischen den morphologischen Prozessen der Flexion und der Wortbildung, die wiederum u. a. Derivation und Komposition umfasst (Aronoff 2000). Die Quantitative Morphologie befasst sich jedoch nicht nur mit dem morphologischen Einheiten, ihren Eigenschaften und den morphologischen Prozessen, sondern auch mit Erklärungen K zum Beispiel, warum bestimmte Häufigkeitsverteilungen auftreten K und mit Zusammenhängen zwischen verschiedenen Spracheigenschaften. Da die Quantitative Morphologie sich exakter Methoden bedient, müssen ihre Einheiten hinreichend klar operationalisiert
sein. Die oben erwähnten Begriffe der morphologischen Einheiten sind aber teilweise auch innerhalb der Qualitativen Linguistik nicht eindeutig definiert. Insbesondere der Morphembegriff und die Einteilung der Morpheme in Unterklassen werden unterschiedlich gefasst. Daher wird im folgenden Abschnitt näher auf Probleme und Fragen der Definition von morphologischen Einheiten eingegangen. 1.1. Morphologische Einheiten Morpheme werden von Morphen repräsentiert, die die gleiche Bedeutung besitzen. Das für die deutsche Sprache bekannteste Beispiel sind die Morphe -e, -en, -er, -s, die Allomorphe des Pluralmorphems sind. Linke/ Nussbaumer/Portmann (2001, 69 f.) postulieren allerdings den Verzicht auf die signifiéSeite des Morphems, so dass es sich hier um synonyme Morpheme handeln würde. Es ist problematisch, Morphe(me) zu identifizieren bzw. sie im Text zu segmentieren, denn hält man sich an die Form, so gerät man an Erscheinungen wie Sandhi, liaison, Assimilationen, Portmanteu-Morphe(me) u. ä. Hält man sich an die Bedeutung, dann verliert man die Möglichkeit, Länge zu messen, die im synergetischen Regelkreis (vgl. Köhler 1986) eine wichtige Rolle spielt. Es gibt zahlreiche Methoden zur Segmentierung des Textes in Morphe(me) (vgl. Augst 1975; Flenner 1994; Greenberg 1957; Greenberg 1960; Harris 1955; Harris 1970; Kandler/Winter 1992; Klenk/Langer 1989; Langer 1991; Nida 1949) und die Zahl automatischer Segmentierungsverfahren wächst von Jahr zu Jahr. Sie liefern nie „hundertprozentige“ Resultate, was sie keineswegs disqualifiziert, sondern eher auf die Unschärfe der Morphemgrenzen hinweist. Auch Resultate, die „von Hand“ gewonnen werden, können von Forscher zu Forscherin unterschiedlich sein. Eine Zusammenfassung der Segmentierungsverfahren findet man in (Best 2001). Morpheme bzw. Morphe werden danach unterschieden, ob sie als (potentiell) freie Morphe(me), wie Haus oder die, auftreten können oder ob es sich um (obligatorisch)
228
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
gebundene Morphe(me) handelt (Bauer 2003, 13). Gebundene Morpheme können Morpheme mit lexikalischer Bedeutungsfunktion (wie Schorn in Schornstein oder Kirch in Kirchplatz) oder Morpheme mit grammatischer Bedeutung, also Affixe, sein. Die Unterscheidung zwischen Affixen und freien Morphemen ist indes nicht immer einfach, und damit wird auch die Definition von Komposition und Derivation problematisch, denn für Komposita als Ergebnisse des Prozesses der Komposition gilt im Allgemeinen als differentia specifica, dass sie „aus mindestens zwei frei vorkommenden Morphemen oder Morphemkonstruktionen zusammengesetzt“ sind (Bußmann 2002, 362, 402). Hier ergibt sich allerdings das Problem, dass sich die Bedeutung einer Form in einem Kompositum von der Bedeutung der freien Form unterscheidet. Zum Beispiel betrachten Altmann/Best/Kind (1987, 132) Morphe(me) wie -freundlich, -fest und -frei als Suffixe, während Höhle (1985, 328 ff.) sie in Verbindung mit freien Morphemen bringt. Der Übergang zwischen freien und gebundenen Morphe(me)n ist von gradueller Natur bzw. die Frage, wann die Bedeutung einer Form so stark modifiziert ist, dass von einer neuen Bedeutung gesprochen werden kann, kann nicht geklärt werden; sie lässt sich nur mit Hilfe verschiedener Kriterien operationalisieren. Die Einführung von zusätzlichen Zwischenkategorien (vgl. Fleischer 1983, 70) führt lediglich zu zusätzlichen Unterscheidungsproblemen (Stepanowa/Fleischer 1985, 143 f.) und Fleischer und Barz (1995, 27 f.) vermeiden diese Kategorien daher. Die Auffassung geht hin zu einem prototypischen Affixbegriff, ggf. mit Zentrum und Peripherie (Fleischer 2000, 892) oder zur Vorstellung einer „ordinalen Skala“, auf der Morpheme mehr oder weniger die „Eigenschaft Affix“ besitzen (s. Stepanowa/Fleischer 1985, 68). Bislang gibt es aber keine eindeutigen Kriterien für die Einordnung auf dieser Skala, wie etwa die Bestimmung der Nähe der Bedeutungen von Wortbestandteilen zu den Bedeutungen der formgleichen Simplizia. Eine praktikable und einfach zu operationalisierende Lösung schlägt Rothe für das Deutsche vor: „In order to distinguish a component from affixes, prefixes or further morphological elements, we took as criterion its autonomous existence in the Ger-
man lexicon, that is, its existence as a lexeme that can also be used in isolation“ (1988, 125). Hier ist die Bedeutung der Form innerhalb der Wortbildungskonstruktion nicht mehr von Interesse, sondern lediglich die Tatsache, dass ein formgleiches Lexem existiert. Nimmt man als zusätzliches Kriterium hinzu, dass eine mehr oder weniger große semantische Modifikation zwischen Komponente und Lexem bestehen kann, dann werden gebundene Morpheme, die homonym zu freien Morphemen sind, wie zum Beispiel -ei in Kumpanei, ausgeschlossen, denn hier kann nicht mehr von semantischer Modifikation gesprochen werden. Die operationale Definition des Begriffs freies Morph(em) als autonom vorkommende Einheit im Lexikon ist damit im Vergleich zu anderen Verfahren für Untersuchungen im Bereich der Quantitativen Linguistik handhabbar. Mit ihrer Hilfe können Wortbildungskonstruktionen den Klassen Kompositum oder Affigierung zugewiesen werden. Hinsichtlich ihrer Bedeutungsfunktion zerfallen die Einheiten, die zu den Morph(em)en gezählt werden, ebenfalls unscharf in zwei Gruppen, nämlich in die lexikalischen Morph(em)e, die Entitäten der außersprachlichen Welt denotieren, und die grammatischen Morph(em)e, die die Wirksamkeit von Ableitungsprozessen (im Fall von Derivations-Affixen), grammatischen Funktionen (z. B. bei Deklinations-Affixen) und semantischen Relationen (z. B. Pronomina, Präpositionen, Konjunktionen) anzeigen. Diese Unschärfe ergibt sich durch den Übergang von Morphemen zwischen den Klassen. Lexikalische Morpheme können zu grammatischen Morphemen werden, aber auch der umgekehrte Weg ist möglich. 1.2. Eigenschaften morphologischer Einheiten Bei Morphe(me)n kann man folgende Eigenschaften beobachten und quantifizieren (die Aufzählung ist natürlich unvollständig): Häufigkeit, Länge, Kombinabilität (Distribution), Polysemie, Polytextie, derivative Produktivität, kompositionale Produktivität, Diversifikation in Grundklassen (Wortarten), Zugehörigkeit zu Flexionsparadigmen, geographische Diversifikation, soziale Diversifikation, Alter, Herkunft, konnotative Potenz, Synonymie, Grad der Schriftsprachlichkeit, Diskurseigenschaften, und viele andere, die noch zu etablieren und zu metrisie-
16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme
ren sind und die die Morpheme gemeinsam mit Wörtern besitzen. Nur wenige davon wurden bisher in der quantitativen Forschung untersucht, man widmet sich eher der Einheit Wort (s. Art. Nr. 19; 23). Im Folgenden werden hauptsächlich Untersuchungen zu Wurzelmorphemen, Stämmen, Präfixen und Suffixen und den Flexions- und Wortbildungsprozessen, bei denen sie beteiligt sind, dargestellt. Quantitative Untersuchungen zu anderen morphologischen Einheiten und Prozessen wie Infixe, Zirkumfixe, Transfixe, unikale Morpheme, Kontamination, Rückbildung etc. liegen unseres Wissens nicht vor. Jedoch beschreibt Altmann (2002) die morphologischen Modifikationen für das Indonesische, zu denen auch Infigierung und Reduplikation gehören (s. Abschnitt 3). Zum Prozess der Abkürzung siehe jedoch Köhler (1986, 71 f.) und Zipf (1968, 30 ff.). Die folgenden Abschnitte stellen Untersuchungen zu verschiedenen Verteilungen dar. Behandelt werden zunächst die Häufigkeitsverteilungen von Morphen bzw. Morphemen. Hierbei wird jeweils zwischen Untersuchungen anhand von Texten und Korpora bzw. anhand von Wörterbüchern differenziert. Im Anschluss daran werden Untersuchungen zu Verteilungen der Morphlängen und der Funktionen einzelner Morphe zusammengefasst. Wortarten und ihre quantitativen Eigenschaften sind Gegenstand des nächsten Abschnitts. Betrachtet man Sprache vom systemtheoretischen Standpunkt aus, so lassen sich Zusammenhänge und Abhängigkeiten zwischen verschiedenen sprachlichen Eigenschaften und Größen ableiten. Relativ gut ist die Forschungslage im Bereich der Komposition und der Derivation, weniger ergiebig bei der Flexionsmorphologie. Es werden lediglich Untersuchungen behandelt, die innersprachliche Analysen betreffen, der Bereich der Sprachtypologie aufgrund morphologischer Merkmale wie zum Beispiel mit Hilfe von Indices (Greenberg 1960; Altmann/Lehfeldt 1973; Silnitsky 1993) wird nicht berücksichtigt (s. Art. Nr. 41).
2.
Häufigkeit von Morphen und Morphemen in Texten
Die Verwendungshäufigkeit von Morphemen wird zunächst einfach in einem Text oder Korpus als Zahl der Vorkommen eines
229
Morphs oder Morphems gezählt. Es ergeben sich hier, wie bei anderen höheren Einheiten, zwei Arten der Darstellung, nämlich das Frequenzspektrum und die Ranghäufigkeitsverteilung (vgl. Baayen 2001, 8 ff.; Art. Nr. 30). Zipf (1968, 256 ff.; 1972, 87 ff.) führte solche Experimente sowohl für Morphe als auch für Morpheme durch und stellte fest, dass die resultierende Verteilung der Häufigkeiten über dem Frequenzrang steiler wurde als die entsprechende Verteilung für Wörter oder noch größere Einheiten (s. Abb. 16.1). Auch die Verteilung der Frequenzklassen, also die Anzahl der Morpheme mit gleicher Häufigkeit, ist systematisch steiler als die für Wörter (Zipf 1968, 256 ff., s. Abb. 16.2). Baayen (2001, 135 ff.; Art. Nr. 17) zeigt anhand der Häufigkeiten von niederländischen Worttypes der CELEX-Datenbank (vgl. Baayen/Piepenbrock/van Rijn 1993), dass sich die Frequenzspektren von Simplizia und Ableitungen unterscheiden: Das Frequenzspektrum der Derivate mit dem Suffix -heid besitzt einen wesentlich höheren Anteil an Hapax Legomena als das Spektrum der Simplizia und lässt sich nicht mit der Yule-Simon-Verteilung erfassen. Dies führt er darauf zurück, dass hier in Wirklichkeit eine gemischte Verteilung vorliegt, da -heid zwei Unterbedeutungen besitzt: Einerseits werden mit diesem Suffix abstrakte Konzepte wie snelheid (Geschwindigkeit), waarheid (Wahrheit) und vrijheid (Freiheit) ausgedrückt. Diese Lexeme sind im Allgemeinen lexikalisiert. Andererseits werden mit -heid aber auch Wortformen gebildet, die auf Zustände referieren und anaphorisch verwendet werden. Wortformen, die sowohl anaphorisch gebraucht werden als auch auf ein abstraktes Konzept referieren, werden von dieser zweiten Klasse ausgeschlossen. Diese Verwendungsweise ist stark kontextgebunden und hat einen hohen Anteil an wenig verwendeten Wortformen, während bei den abstrakten Konzepten die Häufigkeiten im Durchschnitt größer sind. Es gelingen sehr gute Anpassungen durch gemischte Verteilungen aus einer Lognormal-Verteilung und der Yule-Simon-Verteilung bzw. aus einer Lognormal- und einer inversen Gauss-Poisson-Verteilung. Betrachtet man also die Produktivität einzelner Affixe, so muss die Semantik des Ableitungsprozesses berücksichtigt werden. Obwohl es sich bei dieser Untersuchung um die Vertei-
230
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology 1
10
100
1000
FA 1000 NOOTKA C
FREQUENCY
A1 A2
A1 A2 B
FB
100 B
10
1 A - RANK B - NUMBER
NA1 NA2
NB
Abb. 16.1: Verteilungen für Nootka. Rangverteilungen: A1: Morphe, A2: Morpheme, B: agglutinative Wortbildungskonstruktionen („holophrases“), Frequenzspektrum. C: theoretische Gerade a · b Z const für Wörter. Aus Zipf 1972, 80.
Abb. 16.2: Häufigkeitsklassen für französische Stamm-Morpheme. Gestrichelte Linie: ideale Kurve für Wörter. Aus Zipf 1968, Plate VII (gegenüber S. 257). Die Anzahl der Klassen ist auf der x-Achse abgetragen, die Morphemhäufigkeit auf der y-Achse.
lung von Verwendungshäufigkeiten handelt, ist zu erwarten, dass sich vergleichbare semantische Effekte auch im Lexikon niederschlagen.
Baayen (Art. Nr. 17) bietet weitere Produktivitätsmaße, die auf der Basis von Zuwachsraten für Wortkategorien in Texten gebildet werden.
16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme
3.
Häufigkeit von Morphen und Morphemen im Lexikon, Produktivität
Tab. 16.1: Morphologische Produktivität indonesischer Stämme (nach Wimmer/Altmann 1995). Produktivität Häufigkeit Theoretische Häufigkeit NPx (nach (1)) X fx
Durch Neubildung von Stämmen, Übernahme eines Stammes in eine neue Wortart, durch Derivation und Komposition werden Morpheme zur Wortbildung verwendet und können im Lexikon in vielen Verbindungen auftauchen. Wimmer und Altmann (1995) modellieren die morphologische Produktivität als Geburts- und Todesprozess, wobei die Beteiligung eines Stammes an einer Wortbildung als „Geburt“ und der Wegfall eines Lexems als „Tod“ verstanden werden. Beim Entstehen eines neuen Wortes verlässt ein Stamm seine bisherige Produktivitätsklasse der Anzahl der lexikalisch erfassten Verbindungen und rückt in die nächst höhere Klasse auf, beim Sterben eines Lexems findet der umgekehrte Vorgang statt. Die Geburtsrate wird als λx Z (a C xc) / [b C (n K x K 1) c], die Todesrate als µx Z x / (n K x K 1) festgelegt. Hier sind a, b, c Parameter, die vorläufig aus Daten geschätzt werden. Die aus dem Modell resultierende Verteilung der Produktivität x ist die Pólya-Verteilung:
( )( ) ( ) K
Px Z
p s
K
x
q s
nKx
, x Z 0, 1, ..., n.
231
(1)
1 K s n
Diese Verteilung kann sehr gut an das Produktivitäts-Spektrum des Indonesischen (Stamm-Morpheme) angepasst werden (Wimmer/Altmann 1995; Altmann 2002), wie in Tab. 16.1 und Abb. 16.3 zu sehen ist. Die Produktivität von Affixen, d. h. ihre Häufigkeit im Lexikon, bezeichnet Altmann (2002) als „Prozedur-Produktivität“. Für die Verteilung, mit der die verschiedenen Ableitungsprozeduren in einem Lexikon verwendet werden, zählt man für jede Ableitungsklasse, wie viele Stämme dieser Ableitung unterworfen werden können. Die Rang-Frequenz-Verteilung dieser Ableitungsklassen ist Ergebnis eines Diversifikationsprozesses, es wurde jedoch bisher kein konkretes Modell vorgeschlagen. In Sprachen, bei denen eine größere Anzahl Modifikationen gleichzeitig (agglutinie-
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17K18 19K39
6970 1961 1109 622 391 250 173 99 81 44 32 14 12 6 4 1 3 3 2
6964.79 2020.46 1049.38 621.69 380.34 250.85 164.12 108.24 71.63 47.41 31.31 20.58 13.46 8.73 5.62 3.58 2.25 2.26 1.30
p Z 0.0274, s Z 0.0713, X 2 Z 14.32, FG Z 15, P Z 0.50
rend) auf das selbe Wort angewendet werden kann, lohnt es sich, das Derivationsspektrum aus dem Lexikon zu ermitteln. Dafür zählt man, wie viele Wörter ein-, zwei- und mehrfach modifiziert wurden, d. h. wie viele Affixe hintereinander an das Wort/Morphem angehängt werden. Die Verteilung der Affixzahl wurde noch nicht abgeleitet, der Vorschlag geht auf Altmann (2002, 63) zurück. Baayen/Lieber/Schreuder (1997) zeigen, dass die Erkennung und Verarbeitungsgeschwindigkeit von Stamm-Morphemen nicht von ihrer kumulierten Verwendungsfrequenz, sondern von der Größe ihrer Wortbildungsfamilie abhängt. Die Größe der Familie wurde als Lexikon-Häufigkeit gemessen. Eine Verbesserung der Antwortzeiten ergab sich auch mit steigender Verwendungshäufigkeit der flektierten Formen der Stämme in ihrer Simplex-Form, aber nicht für die kumulierte Token-Frequenz über alle Mitglieder der Wortbildungsfamilie. Diese Ergebnisse sind wichtig für Experimente, die die funktionalen Zusammenhänge der Morphemfrequenz mit anderen Größen untersuchen (s. Abschnitt 7.5), denn offensichtlich kann die kumulierte Verwendungsfrequenz nicht für jeden Frequenzeffekt im System verantwortlich gemacht werden.
232
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Abb. 16.3: Anpassung der Pólya-Verteilung an die morphologische Produktivität indonesischer Stämme (nach Wimmer/Altmann 1995).
4.
Morphlänge
Die Länge von Morphen kann sinnvoll als Anzahl von Phonemen oder Buchstaben gemessen werden. Die Längenmessung in Silben wird selten angewendet werden können, da Silben- und Morphgrenzen in der Regel nicht zusammenfallen. Für die Verteilung von Morphlängen schlägt Best (2001; s. Art. Nr. 18) die 1-verschobene Hyperpoissonverteilung vor: Px Z
axK1 b(xK1) 1F1 (1; b; a)
, x Z 1, 2, ...
(2)
Er kann sie an Daten abgeschlossener deutscher Pressetexte mit gutem Ergebnis anpassen. Weitere Modelle, die Wimmer/Köhler/ Grotjahn/Altmann (1994) und Wimmer/Altmann (1996) für die Verteilung von Wortlängen abgeleitet haben, könnten im Bereich der Stamm-Morpheme ebenfalls angemessen sein, wurden jedoch noch nicht getestet.
5.
Semantische Diversifikation von Morphen
Das Prinzip der Diversifikation (vgl. Altmann 1996, Art. Nr. 46), besagt, dass es für eine Sprecherin am ökonomischsten ist,
wenn das Lexikon einer Sprache möglichst wenig Einträge besitzt. In einem solchen Fall würden bedeutungstragende Einheiten mit möglichst vielen Bedeutungen belegt werden. Für den Hörer dagegen ist es ökonomischer, wenn jede bedeutungstragende Einheit nur eine Bedeutung besitzt. Hier liegen zwei gegensätzliche Prozesse vor, die Diversifikation und die Unifikation, wie sie bereits von Zipf (1972) durch das principle of least effort postuliert worden sind. Nach Altmann (1985, 179) tendiert die Sprecherin dazu, die Bedeutungen eines Wortes gleichmäßig zu verteilen, während der Hörer die Sprecherin dazu bringt, möglichst wenige Bedeutungen möglichst häufig zu verwenden. So entstehen charakteristische Häufigkeitsverteilungen. Ausgehend von der Annahme von Geburts- und Todesprozessen (der Bedeutungen einer Einheit der Form) leitet Altmann (1985, 179 ff.) die (verschobene) negative Binomialverteilung für die rangierte Verteilung der Bedeutungen von sprachlichen Einheiten ab: Px Z
(
)
kCxK1 k x p q , x
mit 0 ! p ! 1 ,
q Z 1Kp,
x Z 0, 1, ... kO0
Die semantische Diversifikation wirkt sich auf mehreren Ebenen aus. Auf der morphologischen Ebene betrifft die semantische Di-
233
16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme
Tab. 16.2: Häufigkeiten der Funktionen des ungarischen Präfixes „meg-“ nach Beőthy/Altmann (1991, 61). Rang
Bedeutungsmodifikation
1 2 3 4 5 6 7 8 9
Vollendete Handlung Vollendete Handlung C völlig neue Bedeutung Vollendete Handlung C Vollendete Handlung C Sofortige Handlung Vollendete Handlung C Vollendete Handlung C Durativ
Bedeutungsmodifikation neue Bedeutung ihr Ergebnis sofortige Handlung einmalige Handlung
versifikation die Bedeutung von Affixen. Beőthy/Altmann (1984; 1991) zeigen, dass die Bedeutungen von ungarischen Präfixen im Text dem Prinzip der Diversifikation unterliegen (vgl. Tab. 16.2). Auch die Ranghäufigkeitsverteilungen der Übersetzungen ins Niederländische folgen dem Modell. Für deutsche Affixe gelingt die Anpassung mit der negativen Binomialverteilung nicht überall (Altmann/Best/Kind 1987). Unter der Annahme, dass hier mehrere Diversifikationsprozesse gleichzeitig ablaufen, lässt sich jedoch schließen, dass es sich hier um eine gemischte Verteilung handeln muss. Altmann/Best/Kind (1987) zeigen, dass die gemischte negative Binomialverteilung Px Z
(
)
kCxK1 k x p1 q1 x
C (1 K α)
(
)
kCxK1 k x p2 q2 , x Z 0, 1, ... x
mit 0 ! p ! 1 ,
q Z 1Kp,
kO0
sich tatsächlich gut an die Daten anpassen lässt.
6.
Häufigkeit
NPx
107 8 8 5 5 4 2 1 1
103,30 14,82 7,28 4,40 2,92 2,04 1,47 1,09 3,68
risierungen sind das System von Bergenholtz/Schaeder (1977) für die Wortartenklassifikation aufgrund von syntaktisch-distributionellen Kriterien und die Einteilung von Flämig (1981) für die Wortartenklassifikation aufgrund morphologischer Kriterien. 6.1. Diversifikation der Wortarten von wortartenambigen Types Diversifikationsprozesse laufen nicht nur auf der semantischen, sondern auch auf der grammatischen Ebene ab. Zum Beispiel ist die Anzahl der einzelnen Wortarten bei wortartenambigen Types unterschiedlich ausgeprägt: Dies trifft vor allem für Funktionswörter zu. Rothe (1991, 20) spricht hier von distributioneller Diversifikation. Dass ein Type mehrere Wortarten haben kann, ist ein Ergebnis des Diversifikationsprozesses der Konversion (vgl. Altmann 1996, 107 f.). Wird ein Wort bezüglich der Wortart nicht deutlich markiert, so entsteht für den Hörer ein zusätzlicher Analyseaufwand, und für die Sprecherin der Aufwand, im Kontext für Disambiguierungsmöglichkeiten zu sorgen. Diese Aufwände werden jedoch durch das „Formenrecycling“ offensichtlich aufgeho-
Wortarten
Die Frage, wie Wortarten definiert werden, kann im Rahmen dieses Artikels nicht weiter erörtert werden. Zur Geschichte und zu den unterschiedlichen Verfahren der Wortartenklassifikation vgl. Ax (1996), Bergenholtz/Schaeder (1977, 20 ff.), Cherubim (1976), Kaltz (1983), Knobloch/Schaeder (1992), Law (1995) und Robins (1986). In der Quantitatitiven Linguistik werden hauptsächlich syntaktisch-distributionelle, morphologische Verfahren oder Mischformen verwendet. Zwischen den Ergebnissen dieser Klassifikationen gibt es beträchtliche Korrelationen. Bekannte Wortartenkatego-
Tab. 16.3: Verteilung der Wortarten für das deutsche Type „groß“ (nach Steiner 2004, 93). „groß“
Rang
f (x)
nNB (x)
Adjektiv (prädikativ) Adverb Eigenname Adjektiv (attributiv) Appellativum Verbpartikel
1 2 3 4 5 6
33 9 4 2 1 1
31,51 10,08 4,35 2,04 1,00 1,02
k Z 0.59, p Z 0.46, X2 Z 0.22, FG Z 2, P Z 0.89 Anm. Verteilung der Wortarten für das deutsche Lexem „groß“. nNB (x) folgt der negativen Binomialverteilung.
234
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Altmann Fitter 2.1
Negative Binomialverteilung 36 34 32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0
f (x) NP (x)
1
2
3
4
5
6
f[x], NP[x]
Abb. 16.4: Anpassung der negativen Binomialverteilung an den Type groß/Groß (aus Steiner 2004, 94).
ben, denn es bietet der Sprachgemeinschaft den Vorteil, keine zusätzlichen Formen im Inventar bereithalten zu müssen. Steiner (2004, 92 ff.) zählt für das deutsche Type „groß“ im Münster-Korpus Deutsch die Verwendungshäufigkeit und rangiert die ermittelten Häufigkeiten. Als Modelle verwendet sie die negative Binomialverteilung und die gemischte negative Binomialverteilung (s. o.). Die Anpassungen sind gut (vgl. Tab. 16.3 und Abb. 16.4). 6.2. Diversifikation von Wortarten im Korpus und Lexikon Auch die Anzahl der Tokens, die zu einer Wortart gehören, diversifiziert. Erste Untersuchungen über Texte machte bereits Zipf (1968, 227). Schweers/Zhu (1991) passen die Zipf-Alekseev-Verteilung für lateinische und deutsche Texte zufriedenstellend an. Die Anpassung an chinesische Texte gelingt jedoch nicht. Für das Deutsche und das Lateinische wurde das Klassifikationssystem von Flämig verwendet, dagegen rein syntaktische Kriterien für das Chinesische. Für alle Daten gelingen jedoch Anpassungen der negativen hypergeometrischen Verteilung. Auch Best (2000) kann die Wortartenverteilungen von 23 Anzeigentexten mit dieser Verteilung erfassen. Best (1994; 1997) passt an die Wortartenverteilung von zehn deutschen Prosatexten
mit jeweils ca. 1.000 Worttokens die Funktion
yx Z
( ) ( ) bCx xK1 aCx xK1
y1 ,
x Z 1, 2, ..., k
(5)
mit a, b: Konstanten mit sehr gutem Ergebnis an. Hier wird die Verteilung in Form von Prozenten dargestellt, an die die obige Folge angepasst wird. Das Verfahren hat den Vorteil, dass bei großen Stichprobenumfängen kein ChiquadratTest, sondern der Determinationskoeffizient benutzt wird (vgl. Altmann 1993). Die Folge lässt sich leicht in eine Verteilung umwandeln. Auch hier folgt die Zuordnung der Texttokens zu den Wortartenklassen im Wesentlichen der Wortartenklassifikation von Flämig, ist also hauptsächlich morphologisch motiviert. Tab. 16.4 zeigt eine solche Häufigkeitsklassenverteilung. Ziegler (1998; 2001) passt die negative hypergeometrische Verteilung an die Wortarten brasilianisch-portugiesischer Pressetexte an. Problematisch erweist sich dabei, dass die Wortartenklassifikation der Daten nach semantischen Kriterien erfolgt und die Numeralia von der Verteilung abweichen.
16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme Tab. 16.4: Ranghäufigkeitsverteilung der Wortarten in Brobrowskis Betrachtung eines Bildes nach Best (1994, 146). Wortart
Rang
nx
yx
yˆ
Nomen Verb Adverb Artikel Pronomen Präposition Adjektiv Konjunktion
1 2 3 4 5 6 7 8
238 168 167 158 155 125 110 98
19.52 13.78 13.70 12.96 12.72 10.25 9.02 8.04
19.52 15.73 13.55 12.09 11.02 10.20 9.54 9.00
a Z 0.4952; b Z 0.0107; D Z 0.9035 nx: absolute Häufigkeit; yx: relative Häufigkeit; yˆ: berechneter Wert; a, b: Parameter; D: Determinationskoeffizient.
Manche Konzepte werden durch Lexeme realisiert, die durch Derivation zueinander in Beziehung stehen und unterschiedliche Wortarten besitzen K z. B. das Konzept HUNGER durch die Wortarten Nomen (Hunger), Verb (hungern) und Adjektiv (hungrig). Klassifiziert man Konzept-Stamm-Kombinationen nach der Anzahl der Wortarten, die sie annehmen können, so erhält man eine Verteilung, die die Wortartendiversifikation im Lexikon widerspiegelt. Möglicherweise kann auch hier das Produktivitätsmodell von Wimmer und Altmann angewendet werden, da es sich um die Produktivität des Prozesses „Wortart-Diversifikation“ handelt. Bisher fehlen Zählungen, an denen die Hypothese überprüft werden könnte. 6.3. Korrelation von Wortarten in Texten Unter Bezugnahme auf das sogenannte Ohno-Gesetz (vgl. Mizutani 1989) untersucht Best (1998) 30 deutsche und 40 französische Texte und stellt fest, dass in mehr als zwei Drittel aller Fälle keine Korrelationen zwischen den Häufigkeiten der Wortarten bestehen. Starke Schwankungen über den Textsorten zeigen, dass es sich vor allem um stilistische Unterschiede und nicht um übersprachliche Erscheinungen handelt. Lediglich Nomina und Pronomina korrelieren überall negativ. Fasst man jedoch die Häufigkeiten der Wortarten aller 70 Texte für die Korrelationsanalyse zusammen, ergeben sich zusätzlich positive Korrelationen zwischen Pronomen und Verb sowie zwischen Substantiv und Artikel, was den Erwartungen nicht widerspricht. Multivariate statistische Methoden zur Feststellung des Zusam-
235
menhangs von zwei oder mehreren Wortarten im Text wurden von Wimmer und Altmann (2001) vorgeschlagen.
7.
Zusammenhänge zwischen sprachlichen Eigenschaften
Die synergetische Linguistik beschreibt Sprache als selbstorganisierendes und selbstregulierendes System. Dabei werden nicht nur Einheiten und Beziehungen zwischen diesen Einheiten erfasst, sondern die Eigenschaften des Systems aufgrund ihrer Funktionen innerhalb des Systems erklärt. Zahlreiche Zusammenhänge im Bereich der Lexik wurden bereits nachgewiesen (vgl. Köhler 1986; Art. 23). In der Morphologie sind viele der Zusammenhänge noch nicht empirisch überprüft worden. Dies betrifft vor allem den Bereich der Flexionsmorphologie. Durch die Datenlage im Internet werden die Möglichkeiten dazu jedoch immer besser. 7.1. Morph-Inventarumfang und Morph-Polylexie Es gibt zahlreiche Probleme bei der Zuordnung von Formen zu den Kategorien der Polysemie und der Homonymie (vgl. Schierholz 1991, Schumacher/Steiner 2002, 187 f.), so dass innerhalb der Quantitativen Linguistik häufig die Polylexie als Maß für Mehrdeutigkeit verwendet wird. Polylexie wird definiert als „die Anzahl der verschiedenen Bedeutungen, die eine lexikalische Einheit zu einem gegebenen Zeitpunkt trägt“ (Köhler 1986, 57) und operationalisiert, indem die Zahl der Wörterbucheinträge zu der betreffenden sprachlichen Einheit gezählt werden. Krott (2002, 77 f.) stellt die Hypothese auf, dass je mehr Bedeutungen ein Morph in einer Sprache durchschnittlich besitzt, desto geringer das Morph-Inventar in dieser Sprache bei konstantem Kodierungsbedürfnis ist. Dieser Zusammenhang ist bislang nicht empirisch nachgewiesen worden. 7.2. Morphem-Polylexie und Morphem-Häufigkeit in Wortbildungskonstruktionen Krott (1999; 2004, 100 ff.) untersucht den Einfluss der Polylexie auf die Wortbildungsaktivität (vgl. Barz 1988, 112), also die Häufigkeit, mit der das jeweilige Morphem als Bestandteil von Wortbildungskonstruktionen auftritt. Sie postuliert: „the frequency of
236
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
a morpheme is dependent on its polysemic potential“ (Krott 1999, 58); formal ausgedrückt in der Gleichung y Z C · xG
(5)
wobei y: Häufigkeit eines Morphems, x: Anzahl der Bedeutungen, C, G: Parameter. Diese Hypothese testet Krott anhand der morphologischen Zerlegungen der deutschen Lemmata der CELEX-Datenbank. Die Häufigkeit eines Morphems wird als die Anzahl der Lemma, in denen es eine Konstituente ist, definiert. Hierbei werden also sämtliche Wortbildungskonstruktionen im Lexikon gezählt. Die Polysemie der Affixe wird operationalisiert als die Anzahl der Einträge in Kühnhold/Prell (1984). Da im Lexikon nur Lemmata untersucht werden, werden nur Derivations- nicht jedoch Flexionsmorpheme berücksichtigt. Für die Polylexie der freien Morpheme wurden die Einträge aus dem Wahrig K Deutsches Wörterbuch gezählt. Die Anpassungen sind bei Nomina, Verben und Adjektiven gut bis zufriedenstellend (vgl. Abb. 16.5). Auch für die Affixe kann die Hypothese bestätigt werden. Altmann (1989) stellt zahlreiche Hypothesen über Komposita auf. Die wohl bekannteste ist: „The greater the polylexy of a word the more compounds there are of which it is a component“ (Altmann 1989, 103).
Dieser Aspekt wurde zum erstenmal wohl von Rothe (1988) untersucht, und zwar anhand von 1.858 Lexemen, die dem Wahrig K Deutsches Wörterbuch entstammen und Bestandteil mindestens eines Kompositums in diesem Wörterbuch sind. Für die Untersuchung werden alle weiteren Komposita mit dem jeweiligen Lexem als erster Konstituente gezählt. Auch Steiner (1995) untersucht das Auftreten von freien Morphemen in Komposita, die Daten werden ebenfalls dem Wahrig entnommen, jedoch werden hier 93.614 Lexeme in die Untersuchung miteinbezogen, wobei auch die Lexeme, die in keinem Kompositum auftreten, und alle Komposita, die das jeweilige Lexem an beliebiger Stelle als Konstituente besitzen, berücksichtigt werden. Die zugrunde liegende Hypothese folgt aus synergetischen Überlegungen in Analogie zum Zusammenhang zwischen Polylexie und Phrasenlänge (vgl. Köhler 1990) und lautet KA Z mPl k,
(6)
wobei Ka: Kompositionsaktivität, Pl: Polylexie, k: Anteil der Komposition an den Möglichkeiten zur Spezifikation, m: mittlere Kompositionsaktivität für Lexeme mit der Polylexie 1. Die Anpassungen an Nomina, Verben und Adjektiven sind gut und die Hypothese
Abb. 16.5: Abhängigkeit der Morphemhäufigkeit von der Polylexie deutscher Verben aus Krott (1999, 63).
16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme
kann akzeptiert werden. Gegenüber den Ergebnissen von Rothe zeigt sich, dass m wesentlich kleiner ist, da 82.598 Lexeme die Kompositionsaktivität 0 besitzen, also in keinem Kompositum auftreten. k dagegen ist größer, was damit zusammenhängen kann, dass alle Vorkommen von Lexemen in Komposita berücksichtigt werden. 7.3. Wortbildungsaktivität und Häufigkeit von Morph-Types Krott (2002, 107 ff.) postuliert, dass zwischen der Anzahl eines Morph-Types im Lexikon und seines mindestens einmaligen Auftretens in einem Korpus (der MorphLexType-Frequenz) ein Zusammenhang besteht und weist dies anhand der CELEXDatenbank für die Sprachen Englisch, Deutsch und Niederländisch nach. Bei Krott ist der Zusammenhang zwischen Polylexie und der Häufigkeit von Morphtypes in Texten indirekt über die Wortbildungsaktivität. Auch Steiner (2002, 218 f.) geht davon aus, dass dieser Zusammenhang indirekt ist, wobei für den Zusammenhang zwischen Polylexie und Kompositionsaktivität das Spezifikationsbedürfnis maßgeblich ist und für den Zusammenhang zwischen Kompositionsaktivität und der Morph-LexType-Frequenz (hier als TextLk-Aktivität bezeichnet) das Anwendungsbedürfnis beeinflussend wirkt (vgl. Abb. 16.6). Sie kann die Hypothese aufgrund zufriedenstellender Anpassungen an Textdaten nachweisen.
Abb. 16.6: Zusammenhang zwischen Kompositionsaktivität und TextLk-Aktivität. Aus Steiner (2002, 221).
7.4. Wortbildungsaktivität und Häufigkeit im Text von Morph-Tokens Je mehr Wortbildungskonstruktionen es mit einem bestimmten Morph gibt, desto häufiger kommen diese, und damit auch das Morph, in Texten vor. Außerdem ist für diese Häufigkeit auch das Anwendungsbe-
237
dürfnis relevant, also das Bedürfnis, ein Wort zu verwenden, das das jeweilige Morph enthält. Demgegenüber steht allerdings das Bedürfnis nach Variabilität des Ausdrucks (Var) und auch das Vorhandensein etwaiger Synonyme eines Morphs, die die Wahrscheinlichkeit seines Auftretens in Wortbildungskonstruktionen einschränken (vgl. Krott 2002, 90 ff.). Andererseits existiert auch das Bedürfnis nach der Vereinheitlichung der Benennung, die Invarianz (Inv), das zusammen mit dem Anwendungsbedürfnis positiv auf die Häufigkeit wirkt. Abb. 16.7 stellt diese Zusammenhänge dar.
Abb. 16.7: Die Abhängigkeiten der Häufigkeit von Morph-Token im Text (aus Krott 2002, 92).
Krott (2002, 110 f.) weist den Zusammenhang zwischen Morph-Types und Morph-Token für die Sprachen Deutsch, Englisch und Niederländisch nach. Dabei werden die Frequenzangaben aus der CELEX-Datenbank verwendet. 7.5. Morphlänge und Morphhäufigkeit Aufgrund des Köhlerschen Regelkreises (vgl. Köhler 1986, 69 f.) postuliert Krott (2002, 92), dass die Morphlänge mit der wachsenden Frequenz abnimmt. Krott (2002, 114 ff.) überprüft diese Hypothese für die Sprachen Deutsch, Englisch und Niederländisch; die Morphlänge wird dabei in Graphemen gemessen. Die Anpassungen sind jedoch nicht gut. Möglicherweise ist der Zusammenhang nicht nachweisbar, weil die Morphe für die untersuchten Sprachen sehr kurz sind. Bei Sprachen mit einem hohen Maß an Agglutination müssten klarere Ergebnisse erzielt werden können. Weiterhin ist es möglich, dass die Operationalisierung der Morphhäufigkeit gemäß den Ergebnissen von Baayen/Lieber/Schreuder (1997) anders erfolgen muss.
238
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
7.6. Wort-/Morphlänge und Wortbildungsaktivität Hammerl (1990) untersucht anhand der Daten eines polnischen Textwörterbuchs Altmanns (1989, 104) Hypothese zum Zusammenhang zwischen Wortlänge und Kompositionsaktivität: „the shorter a word, the more frequently it occurs in compounds“. Er beschränkt sich dabei auf die Grundwörter der Komposita und kann den postulierten Zusammenhang nachweisen. Krott/Schreuder/Baayen (1999) generalisieren die Altmannsche Hypothese für komplexe Lexeme und weisen den Zusammenhang für die niederländischen und die deutschen Komposita der CELEX-Datenbank sowie für niederländische Wortbildungskonstruktionen mit dem Suffix -heid nach. Entsprechende Untersuchungen zur Ebene der Morphe gibt es noch nicht. 7.7. Wort-/Morphhäufigkeit und Wortbildungsaktivität Altmann (1989; 2002, 76) stellt die Hypothese auf: „Je häufiger ein Wort, desto mehr Komposita bildet es.“ Dies hängt damit zusammen, dass ein Wort, das oft vorkommt, mehr Bedeutungen annimmt als Wörter, deren Frequenz klein ist. Hier besteht also ein mittelbarer Zusammenhang über die Polylexie. Krott/Schreuder/Baayen (1999, 910) generalisieren für komplexe Lexeme: „The higher the average word frequency for a given word base type, the higher the chance of it being overrepresented in complex words.“ Sie fassen also alle Simplizia, alle Komposita, alle Derivate als jeweils eine Klasse zusammen und weisen für diese Klassen den Zusammenhang für die deutschen und niederländischen Komposita der CELEX-Datenbank nach. 7.8. Das Menzerathsche Gesetz für Wortbildungskonstruktionen Die relativ kurzen Fugenmorpheme des Deutschen als Spezialfall von Interfixen dienen der Markierung von Wortbildungsprozessen (vgl. Krott/Schreuder/Baayen 2001), verringern also den Dekodierungsaufwand. Sie verlängern Wortbildungskonstruktionen (gemessen in Morphemen) und verkürzen so die durchschnittliche Morphemlänge. Dies ist konform mit dem Menzerathschen Gesetz für die Wort-Morphem-Ebene: Der Zusammenhang zwischen der Wortlänge,
die in Morphen bzw. Morphemen gemessen wird und der Länge von Morphen/Morphemen, gemessen in Phonemen bzw. Graphemen, ist invers. Er wurde von Gerlach (1982) und Krott (1996) nachgewiesen (vgl. Art. Nr. 47). Für den Spezialfall der Komposita formuliert Altmann (1989): „the longer the compound, the shorter its components“. Krott/Schreuder/Baayen (1999) stellen fest, dass die Konstituenten von niederländischen und deutschen Komposita weitaus häufiger Simplizia sind als erwartet und andererseits die Zahl der Komposita, die Bestandteil von Komposita sind, stark unter dem Erwartungswert liegt. Auch die Hypothese, die sich ableiten lässt: „the number of compounds decreases with their increasing length“ (Altmann 1989, 104) kann leicht nachgewiesen werden. 7.9. Weitere Hypothesen über Komposita Altmann (1989; 2002) stellt zu Komposita zahlreiche Hypothesen auf, die zum Teil bereits erwähnt wurden. Im Folgenden werden weitere Hypothesen Altmanns zur Beziehung zwischen Komposita und Bedeutung beschrieben: „Die Zahl der Komposita in einer Sprache (die Komposita hat) ist proportional zum Maß der ,semantischen Korrespondenz‘ der Komponenten mit dem Kompositum.“ (Altmann 2002, 71). Dies begründet Altmann mit dem Bedürfnis nach Minimierung des Gedächtnisaufwandes, das bewirkt, dass die Bedeutungen der Komponenten von Komposita Bestandteile der Bedeutung des jeweiligen Kompositums sind. Altmann sieht Probleme bei der Überprüfung dieser Hypothese, weil es bei zweigliedrigen Komposita nur drei Möglichkeiten der semantischen (Nicht-)Übereinstimmung gibt. Möglich wäre jedoch die Überprüfung der Stärke dieser Korrespondenz mit Hilfe von semantischen Netzen wie WordNet (vgl. Fellbaum 1998). Dann könnte gemessen werden, wie nah die Bedeutungen innerhalb des Netzes zueinander sind. Ebenso denkbar wäre dies bei der folgenden Hypothese: „Je länger ein Kompositum (in Anzahl der Stämme), desto größer seine semantische Korrespondenz mit den Komponenten.“ (Altmann 2002, 72). Da Komposition meist zu einer Spezifikation führt, besitzt ein Kompositum meist weniger Bedeutungen als seine Komponente, was zu der Hypothese führt: „Je länger ein
16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme
Kompositum, desto weniger Bedeutungen hat es.“ (Altmann 2002, 75). Zur Kotextualität (Polytextie) leitet Altmann (2002, 76) anhand des Köhlerschen Regelkreises ab: „Je größer die Kotextualität eines Wortes, desto mehr Komposita bildet es“ und aufgrund des Zusammenhangs mit der Polylexie „Je länger ein Kompositum, desto kleiner ist seine Kotextualität.“ Da die Wahrscheinlichkeit eines Wortes, als Konstituente eines neuen Kompositums aufzutreten, mit der Zeit steigt, kann gefolgert werden: „Je älter ein Wort, desto mehr Komposita bildet es.“ Das Netz der Hypothesen, die man über Komposita aufstellen und prüfen kann, wird von Altmann (2002) wie folgt dargestellt (s. Abb. 16.8). Polylexie Ebene der Komposita
Länge
Länge Ebene der Komponenten Polytextie
Polytextie Semantische Korrespond.
Zahl d. Komp.
Polylexie Häufigkeit
Alter
Abb. 16.8: Das Netz der Hypothesen über Komposita (Altmann 2002, 78).
7.10. Flexionsmorpheme Die Zusammenhänge zwischen Flexionsmorphemen und anderen sprachlichen Einheiten waren bislang nur selten Gegenstand quantitativ-linguistischer Untersuchungen: Těšitelová (1986; 1992, 22; 134 ff.; 1996) untersucht jedoch für die häufigsten Nomina des Tschechischen die Frequenzen der morphologischen Ausprägungen (Kasus, Numerus) in Texten und die Zusammenhänge zwischen Numerus und Kasus von Nomina mit semantischen Rollen sowie die statistischen Zusammenhänge zwischen grammatischen und semantischen Funktionen. Diese Untersuchungen sind rein deskriptiv; außerdem umfassen sie jeweils nur einen sehr kleinen Anteil des gesamten Vokabulars. Zusammenhänge von Kasus und Genus mit semantischen Eigenschaften sind vor allem im Bereich der Psycholinguistik und kognitiven Linguistik untersucht worden (vgl. z. B. Mills 1981, Zubin/Köpcke 1986). Bybee (1985) untersucht den Zusammenhang zwischen semantischer Relevanz und Flexionsbzw. Derivationsmorphemen und ihrer Anordnung im Lexem mit sprachtypologischer Methodik (vgl. Art. Nr. 41).
8.
239
Zusammenfassung und Ausblick
Das Gebiet der Morphologie ist innerhalb der Quantitativen Linguistik bei weitem nicht so gut erforscht wie etwa das der Lexik. Dennoch weisen die dargestellten Untersuchungsbereiche darauf hin, dass für morphologische Einheiten ebenso sprachliche Gesetze anzunehmen sind, wie für die lexikalischen Größen. Zum Großteil sind es die gleichen Gesetze, da hier auch die gleichen Systembedürfnisse wirken wie auf der Ebene der Lexik. Vor allem im Bereich der Flexionsmorphologie gibt es aber noch viele leere Stellen im Modell der Zusammenhänge. Einige interessante Untersuchungsbereiche wären zum Beispiel: K Die Diversifikation der grammatischen Funktionen von gebundenen Morphemen K Der Zusammenhang zwischen Kasus und grammatischer Funktion: Aus dem Kasus eines Wort-Tokens lässt sich mit einer bestimmten Wahrscheinlichkeit seine grammatische Funktion vorhersagen. Die Verteilung der grammatischen Funktionen über die Kasus sollte dem Gesetz der Diversifikation unterliegen. K Der Zusammenhang zwischen Kasus und semantischer Rolle: Entsprechendes gilt auch für diesen Zusammenhang. Hier könnten Těšitelovás Untersuchungsmethoden verwendet werden. K Die Verteilungen der Kasus und der Flexionsendungen eines Lexems und seine Zugehörigkeit zu einer semantischen Klasse: Die semantische Klasse eines Nomens beeinflusst, in welchen Kasus es hauptsächlich verwendet wird. Die Klassifikation von Nomina auf der Grundlage der Verteilungen der Häufigkeiten ihrer Kasus und Flexionsendungen im Korpus müsste daher zu sinnvollen semantischen Klassen führen. Interessant ist auch die Übertragung psycholinguistischer in statistische Hypothesen, die anhand sprachlicher Daten überprüft werden können. Baayen (Art. Nr. 17) bietet ein beeindruckendes Beispiel hierfür. Auch die nicht-quantitative Sprachtypologie liefert zahlreiche begründete, aber nicht anhand großer Datenmengen bestätigte Hypothesen.
240
9.
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Literatur (in Auswahl)
Altmann, Gabriel (1985), Semantische Diversifikation. In: Folia Linguistica 19, 177K200. Altmann, Gabriel (1989), Hypotheses about compounds. Glottometrika 10. (Hrsg. Rolf Hammerl). Bochum: Brockmeyer, 100K107. Altmann, Gabriel (1993), Phoneme counts. In: Glottometrika 14. (Hrsg. Gabriel Altmann). Trier: WVT Wissenschaftlicher Verlag Trier, 54K68. Altmann, Gabriel (1996), Diversification processes of the word. In: Glottometrika 15. (Hrsg. Peter Schmidt). Trier: WVT Wissenschaftlicher Verlag Trier, 102K111. Altmann, Gabriel (2002), Morphologie. In: Einführung in die quantitative Lexikologie: (Hrsg. Gabriel Altmann/Dariusch Bagheri/Hans Goebl/ Reinhard Köhler/Claudia Prün). Göttingen: Peust & Gutschmidt, 56K62. Altmann, Gabriel/Best, Karl-Heinz/Kind, Walter (1987), Eine Verallgemeinerung der semantischen Diversifikation. In: Glottometrika 8. (Hrsg. Ingeborg Fickermann). Bochum: Brockmeyer, 130K 139. Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. Prinzipien und Meßverfahren. München: Wilhelm Fink. Aronoff, Mark (2000), Morphology between lexicon and grammar. In: Morphologie: ein internationales Handbuch zur Flexion und Wortbildung K Morphology: an international handbook on inflection and word-formation. (Hrsg. Geert Booij/ Christian Lehmann/Joachim Mugdan) (Handbücher zur Sprach- und Kommunikationswissenschaft K Handbooks of linguistics and communication sciences 17.1). Berlin/New York: de Gruyter, 344K349. Augst, Gerhard (1975), Lexikon zur Wortbildung. 3 Bde. Tübingen: Niemeyer. Ax, Wolfram (1996), Sprache als Gegenstand der alexandrinischen und pergamenischen Philologie. Sprachtheorien der abendländischen Antike. (Hrsg. Peter Schmitter). Tübingen: Narr, 1996, 275K301. Baayen, R. Harald (2001). Word frequency distributions. Dordrecht u. a.: Kluwer. Baayen, R. Harald/Lieber, Rochelle/Schreuder, Robert (1997), The morphological complexity of simplex nouns. In: Linguistics 35, 861K877. Baayen, R. Harald/Piepenbrock, Richard/van Rijn, H. (1993), The CELEX lexical database (CDROM). Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA. Barz, Irmhild (1988), Nomination durch Wortbildung. Leipzig: VEB Verlag Enzyklopädie. Bauer, Laurie (2003), Introducing linguistic morphology. Edinburgh: Edinburg University Press. Beőthy, Erszébet/Altmann, Gabriel (1984), Semantic diversification of Hungarian verbal prefi-
xes. III. „föl-“, „el-“, „be-“. In: Glottometrika 7. (Hrsg. Ursula Rothe). Bochum: Brockmeyer, 45K56. Beőthy, Erzsébet/Altmann, Gabriel (1991), The diversification of meaning of Hungarian verbal prefixes. Diversification processes in language: grammar. (Hrsg. Ursula Rothe). Hagen: Rottmann, 60K66. Bergenholtz, Henning/Schaeder, Burkhard (1977), Die Wortarten des Deutschen: Versuch einer syntaktisch orientierten Klassifikation. Stuttgart: Klett. Best, Karl-Heinz (1994), Word class frequencies in contemporary German short prose texts. In: Journal of Quantitative Linguistics 1 (2), 144K 147. Best, Karl-Heinz (1997), Zur Wortartenhäufigkeit in Texten deutscher Kurzprosa der Gegenwart. In: Glottometrika 16: The distribution of word and sentence length. (Hrsg. Karl-Heinz Best). Trier: WVT Wissenschaftlicher Verlag Trier, 276K285. Best, Karl-Heinz (1998), Zur Interaktion der Wortarten in Texten. In: Papiere zur Linguistik 58 (1), 83K95. Best, Karl-Heinz (2000), Verteilungen der Wortarten in Anzeigen. In: Göttinger Beiträge zur Sprachwissenschaft 4, 37K51. Best, Karl-Heinz (2001), Zur Länge von Morphen in deutschen Texten. In: Häufigkeitsverteilungen in Texten. (Hrsg. Karl-Heinz Best). Göttingen: Peust & Gutschmidt, 1K14. Bußmann, Hadumod (2002), Lexikon der Sprachwissenschaft. 3. Aufl., Stuttgart: Kröner. Bybee, Joan L. (1985), Morphology. A study of the relation between meaning and form. Amsterdam, Philadelphia: Benjamins. Cherubim, Dieter (1976). Grammatische Kategorien. Das Verhältnis von „traditioneller“ und „moderner“ Sprachwissenschaft. Tübingen: Niemeyer. Fellbaum, Christiane (Hrsg.), WordNet: an electronic lexical database. Cambridge, Ma/London: MIT Press, 1998. Flämig, Walter (1981), Wortklassen und Wortstrukturen. In: Grundzüge einer deutschen Grammatik von einem Autorenkollektiv unter Leitung von Karl Erich Heidolph, Walter Flämig, Wolfgang Motsch. Berlin: Akademie-Verlag, 458K636; 682K 701. Fleischer, Wolfgang (1983), Wortbildung der deutschen Gegenwartssprache. 5. Aufl. Leipzig: VEB Bibliographisches Institut. Fleischer, Wolfgang (2000), Die Klassifikation von Wortbildungsprozessen. In: Morphologie: ein internationales Handbuch zur Flexion und Wortbildung K Morphology: an international handbook on inflection and word-formation. (Hrsg. Geert Booij/ Christian Lehmann/Joachim Mugdan) (Handbücher zur Sprach- und Kommunikationswissenschaft K Handbooks of linguistics and communi-
16. Quantitative Morphologie: Eigenschaften der morphologischen Einheiten und Systeme cation sciences 17.1). Berlin/New York: de Gruyter, 886K897. Fleischer, Wolfgang/Barz, Irmhild (1995), Wortbildung der deutschen Gegenwartssprache. Tübingen: Niemeyer. Flenner, Gudrun (1994), Ein quantitatives Morphsegmentierungssystem für spanische Wortformen. In: Computatio Linguae II. (Hrsg. Ursula Klenk). Stuttgart: Steiner, 31K62. Flohr, Horst/Pfingsten, Friedericke (2002), Die Struktur von Wörtern: Morphologie. In: Arbeitsbuch Linguistik. (Hrsg. Horst M. Müller). Paderborn: Schöningh, 102K124. Gerlach, Rainer (1982), Zur Überprüfung des Menzerath’schen Gesetzes. In: Glottometrika 4. (Hrsg. Lehfeldt, W/Strauss, U.). Bochum: Brockmeyer, 95K102. Greenberg, Joseph H. (1957), The definition of linguistic units. In: Essays in Linguistics. (Hrsg. Greenberg, Joseph H.). Chicago/London: University of Chicago Press, 18K34. Greenberg, Joseph H. (1960), A quantitative approach to the morphological typology of language. In: International Journal of American Linguistics 26, 178K149. Hammerl, Rolf (1990), Überprüfung einer Hypothese zur Kompositabildung (an polnischem Sprachmaterial). In: Glottometrika 12. (Hrsg. Rolf Hammerl). Bochum: Brockmeyer, 73K83. Harris, Zellig Sabattai (1955), From phoneme to morpheme. In: Language 31.2, 1955. 190K222. Harris, Zellig Sabattai (1970), Morpheme boundaries within words: Report on a computer test. In: Papers in structural and transformational linguistics. (Hrsg. Zellig Sabattai Harris). DordrechtHolland: Reidel Publishing Company, 68K77. Höhle, Tilman N. (1985), On composition and derivation: the constituent structure of secondary words in German. In: Studies of German grammar. (Hrsg. Jindrich Toman). Dordrecht/Cinnaninson: Foris Publications, 377K406. Kandler, Günter/Winter, Stefan (1992 ff.), Wortanalytisches Wörterbuch. Deutscher Wortschatz nach Sinn-Elementen. München: Fink. Kaltz, Barbara (1983), Zur Wortartenproblematik aus wissenschaftsgeschichtlicher Sicht. Hamburg: Buske. Klenk, Ursula/Langer, Hagen (1989), Morphological segmentation without a lexicon. In: Literary and Linguistic Computing 4 (4), 247K253. Knobloch, Clemens/Schaeder, Burkhard (1992), Wortarten K Beiträge zur Geschichte eines grammatischen Problems. In: Wortarten K Beiträge zur Geschichte eines grammatischen Problems. (Hrsg. Burkhard Schaeder/Clemens Knobloch). Tübingen: Niemeyer, 1K42. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer.
241
Köhler, Reinhard (1990), Linguistische Analyseebenen. Hierarchisierung und Erklärung im Modell der sprachlichen Selbstregulation. In: Glottometrika 11. (Hrsg. Luděk Hřebíček). Bochum: Brockmeyer, 1K18. Krott, Andrea (1996), Some remarks on the relation between word length and morpheme length. In: Journal of Quantitative Linguistics 3 (1). 29K37. Krott, Andrea (1999), Influence of morpheme polysemy on morpheme frequency. In: Journal of Quantitative Linguistics 6 (1), 58K65. Krott, Andrea (2002), Ein funktionalanalytisches Modell der Wortbildung. In: Korpuslinguistische Untersuchungen zur quantitativen und systemtheoretischen Linguistik. http://ubt.opus.hbz-nrw.de/ volltexte/2004/279 (Hrsg. Reinhard Köhler), 75K 126. Krott, Andrea/Schreuder, Robert/Baayen, R. Harald (1999), Complex words in complex words. In: Linguistics 37 (5), 905K926. Krott, Andrea/Schreuder, Robert/Baayen, R. Harald (2001), A note on the function of Dutch linking elements. In: Yearbook of morphology 2001. (Hrsg. Geert Booij/Jaap van Marle) Dordrecht u. a.: Kluwer, 237K252. Kühnhold, Ingeburg/Prell, Heinz Peter (1984), Deutsche Wortbildung, Typen und Tendenzen in der Gegenwartssprache. Morphem- und Sachregister zu Band IKIII. Düsseldorf: Pädagogischer Verlag Schwann-Bagel. Langer, Hagen (1991), Ein automatisches Morphsegmentierungsverfahren für deutsche Wortformen. Göttingen: Diss. Law, Vivien (1995), The Technē and Grammar in the Roman World. In: Dionysius Thrax and the Technē grammatikē. (Hrsg. Vivien Law/Ineke Sluiter). Münster: Nodus, 111K119. Linke, Angelika/Nussbaumer, Markus/Portmann, Paul R. (2001), Studienbuch Linguistik. 4. Aufl. Tübingen: Niemeyer. Matthews, Peter H. (1991), Morphology. 2. Aufl. Cambridge: Cambridge University Press. Mills, Anne E. (1981), Cases, case marking and the interpretation and production of German relative clauses. In: Studies in language teaching and language acqusition. (Hrsg. E. Hopkins/R. Grotjahn). Bochum: Brockmeyer, 204K220. Mizutani, Shizuo (1989), Ohno’s lexical law: its data adjustment by linear regression. In: Japanese Quantitative Linguistics. (Hrsg. Shizuo Mizutani). Bochum: Brockmeyer, 1K13. Nida, E. A. (1949), Morphology. 2. Aufl. Ann Arbor: The University of Michigan Press. Robins, Robert H. (1986), The Techne Grammatike of Dionysius Thrax in its historical perspective: the evolution of the traditional European word class systems. In: Mot et parties du discours. Word and word classes. Wort und Wortarten. (Hrsg.
242
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Pierre Swiggers/Willy van Hoecke). Leuven/Paris: Leuven University Press/Peeters, 9K37. Rothe, Ursula (1988), Polylexy and compounding. In: Glottometrika 9. (Hrsg. Klaus-Peter Schulz). Bochum: Brockmeyer, 121K134. Rothe, Ursula (1991), Diversification processes in grammar. An introduction. In: Diversification processes in language: grammar. (Hrsg. Ursula Rothe). Hagen: Rottmann, 3K32. Schierholz, Stefan J. (1991), Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive. Tübingen: Niemeyer. Schumacher, Frank/Steiner, Petra (2002), Aspekte der Bedeutung: Semantik. In: Arbeitsbuch Linguistik. (Hrsg. Horst Müller). Paderborn: Schöningh, 170K209. Schweers, Anja/Zhu, Jinyang (1991), Wortartenklassifizierung im Lateinischen, Deutschen und Chinesischen. In: Diversification processes in language: grammar. (Hrsg. Ursula Rothe). Hagen: Rottmann, 157K165. Silnitsky, George (1993), Typological indices and language classes. In: Glottometrika 14. (Hrsg. Gabriel Altmann). Trier: WVT Wissenschaftlicher Verlag Trier, 139K160. Stepanowa, Marija D./Fleischer, Wolfgang (1985), Grundzüge der deutschen Wortbildung. Leipzig: VEB Bibliographisches Institut. Steiner, Petra (1995), Effects of polylexy on compounding. In: Journal of Quantitative Linguistics 2 (2), 133K140. Steiner, Petra (2002), Polylexie und Kompositionsaktivität in Text und Lexik. In: Korpuslinguistische Untersuchungen zur quantitativen und systemtheoretischen Linguistik. http://ubt.opus.hbznrw.de/volltexte/2004/279 (Hrsg. Reinhard Köhler). 209K251. Steiner, Petra (2004), Wortarten und Korpus: Automatische Wortartenklassifikation durch distributionelle und quantitative Verfahren. Aachen: Shaker. Těšitelová, Marie (1986), On semantic quantitative analysis. In: Prague studies in mathematical linguistics 9. (Hrsg. Eva Hajičová/Ján Horecký/ Marie Těšitelová). Amsterdam/Philadelphia: John Benjamins Publishing Company, 9K18.
Těšitelová, Marie (1992), Quantitative linguistics. Prag: Academia. Těšitelová, Marie (1996), On quantification in grammar and semantics. In: Discourse and meaning. Papers in honor of Eva Hajičová. (Hrsg. Barbara H. Partee/Petr Sgall). Amsterdam/Philadelphia: Benjamins, 369K378. Wimmer, Gejza/Altmann, Gabriel (1995), A model of morphological productivity. In: Journal of Quantitative Linguistics 2 (3), 212K216. Wimmer, Gejza, Altmann, Gabriel (1996), The theory of word length: Some results and generalizations. In: Glottometrika 16: The distribution of word and sentence length. (Hrsg. Karl-Heinz Best). Trier: WVT Wissenschaftlicher Verlag Trier, 112K 133. Wimmer, Gejza, Altmann, Gabriel (2001), Some statistical investigations concerning word classes. In: Glottometrics 1, 109K123. Wimmer, Gejza/Köhler, Reinhard/Grotjahn, Rüdiger/Altmann, Gabriel (1994), Towards a theory of word length distribution. In: Journal of Quantitative Linguistics 1 (1), 98K106. Ziegler, Arne (1998), Word class frequencies in Brazilian-Portuguese press texts. In: Journal of Quantitative Linguistics 5 (3). 269K280. Ziegler, Arne (2001), Word class frequencies in Portuguese press tests. In: Text as a linguistic paradigm: levels, constituents, constructs. Festschrift in honour of Luděk Hřebíček. (Hrsg. Ludmila Uhlířová/Gejza Wimmer/Gabriel Altmann/Reinhard Köhler). Trier: WVT Wissenschaftlicher Verlag Trier, 295K312. Zipf, George Kingsley (1968), The psycho-biology of language. An introduction to dynamic philology. 2. Aufl. Cambridge/Mass.: M.I.T. Press. Zipf, George Kingsley (1972), Human behavior and the principle of least effort. An introduction to human ecology. New York: Hafner reprint. Zubin, David A./Köpcke, Klaus-Michael (1986), Gender and folk taxonomy: the indexical relation between grammatical and lexical categorization. In: Noun classes and categorization. (Hrsg. Colette Craig). Philadelphia: Benjamins. (Typological Studies in Language; Vol. 7). 139K180.
Claudia Prün, Trier (Deutschland) Petra Steiner, Erfurt (Deutschland)
243
17. Morphological productivity
17. Morphological productivity 1. 2. 3. 4. 5.
Introduction Measuring productivity Non-homogeneity and productivity Explaining productivity Literature (a selection)
1.
Introduction
Morphology is the branch of linguistics that studies the internal structure of words. Comparisons of sequences of words such as strong long warm deep
strength length warmth depth
great ready glad sad
greatness readiness gladness sadness
and
show that systematic changes in form (the suffixation of -th or -ness) are accompanied by systematic changes in meaning (changing an adjective into an abstract noun). The question of productivity arises as soon as the numbers of word pairs belonging to a word formation pattern are counted. In the case of -th, the CELEX lexical database (Baayen/ Piepenbrock/Gulikers: 1995) lists only three other such formations, broad true wide
breadth truth width
while in the case of -ness, thousands of other formations are attested. Speakers of English are reluctant to extend the -th series with new forms such as coolth, and when they do so, it is likely to be on purpose to achieve some special effect (Schultink 1961, Aronoff 1983). By contrast, neologisms in -ness are difficult to identify as such, and they are seldom used with the explicit intention of foregrounding. Descriptively, -th is said to be unproductive, and -ness productive. Used in this way, the term productivity denotes a qualitative dichotomy between extendable and non-extendable morphological patterns. This qualitative use of the term productivity runs into problems when less extreme morphological patterns are considered. The patterns
employ legate deport
employee legatee deportee
active actual neutral
activity actuality neutrality
and
are supported by 36 and 496 pairs in the CELEX lexical database, respectively. The former pattern is intuitively judged not to be unproductive, whereas the latter pattern seems not to be really productive. Apparently, a type count of the number of attested formations is not a reliable indicator of whether a word formation pattern is productive. A simple contrast between productive patterns on the one hand and unproductive patterns on the other hand requires supplementation by quantitatively well-defined measures for gauging the degree to which a pattern is productive.
2.
Measuring productivity
Several statistical measures are available for gauging the extent to which a word formation pattern is productive. All these measures are based on the theory of word frequency distributions (cf. art. no 30). Three measures are discussed in turn, the probability that a formation has not been seen before given that it belongs to a given word formation pattern, the ratio of the population number of formations to the observed number of formations, and the probability that a formation belongs to a given word formation pattern given that it has not been seen before. 2.1. The growth rate of the morphological category The first productivity measure takes as its point of departure all word tokens in a corpus with the same morphological structure, i. e., using classic structuralist terminology, all formations belonging to a given morphological category. Such a collection of tokens taken from the corpus constitutes a sample of that morphological category. Let N denote the size of the sample, the number of word tokens in the corpus belonging to the morphological category. Furthermore, let
244
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
V (N) denote the vocabulary size, the number of different word types occurring among these N tokens. Finally, let V (m, N) denote the number of types that occur m times among the N tokens. The vocabulary size V (N) is a monotonically increasing function of N. The rate at which V (N) increases at a given sample size N is given by the slope of the tangent to the vocabulary growth curve at the point N, V (N), and can be expressed as P (N) Z
E [V (1, N)] N
,
(1)
the ratio of the expected number of types occurring once (the hapax legomena) to the sample size. The growth rate P (N) is a monotonically decreasing function of N, it captures the likelihood that, for any sample size N, the next token to be sampled represents a type that has not yet occurred in the sample. Since P is based on only those word tokens that belong to a given morphological category, it is referred to as the category-conditioned degree of productivity. To see how morphological productivity can be measured by means of P, consider Figure 17.1, which plots the vocabulary size V (N) as a function of N for two hypothetical morphological categories. The two samples have different sample sizes and they display a difference in the rate at which V (N) increases as the sample size is increased. The
dashed lines represent the tangents to the growth curves of the two categories at their full sample sizes. Note that the slope of the more productive category is only slightly greater than that of the less productive category. Even though there is a big difference in productivity, this difference does not become fully apparent due to the large difference in the two sample sizes. When the difference in sample size is adjusted for, which can be accomplished by studying the growth rate of the larger sample at the specific sample size of the smaller sample (the dotted line in Figure 17.1), the difference in degree of productivity is highlighted more clearly. When using P, it is important to keep in mind that, since its value depends on N, it may be useful to adjust for differences in sample sizes. 2.2. The population size of the morphological category The dependence of P on the sample size raises the question whether a measure of productivity might be available that is independent of the sample size. Such a measure can be obtained by considering the limiting behavior of V (N) when the sample size becomes infinitely large. In other words, what is the order of magnitude of the population number of types S. How many different types might eventually be observed when the sample size is increased indefinitely? Statistical models for word frequency distributions (cf. art. no. 30) are available for estimating S Z lim E [V (N)].
(2)
N/N
Unproductive word formation patterns are characterized by small values for S that are approached rapidly for fairly small N. Fully productive word formation patterns may not have an upper bound to V (N), or the upper bound may be so large to be practically infinite. Word formation patterns with intermediate productivity tend to have a finite S substantially exceeding the observed vocabulary size V(N). The productivity index IZ Fig. 17.1: Two hypothetical growth curves. The dashed lines represent the tangents to the growth curves at the full sample sizes. The dotted line represent the tangent to the growth curve of the more productive affix at the full sample size of the less productive affix.
limN/NE [V (N)] E [V (N)]
S Z E [V (N)]
(3)
can be used to assign morphological categories to the scale [1, N), with the unproductive patterns receiving a value close to 1 and the most productive patterns approaching N.
245
17. Morphological productivity
Both P and S quantify the potentiality of a word formation pattern: the likelihood of sampling a new type when the sample size is increased (P ) and the extent to which the number new types yet to be sampled may eventually exceed the currently observed number of types (I ). The actually observed number of types for a given word formation pattern is also of interest, especially when compared to the numbers of types counted for other word formation patterns, provided that all samples are exhaustive and taken from the same corpus. More precisely, for V (N) to be an interpretable measure, it is required that all individual samples of words (the various word formation patterns and the sets of different kinds of simplex words) extracted from a corpus constitute a partition of this corpus. Thus, the corpus, which is itself a sample from the language, functions as the frame of reference for the extent to which types of various subsets of words are used. Table 17.1 illustrates this approach by means of four Dutch affixes. The suffix -er is used to create subject nouns (schrijver, ‘writer’), as in English. The suffix -ster, which has no English counterpart, marks the gender of agents as feminine (schrijfster, female writer). The suffix -heid creates abstract nouns from adjectives, and can be compared to the English suffix -ness (dankbaarheid, ‘gratefulness’). Finally, the suffix -te is the etymological counterpart of the English suffix -th (warmte, ‘warmth’). The second column of Table 17.1 lists the number of types with these suffixes observed in the Eindhoven corpus (Uit den Boogaart 1977), a small corpus with approximately 600.000 word tokens. Note that -er and -heid occur with substantially more types than -ster and -te. However, the only suffix that is intuitively really unproductive for native
speakers of Dutch is -te, even though it occurs with 9 more types than -ster. The third column of Table 17.1 sheds some light on why this intuition might arise: -te is the suffix with the lowest growth rate, a growth rate that is an order of magnitude smaller than that of -ster. The fourth column lists the number of types that participants in a production experiment jointly produced in 5 minutes, and the fifth column lists the numbers of these types that were not listed in a comprehensive dictionary of Dutch (Baayen 1994). Note that the lowest numbers were counted for -te. Column six lists the growth rates based on the distributions of experimentally elicited words, and column seven the population numbers of types as estimated using the generalized inverse Gauss-Poisson distribution (cf. art. no. 30). Again, -te emerges with the lowest values both for the growth rate and for the estimated population size, which is an order of magnitude smaller than that of the other suffixes. Interestingly, the estimated population size for -ster exceeds that of -er and -heid, even though it occurs with the lowest number of types in the corpus. Evidently, the potentiality of this suffix is at least equal to that of -er and -heid, even though its extent of use is much smaller. The reason that -ster is not used extensively is probably a cultural one. In contrast to official German, which tends to promote the use of the masculine and feminine form side by side (Hörer und Hörerinnen, ‘listeners and female listeners’), Dutch prefers to use the unmarked form. Although it is relatively seldom that a new form in -ster is culturally appropriate, -ster is nevertheless available in Dutch as a fully regular and productive suffix. The final column of Table 17.1 lists the productivity indices as calculated from the
Tab. 17.1: Observed number of types (V) and degree of productivity (P ) as calculated on the basis of the Eindhoven corpus, the number of different types (experiment) produced in a production experiment, the number of these types (new) not listed in the van Dale dictionary, the growth rate of the number of types in the experiment (P-experiment), the estimated population size given the experiment (S-experiment), and the productivity index I. affix
VN
P
experiment
new
P-experiment
S-experiment
I-experiment
-er -ster
299 30
0.076 0.231
447 323
83 177
0.242 0.235
2023 2905
4.5 9.0
-heid -te
466 39
0.114 0.013
536 117
81 44
0.353 0.098
2176 254
4.7 6.5
246
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
experimental distributions. As I compares the potential with the actual, a greater extent of use leads to lower values of I for morphological patterns with roughly the same (finite) population size. Therefore, this productivity measure is most useful for calling attention to patterns with low extent of use V (N) and large population size S. Note that in the present example, -te emerges with a surprisingly high productivity index. This is probably an artefact of the small corpus size K for sufficiently large corpora, the productivity index of -te will tend to be much closer to unity. 2.3. The contribution of the morphological category to the overall vocabulary growth rate All productivity measures discussed thus far are calculated from the frequency distributions of morphological categories by themselves. Because of this conditioning on the morphological categories, each of which appear with different sample sizes in an overall corpus, these measures cannot be used to gauge the likelihood of finding new formations when the overall corpus, itself a sample of the language, is increased. The third productivity measure is useful for estimating this likelihood. Recall that what the category-conditioned degree of productivity P does is measure the likelihood that a formation has not been seen before given that it belongs to a given morphological category. A complementary measure should quantify the likelihood that a newly sampled formation belongs to a morphological category given that it has not been seen before. Such a measure can be obtained by considering the contribution of a given morphological category to the growth rate of the overall vocabulary. Let N denote the size of a corpus and let pi N denote the number of tokens in this corpus that belong to morphological category i. Furthermore, let {A} denote the event that a newly sampled token represents a new type, and let {B} denote the event that the new token belongs to the i-th morphological category. The category-conditioned degree of productivity of morphological category i, the probability of a word token representing a type that has not yet been observed given that it is a member of category i, is
Pi Z Pr ({A} K {B}) Pr ({A} h Pr ({B}) Z Pr ({B}) E [V (1, pi N)] N pi N
Z
Z
(4)
N E [V (1, pi N)] pi N
The probability of a newly sampled word token being a member of category i given that it represents a type that has not yet been observed, P *, is P i* Z Pr ({B} K {A}) Pr ({B} h Pr ({A}) Z Pr ({A}) E [V(1, pi N)] N Z
∑
L E [V(1, iZ1
Z
(5) pi N)]
N E [V (1, pi N)] E [V (1, N)]
the proportion of hapax legomena belonging to category i. This measure, known as the hapax-conditioned degree of productivity, allows us to account for the fact that, when reading through a Dutch corpus, the likelihood of encountering a new formation in -heid is much higher (V (1, N-heid) Z 1110 in celex) than encountering a new formation in -ster (V (1, N-ster) Z 161 in celex), even though P is higher for -ster (0.0314) than for heid (0.0067). For a validation study of the appropriateness of productivity measures based on the growth rate of the vocabulary size as predictors of the likelihood of neologisms, the reader is referred to (Baayen/Renouf 1996). Note that the proper use of these productivity measures for the statistical comparison of the productivity of arbitrary affixes requires that the word types in a corpus are partitioned into a series of strictly disjunct morphological categories. This requirement is a consequence of the presupposition of standard statistical tests that the observations in data sets that are to be compared should be independent. Once we include words such as thankfulness in the data sets
247
17. Morphological productivity
of both -ness and -ful, a comparison of the productivity of -ful with that of -ness is no longer statistically valid.
3.
Non-homogeneity and productivity
All productivity measures described in the previous section are based implicitly on the urn model. According to this simple statistical model, (word) tokens are sampled independently and randomly from an urn of (word) tokens representing a variety of (word) types, it being assumed that the contents of the urn do not change over time. The simplifying assumptions of the urn model provide a baseline for the understanding of the quantitative aspects of morphological productivity. For the actual measuring of productivity, however, it should be kept in mind that non-homogeneity, non-independence, and language change may have to be taken into account. 3.1. Homogeneity First consider the simplifying assumption that the word tokens sampled from a corpus are sampled from a homogeneous population. There are many ways in which this assumption can be violated. Aronoff (1976) called attention to the way in which the degree of productivity of an affix may vary with the morphological structure of the word to which it attaches. Baayen/Renouf (1997) capture such differences in terms of the numbers of hapax legomena attested for each kind of base word. From this point of view, a morphological category is a composite entity consisting of a series of smaller subsets, each with its own quantitative properties.
(Plag/Dalton-Puffer/Baayen 1999) show that the degree of productivity of a given affix may differ substantially for spoken and written language. For instance, the suffix -ish appears to be less productive than the suffix -ize in written British English, whereas in spontaneous conversations -ish seems to be more productive than -ize. Sometimes, non-homogeneity is visible in logarithmic density plots of the frequency distribution. Consider Figure 17.2, which plots the estimated density functions for the Dutch suffixes -baar, ‘-able’ (left panel) and -iteit, ‘-ity’ (right panel) as they occur in the corpus underlying the celex lexical database for Dutch. The unimodal density function for -baar is typical for a productive suffix, with most of the probability mass located around the lowest-probability words. By contrast, -iteit reveals a bimodal density suggesting that the distribution might in fact be a mixture of two distributions, one with a density resembling the density function of -baar, the other with a density that might be more bell-shaped. Such bimodal distributions fall outside the scope of application of standard lnre models for word frequency distributions. In the case of the -iteit data, not surprisingly, there is no simple lnre model that provides a reasonable fit. Better results can sometimes be obtained by using a mixture of two lnre models, in the case of -iteit, a mixture of a generalized inverse Gauss-Poisson (gigp) model and a lognormal model (Baayen, 2001). The gigp component accounts for the mode at the left, and presupposes a huge number of possible types, 39972140866221, of which 172 occur in the sample. The lognormal component accounts for the mode at the right, and presup-
Fig. 17.2: The estimated densities for the Dutch suffixes -baar (‘-able’) and -iteit (‘-ity’).
248
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
poses a limited number of population types, 202, of which 190 words are in the sample. The lognormal component appears to account for fairly high-frequency non-technical terms such as electriciteit, ‘electricity‘, and publiciteit, ‘publicity’. The gigp component appears to account for technical scientific terms (e. g., hypertoniciteit, ‘hypertonicity’, and bilinealiteit, ‘bilineality’). It is important to note that the categoryconditioned degree of productivity of -iteit remains unchanged when a mixture model is substituted for a simple lnre model K the total number of hapax legomena in the sample remains the same K while the predictions with respect to the size of the population change substantially. For instance, a fit of the gigp model by itself to the -iteit data suggests a substantially reduced population size of 1243 types only, instead of a practically infinite population size as suggested by the mixture model. 3.2. Independence The statistical theory underlying the present productivity measures presupposes that words are used randomly and independently in texts. In other words, for the statistical theory to be applicable, the tokens of a word type should be uniformly distributed in a text or corpus. However, in actual texts, the word tokens of many types tend to be underdispersed, they occur in bursts in those sections where they are topically relevant to the discourse. This underdispersion tends to introduce an overestimation bias for the expected vocabulary size, and an underestimation bias for the growth rate of the vocabulary size (Baayen 1996). When morphological categories are studied instead of full texts, the effect of topic continuity in discourse on word use is substantially reduced (Baayen 2001), albeit not completely eliminated. In addition to the effects of topic continuity in discourse, stylistic or even psycholinguistic factors may introduce non-independence. (Baayen/Neijt 1997) report that, especially among the lowest-frequency words, the use of -heid to coin an abstract noun may trigger the re-use of the same suffix to form a semantically related abstract noun, as in verslagenheid en stomheid, ‘dejectedness and dumbfoundedness’. Such pairs may have a stylistic motivation (hendiadys), or they may be the result of rule priming.
Word frequency models can be adjusted to some extent for non-randomness in word use (Hubert/Labbé 1988, Baayen/Tweedie 1998, see also art. no 30), so that the expected growth curve of the vocabulary provides a better fit to the empirical growth curve. Although adjusted lnre models provide the possibility of obtaining enhanced estimates of the actual growth rate of the vocabulary, they do not allow the population vocabulary size to be estimated. The usefulness of adjusted models for the study of productivity is not restricted to obtaining enhanced estimates of the category-conditioned degree of productivity, however, as they also provide a measure of the extent to which formations in a distribution are not uniformly distributed in a text or corpus. 3.3. Invariance through time The productivity of word formation patterns may change over time. Currently, changes in productivity are traced in two ways, by means of dictionaries, and by means of corpora. There are two kinds of dictionarybased studies: studies in which successive editions of dictionaries are surveyed (Neuhaus 1973, Dubois 1962), and studies based on dictionaries with comprehensive historical information on first and last usages such as the Oxford English Dictionary (Anshen/ Aronoff 1988, 1996). Anshen and Aronoff document the increasing productivity of the English suffix -ity and the sudden demise of a series of Old English prefixes. A corpusbased study discussing what may be diachronic changes in productivity is (Baayen/ Renouf 1996). This study calls attention to the hapax legomena with the affixes un-, -ness, and -ly. Instead of being uniformly distributed over the issues of a British newspaper that appeared in a three year period, these hapax legomena appear more often as time increases, which might indicate that their productivity is increasing. If so, the category-conditioned degree of productivity provides a lower bound for the rate at which new formations may be expected. Unfortunately, no statistical models are available at present that incorporate language change in a principled way.
4.
Explaining productivity
Why are some word formation patterns productive and others unproductive? The structuralist tradition has argued that productiv-
17. Morphological productivity
249
Fig. 17.3: Native affixes (lower case), learned native affixes (lower case with initial upper case letter), and learned, non-native affixes (upper case) in the plane spanned by the second and third principal components of a PCA analysis of affixes in a multidimensional text space.
ity is determined by the number of restrictions on the input domain of an affix (Schultink 1961, Booij 1977, Van Marle 1985). The more restrictions there are, the lesser the degree of productivity. The problem with this approach is that it is possible for an affix to be less productive while having few restrictions on its input domain. The Dutch suffix -ster is a case in point. In principle, it attaches freely to any verb, but speakers of Dutch seem reluctant to use it. Thus, the productivity of an affix must, at least in part, be influenced by the socio-cultural needs of the language community. Feminine person nouns in official German are used more often feminine person nouns in Dutch, due to the simple fact that it is only in German that there is an official policy to do so. Similarly, it is not so surprising that in Dutch pejorative person nouns such as domCerd, ‘stupid person’, are much less productive than neutral subject nouns such as denkCer, ‘thinker’. There are relatively few situational contexts in which pejorative
person nouns can be used without breaking the rules of normal politeness. Restrictions on appropriate use in the language community are directly reflected in the extent to which word formation patterns are used. Figure 17.3 illustrates this point for a subset of English affixes as they appear in a sample of texts from various genres written by a range of different authors (Baayen 1994). When texts are viewed as observations in a multidimensional space spanned by the category-conditioned productivity values of these affixes, a principal components analysis (PCA) reveals clusters of texts belonging to the same text type. When affixes are viewed as observations in a multidimensional space spanned by their productivity values in texts, stratal properties emerge. Learned, non-native affixes cluster to the right, native affixes cluster to the left, and learned, native affixes occupy an intermediate position. At the extremes, a closer examination reveals that, not surprisingly, learned, nonnative affixes are particularly
250
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
productive in officialese, while the native (non-learned) affixes are especially productive in the children’s books in the sample. Considered jointly with the study by Plag et al. (1999) on the role of modality (spoken versus written language), it is clear that productivity is strongly co-determined by sociocultural factors. The optimal productivity statistic for measuring this socio-cultural aspect of productivity is the hapax-conditioned degree of productivity P *. Socio-cultural factors are not the only force shaping productivity, however. Recall that productive word formation patterns are characterized by a great many very low-frequency formations, while unproductive patterns are characterized by many higher-frequency forms and the scarcity of very lowfrequency formations. Interestingly, word frequency is related to a series of other interrelated lexical variables that jointly provide an explanatory grid for understanding how linguistic structure co-determines productivity. We consider these variables in turn. 1. Frequency and Irregularity: Irregularity occurs primarily among the higher-frequency formations (Anshen/Aronoff 1988, Baayen/Sproat 1996). Irregularity manifests itself both at the level of form (phonological opacity) and at the level of meaning (semantic opacity). For instance, English business, has a pronunciation with two syllables instead of the three syllables one would expect given its etymological morphological structure. In addition, the meaning of business is similar to those of commerce, firm, and company. The meaning one would expect given its morphological structure, ‘the property of being busy’, is no longer in use. Crucially, irregular words tend to be more frequent than regular words. As the number of irregular formations belonging to a word formation pattern increases, the larger N and the smaller V (1, N) will be. Hence, the category-conditioned degree of productivity takes into account, albeit indirectly, the extent to which a morphological category is irregular. 2. Frequency and Length: Higher-frequency words tend to be shorter than lowerfrequency words (Zipf 1935, Köhler 1986). The frequency-length relation holds not only for word frequency and word length measured in letters or phonemes, but also for complex words when length is measured
in terms of the number of constituent morphemes. For instance, in the case of the Dutch suffix -heid, a random sample of 20 hapax legomena has a mean length of 3.75 morphemes, while the 20 most frequent formations in the distribution have a mean length of 2.85 (W Z 88.5, p ! 0.005, data from the inl corpus underlying the celex lexical database for Dutch). However, this correlation is most clearly visible for fully productive affixes. For unproductive affixes, it tends to be absent. For instance, the unproductive Dutch suffix -te attaches almost exclusively to monomorphemic base words, and no length difference between high and low frequency words exists. Returning to the frequency distributions of fully productive affixes, the frequency-length relationship implies a lesser degree of morphological complexity in the higher-frequency range. It is here that the morphological category is most like simplex words. 3. Frequency and Base Frequency: Higherfrequency complex words tend to have higher-frequency base words (Bertram/ Schreuder/Baayen 2000, Hay 2003). Figure 17.5 illustrates this correlation for the suffix -heid as it occurs in the corpus on which the Dutch section of the celex lexical database is based, adding 1 to the frequency counts in order to include zero counts while using a logarithmic scale. The solid line is a non-parametric scatterplot smoother, the dashed line represents the line ‘Base Frequency Z Surface Frequency’. The majority of formations fall above the dashed line. Normally, a derived word is less frequent than its base word, but occasionally the reverse holds. Using the terminology of (Harwood/Wright 1944), complex words tend to have derivation ratios substantially below unity. The solid line shows that more frequently used words in -heid tend to have more frequently used base words. This is not surprising: the more useful a word in general, the more likely it is that its derivations will be useful as well. What is important for the understanding of productivity, as pointed out by (Hay 2003, 2001, Hay/Baayen 2002) on the basis of a derived words in English, is that the slope of the regression line is less than 1. For -heid, this is true for formations for which log (surface frequency C 1) O 2. As surface frequency increases, the ratio of surface frequency to base frequency increases. This is
17. Morphological productivity
251
Fig. 17.4: The correlation of the frequency of the derived form (Surface Frequency) and the frequency of its base word (Base Frequency) using a logarithmic scale for the Dutch suffix -heid. The solid line is a non-parametric regression smoother, the dashed line represents the line ‘Base Frequency Z Surface Frequency’.
important given psycholinguistic findings concerning the role of surface frequency and base frequency in language comprehension. According to parallel dual route models of morphological processing (Baayen/ Schreuder 2000), complex words can be recognized in two ways, on the basis of their own phonological or orthographic form, and on the basis of the phonological and orthographic forms of their constituents. The higher the frequency of the full form, the more likely it is that recognition takes place without morphological decomposition. Conversely, the higher the frequencies of the constituents, the higher the likelihood will be that recognition can proceed on the basis of these constituents. One of the factors influencing the balance of these two comprehension routes is the ratio of surface frequency and base frequency. Low-frequency complex words with high-frequency constituents are more likely to be understood through decomposition than high-frequency complex words with low-frequency constituents. What the regression line in Figure 17.4 shows is that within a morphological category this ratio changes as surface frequency
is increased, indicating that higher-frequency formations in -heid are, on average, less likely to be morphologically decomposed than low-frequency words. In other words, high-frequency complex words have a greater likelihood of being processed in the same way as simplex words than low-frequency complex words. 4. Frequency and Meaning: Higher-frequency words tend to have more meanings than lower-frequency words (Paivio/Yuille/ Madigan 1968, Reder/Anderson/Bjork 1994, Köhler 1986, Hay 2003). The way in which this correlation affects productivity is best explained by means of an example. Consider the Dutch words bol and pak, which can be translated as ‘bread rol, head, sphere’ and ‘suit, parcel’ respectively. Both forms occur in the diminutive form. In the case of bolletje, the meaning can range over ‘small breadrol’, ‘small head’, and ‘small sphere’. But in the case of pak, the reading ‘small suit’ is highly unlikely, in contrast to the reading ‘small parcel’. There is no way in which the reader or listener can deduce, out of context, which meaning is the
252
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
appropriate one. In other words, even when the reading of a complex form is semantically compositional, there is more uncertainty as to the intended (bolletje) or conventional (pakje) meaning for higher frequency base words. As the frequencies of complex words are positively correlated with the frequencies of their base words, the higher-frequency formations of a morphological category will tend to have a higher degree of compositional uncertainty. Again, it is here that complex words become more similar to simplex words. 5. Frequency and Form: More frequent complex words tend to have junctural phonotactics that are more similar to the wordinternal phonotactics of simplex words (Cutler 1980, Anshen/Aronoff 1981, Hay 2003). The junctural phonotactics of complex words, i. e., the extent to which phoneme transitions across morpheme boundaries are similar to the phoneme transitions within simplex words, co-determine the ease with which complex words can be decomposed into their constituents in comprehension. The idea is that phoneme transitions that are very infrequent or even non-existent within simplex words, the illegal transitions, may nevertheless occur in complex words straddling morpheme boundaries. Lowprobability within-word transitional probabilities therefore provide information about the likelihood of the presence of morpheme boundaries. Interestingly, less productive affixes tend to occur in words with junctural phonotactics typical of monomorphemic words. In fact, Hay (2003) shows for a sample of English affixes that their category-conditioned degree of productivity can be modeled as a linear function of their average derivation ratio and their percentage of illegal phoneme transitions. 6. Frequency and Availability for word formation: Higher-frequency (complex) words are more likely to serve as input to word formation than lower-frequency (complex) words. Figure 17.5 illustrates this correlation by plotting frequency against family size, the family size being the number of complex words in which a base word appears as a constituent. The left panel summarizes the correlation for simplex base words, the right panel visualizes the correlation for bi-morphemic complex words. The solid lines represent non-parametric regression lines. Psy-
cholinguistic studies have shown that words with large morphological families elicit shorter response latencies and higher subjective frequency ratings than words with small morphological families when co-varying frequency counts are controlled for. These studies have also revealed that the family size effect is semantic in nature. Words with large families are more deeply embedded in the network of semantic relations in the mental lexicon. This allows their semantics to become more readily available, leading to faster responses and intuitions of greater familiarity (Schreuder/Baayen 1997, Bertram/Baayen/Schreuder 1999, De Jong/ Schreuder/Baayen 2000). Note that the family size effect implies that higher-frequency complex words have a semantic processing advantage over lowerfrequency complex words in addition to the advantage they have at the level of orthographic and phonological form due to the shifting balance of base frequency and full form frequency. As higher-frequency words tend to be better integrated in the semantic system, they are more easily available for further word formation. This leads to the productivity paradox studied by (Krott/ Schreuder/Baayen 1999), namely, that a greater category-conditioned degree of productivity implies that the formations of the corresponding morphological category are relatively seldom used as building blocks for further word formation. The relative underrepresentation of productive word formation patterns among base words is a consequence of the relative scarcity of high-frequency formations among the more productive categories. The dense correlational structure of word frequency and irregularity, word length, availability for further word formation, phonological and semantic transparency, and family size underlies the usefulness of the category-conditioned degree of productivity as a statistical measure. Precisely because it is calculated on the basis of only those formations that belong to a given category, and because all formations in the category are taken into account in the token count N, P provides a reasonable estimate of the potentiality of a word formation pattern. It is unclear to how the rule-based approach of (Anshen/Aronoff 1988, 1996) to productivity might account for the complex relations between frequency and its associ-
253
17. Morphological productivity
Fig. 17.5: The correlation of morphological family size and frequency of use for simplex base words (left panel) and bi-morphemic base words (right panel). The solid lines are non-parametric regression smoothers. The dashed line in the second panel represents the smoother for the simplex words shown in the left panel.
ated variables on the one hand and productivity on the other. Anshen and Aronoff argue that complex words with fully productive affixes are processed on-line by means of symbolic rules, and that such formations do not leave behind individual memory traces in the mental lexicon. Only those complex words would be available as such in the mental lexicon for which no synchronic productive word formation rule exists. However, psycholinguistic evidence (Taft 1979, Sereno/Jongman 1995, Baayen/Dijkstra/Schreuder 1997, Allegre/Gordon 1999, Bertram/Schreuder/Baayen, 2000, Baayen/Schreuder/De Jong/Krott 2002) suggests that regular complex words across a wide range of frequencies of use are stored in the mental lexicon. This implies that the difference between productive and unproductive word formation cannot be explained in terms of storage versus rule-based processing in the mental lexicon. Given the extensive storage of regular complex words in lexical memory, analogical approaches to word formation (Skousen 1989, Van den
Bosch/Daelemans/Weijters 1996; Krott/Baayen/Schreuder 2001) seem more promising. The productivity of a word formation pattern can then be seen as crucially depending the number of existing words in the mental lexicon that are most similar to each other and as dissimilar as possible from simplex words. The analogical strength of word formation patterns would then reside primarily in gangs of low-frequency formations in the mental lexicon.
5.
Literature (a selection)
Allegre, Maria/Gordon, Peter (1999), Frequency effects and the representational status of regular inflections, Journal of Memory and Language 40, 41K61. Anshen, Frank/Aronoff, Mark (1981), Morphological productivity and morphological transparency, The Canadian Journal of Linguistics 26, 63K72. Anshen, Frank/Aronoff, Mark (1988), Producing morphologically complex words, Linguistics 26, 641K655.
254
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Anshen, Frank/Aronoff, Mark (1997), Morphology in real time, In: Yearbook of Morphology 1996. (eds. G. R. Booij/J. van Marle). Dordrecht: Kluwer Academic Publishers, 9K12. Aronoff, Mark (1976), Word Formation in Generative Grammar. Cambridge, Mass.: The MIT Press. Baayen, R. Harald (1991), A stochastic process for word frequency distributions. Proceedings of the 29th annual meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Berkeley, 271K278. Baayen, R. Harald (1994a), Derivational productivity and text typology, Journal of Quantitative Linguistics 1,16K34. Baayen, R. Harald (1994b), Productivity in language production, Language and Cognitive Processes 9, 447K469. Baayen, R. Harald (1996), The effect of lexical specialization on the growth curve of the vocabulary, Computational Linguistics 22, 455K480. Baayen, R. Harald (2001), Word Frequency Distributions. Dordrecht: Kluwer Academic Publishers. Baayen, R. Harald/Neijt, Anneke (1997), Productivity in context: a case study of a Dutch suffix, Linguistics 35, 565K587. Baayen, R. Harald/Renouf, Antoinette (1996), Chronicling The Times: Productive Lexical Innovations in an English Newspaper, Language 72, 69K96. Baayen, R. Harald/Sproat, Richard (1996), Estimating lexical priors for low-frequency morphologically ambiguous forms, Computational Linguistics 22, 155K166. Baayen, R. Harald/Tweedie, Fiona J. (1998), Enhancing LNRE models with partition-based adjustment, Proceedings of JADT 1998, Université Nice Sophia Antipolis, Nice, 29K37. Baayen, R. Harald/Dijkstra, Ton/Schreuder, Robert (1997), Singulars and plurals in Dutch: Evidence for a parallel dual route model, Journal of Memory and Language 36, 94K117. Baayen, R. Harald/Piepenbrock, R./Gulikers, Leon (1995), The CELEX lexical database (CDROM). Philadelphia, PA: Linguistic Data Consortium, University of Pennsylvania. Baayen, R. Harald/Schreuder, Robert/De Jong, Nivja H./Krott, Andrea (2002), Dutch inflection: The rules that prove the exception. In: Storage and Computation in the Language Faculty, (eds. S. Nooteboom/F. Weerman/R. Wijnen, eds), Dordrecht: Kluwer Academic Publishers, 61K92. Bertram, Raymond/Baayen, R. Harald/Schreuder, Robert (2000), Effects of family size for complex words, Journal of Memory and Language 42, 390K405. Bertram, Raymond/Schreuder, Robert/Baayen, R. Harald (2000), The balance of storage and compu-
tation in morphological processing: the role of word formation type, affixal homonymy, and productivity, Journal of Experimental Psychology: Learning, Memory, and Cognition 26, 419K511. Booij, Geert E. (1977), Dutch Morphology. A Study of Word Formation in Generative Grammar, Foris, Dordrecht. Cutler, Anne (1980), Productivity in word formation, CLS 16, 45K51. De Jong, Nivja H./Schreuder, Robert/Baayen, R. Harald (2000), The morphological family size effect and morphology, Language and Cognitive Processes 15, 329K365. Dubois, Jean (1962), Etude sur la dérivation suffixale en Franc¸ais moderne et contemporain. Paris: Larousse. Harwood, F. W./Wright, A. M. (1956), Statistical study of English word formation, Language 32, 260K273. Hay, Jennifer B. (2001), Lexical frequency in morphology: Is everything relative?, Linguistics 39, 1041K1070. Hay, Jennifer B. (2003), Causes and consequences of word structure. New York: Routledge. Hay, Jennifer B./Baayen, R. Harald (2002), Parsing and productivity. In: Yearbook of Morphology 2001. (eds. G. E. Booij/J. v. Marle), Dordrecht: Kluwer Academic Publishers, 203K235. Hubert, Pierre/Labbé, Dominique (1988), A model of vocabulary partition, Literary and Linguistic Computing 3, 223K225. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Krott, Andrea/Baayen, R. Harald/Schreuder, Robert (2001), Analogy in morphology: modeling the choice of linking morphemes in Dutch, Linguistics 39 (1), 51K93. Krott, Andrea/Schreuder, Robert/Baayen, R. Harald (1999), Complex words in complex words, Linguistics 37 (5), 905K926. Marle, Jaap van (1985), On the Paradigmatic Dimension of Morphological Creativity. Dordrecht: Foris. Neuhaus, Hans J. (1973), Zur Theorie der Produktivität von Wortbildungssystemen. In: Linguistische Perspektiven. Referate des VII Linguistischen Kolloquiums Nijmegen 1972. (eds. A. P. Cate/P. Jordens), Tübingen: Niemeyer, 305K317. Paivio, Allan/Yuille, John C./Madigan, Stephen (1968), Concreteness, imagery, and meaningness values for 925 nouns, Journal of Experimental Psychology Monograph. Plag, Ingo/Dalton-Puffer, Christiane/Baayen, R. Harald (1999), Productivity and register, Journal of English Language and Linguistics 3, 209K228. Reder, Lynne M./Anderson, John R./Bjork, Robert A. (1974), A semantic interpretation of en-
18. Morphlänge coding specificity, Journal of Experimental Psychology 102, 648K656.
255
Sereno, Joan/Jongman, Allard (1997), Processing of English inflectional morphology, Memory and Cognition 25, 425K437.
Taft, Marcus (1979), Recognition of affixed words and the word frequency effect, Memory and Cognition 7, 263K272. Uit den Boogaart, Piet C. (ed.) (1975), Woordfrequenties in Gesproken en Geschreven Nederlands. Utrecht: Oosthoek, Scheltema & Holkema. Van den Bosch, Antal/Daelemans, Walter/Weijters, Ton (1996), Morphological analysis as classification: an inductive learning approach, Proceedings of NEMLAP 1996, Ankara, 59K72. Zipf, George K. (1935), The Psycho-Biology of Language. Boston: Houghton Mifflin.
Skousen, Royal (1989), Analogical Modeling of Language. Dordrecht: Kluwer.
R. Harald Baayen, Nijmegen (The Netherlands)
Schreuder, Robert/Baayen, R. Harald (1997), How complex simplex words can be, Journal of Memory and Language 37, 118K139. Schultink, Henk (1961), Produktiviteit als morfologisch fenomeen, Forum der Letteren 2, 110K 125.
18. Morphlänge 1. 2. 3. 4. 5. 6. 7. 8.
Morphlänge in der Forschung Annahmen zu einer Theorie der Verteilungen von Morphlängen Was ist ein Morph? Länge der Morphe Die Verteilung von Morphlängen Das Ordsche Kriterium Perspektiven Literatur (in Auswahl)
1.
Morphlänge in der Forschung
Untersuchungen zur Morphlänge scheinen bisher ausgesprochen rar zu sein. Nur wenige Arbeiten können hier benannt werden, die sehr unterschiedliche Intentionen verfolgen. Einige der Untersuchungen galten der Frage, ob das sog. Menzerath-AltmannGesetz (Altmann/Schwibbe 1989; Hřebíček 1997, 23) auch auf morphologischer Ebene nachgewiesen werden kann. Dieses Gesetz besagt, dass bei zunehmender Größe der Konstrukte (z. B. Wörter) deren Konstituenten (z. B. Morphe) dazu tendieren, kürzer zu werden. Gerlach (1982) hat diesen Zusammenhang am Beispiel des deutschen Wörterbuchs von Wahrig (1978) geprüft und bestätigt; weitere erfolgreiche Überprüfungen dieses Gesetzes haben Hřebíček (1997, 50 ff.) an türkischem sowie Krott (1996, 31 ff.) an deutschem, englischem und niederländischem Material durchgeführt. Auch andere Themen werden behandelt. So widmet Gorot’ (1990) einen kurzen Artikel der Frage, ob man englische Präfixe, Suffixe, Wurzelmorpheme und Silben aufgrund ihrer Länge unterscheiden kann. Kempgen
(1995b, 30) untersucht, „inwieweit die russischen Präsensmorpheme im Hinblick auf ihre Länge optimiert sind“ und kommt zu dem Schluss, dass „die Optimierung auf möglichst geringen Zeitaufwand hin also durchaus eine Rolle [spielt]“ (Kempgen 1995a, 56), andere Faktoren wie Redundanz aber auch in Betracht gezogen werden müssen. Man muss damit feststellen, dass Arbeiten zur Länge von Morphen bzw. Morphemen noch kaum begonnen wurden. Eine weitere naheliegende Frage, die anscheinend noch kaum gestellt wurde, ist die nach der Einbeziehung der Morphe/Morpheme in den Köhlerschen Regelkreis (Köhler 1986, 74); da Wörter bzw. Lexeme in diesem Regelkreis ihren Platz haben und Gerlach (1982), Hřebíček (1997) und Krott (1996) ja nachweisen konnten, dass Morphe mit Wörtern interagieren, sollte es möglich sein, auch Morphe hier zu integrieren. Einen ersten Versuch dazu hat Krott (1994, 39K44) in einer nicht veröffentlichten Untersuchung unternommen (vgl. Art. 16); sie überprüft wiederum an deutschem, englischem und niederländischem Material die Hypothese, dass die Morphlänge mit der Morph-TokenFrequenz interagiert (Krott 1994, 43 f.; 78K88). Weitere Hypothesen betreffen die Erwartung, dass die Morphlänge auch mit der Phonotaktik und dem Umfang des Morphinventars einer Sprache in Zusammenhang stehen müssten (Krott 1994, 40 ff.). In dem hier vorliegenden Artikel geht es aber nicht darum, Morphe in den Köhler-
256
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
schen Regelkreis zu integrieren, sondern um eine andere Fragestellung: Folgen die Morphlängen den gleichen Prinzipien, die ursprünglich für Wortlängen entwickelt wurden (Wimmer/Köhler/Grotjahn u. a. 1994; Wimmer/Altmann 1996) und für diese in vielen Fällen (Best/Altmann 1996; Best 1999; 2001a) ebenso bestätigt werden konnten wie auch in einigen Arbeiten für die Satz- (Niehaus 1997) und Silbenlängen (Best 2001d). Dieser Frage scheint bisher niemand nachgegangen zu sein.
2.
Annahmen zu einer Theorie der Verteilungen von Morphlängen
Ausgangspunkt für Überlegungen zu einer Theorie der Morphlängenverteilungen kann die Annahme von Fucks (1956, 20) sein, dass eine „allgemeine Theorie der Sprachelemente“ möglich ist, die „jedes Sprachelement in jeder Sprache in seinem Aufbau aus seinen Komponenten anschaulich deutet und quantitativ beschreibt.“ Dabei ist analog zu den Annahmen von Grotjahn/Altmann (1993) damit zu rechnen, dass die Verteilungen in Texten und im Lexikon unterschiedlich sein können. Bisher existiert eine Theorie mit derart allgemeinem Anspruch nicht; es gibt aber keinen zwingenden Grund, warum sich Morphlängen grundsätzlich anders verhalten sollten als Wortlängen; die Annahmen zur Verteilung von Wortlängen sind so allgemein gehalten, dass sie ohne weiteres auf Morphlängen übertragen werden können. Danach kann angenommen werden, dass Morphe einer beliebigen Längenklasse P2 proportional zu der Längenklasse P1 vorkommen werden: P2 w P1. Das bedeutet, dass die Zahl etwa der dreiphonemigen Morphe abhängig ist von der Häufigkeit, mit der zweiphonemige Morphe vorkommen. Da die Proportion sich von Längenklasse zu Längenklasse ändert, kann man dies mit der Funktion Px Z g (x) PxK1.
(1)
zum Ausdruck bringen. Dabei steht die Funktion g (x) für die Änderung der Proportionen bei den verschiedenen Morphlängen. Die Funktion g (x) kann nun verschiedene Formen annehmen, die sich allerdings bisher noch nicht von vornherein aufgrund theoretischer Überlegungen vorhersagen lässt, wie dies eigentlich wünschenswert wäre. Stattdessen ist vorläufig nur der umgekehrte Weg
möglich: Man erstellt Dateien zur Häufigkeit der unterschiedlichen Morphlängen und untersucht, welche der Verteilungen, die aufgrund der Theorie dafür infrage kommen, an die betreffenden Dateien mit Erfolg angepasst werden können. Danach kann versucht werden, dieses Ergebnis zu interpretieren. Das Verfahren gestaltet sich also ganz analog zu dem, das bei der Bearbeitung von Wortlängen (vgl. Art. 19) angewendet wurde. Es ist auch denkbar, dass die Ergebnisse bei Morphlängen einmal ganz ähnlich sein werden, wie sie sich bei Wortlängen gezeigt haben. Dies könnte bedeuten, dass ein Grundmodell zu finden sein sollte, das sich oft bei verschiedenen Sprachen, Autoren, Stilen, Textsorten etc. bewährt; andere Modelle können dann notwendig werden, wenn einzelne der genannten Faktoren sich besonders stark bemerkbar machen. Auch hier ist zunächst einmal damit zu rechnen, dass vor allem die jeweils untersuchte Sprache ein besonders bestimmender Einflussfaktor sein wird. All dies ist aber vorläufig Spekulation, da zu Morphlängen nahezu keine Erfahrungen vorliegen. Zusammenfassend noch einmal die Überlegungen, die der Untersuchung von Morphlängen zugrunde liegen: (a) Es wird angenommen, dass Morphlängen grundsätzlich Gesetzen folgen, so wie das andere Einheiten offensichtlich ebenfalls tun. Den allgemeinen Hintergrund für diese Annahme bildet die Überzeugung der Wissenschaftstheorie, pointiert ausgedrückt von Bunge (1977, 17): „Every thing abides by laws.“ (b) Mangels einer speziellen Theorie der Morphlängen wird in Anknüpfung an Fucks (1956) angenommen, dass Morphlängen grundsätzlich den gleichen Gesetzen unterliegen wie Wortlängen; es sind übrigens die gleichen Gesetze, die auch die Längen anderer Einheiten steuern: Sätze (Niehaus 1997), Silben (Best 2001d) und rhythmische Einheiten (Best 2001e) zeigen genau die gleichen Verteilungen (vgl. Art 14 und 22).
3.
Was ist ein Morph?
Will man Morphlängen in Texten oder im Lexikon hinsichtlich ihrer Häufigkeitsverteilungen untersuchen, hat man das Problem, die Einheit „Morph“ definieren zu müssen. Hier treten andere Schwierigkeiten auf als
257
18. Morphlänge
bei „Wort“ und „Satz“, die in der Forschung oft mit operationalen Definitionen bestimmt werden, die sich etwa am Druckbild dieser Einheiten orientieren: Wörter wie Sätze zeigen deutliche Grenzmerkmale wie Leerstellen oder Interpunktionszeichen; meist reichen wenige Zusatzbestimmungen aus, um zu praktikablen Lösungen zu kommen. Bei Morphen ist ein solches Vorgehen nicht möglich, da sie als Wörter, aber an beliebigen Positionen komplexer Wörter auch als deren Konstituenten vorkommen können. Die „Morph“-Definition muss sich also anders orientieren. Bei Morphen handelt es sich um Wörter oder Wortkonstituenten, die nicht noch weiter in kleinere Einheiten segmentiert werden können, die selbst noch eine Bedeutung oder grammatische Funktion erfüllen. Es ist üblich, Morphe als Segmente der parole, der gesprochen oder geschrieben realisierten Sprache, zu verstehen; klassifiziert man sie nach Kriterien der phonetischen, funktionalen und semantischen Ähnlichkeit oder Gleichheit, so werden sie als Realisationsformen von Morphemen, als deren Allomorphe, identifiziert. Wenn man nach einem praktikablen Verfahren der Segmentierung von Wörtern in Morphe sucht, so bietet sich u. a. Greenbergs square-Methode an (Greenberg 1960, 188 ff.), die bei Berücksichtigung einiger Vorsichtsmaßnahmen zu brauchbaren Ergebnissen führt. Bei allen Segmentierungsverfahren stößt man jedoch auf ein Grundproblem: Wie streng sollen die Kriterien der phonetischen, grammatischen und semantischen Identifizierbarkeit angewendet werden? Darf ein Wort nur dann segmentiert werden, wenn es wie im Falle von hör-en, Hör-er, hör-bar seine Bedeutung und seine grammatische Funktion eindeutig aus seinen Konstituenten bezieht, oder können auch so problematische Fälle wie -t in Fahr-t, Saa-t, Gebur-t segmentiert werden? In diesen Fällen kann man dem Affix -t immerhin noch eine grammatische Funktion, Substantivierung zu einem gebräuchlichen Verb, zusprechen. Was ist dann aber mit Wörtern wie Schlach-t, das man synchron sicher eher zu schlacht-en als etymologisch korrekt zu schlag-en stellen würde? Oder wie soll man etwa Schluch-t (?) behandeln, zu dem es im gegenwärtigen Deutschen ebenso wie etwa zu Fur-t (?) kein Verb gibt, dessen Substantivierung es bewirken könnte? Was wäre mit Kluf-t (Geländeformation), Trach-t, Trif-t, für die man zur Not im Deutschen Verben
finden kann, deren Substantivierung diese Wörter darstellen könnten, wobei klaff-en (zu Kluf-t) nur volksetymologisch möglich ist? Dieser Exkurs zu den tatsächlichen oder potentiellen -t-Morphen zeigt, dass mit einer erheblichen „Grauzone“ zwischen eindeutiger Segmentierbarkeit und ebenso eindeutiger Nichtsegmentierbarkeit, also mit Graden der Segmentierbarkeit, zu rechnen ist, in der verschiedene Forscher die Entscheidungen unterschiedlich treffen werden. Ein Vorschlag für die Behandlung solcher Probleme im Deutschen ist in Best (2001c) entwickelt.
4.
Länge der Morphe
Wie bei allen anderen Einheiten auch, kann man die Länge von Morphen verschieden definieren: Man kann sie vor allem danach bestimmen, aus wie vielen Buchstaben, Lauten, Phonemen oder Silben sie bestehen. Die einfachste Auswertung erlaubt das Auszählen der Buchstaben pro Morph; der Nachteil dieser Variante besteht darin, dass die orthographische Wiedergabe von Wörtern sehr unterschiedlichen Prinzipien unterliegt; vgl. dazu etwa die Schreibprinzipien des Deutschen (Garbe 1980, 206 f.). Wählt man stattdessen die Zahl der Silben pro Morph, so hat man eine Einheit gewählt, die in der Hierarchie der sprachlichen Einheiten eine Wortkonstituente neben den Morphen darstellt, diesen aber nicht untergeordnet ist. Aus diesen Gründen kann man vielleicht doch die Zahl der Laute oder der Phoneme pro Morph als die Art der Bestimmung der Morphlänge betrachten, mit der man entsprechende Untersuchungen beginnen kann. Es spricht natürlich nichts dagegen, dann auch die anderen Möglichkeiten der Bestimmung der Morphlängen zu berücksichtigen.
5.
Die Verteilung von Morphlängen
Es gibt bisher wohl nur zwei Untersuchungen, die sich mit der Verteilung von Morphlängen in Texten befassen, nämlich die Studien (Best 2000; Best 2001c). Die Untersuchung (Best 2001c) widmet sich recht ausführlich der oben angeschnittenen Frage, wie ein für das Deutsche brauchbares Verfahren zur Segmentierung von Wörtern in Morphe aussehen kann, und stellt dann die Morphlängen, gemessen nach der Zahl der Phoneme pro Morph, für 21 Nachrichten-
258
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
texte einer regionalen Tageszeitung vor; in Best (2000) werden nach demselben Verfahren 20 Fabeln von Pestalozzi bearbeitet. Das Problem, welche Verteilung daraufhin zu prüfen ist, ob sie ein geeignetes Modell für diese Texte darstellt, wurde wie folgt vorläufig gelöst: Bei der Untersuchung von Wortlängen in vielen Sprachen hatte sich gezeigt, dass die 1-verschobene Hyperpoisson-Verteilung Px Z
axK1 b(xK1) 1F1 (1; b; a)
, x Z 1, 2, ...
(2)
so etwas wie ein Grundmodell darstellt, das in besonders vielen Sprachen angewendet werden kann; alle anderen Verteilungen sind verglichen mit dieser in ihrer „Reichweite“ deutlich eingeschränkt. Da zu Morphlängen bisher überhaupt keine derartigen Erfahrungen vorliegen, kann man es zunächst mit einem solchen bewährten Modell versuchen. In Formel (2) sind a und b Parameter; 1F1 (1; b; a) ist die konfluente hypergeometrische Funktion, d. h. 1F1
(1; b; a) Z 1 C
a
b
C
b (b C 1)
C ...
25 20 beob.
15
theor.
5 0
und b(xK1) Z b (b C 1) (b C 2) ... (b C x K 2). Die Ergebnisse waren auf Anhieb hervorragend; an alle 41 Texte konnte diese Verteilung mit Hilfe des Altmann-Fitters (1994) erfolgreich angepasst werden. Im Falle von Text 1 (Best 2001c: „Sieben Deutsche im Jemen entführt“, Eichsfelder Tageblatt v. 6. 3. 97, S. 8) ergab sich:
Tab. 18.1. X
nx
NPx
1 2 3 4 5 6
24 27 22 12 4 1
23.20 29.24 21.09 10.62 4.12 1.76
S
90
a b X FG P
30
10
2
a
Dabei bedeuten: a, b K Parameter der Verteilung; x K Zahl der Phoneme pro Morph; nx K beobachtete Zahl der Morphe der Länge x; NPx K aufgrund der 1-verschobenen Hyperpoisson-Verteilung berechnete Zahl der Morphe der Länge x; X 2 K das Chiquadrat; FG K Freiheitsgrade; P K Überschreitungswahrscheinlichkeit des Chiquadrats. Eine Anpassung ist zufriedenstellend, wenn P R 0.05, was in diesem Fall und bei allen anderen, hier nicht dokumentierten Texten ebenfalls gegeben ist. Auch die folgende Graphik bestätigt die gute Übereinstimmung zwischen den beobachteten und berechneten Werten:
Z 1.6815 Z 1.3342 Z 0.739 Z3 Z 0.86
Abb. 18.1.
Man darf also feststellen, dass diese ersten Versuche zur Verteilung von Morphlängen die Erwartung erfüllen, dass auch in diesem Fall offenkundig eine Gesetzmäßigkeit zugrunde liegt.
6.
Das Ordsche Kriterium
Wie bei den Verteilungen der Wortlängen (vgl. Art. 19) kann man auch bei Morphlängen die Frage stellen, ob die Texte, die zu einer bestimmten Gruppe gehören, sich untereinander ähnlich sind oder nicht. Um dies herauszufinden, lässt sich wiederum eine empirische Abwandlung des Ordschen Kriteriums (Ord 1972, 98 f.; 133 ff.) verwenden, das sich auf die Momente der benutzten Verteilungen stützt (Altmann 1988, 48 ff.). Dabei handelt es sich um m1 Z mr Z
1 N 1 N
∑ xfx
(Mittelwert), und
∑ (x K m1)r fx ,
r R 2,
259
18. Morphlänge
wobei m2 die Varianz und m3 die Schiefe oder Asymmetrie der Verteilung darstellen. Hieraus lassen sich nun zwei Größen, I Z m2 / m1 und S Z m3 / m2 berechnen. Die Größen I und S kann man in ein Koordinatensystem !I, SO eintragen und zur Veranschaulichung der Homogenität der Textgruppe verwenden. Dies sei am Beispiel der in Best (2001c) bearbeiteten Pressetexte demonstriert, die ja einer einzigen Textsorte angehören und daher eine gewisse Homogenität aufweisen könnten. Tab. 18.2: Das Ordsche Kriterium für Morphlängen deutscher Pressetexte m1
m2
m3
I
S
2.42 2.47 2.52 2.51 2.50 2.63 2.50 2.49 2.59 2.62 2.38 2.38 2.52 2.56 2.68 2.45 2.54 2.62 2.51 2.52 2.66
1.44 2.04 1.58 1.15 1.33 2.04 1.74 1.67 2.08 1.67 1.13 1.48 1.78 2.11 2.25 1.90 1.67 1.87 1.67 1.27 2.14
1.05 6.25 2.88 0.35 1.55 3.11 3.00 1.78 4.88 2.34 0.48 1.86 2.77 4.35 4.61 3.65 1.64 2.56 2.03 0.80 4.03
0.60 0.83 0.63 0.46 0.53 0.78 0.70 0.40 0.80 0.64 0.47 0.62 0.71 0.82 0.84 0.78 0.66 0.71 0.67 0.50 0.80
0.73 3.06 1.82 0.30 1.17 1.52 1.72 1.07 2.35 1.40 0.42 1.26 1.56 2.06 2.05 1.92 0.98 1.37 1.22 0.63 1.88
S
3,5 3 2,5 2 1,5 1 0,5 0 0,2
0,4
0,6
0,8
1
I
Abb. 18.2: Das Ordsche Kriterium für Morphlängen in deutschen Pressetexten
Die Graphik zeigt, dass in dieser kleinen Gruppe von 21 Pressetexten eine erhebliche Streuung zu beobachten ist.
Perspektiven
Da die Untersuchungen zu den Verteilungen von Morphlängen noch kaum begonnen haben, kann man sich bisher auch nicht auf nennenswerte Ergebnisse stützen. Die hier referierten ersten Versuche sind vor allem im Kontext zu den wesentlich weiter fortgeschrittenen Untersuchungen zu den Verteilungen von Wort-, Satz- und Silbenlängen zu sehen, wobei besonders aus den Erfahrungen mit Wortlängen (Best 1999; Best 2001b) Perspektiven gewonnen werden können. Die ersten Untersuchungen von Morphlängen zeigen Übereinstimmungen mit den Erfahrungen bei anderen Größen; es ist zu erwarten, dass sich bei weiterer Forschung vergleichbare Ergebnisse einstellen werden. Man darf also annehmen, dass die erfolgreiche Anpassung der Hyperpoisson-Verteilung kein Zufall ist, sondern dass auch bei weiteren Arbeiten diese oder eine der anderen Verteilungen, die sich besonders bei Wortlängen bewährt haben, auch bei Morphlängen erfolgreich sein werden. Ein wichtiger Unterschied zu den Untersuchungen der übrigen Einheiten wird besonders darin bestehen, dass Morphe größere Definitionsprobleme an den Forscher stellen und daher auch die Gefahr wächst, dass verschiedene Bearbeiter zu sehr unterschiedlichen Ergebnissen kommen können.
8.
Daraus ergibt sich folgende Graphik:
0
7.
Literatur (in Auswahl)
Altmann, Gabriel (1988), Wiederholungen in Texten. Bochum: Brockmeyer. Altmann, Gabriel/ Schwibbe, Michael H. (1989), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms. Altmann-Fitter (1994), Lüdenscheid: RAM-Verlag. Altmann-Fitter. Iterative Fitting of Probability Distributions (1997). Lüdenscheid: RAM-Verlag. Best, Karl-Heinz (1999), Quantitative Linguistik: Entwicklung, Stand und Perspektive. In: Göttinger Beiträge zur Sprachwissenschaft 2, 7K23. Best, Karl-Heinz (2000), Morphlängen in Fabeln von Pestalozzi. In: Göttinger Beiträge zur Sprachwissenschaft 3, 19K30. Best, Karl-Heinz (2001a), Probability Distributions of Language Entities. In: Journal of Quantitative Linguistics 8, 1K11. Best, Karl-Heinz (2001b), Kommentierte Bibliographie zum Göttinger Projekt. In: Best 2001, 284K310. Best, Karl-Heinz (2001c), Zur Länge von Morphen in deutschen Texten. In: Best 2001, 1K14.
260
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Best, Karl-Heinz (2001d), Silbenlängen in Meldungen der Tagespresse. In: Best 2001, 15K32. Best, Karl-Heinz (2001e), Zur Verteilung rhythmischer Einheiten in deutscher Prosa. In: Best 2001, 162K166. Best, Karl-Heinz (Hrsg.), (2001), Häufigkeitsverteilungen in Texten. Göttingen: Peust & Gutschmidt. Best, Karl-Heinz/Altmann, Gabriel (1996), Project Report. In: Journal of Quantitative Linguistics 3, 85K88. Bunge, Mario (1977), Treatise on Basic Philosophy, Vol. 3: Ontology I: The Furniture of the World. Dordrecht: Reidel. Fucks, Wilhelm (1956), Die mathematischen Gesetze der Bildung von Sprachelementen aus ihren Bestandteilen. In: Nachrichtentechnische Fachberichte 3, 7K21. Garbe, Burckhard (1980), Das sogenannte „etymologische“ Prinzip der deutschen Schreibung. In: Zeitschrift für Germanistische Linguistik 8, 197K210. Gerlach, Rainer (1982), Zur Überprüfung des Menzerath’schen Gesetzes im Bereich der Morphologie. In: Glottometrika 4. (Eds. Lehfeldt, Werner/Strauss, Udo). Bochum: Brockmeyer, 95K102. Gorot’, E. I. (1990), Izomorfnye i otličitel’nye čerty morfemy i sloga v raspredelenii dliny. In: Kvantitativnaja lingvistika i avtomatičeskij analiz tekstov (UZTU 912), 32K36. Greenberg, Joseph H. (1960), A Quantitative Approach to the Morphological Typology of Language. In: International Journal of American Linguistics 26, 178K194. Grotjahn, Rüdiger/Altmann, Gabriel (1993), Modelling the Distribution of Word Length: Some Methodological Problems. In: Contributions to
Quantitative Linguistics. (Eds. Reinhard Köhler/ Burghard B. Rieger). Dordrecht: Kluwer, 141K153. Hřebíček, Luděk (1997), Lectures on Text Theory. Prague: Academy of Sciences of the Czech Republic, Oriental Institute. Kempgen, Sebastian (1995a), Kodierung natürlicher Sprache auf morphologischer Ebene. In: WSLAV XL, 52K57. Kempgen, Sebastian (1995b), Russische Sprachstatistik. München: Sagner. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Krott, Andrea (1994), Ein funktionalanalytisches Modell der Wortbildung. Magisterarbeit, Trier. Krott, Andrea (1996), Some Remarks on the Relation between Word Length and Morpheme Length. In: Journal of Quantitative Linguistics 3, 29K37. Niehaus, Brigitta (1997), Untersuchung zur Satzlängenhäufigkeit im Deutschen. In: Best, KarlHeinz (Hrsg.), Glottometrika 16. Trier: Wissenschaftlicher Verlag Trier, 213K275. Ord, J. K. (1972), Families of frequency distributions. London: Griffin. Wahrig, Gerhard (Hrsg.). (1978), dtv-Wörterbuch der deutschen Sprache. München: Deutscher Taschenbuch Verlag. Wimmer, Gejza/Altmann, Gabriel (1996), The Theory of Word Length Distribution: Some Results and Generalizations. In: Glottometrika 15. (Hrsg. Peter Schmidt). Trier: Wissenschaftlicher Verlag Trier, 112K133. Wimmer, Gejza/Köhler, Reinhard/Grotjahn, Rüdiger/Altmann, Gabriel (1994), Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 98K106.
Karl-Heinz Best, Göttingen (Deutschland)
19. Wortlänge 1. 2.
4. 5. 6. 7. 8.
Wortlänge in der Forschung Verteilungen von Wortlängen in Lexikon und Text Ziel der Untersuchungen, Textauswahl und Definition der Einheiten, Testverfahren Weitere Forschungsaspekte Ergebnisse Das Ordsche Kriterium Perspektiven Literatur (in Auswahl)
1.
Wortlänge in der Forschung
3.
Wort, Satz und Text sind K neben Buchstaben bzw. Lauten K für jeden Sprachnutzer
die geläufigsten sprachlichen Einheiten; ihre auffälligste Eigenschaft ist ihre Länge. Besonders die Länge von Wörtern hat schon seit langem auch die Aufmerksamkeit der Sprachwissenschaftler gefunden. Bereits im 19. Jh. ist erwogen worden, ob man Probleme der Identifikation unbekannter Autoren nicht durch Untersuchung von Wortlängen lösen könne. So zitiert Lord (1958, 282) einen Brief De Morgans vom 18. 8. 1851, in dem dieser vorschlägt, das Problem der Autorschaft der Paulsbriefe mit Hilfe des Kriteriums der Wortlänge zu lösen. Im Zusam-
19. Wortlänge
menhang mit der Frage, wie viele Wörter man bilden könne, wenn man ein Alphabet mit 23 oder gar 48 Buchstaben zur Verfügung hat, bezieht Pott (1884, 19 f.) Erkenntnisse über die Länge von Wörtern in mehreren Sprachen mit ein, darunter Sanskrit, Griechisch, Latein, Englisch, Althochdeutsch, „Grönländisch“ und die Indianersprachen. Ein weiterer Forschungsaspekt ist die Frage, wie man die Verständlichkeit von Texten möglichst einfach bestimmen kann; über Versuche zur Messung der Textschwierigkeit (Lesbarkeit, readability) berichtet u. a. Groeben (1982, 175 ff.); bei diesen Ansätzen spielt die Wortlänge eine herausragende Rolle (vgl. dazu ausführlicher Art. 64). Weitere für die quantitative Linguistik zentrale Forschungsaspekte seien noch erwähnt: Bei den Forschungen zu den Zipfschen Gesetzen, zum Menzerath-AltmannGesetz und zu Köhlers Regelkreis (linguistische Synergetik, vgl. Art. 53) findet die Wortlänge ebenfalls als eines der wichtigsten Kriterien Berücksichtigung (vgl. entspr. Kap. dieses Handbuchs); mit Greenberg (1960, 185) hat sie in Form des Syntheseindexes S Z M / W (Synthese Z Zahl der Morpheme eines Textes durch die Zahl seiner Wörter) Eingang in die Sprachtypologie gefunden. Diese Beispiele mögen genügen, um anzuzeigen, dass Wortlänge generell ein vielbeachteter und bedeutsamer Forschungsgegenstand für die Linguistik ist (vgl. auch Tuldava 1998, 98K104).
2.
Verteilungen von Wortlängen in Lexikon und Text
2.1. Entwicklung der Wortlängenforschung An die Verteilung von Wortlängen, also an die Frage, wie viele Wörter der unterschiedlichen Längen in einem Text oder in einem Lexikon einer bestimmten Sprache vorkommen, ist bei den in 1. genannten frühen Forschungen noch nicht gedacht. Solche Untersuchungen scheinen erst im 20. Jh. aufgekommen zu sein. Ein frühes Beispiel dafür sind Trubetzkoys Erhebungen zu Silbenlängen von Wörtern in zwei deutschen Texten (Trubetzkoy 1939; 41967, 231; Best 1999, 15), die er im Rahmen phonemstatistischer Erörterungen mitteilt. Für eine empirische Erhebung der Wortlängen in einem Lexikon kann man auf Menzerath (1954, 98) verwei-
261 sen. In der Zeit, da Trubetzkoy und Menzerath die von ihnen erarbeiteten empirischen Verteilungen erstellten, wurden erste Versuche angestellt, eine mathematische Theorie speziell der Wortlängenverteilungen, bald aber auch generell der Verteilungen von Spracheinheiten beliebiger Art zu entwickeln. Die mathematische Theoriebildung für die Wortlängenverteilungen hat folgenden Weg genommen: Am Anfang der Entwicklung steht der russische Mediziner Čebanov, der seine Überlegungen nach Auskunft seiner Familie (Best/Čebanov 2001) Ende 1940 in einigen Vorträgen vorstellte und damit auf heftige Ablehnung seitens der Linguisten stieß. Mit Unterstützung des Mathematikers Kolmogorov konnte er schließlich einen Aufsatz publizieren (Čebanov 1947), worin er die Poisson-Verteilung als закон („Gesetz“) für die Wortlängenverteilungen in Texten indoeuropäischer Sprachen vorschlug und überprüfte. Zu der gleichen Erkenntnis kam wenig später auch der Aachener Physiker Fucks (1955a; 1955b; 1956), der dieses Modell mit guten Ergebnissen an Textkorpora von 8 Sprachen überprüfte, darunter einige nichtindoeuropäische. Nur eine Sprache, Arabisch, zeigte größere Abweichungen, die Fucks (1956, 15) auf Korpusprobleme zurückführte. Es verdient festgestellt zu werden, dass Fucks keineswegs nur an eine spezielle Theorie der Wortlängenverteilungen dachte. In Fucks (1956, 7) entwickelt er zunächst „Gesetze ... für die Bildung von Wörtern aus Silben“ und „für die Bildung von Silben aus Lauten“ und skizziert eine „allgemeine Theorie der Sprachelemente“, in der die Gesetze der Wort- und die der Silbenbildung sich darstellen als „einfache Spezialfälle wesentlich allgemeinerer Gesetze, von denen wir vermuten dürfen, dass sie die relativen Häufigkeitsverteilungen der Bestandteile irgendeines Sprachelements beschreiben“. In Anerkennung der Verdienste von Čebanov und Fucks sprechen Piotrowski/Bektaev/ Piotrowskaja (1985, 256 ff.) von der „Čebanov-Fucksschen Verteilung“; sie weisen jedoch aufgrund der Beobachtung von Abweichungen darauf hin, dass diese Verteilung „nicht als ein Universalgesetz zur Beschreibung von grundlegenden Eigenschaften des Bildungsprozesses linguistischer Einheiten betrachtet werden kann“ (Piotrowski/Bektaev/Piotrowskaja 1985, 258). Allerdings hatte auch Fucks (1956) schon zwei gemischte
262
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Verteilungen entwickelt, die gemischte negative Binomialverteilung und die gemischte Poisson-Verteilung, deren Mischungsanteile gewichtet werden. Solche Verteilungen mit Gewichtungen nutzen im Anschluss an Fucks auch Bartkowiakowa/Gleichgewicht (1965), die die Wortlängenverteilungen in 9 polnischen Texten untersuchten und gute Ergebnisse erzielten, sowie Piotrowski/Bektaev/Piotrowskaja (1985, 262 ff.) für Wortlängen im Englischen. Anknüpfend an Čebanov (1947) haben auch Gačečiladze/Cilosani (1971) eine verallgemeinerte Verteilung als Modell für die Häufigkeit entwickelt, mit der verschiedene Einheiten, nicht nur Wörter verschiedener Längen, vorkommen können. Zu den erwähnten Versuchen, durch Verallgemeinerungen zu besseren Modellen zu kommen, ist festzustellen: Mischungen von Poisson-Verteilungen haben den Vorteil, dass sie die empirischen Daten besser erfassen als die einfache Čebanov-Fucks-Verteilung; ihr Nachteil besteht aber darin, dass sie eine relativ hohe Zahl von Parametern einführen, deren Schätzung und Interpretation mathematisch wie linguistisch Probleme bereiten. Es kommt hinzu, dass bei Wortlängen ebenso wie bei Morph- oder Silbenlängen oft nur wenige unterschiedliche Längenklassen in Texten zu beobachten sind; die Anpassung von Verteilungen mit vielen Parametern an Dateien mit wenigen Längenklassen ist aber nicht möglich. Zu einem ganz anderen Modell kam Herdan (1966, 198K206), als er die Wortlängen, gemessen nach der Zahl ihrer Buchstaben bzw. Phoneme, im Deutschen, Französischen und Italienischen untersuchte und fand, dass sie einer „lognormal distribution“ (Herdan 1966, 203) entsprechen (vgl. dazu auch Piotrowski/Bektaev/Piotrowskaja 1985, 278 ff.; Tuldava 1998, 99 f.). Hierzu kann angemerkt werden, dass K wie bei den Satzlängen (vgl. Altmann 1988b, 150) K bei den Mittelwerten mit erheblichen Schwankungen auch innerhalb von Texten zu rechnen ist und vor allem nicht nur der Zufall für die Verteilung verantwortlich ist, sondern auch Faktoren wie Textsorte, Funktionalstil, Adressat, etc. Ein weiterer Schritt zu einer Theorie der Wortlängenverteilungen wurde von Grotjahn (1982) getan, der ebenfalls Unstimmigkeiten bei der Überprüfung der Poisson-Verteilung bemerkte und kritisiert, dass Fucks von der Annahme ausgegangen sei, „dass
die einzelnen Ereignisse voneinander unabhängig sind und mit einer konstanten Wahrscheinlichkeit auftreten“; Grotjahn (1982, 55) argumentiert dagegen: „Es dürfte jedoch weit eher der sprachlichen Realität entsprechen, wenn man annimmt, dass zwar jedes einzelne Wort einer verschobenen PoissonVerteilung folgt ..., dass jedoch die Wahrscheinlichkeit nicht für jedes Wort gleich ist, sondern in Abhängigkeit von Faktoren wie (sprachlicher) Kontext, Themawechsel etc. variiert. Dies bedeutet, dass der Parameter Θ der verschobenen Poisson-Verteilung selbst wieder als Zufallsvariable anzusehen ist“. Durch Einsetzen einer Gammaverteilung für Θ kommt Grotjahn zur zusammengesetzten Poisson-Verteilung (Z negative Binomialverteilung) als Vorschlag für ein Modell der Wortlängenverteilung. Er demonstriert an einigen deutschen Texten sowie an Frequenzwörterbüchern, dass die negative Binomialverteilung bessere Ergebnisse als die Poisson-Verteilung erbringt (Grotjahn 1982, 68 ff.) und erwartet dasselbe für eine Reihe weiterer Sprachen (Grotjahn 1982, 73). Während Fucks noch fast ausschließlich mit mathematischen Überlegungen zu seinen Vorschlägen kam, zeigt Altmann (1988a, 57 ff.), dass man diese auch mit „linguistischen Mitteln“ begründen kann, indem man die sog. Zipfschen Kräfte (Unifikations- und Diversifikationskraft) bei der Entwicklung des mathematischen Ansatzes berücksichtigt. Die Modellierung gewinnt damit an linguistischem Gehalt. Grotjahn/Altmann (1993) erörtern Probleme, die bei der Modellierung von Verteilungen auftreten können und fordern u. a.: „... give your models a sound linguistic justification“ (Grotjahn/Altmann 1993, 151). Dieser Anforderung entsprechen die beiden Untersuchungen von Wimmer/Köhler/Grotjahn u. a. (1994) und Wimmer/Altmann (1996), die den derzeitigen Stand der Theorie der Wortlängenverteilungen repräsentieren, in höherem Maße als ihre Vorläufer. 2.2. Die aktuelle Theorie der Wortlängenverteilungen Wimmer/Köhler/Grotjahn u. a. (1994, 101) nehmen an, dass die Wortlängenklasse P2 in Texten proportional zur Wortlängenklasse P1 erscheint: P2 w P1; d. h.: die Zahl der zweisilbigen Wörter eines Textes ist davon abhängig, wie viele einsilbige Wörter er enthält; die Zahl der dreisilbigen ist abhängig
263
19. Wortlänge
von der Anzahl der zweisilbigen; etc. Da viele Beobachtungen zeigen, dass zwischen den Wortlängenklassen kein konstantes, sondern ein veränderliches Verhältnis herrscht, kann man dafür die folgende Gleichung aufstellen: Px Z g (x) PxK1.
(1)
Die Funktion g (x) steht dabei für die veränderliche Proportion zwischen benachbarten Längenklassen; sie kann verschiedene Formen annehmen. Wimmer/Altmann (1996, 114; 131 f.) führen insgesamt 21 infrage kommende Modelle für Wortlängenverteilungen an, die alle als „Spielarten“ aus der genannten Gleichung (1) entwickelt werden können. Setzt man g (x) Z a / (c C x), so erhält man nach entsprechender Umformung die Hyperpoisson-Verteilung, die in ihrer 1-verschobenen Form Px Z
a xK1 b (xK1) 1F1 (1; b; a)
600 500
, x Z 1, 2, ...
(2)
lautet. Dabei sind a und b Parameter; 1F1 (1; b; a) ist die konfluente hypergeometrische Funktion, d. h. 2
1F1
Dabei bedeuten: a, b K Parameter der Verteilung; x K Zahl der Silben pro Wort; nx K beobachtete Zahl der Wörter der Länge x; NPx K aufgrund der 1-verschobenen Hyperpoisson-Verteilung berechnete Zahl der Wörter der Länge x; X 2 K das Chiquadrat; FG K Freiheitsgrade; P K Überschreitungswahrscheinlichkeit des Chiquadrats. Eine Anpassung ist zufriedenstellend, wenn P O 0.05, was in diesem Fall gegeben ist. Die Graphik bestätigt die gute Übereinstimmung zwischen den beobachteten und den berechneten Werten.
a a C ... (1; b; a) Z 1C C b b (b C 1)
400 300
beob. theor.
200 100 0
Abb. 19.2.
und b (xK1) Z b (b C 1) (b C 2) ... (b C xK2). Diese Verteilung verdient, besonders hervorgehoben zu werden, da sie sich in mehrerlei Hinsicht als eine Art Grundmodell erwiesen hat, wie noch näher begründet wird. Die folgende Tabelle gibt ein Beispiel für die Anpassung der 1-verschobenen Hyperpoisson-Verteilung an einen Textabschnitt aus Goethes Wilhelm Meister (Herdan 1966, 287): X
nx
1 2 3 4 5
587 410 146 49 8
3 a Z b Z X2 Z FG Z P Z
1200 0.8608 1.2345 2.484 2 0.29
Abb. 19.1.
NPx 584.03 407.23 156.88 41.75 10.11
Das Hauptproblem des Ansatzes Px Z g (x) PxK1 stellt die Funktion g (x) dar. Es gibt bisher keine zwingenden Anhaltspunkte dafür, unter welchen sprachlichen Bedingungen g (x) welche Form annehmen sollte. Damit ist aber auch unklar, welche Parameter benötigt werden. Wenn man also Texte einer bis dahin noch nicht bearbeiteten Sprache untersucht, so wäre es wünschenswert, dass man spezifische Hypothesen entwickeln könnte, die dazu führten, dass bei einer Sprache eines bestimmten Typs ein ganz bestimmter Ansatz für g (x) zu wählen wäre. Damit wäre dann auch klar, welche bestimmte Verteilung allein zu prüfen wäre. Dies ist bisher aber nicht möglich. Dafür kann es verschiedene Gründe geben, deren wichtigster darin besteht, dass auf die Häufigkeitsverteilung von Einheiten in Texten eine Fülle von Bedingungen einwirken; um nur die naheliegendsten zu nennen: Es ist damit zu rechnen, dass Sprachtyp, Entstehungszeit (Entwicklungsphase einer Sprache), Verfasser, Textsorte bzw. Gattung, Thema, Adressat, angestrebter Grad der Fachlichkeit und Nähe oder Ferne zum Stil
264
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
mer/Köhler/Grotjahn u. a. (1994) und Wimmer/Altmann (1996) erweiterten dieses Modell durch lokale und globale Modifikationen von Häufigkeitsklassen, die der Individualität eines Textes besser Rechnung tragen bzw. einen Zustand zwischen zwei Attraktoren ausdrücken (Uhlířová 1996). In den meisten Fällen werden dabei Verteilungen aus der Ordschen Familie modifiziert. In bestimmten Fällen scheint aber die Differenzengleichung (1) nicht auszureichen; Wimmer/Köhler/Grotjahn u. a. (1994) und Wimmer/Altmann(1996) erweitern sie deshalb zu
der Alltagssprache Faktoren sind, die die Textgestaltung beeinflussen; vielleicht müssen sogar noch weitere Faktoren in Betracht gezogen werden. Es lässt sich einstweilen nicht vorher sagen, welcher dieser Faktoren sich in einem bestimmten Fall wie stark auswirkt und wie er mit den anderen interagiert. Es bleibt deshalb vorläufig nur der umgekehrte Weg, dass man Texte untersucht, daraus Dateien entwickelt und dann mittels einer geeigneten Software (Altmann-Fitter 1994/1997) prüft, welche der Verteilungen, die in der Theorie wohlbegründet sind, geeignet ist, an die Textdateien angepasst zu werden. Man kann dann nachträglich versuchen, eine Beziehung zwischen den erfolgreich angewendeten Verteilungen, speziell deren zugrundeliegender Proportionalitätsfunktion g (x), und dem bearbeiteten Textkorpus herzustellen. Das beinhaltet auch, dass die Parameter, die in die jeweilige Form von g(x) eingehen, sowohl an sich als auch womöglich in ihrer gefundenen Ausprägung, unter Berücksichtigung der vermuteten Gestaltungsfaktoren des Korpus dann nachträglich interpretiert werden können. Dies ist der Weg, der bisher auch verfolgt wurde. [xK1 / 2]
Px Z
∑ iZ0
(
a C bx c C dx a C bx
:
: x g (x) Z a (R K x C 1): a K bx : g (x) Z x a g (x) Z : xb g (x) Z
(3)
jK1
wobei sich Px aus der Summe aller niedrigerer Pj (j Z 1, 2, ..., x) ergibt, die mit h (j) und g (x) gewichtet werden. Bisher wurde mit g (x) Z a/x experimentiert, wodurch Poisson-artige Verteilungen erzeugt werden, während h (j) eine beliebige wohldefinierte Verteilung sein kann. Aus dieser Familie wurde vor allem die Hirata-Poisson-Verteilung (s. Feldt/Janssen/Kuleisa 1997; Riedemann 1997):
)
xK1Ki i
Möglicherweise wird P. Grzybeks Projekt „Quanta“ (Grazer Projekt zur Quantitativen Textanalyse), das 2002 begonnen wurde, Lösungen dieser Probleme vorschlagen können. Andere Verteilungen, die außer der Hyperpoisson-Verteilung ebenfalls häufiger benutzt wurden, sind u. a. g (x) Z
x
Px Z g (x) ∑ h (j) PxKj ,
eKa a xK1Ki (x K 1 K i)!
αi (1 K α)xK1K2i, x Z 1, 2, ...
und die Consul-Jain-Poisson-Verteilung (s. Best 1996b; Wimmer/Altmann 1996): Px Z
a [a C b (x K 1)]xK2 eK[aCb(xK1)] (x K 1)!
,
x Z 1, 2, ... verwendet.
Hyperpascal-Verteilung negative Binomialverteilung Palm-Poisson-Verteilung Binomialverteilung Conway-Maxwell-Poisson-Verteilung
d. h., die Modelle werden meistens aus der Ordschen Verteilungsfamilie genommen (vgl. Ord 1972; Wimmer/Altmann 1999). Wim-
Eine interessante Weiterentwicklung dieser Theorie hat Meyer (1997) vorgestellt. Sein Ansatz unterscheidet sich von den bis-
19. Wortlänge
herigen dadurch, dass er ein Modell entwickelt, welches die spezifischen morphologischen Bedingungen der betreffenden Sprache, in seinem Fall des Eskimo, berücksichtigt. Man könnte nun erwarten, dass eine solche Verteilung ein besseres Modell für eine bestimmte Sprache darstellen sollte als die bisher vorgeschlagenen, die ja nicht speziell für die strukturellen Bedingungen einer bestimmten Sprache entwickelt wurden. Die Überlegenheit dieses Ansatzes, der eine Faltung der Poisson-Verteilung mit der Thomas-Verteilung darstellt, muss aber erst noch anhand von umfangreichem Datenmaterial nachgewiesen werden. Die ersten Testergebnisse an Eskimo-Texten sind nicht entmutigend, aber auch noch nicht überzeugend; die Anpassungen der HyperpoissonVerteilung erbrachten bei Eskimo-Texten bessere Resultate. Vielleicht spielen die anderen Faktoren, die K außer der von Meyer (1997) berücksichtigten morphologischen Struktur einer Sprache K die Textgestaltung beeinflussen, insgesamt doch eine zu gewichtige Rolle.
3.
Ziel der Untersuchungen, Textauswahl und Definition der Einheiten, Testverfahren
3.1. Theoretische Grundlagen Mit der Erforschung der Verteilung von Wortlängenhäufigkeiten befasst sich seit 1993 ein Forschungsprojekt (Best 2003), das in Göttingen koordiniert wird („Göttinger Projekt“). Die theoretische Basis der Arbeiten dieses Projekts zur Quantitativen Linguistik bilden z. Zt. vor allem die beiden genannten Arbeiten von Wimmer/Köhler/ Grotjahn u. a. (1994) sowie Wimmer/Altmann (1996). Das Projekt hat sich die Aufgabe gestellt, an möglichst vielen und möglichst verschiedenartigen Sprachen zu überprüfen, ob die Häufigkeit, mit der Wörter unterschiedlicher Länge in Einzeltexten vorkommen, den vorgeschlagenen Verteilungen entsprechen oder nicht, und wenn ja, welche Verteilungen dies sind. Dabei ist auch von Interesse, herauszufinden, woran es liegen kann, wenn gelegentlich keine passenden Verteilungen nachzuweisen sind. 3.2. Untersuchungsgegenstand: Text Gegenstand der Untersuchungen sind immer vollständige, abgeschlossene Texte. Ausgehend von der Annahme, dass ein Autor
265 daran geht, einen Text zu verfassen, indem er bestimmte Vorstellungen über dessen Länge, Zweck, Adressat, etc. zu realisieren sucht, müssten solche Texte ideal für eine derartige Untersuchung sein, die spontan „in einem Zug“ hervorgebracht und nachträglich nicht oder nur geringfügig überarbeitet werden. Bei langen Texten wie etwa Romanen ist damit zu rechnen, dass ihr Verfasser bewusst oder unbewusst sein Konzept ändert, so dass der Sprachstil bei Unterbrechungen der Arbeit am Text sich immer wieder ändert und damit auch der Wortlängenrhythmus. Aufgrund dieser Überlegungen boten sich Briefe möglichst privaten Inhalts als eine Textsorte für die Untersuchungen an, die keine Stilbrüche erwarten ließ und sich deshalb als fast idealer Gegenstand erweisen müsste. Tatsächlich sind in großem Umfang Briefe ausgewertet worden. Andere, häufig verwendete Textsorten sind Gedichte, Kurzerzählungen und kurze Pressetexte, für die die genannten Bedingungen nicht in gleicher Weise als erfüllt anzusehen sind. Es sind oft ganz praktische Gründe dafür entscheidend, welche Textsorte für eine Untersuchung gewählt wird, vor allem ihre Verfügbarkeit. 3.3. Textlänge Zur Länge der Texte: Hammerl (1990) hat in einer Untersuchung zur Verteilung von Wortarten beobachtet, dass bei der Anpassung eines Modells Probleme nur bei längeren Texten mit über 2000 Wörtern auftraten. Dies war der Grund dafür, dass im Göttinger Projekt fast nur Texte mit weniger als 2000 Wörtern Länge gewählt wurden; in der Regel waren es sogar Texte, die erheblich unterhalb dieser Obergrenze blieben. 3.4. Operationale Definition von „Wort“ Um Wortlängenverteilungen zu untersuchen, muss man als erstes „Wort“ definieren. Hier hat es sich bewährt, das Wort als orthographische Einheit, d. h. als ununterbrochene Graphemkette zu bestimmen, wobei das Apostroph sowie der Binde- und Trennungsstrich fast immer als Kriterium für die Worteinheit dient. Die orthographischen Konventionen einzelner Sprachen machen gelegentlich Abweichungen von solchen Regeln nötig; so wäre es z. B. nicht sinnvoll, im Französischen voulez-vous nur wegen des Bindestrichs als ein Wort aufzufassen (Feldt/ Janssen/Kuleisa 1997, 146). Besondere Regeln sind auch nötig, wenn Sprachen unter-
266
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
sucht werden, die keine Alphabetschrift verwenden wie Chinesisch (Zhu/Best 1998, 46) oder Japanisch (Riedemann 1997, 180). Hier muss man statt des orthographischen ein distributionelles, grammatisches oder semantisches Wort als Gegenstand wählen. Bei der Bestimmung des Wortes spielt noch ein weiterer Aspekt eine Rolle: Die Konventionen zur Behandlung von ganz bestimmten Wörtern K hier ist vor allem an Zahlwörter zu denken K sind in verschiedenen Sprachen sehr unterschiedlich; z. T. unterscheiden sie sich sogar innerhalb einer Sprache je nach Referenzbereich. 1993 etwa lautet, wenn man die gesprochene Form verschriftet, als Jahreszahl neunzehnhundertdreiundneunzig, als Telefonnummer neunzehn dreiundneunzig oder eins neun neun drei (mit oder ohne Bindestrich), als Geldbetrag, Entfernungs-, Höhen- oder Gewichtsangabe aber (ein)tausendneunhundertdreiundneunzig. Während der Geldbetrag also im Deutschen als ein Wort verschriftet wird, besteht er im Französischen (mille neuf cent quatre-vingt-treize) aus vier Wörtern. Eine Vereinheitlichung, etwa in der Art, dass die betreffenden Wörter in ihrer gesprochenen Form, dann aber getrennt in je ein Wort für die Tausender, die Hunderter und die Zehner zusammen mit den Einerzahlen, erscheint hier sinnvoll. 3.5. Bestimmung der Wortlänge Weiterhin muss man festlegen, wie man Wortlänge definieren will. Dazu gibt es verschiedene Möglichkeiten: Man kann die Zahl der Grapheme, Phoneme, Akzente, Morphe oder Silben pro Wort als Kriterium der Länge wählen, um die wichtigsten zu nennen. In den Untersuchungen des Göttinger Projekts wurde Wortlänge in der Regel nach der Zahl der Silben pro Wort bestimmt, wobei keine genaue Segmentierung der Wörter in Silben gefordert wurde. Als Kriterium für das Vorhandensein einer Silbe galt das Vorkommen eines Vokals bzw. eines Diphthongs. Ein Wort hat damit so viele Silben, wie es Vokale oder Diphthonge, in Einzelfällen auch Triphthonge, aufweist. In manchen Sprachen können zusätzlich auch Sonanten als Silbengipfel bestimmt werden. Sinn dieser manchmal vielleicht nicht ganz befriedigenden Definitionen war es, möglichst einfache, operationale Definitionen zu finden, die es verschiedenen Bearbeitern er-
möglichen sollten, gleichartige Entscheidungen zu treffen. In einigen Fällen wurden auch andere Kriterien für Wortlänge berücksichtigt, so für die Verteilungen in chinesischen Wörterbüchern (Best/Zhu 2001) und deutschen Texten (Best 2003). 3.6. Anpassen der Verteilungen Unter Berücksichtigung der angegebenen Definitionen wurden für jeden Text einzeln Textdateien aufgestellt; anschließend wurde mit Hilfe einer geeigneten Software, des Altmann-Fitters (1994/1997), versucht, an diese Dateien eine der von Wimmer/Köhler/ Grotjahn u. a. (1994) bzw. Wimmer/Altmann (1996) für die Wortlängenverteilungen theoretisch begründeten Verteilungen anzupassen. Diese Software enthält neben vielen anderen alle hier erforderlichen Verteilungen und erlaubt es, mit wenig Aufwand die nötigen Anpassungen vorzunehmen. Die Güte der Anpassungen wird dabei mit dem Chiquadrat-Test geprüft. Ein Problem des Verfahrens besteht darin, zu bestimmen, welche Verteilung für ein vorliegendes Textkorpus überhaupt infrage kommt. Es wurde bereits darauf hingewiesen, dass es (noch?) nicht möglich ist, im Vorhinein aufgrund der Kenntnis eines Textes oder einer Textgruppe und ihrer Zugehörigkeit zu einer bestimmten Sprache, zu einer Textsorte etc. festzulegen, welche Verteilung nur oder vorrangig als Modell in Betracht zu ziehen ist. Insofern bleibt nur der umgekehrte Weg, nämlich mehrere der theoretisch begründeten Verteilungen auszuprobieren. Bei der Wahl dieser zu prüfenden Verteilungen erweisen sich gewisse Vorüberlegungen als hilfreich: Es hat sich gezeigt, dass keineswegs alle Verteilungen an alle Texte angepasst werden können. Ein Modell, das sich immer wieder bewährt hat, und deshalb auch mit als erstes zu prüfen ist, ist die Hyperpoisson-Verteilung. Sie führt unabhängig von Faktoren wie Sprache, Sprachtyp, Textsorte, Autor etc. erstaunlich oft zu guten Ergebnissen, häufiger als alle anderen bisher verwendeten Verteilungen. Eine zweite Überlegung ist die, dass bei der Bearbeitung von Texten in einer bereits zuvor behandelten Sprache das Modell, das sich schon einmal erfolgreich verwenden ließ, auch bei weiteren Texten geprüft werden sollte; dies führt ebenfalls oft zum Erfolg, auch wenn es sich um Texte einer ganz anderen Textklasse handeln sollte. Es wäre ja
267
19. Wortlänge
denkbar, dass aufgrund der Vielzahl der Faktoren, die bei der Textgestaltung wirksam werden, bei jedem neuen Text oder wenigstens bei jeder neuen Textgruppe mit einer anderen Verteilung zu rechnen ist; tatsächlich ist dies aber keineswegs der Fall. Nur in relativ wenigen Fällen muss, wenn sich einer der Textgestaltungsfaktoren ändert, deshalb auch eine andere Verteilung angepasst werden. Der Faktor, der die Wahl der anzupassenden Verteilung am stärksten beeinflusst, scheint die Sprache zu sein, in der ein Text verfasst ist; dieser Faktor bestimmt die Wahl der anwendbaren Verteilung anscheinend noch mehr als der Sprachtyp, den man wohl an sich als die wichtigste Einflussgröße anzusehen geneigt wäre. Um herauszufinden, welche Verteilung geeignet ist, um an Texte einer Sprache angepasst werden zu können, ist es notwendig, ein kleines Textkorpus auszuwerten; es hat sich nämlich herausgestellt, dass man an einzelne Texte oft mehrere, wenn nicht gar fast alle der theoretisch begründeten Verteilungen anpassen kann. Das Bild ändert sich aber sehr schnell, wenn man nach Verteilungen sucht, die für eine Textgruppe geeignet sind; je mehr Texte man berücksichtigt, desto weniger Verteilungen kommen meist als „gemeinsamer Nenner“ infrage. Als einigermaßen praktikabel hat es sich erwiesen, kleine Textgruppen aus ca. 20 Texten zu bilden und auszuwerten, die möglichst zu einer Textsorte gehören und noch dazu von einem einzigen Autor stammen sollten. Wenn man dann Verteilungen prüft, die sich bei der gleichen Sprache schon bewährt haben, kommt man in vielen Fällen sehr schnell zu guten Ergebnissen. Manchmal zeigt sich aber, dass ein bereits bewährtes Modell für diese neue Textgruppe nicht geeignet ist. Dies kann man dann so interpretieren, dass in diesem Fall einer der bekannten Faktoren, die bei der Textgestaltung wirksam werden, sich zusätzlich oder an Stelle eines anderen bemerkbar macht, so dass eine andere Verteilung gefunden werden muss. Anders ausgedrückt: Man ersetzt eine Form der Proportionalitätsfunktion g (x) durch eine andere, was Änderungen bei der Zahl oder den mathematischen Beziehungen zwischen den Parametern, die ja g (x) ausmachen, bedeutet. In manchen Fällen genügt es aber auch schon, eine Modifikation der zuvor verwendeten Verteilung durchzuführen, dann nämlich, wenn sich
zeigt, dass in den Daten eine Verschiebung von einer Längenklasse zu einer anderen zu beobachten ist. 3.7. Textmischung Bisher war nur von Wortlängenverteilungen einzelner Texte die Rede. Gelegentlich kommt die Frage auf, ob man nicht auch zu guten Ergebnissen kommt, wenn man die Daten mehrerer, möglichst gleichartiger Texte zu einer einzigen Datei zusammenfasst. Diese Idee mag sich aufdrängen, wenn man relativ schwache Testergebnisse erzielt hat, wenn allzu kurze Texte ausgewertet wurden oder wenn unter den Texten etliche sind, die zu wenig Längenklassen aufweisen. In solchen Fällen könnten Zusammenfassungen einzelner Texte zu „Hypertexten“ einen Ausweg bieten. Man sollte aber große Zurückhaltung bei solchem Vorgehen walten lassen; Altmann (1988a, 69) hat gezeigt, dass bei der Bildung einer neuen Grundgesamtheit aus zwei Briefen Goethes die Anpassungsergebnisse schlechter werden, als wenn man die Dateien der beiden Texte getrennt bearbeitet. Diese Beobachtung bestätigt Orlovs (1982, 20) Empfehlung, nach Möglichkeit nur „den individuellen Text zu untersuchen, d. h. ein solches Gebilde, das durch einen einzigen Akt der ,Redeschöpfung‘ erzeugt wurde und für einen einzigen Akt der Rezeption bestimmt ist.“
4.
Weitere Forschungsaspekte
Statt in einzelnen Texten oder in kleinen Grundgesamtheiten kann man auch die Wortlängenverteilungen in Frequenzwörterbüchern untersuchen. Grotjahn/Altmann (1993, 144 ff.) haben auf die besonderen Probleme der Entwicklung eines Modells für unterschiedliche Wörterbuchtypen hingewiesen. In Ermangelung entsprechender, speziell für LexikonDateien theoretisch begründeter Verteilungen kann man natürlich versuchen, solche Verteilungen, wie sie für Einzeltexte entwickelt wurden, anzupassen; dies ist in einigen Fällen mit Erfolg geschehen (Wimmer/Köhler/Grotjahn u. a. 1994, 102; Best 1999; 2003; Best/Zhu 2001, Rheinländer 2001). Die theoretische Begründung für diesen Erfolg steht aber noch aus. Statt global die Häufigkeitsverteilungen der Wortlängen in ganzen Texten zu bearbeiten kann man sich auch mit der Frage be-
268
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
schäftigen, welche Gesetzmäßigkeiten innerhalb der einzelnen Wortlängenklassen von Texten herrschen. Man untersucht dann die Frage, ob z. B. die Wörter der Klasse der Zweisilber, geordnet nach ihrer Häufigkeit, der Zipf-Mandelbrot-Verteilung Px Z
(b C x)Ka T
,
x Z 1, 2, ..., n
(Uhlířová 1995, 241) entsprechen. Diese Hypothese konnte für 20 deutsche (Knüppel 2001) und 10 tschechische Texte (Uhlířová 1995) bestätigt werden. (Zur Bedeutung des Zipf-Mandelbrot-Gesetzes vgl. Altmann 1988a, 69 ff.). Das Zipf-Mandelbrot-Gesetz kann man nun statt in der von Uhlířová und Knüppel verwendeten Rang-Häufigkeits-Version auch als Frequenzspektrum behandeln; hier soll ein Hinweis auf die spätere Behandlung dieser Thematik genügen (vgl. Art. 30).
5.
Ergebnisse
In diesem Abschnitt wird nur ein Überblick über die Ergebnisse der Forschungen zu den Wortlängenverteilungen in Texten gegeben, sofern sie auf der von Wimmer/Köhler/ Grotjahn u. a. (1994) und Wimmer/Altmann (1996) begründeten Theorie beruhen; für die anderen Themen mögen die Hinweise in Kap. 3 und 4 genügen. Der derzeitige Stand der Untersuchungen lässt sich wie folgt darstellen: Es wurden Textkorpora aus etwa 50 Sprachen untersucht, zusammen um 4000 Texte. Für ausführlichere Informationen hierzu wird auf die Literatur verwiesen: (Best/Altmann 1996; Best 1997; Best 2001a; Best 2001b) sowie auf meine ständig aktualisierte Bibliographie im Internet. Es handelt sich hauptsächlich um indoeuropäische Sprachen; ferner die ostasiatischen Sprachen Chinesisch, Koreanisch und Japanisch sowie die Sprachen Althebräisch, Eskimo, Ketschua, Maori und Türkisch. Den Schwerpunkt der Untersuchungen bildet das Deutsche; für jede Entwicklungsphase des Hochdeutschen (Althochdeutsch, Mittelhochdeutsch, Frühneuhochdeutsch und Neuhochdeutsch) sowie für einige Regionalsprachen (Fränkisch, Niederdeutsch und Schweizerdeutsch) konnte mindestens ein Textkorpus bearbeitet werden, insgesamt um 1400 hochdeutsche Texte; dazu 159 niederdeutsche, 16 pfälzische und 24 schweizerdeutsche Texte. Die Untersuchungen folgten
zunächst dem Vorschlag Grotjahns (1982; vgl. auch Altmann 1988a, 60K63), der für neuere hochdeutsche Texte die positive negative Binomialverteilung
Px Z
(
)
kCxK1 pk qx x 1 K pk
, x Z 1, 2, 3, ...
vorgeschlagen und an einem kleinen Korpus mit Erfolg geprüft hatte. Eine ganze Reihe von Untersuchungen (u. a. Altmann/Best 1996) haben diese Hypothese Grotjahns geprüft und bestätigt. Man kann die positive negative Binomialverteilung als ein gutes Modell für das Hochdeutsche der Gegenwart betrachten, und zwar auch für sehr verschiedene Textsorten. Die weiteren Untersuchungen betrafen althochdeutsche und mittelhochdeutsche Texte, ferner Texte aus frühneuhochdeutscher Zeit, deutsche Barockgedichte und unterschiedliche Textsorten der Gegenwartssprache. Es hat sich dabei herausgestellt, dass die positive negative Binomialverteilung kein generell anwendbares Modell für beliebige hochdeutsche Texte ist. Für alt- und mittelhochdeutsche Texte ist offenbar die 1-verschobene Poisson-Verteilung Px Z
eKa a xK1 (x K 1)!
,
x Z 1, 2, 3, ...
ein besonders gut geeignetes Modell; bei frühneuhochdeutschen Texten bewährt sich die Hyperpoisson-Verteilung und bei Barockgedichten die positive Poisson-Verteilung Px Z
ax x! (e a K 1)
,
x Z 1, 2, 3, ...
Schließlich stellte sich bei noch weiteren Prüfungen zu den genannten und noch anderen Arbeiten heraus, dass die Hyperpoisson-Verteilung offenbar das einzige Modell ist, das für hochdeutsche Texte beliebiger Zeit geeignet ist. Sie erlaubt nicht immer die absolut besten Anpassungen, ist aber die Verteilung mit der weitaus größten „Reichweite“ hinsichtlich Autor, Gattung/Textsorte, Stil und Sprachepoche. Sie lässt sich bisher bei fast allen ca. 1400 hochdeutschen Texten anwenden; nur bei fünf Texten ist die Anpassung der Hyperpoisson-Verteilung bisher nicht gelungen. Bezieht man sich aber auf die regionalen Formen des Deutschen: Niederdeutsch (Ahlers 2001), Pfälzisch (Kie-
269
19. Wortlänge
fer 2001) und Schweizerdeutsch (Stark 2001), so ist festzustellen, dass meist andere Verteilungen als beim Hochdeutschen angepasst werden mussten; die regionalen Formen stimmen also keineswegs mit denen des überregionalen Hochdeutschen überein. Es wurde hier mit Absicht der Gang der Untersuchungen auch in seiner zeitlichen Entwicklung skizziert, da angenommen werden muss, dass der Gang der Untersuchungen bei den anderen Sprachen, aber auch bei der Bearbeitung anderer Spracheinheiten und ihrer Verteilungen ähnlich verlaufen kann. Aufgrund der Fülle der Untersuchungen mag das Deutsche daher als Vergleichsbasis für die Arbeit an anderen Sprachen und mit anderen Einheiten dienen, bei denen bisher oft nur ein kleines Textkorpus bearbeitet werden konnte. Die Ergebnisse der Untersuchungen zu den Wortlängenverteilungen in anderen Sprachen als dem Deutschen (weit über 2000 Texte) sollen ebenfalls kurz resümiert werden: An alle alten Sprachen (Althebräisch, Althochdeutsch, Altisländisch, Altkirchenslawisch, klassisches Griechisch, KoineGriechisch, Latein) lässt sich die Hyperpoisson-Verteilung erfolgreich anpassen; das Gleiche gilt für alle nordgermanischen Sprachen. Die Untersuchung schwedischer Pressetexte (Best 1996b) dokumentiert zwar die Anpassung der positiven Singh-Poisson-Verteilung
Px Z
{
1KαC
αaeKa 1 K eKa
αa x eKa x! (1 K eKa)
,
,
xZ1
x Z 2, 3, 4, ...
mit guten Ergebnissen; spätere Berechnungen haben jedoch ergeben, dass die Hyperpoisson-Verteilung in diesen Fällen ebenfalls gute Ergebnisse zulässt. Die Überlegenheit dieser Verteilung gegenüber anderen anfänglich angepassten Modellen erwies sich bei weiteren Berechnungen u. a. auch im Falle des Lateinischen. Sie bewährt sich außerdem bei so verschiedenen Sprachen wie Estnisch, Eskimo, Ketschua und Tscheremissisch. Bei slawischen Sprachen besteht ein Sonderproblem: Sie enthalten nullsilbige Wörter, also Wörter, die weder Vokale noch Diphthonge enthalten. In solchen Fällen ergeben sich zwei Perspektiven: Betrachtet man die nullsilbigen Wörter als eigene Längenklasse, so erweisen sich komplexe Vertei-
lungen wie die erweiterte positive Binomialverteilung
{
1Kα,
Px Z α
xZ0
()
n x nKx p q x 1 K qn
, x Z 1, 2, 3, ..., n
z. T. als überlegen; betrachtet man die nullsilbigen Wörter aber als phonetischen Bestandteil ihrer Nachbarwörter, so kann oft die Hyperpoisson-Verteilung besser angepasst werden. Eine besondere Beobachtung ergab sich bei einigen russischen Pressetexten (Stitz 1994): Betrachtet man ihre Dateien einschließlich der nullsilbigen Wörter, kann keine der infrage kommenden Verteilungen mit guten Ergebnissen angepasst werden; lässt man die nullsilbigen Wörter unberücksichtigt, erweist sich die Hyperpoisson-Verteilung als gutes Modell. Es sind allerdings noch längst nicht alle Dateien slawischer Sprachen auf beiderlei Weise bearbeitet worden. Diese Beobachtungen kann man so zusammenfassen: Wenn man unter den theoretisch begründeten Verteilungen so etwas wie ein Grundmodell sucht, dann kommt dafür offenbar nur die Hyperpoisson-Verteilung infrage; ihre „Reichweite“ (Zahl der Sprachen, Textsorten, etc.) ist der aller anderen Verteilungen bisher deutlich überlegen. Das gilt sowohl im Vergleich mit der PoissonVerteilung (Čebanov 1947; Fucks 1955a; Fucks b; Fucks 1956) als auch mit der positiven negativen Binomialverteilung (Grotjahn 1982), erst recht mit allen anderen Verteilungen. Bei gegenwärtigem Englisch und Griechisch, bei den romanischen und den ostasiatischen Sprachen sowie dem Türkischen, Finnischen und Ungarischen müssen dagegen oft andere Verteilungen gewählt werden. Ein genaueres Bild kann für diese Sprachen nicht gegeben werden, da in den meisten Fällen zu wenig unterschiedliche Textgruppen bearbeitet wurden. Es zeigt sich nämlich bei einigen Sprachen, dass Sprachepoche, Textsorte und Autor unterschiedliche Verteilungen verlangen. Im Finnischen etwa bewährt sich bei Prosatexten die Hyperpascal-Verteilung
Px Z
( (
) )
kCxK2 xK1
mCxK2 xK1
q xK1 P1, x Z 1, 2, 3, ...,
270
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
bei Gedichten aber die Dacey-Poisson-Verteilung Px
(1 K α) a xK1 e a
Z (x K 1)!
α (x K 1) a xK2 eKa C
, (x K 1)! x Z 1, 2, 3, ...,
(Vettermann/Best 1997); Autoreneinfluss macht sich bemerkbar bei Briefen Kekkonens, die der Hyperpascal-Verteilung folgen, und Leserbriefen verschiedener Verfasser, die der gemischten Poisson-Verteilung Px Z
α a xK1 eKa (x K 1)!
(1 K α) bxK1 eKb C
, (x K 1)! x Z 1, 2, 3, ...
entsprechen (Schröder 1996). Nennenswerte Probleme traten bei all diesen Untersuchungen in nur zwei Fällen auf. Einer dieser Fälle sind chinesische Texte mit fachsprachlichem Gehalt (Best/ Zhu 2001). In diesen Fällen lässt sich ein sonst nicht beobachtbares Phänomen feststellen: Die einsilbigen Wörter sind seltener als die zweisilbigen, die dreisilbigen seltener als die viersilbigen, etc. Dieses Auf und Ab der Werte lässt sich mit keiner der infrage kommenden Verteilungen modellieren, solange man nicht Nachbarklassen zusammenfasst. Wenn man dies aber tut, kann man in fast allen Fällen die negative Binomialverteilung Px Z
(
)
k C x K 2 k xK1 p q , xK1 x Z 1, 2, 3 ...
anpassen (Best/Zhu 2001). Der zweite Fall sind lappische Pressetexte (Bartens/Best 1997); nur an 10 der 15 untersuchten Pressetexte lässt sich die Hyperpoisson-Verteilung ebenso wie an 10 Gedichte und 5 Kurzprosatexte anpassen. Zur ungewöhnlich hohen Versagerquote von 1/3 einer Textgruppe tragen anscheinend verschiedene Faktoren wie Syntax und Wortbildung bei (Bartens/Best 1997, 50). Auch hier wäre eine Lösung wie im Fall der chinesischen Texte denkbar. Abgesehen von einer kleinen Textgruppe im Lappischen kann man also feststellen, dass die Theorie von Wimmer/Köhler, Grotjahn u. a. (1994) und Wimmer/Altmann (1996) sich bisher bei allen untersuchten Sprachen bewährt hat; das bedeutet, dass offenbar für Texte beliebiger Sprachen Verteilungsmodelle gefunden werden können. Die
Hypothese, dass Wortlängen in Texten sich gesetzmäßig verhalten, darf damit vorerst als vielfach geprüft und gut bestätigt angesehen werden. Dabei ist allerdings zu bedenken, dass diese guten Ergebnisse bei Texten erzielt wurden, die von vornherein als besonders geeignet für derartige Untersuchungen galten, da sie aufgrund ihrer Abgeschlossenheit und Kürze stilistische Homogenität erwarten ließen. Es ist durchaus damit zu rechnen, dass es größere Probleme praktischer und theoretischer Art bereiten wird, geeignete Verteilungen für längere Texte (Bücher), Textmischungen (Collagen) und evt. bestimmte Textsorten wie wissenschaftliche Abhandlungen zu finden. Erste Versuche mit (populär)wissenschaftlichen und englischen wissenschaftlichen Texten verschiedener Sprachen haben allerdings keine solchen Probleme bereitet.
6.
Das Ordsche Kriterium
Bei der Bearbeitung von Texten drängt sich gelegentlich die Frage auf, ob die Texte, die zu einer bestimmten Gruppe gehören, sich untereinander ähnlich sind oder nicht. Um dies herauszufinden, kann man eine empirische Abwandlung des Ordschen Kriteriums (Ord 1972, 98 f.; 133 ff.) verwenden, das sich auf die Momente der benutzten Verteilungen stützt (Altmann 1988a, 48 ff.). Dabei handelt es sich um m1 Z mr Z
1 N 1 N
∑ x fx
(Mittelwert), und
∑ (x K m1)r fx ,
r R 2,
wobei m2 die Varianz und m3 die Schiefe oder Asymmetrie der Verteilung darstellen. Hieraus lassen sich nun zwei Größen, I Z m2 / m1 und S Z m3 / m2 berechnen. Die Größen I und S kann man in ein Koordinatensystem !I, SO eintragen und zur Veranschaulichung der Homogenität der Textgruppe verwenden. Dies sei am Beispiel des Diagramms einiger Briefe Heinrich Bölls an seinen Freund Ernst Adolf Kunz demonstriert, die Strobel (1996) bearbeitet hat; auf die Datentabelle wird hier verzichtet. Man sieht, dass die Werte dieser Briefe recht breit streuen.
271
19. Wortlänge 3 2,5
S
2 1,5 1 0,5 0 0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
I
Abb. 19.3: Ordsches Kriterium für Briefe Bölls
Das Ordsche Kriterium lässt sich noch in anderen Kontexten verwenden. So wurde in Best (1996a) eine Isländersaga, die Hravnkels saga freysgoða, vollständig mit allen 20 Kapiteln bearbeitet; es konnte gezeigt werden, dass auch in diesem Fall die Einzeltexte recht erheblich variieren; die Saga kann nach dem Ordschen Kriterium nicht als stilistisch homogen gelten (Best 1996a, 103). Vergleiche zwischen Briefen und Pressetexten im gegenwärtigen Isländischen zeigten, dass das Ordsche Kriterium geeignet ist, die beiden Textsorten völlig zu trennen (Best/Brynjólfsson 1997, 36). Wie man mit seiner Hilfe eine ganze Sprachfamilie, in diesem Fall die der romanischen Sprachen, erforschen kann, wurde in Altmann/Best/ Wimmer (1997) gezeigt.
7.
Perspektiven
Auch wenn zumindest für das Deutsche eine recht große Anzahl von Texten bearbeitet wurde, bleibt doch noch einiges zu tun. Die erzielten Ergebnisse sind ermutigend, aber noch nicht hinreichend. So wäre es sinnvoll, weitere Textsorten des gegenwärtigen Hochdeutschen zu bearbeiten, um zu sehen, ob die Hyperpoisson-Verteilung generell für das Deutsche oder doch nur für die bisher berücksichtigten K meist kurzen K Texte charakteristisch ist. Welche Probleme treten auf, wenn man sich tatsächlich einmal mit langen Texten befasst? Die Sprachgesetze müssen sich ja auch in diesen Fällen bemerkbar machen. In den früheren Phasen des Deutschen ist noch sehr vieles zu tun, da meist nur eine Textgruppe behandelt wurde. Bei anderen Sprachen als dem Deutschen ist noch wesentlich mehr zu tun, besonders dann, wenn die Ergebnisse der einzelnen Sprachen einmal für die Untersuchung der Geschichte der Sprachen oder von Sprachfamilien und -typen genutzt werden sollen. Mit solchen Aufgaben ist bisher noch kaum
begonnen worden. Interessant wird es außerdem sein, zu sehen, wie sich die Verteilungen bei anderen Einheiten als dem Wort gestalten werden (vgl. zu Morphlängen Art. 18, zu Satzlängen Art. 22). Als vorläufiges Ergebnis lässt sich feststellen, dass Wortlängen tatsächlich entsprechend den theoretischen Überlegungen gesetzmäßig verteilt zu sein scheinen; diese Erkenntnis muss aber durchaus noch weiter untermauert werden.
8.
Literatur (in Auswahl)
Ahlers, Astrid (2001), The Distribution of Word Length in Different Types of Low German Texts. In: Best (Hrsg.) 2001, 43K58. Altmann, Gabriel (1988a), Wiederholungen in Texten. Bochum: Brockmeyer. Altmann, Gabriel (1988b), Verteilungen der Satzlängen. In: Glottometrika 9. (Ed. Schulz, KlausPeter). Bochum: Brockmeyer, 147K169. Altmann, Gabriel/Best, Karl-Heinz (1996), Zur Länge der Wörter in deutschen Texten. In: Schmidt 1996, 166K180. Altmann, Gabriel/Best, Karl-Heinz/Wimmer, Gejza (1997), Wortlänge in romanischen Sprachen. In: Semiotische Prozesse und natürliche Sprache. (Hrsg. Gather, Andreas/Werner, Heinz). Festschrift für Udo L. Figge zum 60. Geburtstag. Stuttgart: Steiner, 1K13. Altmann-Fitter (1994), Lüdenscheid: RAM-Verlag. Altmann-Fitter. Iterative Fitting of Probability Distributions (1997). Lüdenscheid: RAM-Verlag. Bartens, Hans-Hermann/ Best, Karl-Heinz (1997), Word Length Distribution in Sámi Texts. In: Journal of Quantitative Linguistics 4, 45K52. Bartkowiakowa, A./Gleichgewicht, B. (1965), O rozkładach długości sylabicznej wyrazów w różnych tekstach. In:Poetyka i matematyka. Warszawa: Państwowy Instytut Wydawniczy, 164K173. Best, Karl-Heinz (1996a), Word Length in Old Icelandic Songs and Prose Texts. In: Journal of Quantitative Linguistics 3, 97K105. Best, Karl-Heinz (1996b), Zur Wortlängenhäufigkeit in schwedischen Pressetexten. In: Schmidt 1996, 147K157. Best, Karl-Heinz (Hrsg.), Glottometrika 16. Trier: Wissenschaftlicher Verlag Trier 1997 Best, Karl-Heinz (1999), Quantitative Linguistik: Entwicklung, Stand und Perspektive. In: Göttinger Beiträge zur Sprachwissenschaft 2, 7K23. Best, Karl-Heinz (2001a), Probability Distributions of Language Entities. In: Journal of Quantitative Linguistics 8, 1K11.
272
III. Gebiete und Phänomene: Morphologie / Fields and phenomena: morphology
Best, Karl-Heinz (2001b), Kommentierte Bibliographie zum Göttinger Projekt. In: Best 2001, 284K310. Best, Karl-Heinz (2003), Quantitative Linguistik. Eine Annäherung. 2. überarbeitete und erweiterte Auflage. Göttingen: Peust & Gutschmidt. Best, Karl-Heinz: Internetbibliographie: http://www. gwdg.de/~kbest/projekt.htm Best, Karl-Heinz/Altmann, Gabriel (1996), Project Report. In: Journal of Quantitative Linguistics 3, 85K88. Best, Karl-Heinz/Brynjólfsson, Einar (1997), Wortlängen in isländischen Briefen und Pressetexten. In: skandinavistik 27, 24K40. Best, Karl-Heinz/Čebanov, Sergej Viktorovič (2001), Biographische Notiz: Sergej Grigorevič Čebanov (1897K1966). In: Best 2001, 281K283. Best, Karl-Heinz/Zhu, Jinyang (2001), Wortlängen in chinesischen Texten und Wörterbüchern. In: Best 2001, 101K114. Best, Karl-Heinz (Hrsg.), (2001), Häufigkeitsverteilungen in Texten. Göttingen: Peust & Gutschmidt. Čebanov, Sergej Grigorevič (1947), O podčinenii rečevych ukladov ‘indoevropejskoj’ gruppy zakonu Puassona. In: Doklady Akademii Nauk SSSR, Tom 55/2, 103K106. Feldt, Sabine/Janssen, Marianne/Kuleisa, Silke (1997), Untersuchung zur Gesetzmäßigkeit von Wortlängenhäufigkeiten in französischen Briefen und Pressetexten. In: Best 1997, 145K151. Fucks, Wilhelm (1955a), Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen. Köln/Opladen: Westdeutscher Verlag. Fucks, Wilhelm (1955b), Theorie der Wortbildung. In: Mathematisch-Physikalische Semesterberichte 4, 195K212. Fucks, Wilhelm (1956), Die mathematischen Gesetze der Bildung von Sprachelementen aus ihren Bestandteilen. In: Nachrichtentechnische Forschungberichte 3, 7K21. Gačečiladze, T. G./Cilosani, T. P. (1971), Ob odnom metode izučenija statističeskoj struktury teksta. In: Statistika reči i avtomatičeskij analiz teksta. Leningrad: „Nauka“, 113K133. Grazer Projekt zur Quantitativen Textanalyse (2002) http://www-gewi.uni-graz.at/quanta/projekt_ descr.htm Greenberg, Joseph H. (1960), A Quantitative Approach to the Morphological Typology of Languages. In: International Journal of American Linguistics 26, 178K194. Groeben, Norbert (1982), Leserpsychologie: Textverständnis K Textverständlichkeit. Münster: Aschendorff. Grotjahn, Rüdiger (1982), Ein statistisches Modell zur Verteilung der Wortlänge. In: Zeitschrift für Sprachwissenschaft 1, 44K75.
Grotjahn, Rüdiger/Altmann, Gabriel (1993), Modelling the Distribution of Word Length: Some Methodological Problems. In: Contributions to Quantitative Linguistics. (Eds. Reinhard Köhler/ Burghard B. Rieger). Dordrecht: Kluwer, 141K 153. Hammerl, Rolf (1990), Untersuchungen zur Verteilung der Wortarten im Text. In: Glottometrika 11. (Hrsg. Hřebíček, Ludek) Bochum: Brockmeyer, 142K156. Herdan, Gustav (1966), The Advanced Theory of Language as Choice and Chance. Berlin/Heidelberg/New York: Springer. Kiefer, Alexander (2001), Wortlängenverteilung im Pfälzischen. In: Best 2001, 124K131. Knüppel, Anke (2001), Untersuchungen zum Zipf-Mandelbrot-Gesetz an deutschen Texten. In: Best 2001, 248K280. Lord, R. D. (1958), Studies in the history of probability and statistics. VIII. De Morgan and the statistical study of literary style. In: Bio 45, 282. Menzerath, Paul (1954), Die Architektonik des deutschen Wortschatzes. Bonn: Dümmler. Meyer, Peter (1997), Word Length Distribution in Inuktitut Narratives: Empirical and Theoretical Findings. In: Journal of Quantitative Linguistics 4, 143K155. Ord, J. K. (1972), Families of frequency distributions. London: Griffin. Orlov, Ju. K. (1982), Linguostatistik: Aufstellung von Sprachnormen oder Analyse des Redeprozesses? (Die Antinomie „Sprache K Rede“ in der statistischen Linguistik). In: Sprache, Text, Kunst. Quantitative Analysen. (Eds. Orlov, Ju. K./Boroda, M. G./Nadarejšvili, I.). Bochum: Brockmeyer, 1K55. Piotrowski, R. G./Bektaev, K. B./Piotrowskaja, A. A. (1985), Mathematische Linguistik. Bochum: Brockmeyer. Pott, A. F. (1884), Einleitung in die allgemeine Sprachwissenschaft. In: Internationale Zeitschrift für Allgemeine Sprachwissenschaft I, 1K68. Rheinländer, Nicole (2001), Die Wortlängenhäufigkeit im Niederländischen. In: Best 2001, 142K 152. Riedemann, Gesa (1997), Wortlängenhäufigkeiten in japanischen Pressetexten. In: Best 1997, 180K184. Schmidt, Peter (Hrsg.), Glottometrika 15. Trier: Wissenschaftlicher Verlag Trier, 1996. Schröder, Ulla (1996), Zur Wortlängenhäufigkeit im Finnischen. Seminararbeit, Göttingen. Stark, Alexandra B. (2001), Die Verteilung von Wortlängen in schweizerdeutschen Texten. In: Best 2001, 153K161. Stitz, Katrin (1994), Wortlängen in einigen russischen Presseartikeln. Seminararbeit, Göttingen.
19. Wortlänge Strobel, Heike (1996), Wortlängen in Briefen und Erzählungen von Böll und Hemingway. Staatsexamensarbeit, Göttingen. Trubetzkoy, N. S. (1939, 41967), Grundzüge der Phonologie. Göttingen: Vandenhoeck & Ruprecht. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systematischen Lexikologie. Trier: Wissenschaftlicher Verlag Trier. Uhlířová, Ludmila (1995), On the Generality of Statistical Laws and Individuality of Texts. A Case of Syllables, Word Forms, their Length and Frequencies. In: Journal of Quantitative Linguistics 2, 238K247. Uhlířová, Ludmila (1996), How Long Are Words in Czech? In: Schmidt 1996, 134K146.
273 Vettermann, Anikó/Best, Karl-Heinz (1997), Wortlängen im Finnischen. In: Suomalais-ugrilaisen seuran aikakauskirja 87, 249K262. Wimmer, Gejza/Köhler, Reinhard/Grotjahn, Rüdiger/Altmann, Gabriel (1994), Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 98K106. Wimmer, Gejza/Altmann, Gabriel (1996), The Theory of Word Length Distribution. In: Schmidt 1996, 112K133 Wimmer, Gejza/Altmann, Gabriel (1999) Thesaurus of univariate discrete probability distributions. Essen: Stamm. Zhu, Jinyang/Best, Karl-Heinz (1998), Wortlängenhäufigkeiten in chinesischen Kurzgeschichten. In: Asian and African Studies 7, 45K51.
Karl-Heinz Best, Göttingen (Deutschland)
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax 20. Syntactic units and structures 1. 2. 3. 4. 5.
Introduction Syntactic units and properties Quantitative properties of syntactic systems Hypotheses, laws, and theories Literature (selected)
1.
Introduction
Various syntactic phenomena can be investigated using the methods of quantitative linguistics. This can be illustrated by the topics of most of the syntax-related papers published in the Journal of Quantitative Linguistics since its first issue in 1994 (some of these papers are discussed in more detail later on). Word order is considered by Saukkonen (1997), Tweedie/Frischer (1999), and Hoffmann (1999). Uhlířová (1997) analyzes the relationship between word order and word length, and Tuldava (1995a) the dependence of average word length on clause length, as an example of the Menzerath-Altmann law. His paper provokes an exchange with Bunge on causality and probability in linguistics (Bunge 1995b; Tuldava 1995b). Syntactic variation is discussed in (Gries 2001), syntactic change in (Vulanović 1995; 1997), and morphosyntactic differences between languages in (Askedal 1997). Basili/ Marziali/Pazienza (1994), Gieseking (1998), and Furigori/de Paiva Alves (1999) are concerned with syntactic ambiguity and disambiguation. Somewhat related to this, Gordesch/Dretzke (1998) consider degrees of acceptability of syntactic phrases. Levickij/ Romanova (1997) investigate whether there is a statistically significant relation between verb tenses and verb-adverb combinations, and Hug (1998) statistically analyzes the use of French demonstrative particles ci and là. In (Köhler 1999), a basic functional-analytic model of a syntactic subsystem is described within the framework of synergetic linguistics. Probability distributions of the quantities considered in the model are analyzed in (Köhler/Altmann 2000). As for the languages discussed in the above papers, they comprise Czech, English, Estonian, Finnish, French, German, Greek (Classical), Italian,
Japanese, Latin, Norwegian, and Polynesian languages. In spite of this variety, syntax is not the dominant topic of the Journal of Quantitative Linguistics articles. There are more articles on quantitative methods in phonology, morphology, text analysis, and particularly lexicology. It would be wrong to conclude from this that quantitative syntax is an underdeveloped branch of quantitative linguistics. There are other journals, like Diachronica, Language Variation and Change, and Linguistic Typology, the scope of which is necessarily linked to quantitative methods, and which publish results on quantitative syntax. Even general, or syntax-oriented linguistic journals (Journal of Linguistics, Language, and Lingua for instance) have started publishing an increasing number of papers in which theoretical syntactic investigations are supported and/or complemented with quantitative analyses. This increase results from the realization that quantitative methods can bring more insight and contribute significantly to the understanding of syntax of natural languages. Quantitative methods in syntax can be found also in computer science and computational/mathematical linguistics journals, such as Computational Linguistics, Grammars, and Research on Language and Computation. In subsequent sections, the topic of quantitative syntax is described further and its methods, laws, hypotheses, and theories are discussed. This is by no means exhaustive K the time and space constraints require a selection of quantitative syntax results and of the amount of details for their discussion. What is presented is hopefully illustrative and representative enough for the reader to appreciate this rich research area of quantitative linguistics. The reader can see also other chapters and articles in this Handbook, which discuss topics related to quantitative syntax: quantitative semantics and pragmatics (cf. art. No. 31K36), linguistic typology (cf. art. No. 40K42), diachronic linguistics (cf. art. No. 43K45), language acquisition (cf. art. No. 63), corpus linguistics,
20. Syntactic units and structures
natural language processing and machine learning (cf. art. No. 56K58), probabilistic parsing (cf. art. No. 59), and probabilistic grammars (cf. art. No. 21).
2.
Syntactic units and properties
The syntactic units that can be analyzed quantitatively range from the simplest syntactic phrases and simple sentences, through more complex syntactic constructions, to compound sentences. A specific syntactic construction, like noun phrase, may be investigated, but also the generic syntactic construction which encompasses whole sentences, simple or compound, and all types of syntactic constructions placed anywhere in the phrase structure tree. Different types of sentences can be considered (affirmative or negative, declarative, imperative, or questions, etc.), as well as different types of subordinate clauses. Parts of speech, as sentence elements, can also be investigated. The units can be analyzed in the registers of written or spoken language, in one (portion of a) text or in one or several corpora, in one language or across languages, in texts of the same or different functional styles (fiction, non-fiction, scientific, newspaper, etc.), etc. One of the simplest properties of syntactic units is frequency. For the frequency of sentence parts in Czech, see (Těšitelová 1992, 125), where also a survey can be found of similar results for other languages. The presence of syntactic variation/change/difference is often illustrated by simple counts and percentages of the relevant syntactic units (cf. (Askedal 1997) and many papers in Diachronica and Language Variation and Change, like (Fischer 2003; McCafferty 2004; Abreu Gomes 1999), just to mention a few). Basic counts suffice also in some linguistic typology investigations (cf. art. No. 40, 42), as illustrated by (Greenberg 1966; Saukkonen 1997; Dryer 2003) for instance. Such counts are not always easy to obtain. Ellega˚rd’s (1953) work is a remarkable example of large-scale data collecting and analysis before the modern electronic era. The task is today facilitated by a growing number of electronic texts and large corpora of written and spoken language, which are available for many languages of the world and include not only contemporary sources but older sources as well, enabling historical studies.
275 In linguistic typology, where syntactic properties are often discussed across languages, a large database of languages is needed and the language sample has to be chosen carefully, see e. g. (Hawkins 1983; Dryer 2003; Rijkhoff/Bakker 1998). Basic counts may be, and often are, accompanied with elementary statistical analyses (like the χ 2-test in (Levickij/Romanova 1997; Hug 1998; Nichols/ Peterson/Barnes 2004)). The range of quantitative methods in syntax ends with more sophisticated statistical methods, which confirm or give new interpretations to the established quantitative laws, or help discover new ones. The sections below present mainly such statistical methods and laws. Another elementary property of syntactic units is length. Results on sentence length are surveyed in (Těšitelová 1992), cf. also art. No. 22. Uhlířová (1997) investigates word length as it relates to word order, see subsection 4.1. for further discussion. Other properties that are reviewed below more closely are the order (linearization) of syntactic units, their complexity, information in the sense of information theory, ambiguity, degree of grammaticality, properties related to phrase structure trees (such as the depth of embedding and the position in the sentence or in the mother constituent), etc. Quantitative investigations in syntax are often based on some formal model of syntax/grammar. It should be kept in mind that these models are only descriptive means. They differ in how suitable they are for describing various aspects of language and none of them is perfect or completely independent of the other ones, cf. Brown/Miller’s (1996) introduction to their encyclopedia of syntactic models. If different models are equally adequate to describe the syntactic feature, then it is ultimately irrelevant what model serves as the framework for the research. Certainly, when various models of syntax are applied, descriptive differences occur and are important for the insight and understanding, but the essence of the matter should be preserved. This is what can be called the Model-Independence principle. Its much more rigorous counterpart can be found in mathematics, where general truths are independent of the investigation tools used. There are also elaborate non-statistical methods which can be applied to syntax. These methods use some non-probabilistic measures of syntactic systems, units, or properties.
276
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
Any modeling, statistical or not, requires some simplifications. Usually, only the relevant portion of the language(s) is considered and many less important details are ignored. On the other hand, research methods which use quantitation or measurement, or both, have to adhere to certain scientific principles as discussed in (Bunge 1995a). In this paper, Bunge gives examples of and warns against pseudoquantitation in social science. He maintains that any property of a concrete entity, other than existence, can in principle be quantitated and measured (his Programmatic principles 1 and 2), but this has to be done correctly, that is, the property and its unit of measure have to be well-defined. A survey of the research on syntactic units and their properties is given in section 4. below. Before that, section 3. presents some attempts to quantitate and measure whole syntactic systems.
3.
Quantitative properties of syntactic systems
There is a need in linguistics to compare syntactic systems of natural languages. For instance, complexity and efficiency of different languages/grammars are often discussed, like in the whole double issue of Linguistic Typology 5 (2/3) (2001). Researchers view language complexity differently, in some cases not even defining it precisely before it is discussed. It is important to be able to quantitate language complexity in order to get its objective measure. This is usually done indirectly, by quantitating complexity of the corresponding models of syntax/grammar (however, cf. the Model-Independence principle above). The generally accepted view is that a grammar (in this whole section, grammar is understood as a description device, a model) is simpler if it has fewer rules. This is, for instance, assumed by Thümmel (1992). His other criteria for a simpler grammar are the smaller number of non-terminal symbols, and, according to his principle 1, the smaller mean node index (the average number of non-terminal nodes per structure and per expression type). Thümmel then goes on and proposes eight more principles for evaluating grammars and measuring their optimality. The principles are presented in an informal way and are based on Hjelmslev’s and Chomsky’s ideas concerning the selec-
tion among several different correct grammars. Since the principles are interdependent, their dependences have to be determined and mapped accordingly in the construction of the overall measure of optimality. Another precondition is standardization of grammatical description. Vulanović’s (2003a) approach to grammar complexity is somewhat different. He considers grammar complexity not as determined solely by the number of rules, but as some kind of a relative measure in which it is important how the rules are used, i. e. what linguistic information they are supposed to convey. McWhorter’s (2001) comparison of Kikongo (a Bantu language) and Japanese can illustrate this. Kikongo distinguishes between four kinds of past tense including completive, while Japanese has only one past tense and no exclusive grammaticalized indicator of completiveness. Based on this, McWhorter concludes that this part of Kikongo grammar is more complex than the corresponding part of Japanese grammar. In Vulanović’s approach, if one language has more rules than another, it is not necessarily more complex. It is more complex if the more rules are used to convey the same or a smaller amount of linguistically relevant information. For whatever reason, the information conveyed by the four kinds of past tense is important to Kikongo speakers, which justifies the use of more grammatical rules. Vulanović (2003a) defines grammar complexity as the reciprocal of grammar efficiency, a concept introduced in (Vulanović 1991) and further developed in (Vulanović 1993; 2003a). Grammar efficiency is based on the approach taken by physicists and engineers when they measure machine efficiency. Machine efficiency is the quotient of two quantities: the measure of the useful output (work) is divided by the measure of the input work or energy. The efficiency is greater if the measure of the input is smaller and the measure of the output is greater. When this concept is applied to language, grammatical categories like word classes, cases, word order, etc. are viewed as the input, and the output is the linguistically relevant information that is to be conveyed. The word information is not used here in the sense of information theory. The phrase linguistically relevant information stands mainly for syntactic functions (like subject, object, and predicate), but this is extended in (Vu-
20. Syntactic units and structures
lanović, to appear b) to include the semantic and pragmatic functions of Dik’s (1997) Functional Grammar. The output is then measured by the number n of syntactic/semantic/pragmatic functions. In the latest 2003 version of grammar efficiency, which is described here, the input is also measured simply by the number k of grammatical conveyors, that is, grammatical categories excluding word order. Grammar efficiency, Eff, is therefore defined as proportional to n / k, and this quotient is multiplied by a scaling coefficient κ and another quantity, Q, which is related to word order: Eff Z κ Qn / k. The role of κ is to normalize efficiency values so that Eff Z 1 for all maximally efficient grammars. Thus in general, 0 % Eff % 1. Grammar efficiency depends on whether the language permits all possible unambiguous word orders or not. This is why the combinatorics of word order is important here. It is incorporated in the coefficient Q, which is defined as Q Z (ρ K ρ0) / ρ*, where ρ, ρ0, and ρ* can be described roughly as follows (the precise definitions are more complicated, see (Vulanović 2003a)). ρ is the number of parsed sentences permitted by the grammar and ρ0 shows how many of those result from ambiguous sentences. Q and Eff are directly proportional to ρ because if word order can be used more freely, the grammar is more efficient since it has fewer word order rules. At the same time, Q decreases when ρ0 increases because if there are more ambiguous sentences, then both parsing and communication are more difficult, and Eff should be smaller. ρ Z ρ0 means that all sentences are ambiguous, and then Eff reduces to 0 since successful communication is completely impossible. Finally, ρ* is the number of all parsed sentences obtained by parsing all permutations of each sentence. A more complex grammar can permit a greater number of parsed sentences and because of this, Q is inversely proportional to ρ*. It holds that 0 % ρ0 % ρ % ρ*, implying 0 % Q % 1. The maximum value Q Z 1 is reached only if all permutations of each sentence are unambiguous and used in the language. The following very elementary examples illustrate the above. In simple transitive sen-
277 tences, there are three syntactic functions that should be conveyed, S (subject), O (object), and P (predicate), so that n Z 3. If, like in English, there are only two conveyors, N (noun) and V (verb), then three sentences can be formed: VNN, NVN, and NNV. Since N can be interpreted as either S or O, the three sentences can be parsed in 12 different ways, giving ρ* Z 12 parsed sentences (a parsed sentence is a string of ordered pairs like (V, P)(N, O)(N, S), each pair indicating how the grammatical conveyor is interpreted). Of the 12 parsed sentences, only 6 are acceptable, each involving all three syntactic functions. No more than three of those can be permitted by the grammar without creating ambiguity. For instance, one possibility would be (V, P)(N, S) (N, O), (N, S)(V, P)(N, O), and (N, S)(N, O) (V, P). If a fourth parsed sentence, say (V, P)(N, O)(N, S), is added to them, then the sentence VNN is ambiguous since it can be analyzed as either PSO or POS, and then ρ0 Z 2. Thus, the maximally efficient grammar with n Z 3 and k Z 2 can permit ρ Z 3 unambiguous parsed sentences. Since the efficiency of this grammar is 1, the coefficient κ is found to be κ Z 8/3. This value is to be used when calculating Eff of all grammars with n Z 3 and k Z 2. Therefore, in English, where NVN is the only sentence, Eff Z 1/3. (The order NNV, analyzed as OSP due to topicalization, is not considered here, but can be modeled as well.) The reciprocal of the efficiency value is used to evaluate complexity of this grammar, which is then 3. If the number of conveyors is k Z 3, like in Latin, where the nominative and accusative cases are used to convey S and O respectively, then ρ* Z 6. The greatest possible value of ρ is 6 and no sentence is ambiguous. This gives κ Z 1. Then, if all the six permutations of S, O, and P are equally permissible, Eff Z 1, and the same value is assigned to grammar complexity (1 is the smallest possible complexity measure). If only one permutation is kept, efficiency drops to 1/6 and complexity rises to 6. The approach illustrated above can be applied to more complicated structures. Moreover, different sentence types can be considered simultaneously and the efficiency of the whole system can be determined. It is also possible to use membership grades from the theory of fuzzy sets in order to represent degrees of grammaticality or the rela-
278
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
tive frequency of sentences with different orders of constituents. Thus, grammar efficiency is a numerical representation of the grammatical structure. When grammar efficiency is calculated, it is necessary to determine the greatest possible number of word orders that can be permitted without creating ambiguity. This combinatorial question is considered in (Vulanović, to appear b) and solved in general for some special cases. One of them is the case of a single sentence type with k conveyors which are supposed to convey n different syntactic/semantic/pragmatic functions, where n R k. The greatest possible value of ρ in this case is n! (q!)rKk [(q C 1)!]Kr, where q and r are respectively the quotient and the remainder when n is divided by k, that is, n Z qk C r, q 2 {1, 2, . , n}, r 2 {0, 1, . , k K 1}. The above investigation is concerned more with what is theoretically possible in the syntactic system, than what the actual language usage is. Even the basic syntactic ambiguities can be found in some languages. Mithun (1987) reports the case of Cayuga, in which the simplest sentences consisting of a transitive verb and two fully expressed nominals may be ambiguous. In Cayuga and many other similar languages, such sentences can be disambiguated from the context. Moreover, they are used very rarely, see (Newmeyer 2003) for a survey. Newmeyer nevertheless argues in favor of grammatical analyses regardless of language usage. Hawkins (2003) also speaks of efficiency and complexity, but in grammars, not of grammars, taking an approach which is much closer to language usage. His work is discussed in 4.1. below.
4.
Hypotheses, laws, and theories
This section surveys some results of research on different syntactic units and properties. These are either results of quantitative investigations, or results of theoretical analyses supported by quantitative methods. Some of the theories presented here are still under construction, but typically for linguistics, even the well-developed ones still undergo modifications and verifications. 4.1. Word order variation Word order variation across languages has been the focus of linguistic typology investi-
gations since Greenberg’s seminal paper, see (Greenberg 1966) and also art. No. 42 in this Handbook. In his paper, Greenberg considers two language samples. For the larger one, consisting of 142 languages or groups of languages, he considers 24 possible combinations of 4 linearization properties: (1) three orders of the verb, subject, and object (VSO, SVO, and SOV K the only orders present in the sample), (2) whether adpositions are preposed or postposed, (3) the order of the noun and the genitive, and (4) the order of the noun and the adjective. He provides frequencies of the 24 possible types in the language sample. Based on the counts, Greenberg is able to state some ordering universals, most of which are statistical tendencies. Their logical form is implicational, like VSO / Pr (“Languages with the dominant VSO order are always prepositional” K one of the universals without exception). Implicational universals continue to be used in linguistic typology, but not completely without a controversy. Cysouw (2003, 89) finds implicational universals an invalid tool, statistically speaking, which “often leads to erroneous interpretations of data suggestive of implicational relationships.” Responses by three typologists (Maslova, Dryer, and Plank), standing in defense of implicational universals, follow Cysouw’s paper. Researchers of word order typology after (Greenberg 1966) have expanded the language sample considerably; for instance, Dryer (2003) reports in his response to Cysouw (2003) that his typological database contains data for over 1200 languages. Several hypotheses have been put forward which try to explain word order universals. Hawkins (1983) contains a survey, as well as Hawkins’ own hypothesis formulated as the principle of Cross-Category Harmony (CCH). CCH is defined operationally and requires the calculation of the so-called operator-operand deviations. However, since his 1990 paper, Hawkins has started to investigate word order variations from the perspective of the human parser. This approach is outlined in (Hawkins 2003), where three powerful principles are discussed, (1) Minimize Domains, (2) Minimize Forms, and (3) Maximize On-Line Processing. These principles can explain the language performance data, collected from corpora and processing experiments. All three prin-
20. Syntactic units and structures
ciples fall within the general Zipf’s (1949) principle of least effort. They are based on the preferences of the human parser and efficiency in grammars is understood as processing efficiency. The principles can be briefly described as follows. Principle (1) refers to the size of the syntactic domain within which processing takes place and to the questions about the distance between interrelated items or the amount of the material that have to be processed. Principle (2) requires that the effort needed for processing linguistic forms be minimized through the reduction of the number of formal units comprising a linguistic form, and also through the reduction of the number of forms with unique property assignments. Finally, principle (3) states that, during sentence processing, syntactic and semantic properties should be recognizable as productively as possible, that is, without any significant delays and misassignments of the properties. Quantitative analyses which have been performed so far in support of the principles (cf. (Hawkins 1994; 1999a; 1999b; 2003; Lohse/Hawkins/Wasow 2004) for instance) suggest that syntax is largely performance-driven and show that there is a correspondence between the preferences of performance and preferences of grammars. This contradicts the Chomskian view that grammars are independent of performance. Principle (1) has been discussed and tested more that the other two and this is why it is now described more closely. Unlike the definition of grammar efficiency in section 3., the definition of principle (1) requires phrase structure trees (X-bar theory). Relations of combination and dependency are defined first (Hawkins 2003): (a) Two categories A and B are in a relation of combination if and only if they occur within the same syntactic mother phrase or maximal projection. (b) Two categories A and B are in a relation of dependency if and only if the processing of B requires access to A for the assignment of syntactic or semantic properties to B with respect to which B is zero-specified or ambiguously or polysemously specified. Then the principle Minimize Domains can be introduced: Minimize Domains (Hawkins 2003, 123). The human processor prefers to minimize the connected sequences of linguis-
279 tic forms and their conventionally associated syntactic and semantic properties in which relations of combination and/ or dependency are processed. The degree of this preference will be proportional to the number of relations whose domains can be minimized in competing sequences or structures, and to the extent of the minimization difference in each domain. Hawkins (2003) surveys three manifestations of domain minimization. One of them is adjacency or non-adjacency of certain categories to their heads (Hawkins 2001), and another is the minimization of filler-gap domains in wh-questions and relative clauses (Hawkins 1999a). More details are provided here for the third one only, the minimization of phrasal combination domains, which replace the previous constituent recognition domains (PCDs) (Hawkins 1994; 1999b). This is illustrated by an example (see (Hawkins 2003; Lohse/Hawkins/Wasow 2004) for the precise definitions of these domains). Consider the following two sentences taken from (Hawkins 1999b): (a) The astronomer VP[gazed PP1[through his telescope] PP2[into the dark but moonlit sky.]] (b) The astronomer VP[gazed PP2[into the dark but moonlit sky] PP1[through his telescope.]] The verb phrase VP and prepositional phrases (PPs) PP1 and PP2 are indicated above. Note that PP1 is shorter than PP2. VP has three immediate constituents (ICs): the verb gazed, PP1, and PP2. The IC-toword ratio is calculated for sentence (a) as 3/5 Z 60 % because the three ICs are recognized in a) on the basis of 5 words (gazed through his telescope into). For sentence (b), the IC-to-word ratio is smaller, 3/8 Z 37.5 %, since 8 words are needed (gazed into the dark but moonlit sky through). The higher percentage indicates the preferable ordering and sentence (a) is considered to be more efficient. This is an example of the principle of Early Immediate Constituents (EIC), see (Hawkins 1994, 77), which falls within the Minimize Domains principle. The formulation below is from (Hawkins 2003): Early Immediate Constituents (EIC) (Hawkins 2003, 125). The human processor prefers linear orders that minimize PCDs (by maximizing their IC-to-word
280
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
ratios), in proportion to the minimization difference between competing orders. According to EIC, languages like English prefer shorter PPs before longer ones (the situation is opposite in head-final languages). Hawkins (1999b) collects data on this from a 500-page sample of written English and finds shorter or equal-length PPs adjacent to the verb in 85 % of the data. Moreover, as the difference in length between PPs increases, the preference for the short-before-long order increases as well. One of the conclusions of (Hawkins 1999b) is that processing efficiency is the main factor determining the order of PPs. Lexicalsemantic factors predominate only when there is no clear syntactic preference, and ambiguity avoidance does not seem to be a factor at all. Analogous results for English verb-particle constructions are reported in (Lohse/Hawkins/Wasow 2004). Hawkins (2003) tests EIC also against grammars by considering two of Greenberg’s (1966) universals. In the case of the universal concerning the order of the verb, preposition, and noun phrase, it is found that 94 % of all languages in the sample conform to EIC. The same is true for 93 % of the languages when the order of the preposition, noun, and possessive phrase is considered. Hoffmann (1999) also tests EIC as applied to two juxtaposed PPs. She uses the Penn Treebank Corpus of English to collect data for two variables, x Z length difference of the two PPs, and y Z relative frequency of the short-before-long order for each value of x. The data show that y is an increasing function of x. Hoffmann tries also to find a suitable fit to the data by considering two possible formulas for y Z f (x), an exponential and a power function. It turns out that the exponential function produces a better fit, but the function is not deduced theoretically and the linguistic interpretation of the parameters is not given. A modified length difference between the two PPs (some kind of relative difference) is also considered in order to account for the importance of xvalues relative to the length of the PPs. For instance, a length difference of 1 is more important between, say, 3- and 4-word PPs than between 19- and 20-word PPs. However, with this modified length difference, the y-values become very scattered and neither fit is satisfactory.
The phenomenon that longer syntactic structures come after shorter ones, which EIC explains, was observed already by Behaghel (1930) and formulated as the Gesetz der wachsended Glieder: Von zwei Gliedern von verschiedenem Umfang steht das umfangreichere nach [the “law of growing members: Of two members of different sizes the larger one comes latest”]. Behaghel tested his law on data from German, Latin, and Greek. Uhlířová (1997) studies what is essentially the same hypothesis using Czech data. She investigates relationships between word length (measured in the number of syllables) and word position in clauses for clauses of different length. Similar results are found for all clause lengths: words in the first position have the smallest average length and those in the last position K the greatest. As for the intermediate positions, average word lengths show some characteristic oscillations. Uhlířová continues by considering nouns, conjunctions, and verbs separately. Nouns, being longer words in Czech, behave similarly to the average word length. Conjunctions, which are short, show opposite behavior K their relative frequency is highest in the first position in clauses of all lengths. Verbs, on the other hand, typically have highest relative frequency in middle positions, which can be explained by the fact that Czech is an SVO language. Uhlířová also finds suitable formulas to fit the data. (Saukkonen 1997) and (Gries 2001) are two other examples of research on word order variation as interpreted in terms of human language processing. Saukkonen gives a typological discussion of Finnish word order and Gries carries out a multifactorial analysis of word order and other syntactic variations. Gries takes processing effort for the central notion of his investigations, understanding it quite broadly. He assumes that all levels of linguistic description, not just syntax, contribute to it. This is why he finds multifactorial analysis the only appropriate method for this kind of research. Another example of sophisticated statistical methods applied to word order data is (Tweedie/Frischer 1999). Tweedie and Frischer use compositional data analysis of Latin and Classical Greek texts to explore the direct object position relative to the governing verb, considering main clauses and other clauses separately. The subjective conclusions obtained from the principle components and cluster analyses are validated by
20. Syntactic units and structures
the discriminant analysis. The results confirm the expected orders, OV in Latin texts and VO in Greek texts, showing a few exceptions which can be explained by the Greek influence on the Latin original or vice versa. (Kroch/Taylor 1997) is an example of corpus-based analysis of word order variation. In this paper, Kroch and Taylor use the Penn-Helsinki Parsed Corpus of Middle English and discuss dialectal variation in the use of verb-second order (V2) as inherited from Old English. 4.2. Syntactic change Word order change, as a special case of syntactic change, can be investigated using the same techniques as those for word order variation. For instance, Hawkins (1983) applies his implicational universals and the CCH principle to historical word order data and arrives at diachronic predictions about most likely word order changes. He tests these predictions on a language sample from Indo-European and particularly from the Germanic family. (Yang 2000) is another research which connects word order change (and even more generally K syntactic change) to word order variation. Yang uses the data from (Kroch/Taylor 1997) to discuss the erosion of V2 in Middle English. The dialectal variation considered in (Kroch/ Taylor 1997) supports Yang’s formal model of competing grammars. He discusses advantages of one grammar over another to explain the V2 erosion. The same variational model explains the loss of V2 in French, where the pro-drop status of Old French is an important factor of the change. Vulanović (1993; 1999) models word order change using his grammar efficiency concept, see section 3. The change from the SOV order to the SVO order is considered in both papers. In (Vulanović 1993), the change is described in general, more theoretical terms, whereas in (Vulanović 1999), it is more specifically related to French and is represented with more details. The grammar efficiency approach can be used to model various other syntactic changes. Reanalysis is part of the syntactic changes discussed in (Vulanović 1995; to appear a). Grammaticalization is modeled in (Vulanović 1997) and it is also part of the process considered in (Vulanović to appear a). The reanalysis in (Vulanović 1995) is that of passive to ergative as it happened in Polynesian languages according to one hypothesis. (Vu-
281 lanović 1997) deals with the historical development of negation in French and (Vulanović to appear a) with the change in periphrastic do in affirmative declarative English sentences. This is how grammar efficiency is applied to syntactic change. When a syntactic change is divided into several stages, each stage can be represented by its grammar efficiency. In this way, a sequence of numbers is obtained, which gives a numerical representation of the change. The result is mainly descriptive, but it is still an effective and concise representation of the change, which can help in the identification and better understanding of syntactic change universals. The stages with stable syntactic structures, right before the change starts and right after it ends, are called starting and ending changes respectively. The stages in between describe the actual process of change. The affected syntactic structures show instability during this process and the values of grammar efficiency fluctuate and are generally lower, diminished by ambiguity, the use of redundant grammatical conveyors, or by different competing grammatical structures. As ambiguity disappears, as unnecessary conveyors are eliminated, and as grammatical structures stabilize, grammar efficiency increases but it does not have to return to its original value. All the models mentioned above show the following general characteristics: The principles of grammar efficiency change (a) During a syntactic change, grammar efficiency has the greatest value either at the starting or at the ending stage, or at both. (b) The value of grammar efficiency at the starting stage is greater than the value at the first stage of syntactic change. (c) The value of grammar efficiency at the ending stage is greater than the value at the last stage of syntactic change. Based on this general pattern, Vulanović (to appear a) is able to show that emphatic do has to be considered a factor of the change affecting periphrastic do in affirmative declarative sentences. The main source of information on the historical development of periphrastic do in different types of English sentences is (Ellega˚rd 1953). Ellega˚rd collected and analyzed data from 107 texts between 1390 and 1710. The percentage of periphrastic do increases (with some oscilla-
282
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
tions) throughout the period in all sentence types except affirmative declarative sentences (the other sentence types are negative declaratives, affirmative and negative questions, and negative imperatives). In affirmative declaratives, the frequency of periphrastic do initially increases, reaches its peak of about 10 % around 1560, and then decreases. Ellega˚rd’s hypothesis is that the reason for this exceptional change is the reanalysis of affirmative declarative periphrastic do as emphatic do. This is confirmed in (Vulanović to appear a). Grammar efficiency models show that the use of periphrastic do in affirmative declaratives can continue to increase only in absence of emphatic do. When the hypothetical increase of periphrastic do is modeled with emphatic do, the above principle (c) is violated, i. e. there is no recovery of efficiency after the change is over. Since emphatic do is indeed present in Modern English, this shows why the use of periphrastic do could not continue to rise, but had to decline in affirmative declarative sentences. The grammar efficiency model of the actual change is verified by a comparison to the models of the change in affirmative questions and negative declaratives. All the models satisfy the above principles of grammar efficiency change. Another issue related to the periphrastic do change in affirmative declaratives is how to find the right fit to the data. Frequency graphs of periphrastic do in other sentence types have the characteristic S shape, which is absent in the case of affirmative declarative sentences. The S-shaped curve can be observed in many linguistic changes, cf. (Altmann 1983; Altmann/von Buttlar/Rott et al. 1983) and a recent survey in (Best 2003). Most of the examples in these papers are not from syntax, but from other branches of linguistics. Best (2003) mentions one S-shaped curve in syntax, viz. the growth of the definite article in Old French. Other examples from syntax include the two changes considered in (Kroch 1989): the rise of the definite article in Portuguese possessive noun phrases and the loss of the verbsecond order in French. Yet another example is the change affecting the prospective meaning of the phrase be after V-ing in Irish English, which was reanalyzed as perfective (McCafferty 2004). The S-shape motivates the use of the logistic curve (the solution of the logistic differential equation) for the fit (Altmann/von Buttlar/Rott et al. 1983). In-
deed, Kroch (1989) shows that the logistic provides a good fit to the periphrastic do data in all but affirmative declarative sentence types. After linearizing the data, Kroch analyzes the slopes and intercepts of the regression lines to conclude that syntactic change proceeds at the same rate in all the contexts in which it can occur. Ogura (1993) takes the same approach to the periphrastic do change, but analyzes the data differently. Ogura’s claim is that changes in different sentence types start at different times and at different rates K the later the start, the greater the change rate. Neither Kroch (1989), nor Ogura (1993), are able to find the fit to the data for periphrastic do in affirmative declarative sentences, apparently not being aware of (Altmann 1983). In this paper, Altmann proposes a modified logistic curve for fitting reversible changes in which growth is followed by decline. He refers to the logistic curve as the Piotrovskij law (Piotrowski-Gesetz in German), cf. art. No. 44 in this Handbook, as well as (Altmann/von Buttlar/Rott et al. 1983). The change in the frequency of the Latin pronoun hic is another example of a reversible change in syntax (cf. Best 2003), where the modified logistic curve is used also to fit the data describing this change. Of course, the same type of fit can be applied to the affirmative declarative periphrastic do data. This is done in (Vulanović 2003b) and compared to another possible fit which combines two simple S-shaped logistic curves, one increasing and the other decreasing. The latter fit, which is equivalent of the twophase linear regression after the data are linearized, is somewhat better. Besides, its advantage lies in the fact that it uses simpler basic curves and therefore the whole change can be viewed as a manifestation of the Piotrovskij law in its simplest form. 4.3. Menzerath-Altmann law in syntax The Menzerath-Altmann law (“the (mean) size of the components of a linguistic construction is a function of the size of the given construction, measured in terms of the number of its components”, cf. art. no. 47) covers all levels of linguistic analysis. Most of the phenomena predicted by this law have been investigated thoroughly on data from various languages and with respect to phonetics, phonology, morphology, the lexicon, syntax, and even the text level. The studies con-
283
20. Syntactic units and structures Components on level x
Components on level x-1
Structural information on level x
Structural information on level x-1
Fig. 20.1: Language processing register: the more components, the more structural information on each level.
ducted so far on the validity of the law in syntax make use of the equation y Z ax b eKcx ,
(1)
where the dependent variable y is the clause length (measured in terms of the number of words) and the independent variable x is the sentence length (measured in terms of the number of clauses). Syntactic level data typically show that the exponential factor eKcx seems to be irrelevant in this equation, as opposed to the phonetic/phonological level, where the power factor x b does not play any significant role. The law, as formulated by Altmann, is one of the so-called phenomenological laws, i. e. it states that one quantity depends on another without going into the details of the mechanisms which are responsible for the dependence. Examples of this kind of laws can be found in mechanics and other areas of physics, like Galileo’s law of the pendulum for instance. In (Köhler 1984), a model of some properties of the human language processing mechanism is proposed in order to set up a hypothesis that can serve as a representational law, i. e. the kind of law which unveils the internal details of the model (phenomenological laws correspond to some extent to black boxes, whereas representational laws may be compared to gray or white boxes). The consideration which leads to the model starts at the syntactic level. The basic idea of the hypothesis can be characterized by two assumptions: (a) There is a special register (such as the hypothetical short term memory but not necessarily identical to it) for language processing, which has to serve two requirements: (i) It must store, on each level, the components of a linguistic construction under analysis until its processing has been completed, and, at the same time, (ii) it must hold the re-
sult of the analysis (the structural information about the connections among the components, i. e. the connections between nodes and the types of the individual relations), as well as K on the lowest level K pointers or links to lexical entries. This register has a limited and more or less fixed capacity (cf. Fig. 20.1). (b) The more components constitute the construction, the more structural information must be stored. However, the increase in structural information is not proportional to the number of components because there are combinatorial restrictions on each level (phonotactics, morphotactics, syntax, lexo- and semotactics), and because the number of possible relations and types of relations decreases with the increase of the number of already realized connections. It can be assumed that the rate of increase of structural information to be stored is inversely proportional to the rate of increase in components. A consequence of these two assumptions is that the memory space, which is left in the register for the components of a construct, depends on the number of the components. This means that on each level there is an upper limit to the length of constructs, and that with increasing structural information there is less space for the components, which must, in turn, get shorter. One of the consequences of the model is a more or less linear interrelation between the values of the parameters a and b in formula (1) (for empirical results cf. art. No. 47). Another one is that the dependence of the amount of structural information on the number of components should form a curve according to the equation y Z ax b, where b O 0, while the Menzerath-Altmann curve
284
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
must have a negative b. The availability of large syntactically annotated linguistic corpora made it possible to test the latter consequence of the representational variant of the Menzerath-Altmann law in (Köhler 2000), although it is impossible to directly measure the structural information stored during natural language processing. It is, however, possible to measure the amount of information which is connected with individual components of a syntactic construction in relation to their position in the construction. This is done by determining the number of alternatives which would be correct or acceptable at the given position. Thus, a nominal phrase can begin with a determiner, a pronoun, a proper noun, and, say, five other constituent types. This means that, at position 1 of this construction type, 8 alternatives can be realized. Next, the number of alternatives at position 2 is counted and so forth. The method can be applied either to sentences or to any syntactic constructions. Furthermore, it can be used with function types instead of construction types (cf. section 4.5.1.). In any case, a good measure of information is the logarithm of the number of alternatives (cf. art. No. 61). The base of the logarithm depends on how the information is stored, but this is not crucial since logarithms can be transformed from one base to another. Figure 20.2 shows an example of the data collected from the Susanne corpus (the German Negra corpus yields similar results). The form of the curve is compatible with the hypothesis. Intuitively, one would expect similar or even better results if, as a measure of infor-
1.5
1.0
0.5
0.0
1
2
3
4
5
6
7
8
9
10
11
12
Fig. 20.2: Logarithm of the number of possible alternatives of constituent types in dependence on the position in the entire Susanne corpus (solid line) and in the four text types included in this corpus (dashed lines).
3.0
2.5
2.0
1.5
1.0
0.5
0.0 1
2
3
4
5
6
7
8
9
10
11
12
Fig. 20.3: The negentropy associated with the number and probability of possible constituents at a given position in the Susanne corpus (solid line) and in the four text types included in this corpus (dashed lines).
mation, entropy or negentropy were used. Surprisingly, a more complicated curve is obtained in this case (cf. figure 20.3). If this finding is confirmed by further studies, this could mean that the probabilities of the possible alternatives are irrelevant for the memory space needed. 4.4. Dynamic behavior of syntactic units in texts It has become clear over the decades of research that the simple type-token ratio (TTR Z the number of different units divided by the number of all units in a text), considered as a measure of vocabulary richness of an author, of an individual text, or of a genre (as used in stylistics), brings with it too many problems to be useful for scientific purposes. For instance, empirical studies have shown that the TTR depends on the text length and various ideas to compensate for this dependency have been discussed. An even more serious problem is the fact that the statistical distribution of this index is unknown and, therefore, tests of significance of differences in the TTR between authors or texts cannot be conducted. This is why a more dynamic approach has been introduced. Instead of this simple index, i. e. a single number as a characteristics of a whole text or an author’s work, the dynamic increase of the lexical inventory in the course of the text under consideration has become the object of investigation (cf. art. No. 27). Various approaches have been proposed to the mathematical modeling of the dependence of the TTR on text position (Altmann
285
20. Syntactic units and structures
dT T
Zb
dL L
,
(2)
where T Z number of types and L Z number of tokens (both from the beginning of the text to the given text position). The solution of equation (2) is the function T Z aLb.
(3)
This function is successfully used in the area of text vocabulary. A different function derived from a similar approach has been found for musical units (Köhler/Martináková-Rendeková 1998). In (Köhler 2003a; 2003b), the question is asked whether there is an analogous TTR on the syntactic level. Using the Susanne corpus, data were collected forming two different data sets: (a) syntactic constructions (sentences, clauses, phrases) and (b) parts of speech. As the inventories of units taken into account are considerably smaller (by the factor of 1000) than the lexical inventories, and as the multifunctionality of the forms is higher, a different theoretical model must be set up. A faster increase of types can be expected, i. e. a larger exponent b. On the other hand, a smaller inventory is exhausted earlier. Therefore, the model receives an additive term (with a negative value) representing this property: dT Z T
( ) b
L
C c dL, c ! 0.
(4)
T Z eKcLbe cL Z Lbe c(LK1), c ! 0.
This function can be fitted to the data of the 64 texts of the corpus with excellent results. An example of data from sentence, clause, and phrase counts is shown in Figure 20.4, while Figure 20.5 shows the dependence of the empirical parameters b and c for all the texts in the corpus. The individual texts are differentiated according to the four text types in the corpus. A linear regression is possible (determination coefficient D Z 0.6261). Model (6), however, cannot be used for syntactic functions. Since the inventory of syntactic functions as defined in the Susanne corpus is even smaller than the one of syntactic construction types (by the factor 10), the influence of inventory size seems to have a greater effect. To take this effect into account, the differential equation (2) is modified as in (7),
100
50
0
300
600
900 Tokens
1200
1500
1800
-0.0001
(5)
-0.0002
Parameter c
which corresponds to the equation representing the Menzerath-Altmann law (cf. equation (1) in 4.3 and art. No. 47). Although this function in its general form is not appropriate as a model of TTR phenomena (depending on the interval and the parameter configuration, non-monotonous variants exist), it can be used without any problems under the following special conditions. For L Z 1 and T Z 1 (the first token is always the first type), the parameter a has the value eKc as in equation (6),
0
Fig. 20.4: TTR curve. Empirical data and theoretical values according to equation (6).
The solution of this differential equation is T Z aLbe cL, c ! 0,
(6)
Types
1988, 86 f.). Only the most interesting and successful approach is discussed here. It is a direct derivation of a function from theoretical considerations which assume a constant relative increase of new items (Tuldava 1980; Altmann 1988). This can be formulated as a very simple differential equation,
-0.0003 -0.0004 -0.0005 -0.0006 -0.0007 0.64
0.66
0.68
0.70 0.72 Parameter b
0.74
0.76
0.78
Fig. 20.5: The dependence of parameter c on parameter b in the TTR curves (6).
286
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
dT
b
T
bution is an appropriate model of the corresponding probability. Other authors (for details cf. Altmann 1988, 175) have used the normal and the log-normal distributions. Later, a theoretical derivation of the negative hypergeometric distribution was given, empirically tested, and baptized Frumkina’s law by Altmann (Altmann/Burdinski 1982; Altmann 1988, 175 ff.). In (Köhler 2001), a first attempt is made at investigating the block distribution of linguistic units at the syntactic level. In this study, two kinds of categories are observed: clause types and function types. 17 clause types are defined, such as main clause, embedded quoting clause, adverbial, nominal, relative, fused, comparative, infinitival clause, etc., and 23 syntactic function types, among them logical subject and object (direct and indirect), prepositional object, predicate complement (of subject and object), place, direction, time, manner, modality, contingency, etc. The text corpus used for the study is the Susanne corpus. In the case of running words as objects of observation, the definition of block elements and their positions in a block is evident, whereas syntactic units do not in an unambiguous way correspond to terminal (surface) elements. Hence, there is more than one way to determine the block size and to calculate the distribution of the occurrences of the observed units. In particular, two plausible ways of counting seem to be possible: either each syntactic construction is counted as a block element or only clauses are taken into account. As types of syntactic constructions are much more frequent than specific words, smaller block sizes are chosen K 100 or 20, depending on the type of block elements, as opposed to
dL
Z
L ( aL C b) a 1 K Z dL L aL C b
(
)
(7)
The general solution of equation (7) is TZ
kL aL C b
.
(8)
The limit of this solution when L/N should be 1/a, so that the parameter a equals the inverted inventory size. This determines k as k Z 1. Moreover, like before, at L Z 1, T must have the value of 1, hence b Z 1Ka. The general solution (8) therefore reduces to (9), TZ
L aL K a C 1
,
(9)
where the parameter a can be determined using the empirical inventory size. This is one of the rare cases where the curve does not have to be fitted to the data. In (Köhler 2003a), the model is corroborated on the data from the Susanne corpus. 4.5. Probability distributions in syntax 4.5.1. Frumkina’s law and its application to syntax One of the basic kinds of repetition in texts is word distribution in text blocks (cf. Altmann 1988, 174 ff.). First, a text is segmented into blocks (adjacent passages of equal size) and then the frequency of the given word is counted in each block. Frumkina (1962) was the first to investigate the number of blocks with x occurrences of a given word, where x is considered a random variable. She started from the assumption that the Poisson distri-
Susges.prt - Negative binomial (k, p) 195 180 165 Altmann Fitter 2.0
150 135 120 105 90 75 60 45 30 15 0
1
2
3
4
5
6
7 8 F[x], NP[x]
9
10
11
12
13
Fig. 20.6: Graph of the empirical and theoretical data in Table 20.1
287
20. Syntactic units and structures
Altmann Fitter 2.0
Susges.o - Negative hypergeometric (K, M, n) 490 455 420 385 350 315 280 245 210 175 140 105 70 35 0
1
2
3
4
5
6 7 F[x], NP[x]
8
9
10
11
Fig. 20.7: Graph of the empirical and theoretical data in Table 20.2
words, for which a block size of 5000 is common. In all cases, the empirical findings confirm the hypothesis that the analyzed categories are block distributed according to Frumkina’s law. The negative hypergeometric distribution, and in many cases the negative binomial distribution, can be fitted to the data with very good results (the negative hypergeometric distribution converges to the negative binomial distribution if specific parameter configurations are given). Figures 20.6 and 20.7 and Tables 20.1 and 20.2 show two examples of the data and the fitting of the distributions. Table 20.1: No. of blocks with x occurrences of (present and past) participle clauses Block elements: all syntactic constructions Distribution: Negative binomial (k,p) Sample size: 976 Block size: 20 X [i]
F [i]
NP [i]
0 1 2 3 4 5 6 7 8 9 10 11 12
55 143 205 181 148 102 78 37 17 3 5 1 1
54.2566 139.7840 194.6567 194.2587 155.5343 106.1174 64.0267 35.0216 17.6757 8.3398 3.7155 1.5754 1.0377
k p DF X2 P (X 2)
Z 12.34 Z 0.79 Z 10 Z 9.3251 Z 0.5015
Table 20.2: No. of blocks with x occurrences of a logical direct object Block elements: all syntactic constructions Distribution: Negative Hypergeometric (K, M, n) Sample size: 2304 Block size: 20 X [i]
F [i]
NP [i]
0 1 2 3 4 5 6 7 8 9 10
76 245 397 497 451 315 198 86 30 5 4
76.2299 240.3224 408.8336 487.4573 446.5574 325.9999 191.0488 88.4321 30.8775 7.3388 0.9022
K M n DF X2 P (X 2)
Z 19.87 Z 6.92 Z 10 Z 6 Z 1.4511 Z 0.9627
If future investigations corroborate these results, one can conclude that the probability of occurrence of syntactic categories in text blocks can be modeled in the same way as the probability of words, i. e. that Frumkina’s law, which was first found and tested on words, can be generalized (as already supposed by Altmann) to all types of linguistic units. Furthermore, certain types of computational text processing could profit if specific constructions or categories can be differentiated and found automatically by their particular distributions (or, by the fact that they do not follow expected distributions) K in analogy to key words.
288
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
4.5.2. Probability distributions of syntactic units and properties Probability distributions of syntactic units and properties are analyzed in (Köhler/Altmann 2000). It is shown that the properties of syntactic constructions (which are considered and tested only empirically in Köhler’s (1999) basic synergetic model of syntax, see section 4.6. below) are governed by only a few distributions from a common family of probability distributions. The database used consists of two corpora, the English Susanne corpus and the German Negra-Korpus. The tested properties are frequency, complexity, depth of embedding, length, and position. They refer to all types of syntactic constructions and to all levels that they may occupy in the phrase structure tree. Frequency, for instance, is found for each pattern of immediate constituents, which is treated as a basic unit. This is done for constructions on all levels of embedding and regardless of the structure of the immediate constituents. The data from both corpora support the hypothesis that the frequency spectrum of syntactic constructions follows the Waring distribution, which was originally designed as a model of word frequency distribution (cf. art. No. 30). The complexity of a syntactic construction is defined as the number of immediate constituents. The number of constructions with a given complexity is considered as a random variable. This time, the data from both corpora follow the hyper-Pascal distribution. The same law applies to the distribution of the number of constructions with a given depth of embedding. The depth of embedding is defined as the number of steps from S (the sentence level with depth 0) to the given constituent. The notion depth of embedding is motivated by (Yngve 1960), see section 4.6. below. The length of a syntactic construction is defined as the number of terminal nodes belonging to the construction. The number of constructions with a given length follows an extended positive negative binomial distribution, and an extended logarithmic distribution in a special case. Finally, Köhler and Altmann consider the position (counted from left to right) of each construction in its mother constituent. The complexity of a construction is its maximum position. It is shown that the data conform to the 1-displaced Cohen-binomial distribution. The simple binomial distribution displaced to the
right by one would suffice for the Susanne corpus. The Cohen-binomial distribution is required by the Negra-Korpus, in which the data have a non-monotonous shape. 4.6. Interrelations and dependencies of syntactic structure properties This subsection presents Köhler’s (1999) analysis of the relations within a synergetic model of syntax. Synergetic linguistics views language as a self-organizing and self-regulating system (cf. art. No. 53). Following the existing models of lexical and morphological subsystems, Köhler sets up a basic syntactic subsystem and uses it to discuss and empirically test interrelations of the same properties of syntactic structures as those defined in 4.5.2. An additional property considered is information (in the sense of information theory), which corresponds to the memory space needed for temporary storage of grammatical relations of the constituent. The Susanne corpus of English language serves as a database for his tests. Interrelations and dependencies of frequency, length, and complexity are discussed first. They are governed by two requirements built into the syntactic subsystem: minP (minimize production effort) and maxC (maximize compactness), cf. Hawkins’ principles Minimize Domains and Minimize Forms, discussed in 4.1. The requirement minP is realized in the relation between frequency and length when the most frequent constructions are the shortest ones. Consequently, the corresponding rank-frequency distribution should be formally similar to Zipf-Mandelbrot’s law (cf. art. No. 10, 30). This is confirmed by the data. Length, on the other hand, is stochastically proportional to complexity. The same curve as in (1), repeated here in (10) for convenience, y Z ax beKcx,
(10)
is fitted to the data for y Z constituent length and x Z constituent complexity. The determination coefficient is D Z 0.96. The same type of curve, with y Z average constituent frequency and x Z constituent complexity, can be fitted to the data as well, giving D Z 0.99. The former curve increases and the latter decreases, as expected. No goodness-of-fit test is performed because the functions used are not based on any theoretically corroborated hypothesis. The plot showing the dependence of the average constituent complexity on the constituent
289
20. Syntactic units and structures
frequency is too scattered for a good fit, but the expected inverse proportionality can be observed. Next, the interdependence is studied of the position and length, as well as of the position and complexity. The average constituent length and the average constituent complexity are considered and the position is taken to be that in the mother constituent. The data confirm a modified EIC principle (cf. 4.1.), which is also made one of the requirements of the model. The EIC principle is modified by using complexity instead of length. The depth of embedding as a syntactic property is motivated by Yngve’s (1960) Depth Saving principle (cf. also Yngve 1996). Yngve’s definition of depth is somewhat different: the depth of a sentence is the maximum number of symbols in the phrase structure tree that have to be stored during the construction of the sentence. Yngve’s hypothesis is that the sentences actually used in any spoken language have a depth which is equal or nearly equal to the span of immediate memory, which he assumes to be between 5 and 9. This span is based on some results from psychology. Yngve finds a confirmation of his hypothesis by examining English sentences of various complexities. However, he draws some phrase structure trees in a non-standard way which is different from the usually accepted norm in generative grammars. Nevertheless, Köhler takes from Yngve’s theory the assumption that right branching structures are preferred due to memory efficiency. Then he empirically tests the hypothesis that all constituents have an increasing depth of embedding with increasing position (in the mother constituent and, separately, from the beginning of the sentence). Another function of type (10) is used to fit the data and produces D Z 0.996 (this time, y Z depth and x Z constituent position measured in running words from the beginning of the sentence). Finally, Köhler investigates the relation between position and information. His hypothesis is that the number of alternative constituent types at a given position decreases with the increasing position. The same can be said of the number of alternative grammatical functions at a given position. This hypothesis is based on the subsystem requirement minS (minimize structural information), which is a special aspect of the general requirement minM (minimize mem-
ory effort). For the empirical test, the logarithm of the number of alternative types/ functions is taken. Two sets of data are considered, one containing all constituents at sentence level, another all constituents at all levels. The data show the behavior predicted by the hypothesis, but no exact mathematical form is proposed to describe the functional dependence between the measured properties.
5.
Literature (selected)
Abreu Gomes, Christina (1999), Directionality in linguistic change and acquisition. In: Language Variation and Change 11, 213K230. Altmann, Gabriel (1983), Das Piotrowski-Gesetz und seine Verallgemeinerungen. In: Exakte Sprachwandelforschung (eds. Karl-Heinz Best/Jürgen Kohlhase). Göttingen: Herodot, 54K90. Altmann, Gabriel (1988), Wiederholungen in Texten. Bochum: Brockmeyer. Altmann, Gabriel/Burdinski, Violetta (1982), Towards a law of word repetitions in text-blocks. In: Glottometrika 4 (eds. Werner Lehfeldt/Udo Strauß). Bochum: Brockmeyer, 146K167. Altmann, Gabriel/von Buttlar, Haro/Rott, Walter/ Strauß, Udo (1983), A law of change in language. In: Historical linguistics (ed. Barron Brainerd). Bochum: Brockmeyer, 104K115. Askedal, John Ole (1997), Computing morphosyntactic differences. A typological perspective on German and Norwegian. In: Journal of Quantitative Linguistics 4, 35K44. Basili, Roberto/Marziali Alessandro/Pazienza, Maria Teresa (1994), Modelling syntactic uncertainty in lexical acquisition from texts. In: Journal of Quantitative Linguistics 1, 62K81. Behaghel, Otto (1930), Von deutscher Wortstellung. In: Zeitschrift für Detschkunde 44, 81K89. Best, Karl-Heinz (2003), Spracherwerb, Sprachwandel und Wortschatzwachstum in Texten. Zur Reichweite des Piotrowski-Gesetzes. In: Glottometrics 6, 9K34. Brown, Keith/Miller, Jim (eds.), Concise Encyclopedia of Syntactic Theories. Oxford/New York: Pergamon, 1996. Bunge, Mario (1995a), Quality, quantity, pseudoquantity and measurement in social science. In: Journal of Quantitative Linguistics 2, 1K10. Bunge, Mario (1995b), Causality and probability in linguistics. A comment on ‘Informational Measures of Causality’ by Juhan Tuldava. In: Journal of Quantitative Linguistics 2, 15K16. Cysouw, Michael (2003), Against implicational universals. In: Linguistic Typology 7, 89K101.
290
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
Dik, Simon C. (1997), The Theory of Functional Grammar, Part 1: The Structure of the Main Clause. (ed. Hengeveld, Kees). Berlin: Mouton de Gruyter (2nd revised edition). Dryer, Matthew S. (2003), Significant and non-significant implicational universals. In: Linguistic Typology 7, 108K128. Ellega˚rd, Alvar (1953), The Auxiliary do: The Establishment and Regulation of Its Use in English. Stockholm: Almquist & Wiksell. Fischer, Susan (2003), Rethinking the Tobler-Mussafia law. In: Diachronica 20, 259K288. Frumkina, Revekka Markovna (1962), O zakonax raspredelenija slov i klassov slov. In: Strukturnotipologičeskie issledovanija (ed. T. N. Mološnaja). Moscow: ANSSSR, 124K133.
John Moore/Maria Polinsky). Stanford: CSLI Publications, 121K152. Hoffmann, Christiane (1999), Word order and the principle of “Early Immediate Constituents” (EIC). In: Journal of Quantitative Linguistics 6, 108K116. Hug, Marc (1998), French demonstrative particles ci and là: Linguistic intuitions and statistical facts. In: Journal of Quantitative Linguistics 5, 195K205. Köhler, Reinhard (1984), Zur Interpretation des Menzerathschen Gesetzes. In: Glottometrika 6 (eds. Joachim Boy/Reinhard Köhler). Bochum: Brockmeyer, 177K183. Köhler, Reinhard (1999), Syntactic structures: Properties and interrelations. In: Journal of Quantitative Linguistics 6, 46K57.
Furigori, Teiji/de Paiva Alves, Eduardo (1999), Disambiguation of syntactic structures using strength of association in three word dependency relations. In: Journal of Quantitative Linguistics 6, 101K107.
Köhler, Reinhard (2000), A study on the informational content of sequences of syntactic units. In: Jazyk, glagol, predloženie. K 70-letiju G. G. Sil’nitskogo (ed. Leonid A. Kuz’min). Smolensk, 51K 61.
Gieseking, Kathrin (1998), What to count and when to decide: Open issues in frequency-based models of human parsing. In: Journal of Quantitative Linguistics 5, 188K194.
Köhler, Reinhard (2001), The Distribution of Some Syntactic Constructions Types in Text Blocks. In: Quantitative Linguistics 60, Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Festschrift in honour of Luděk Hřebíček (eds. Gabriel Altmann/ Reinhard Köhler/Ludmila Uhliřová/Gejza Wimmer). Trier: WVT, 136K148.
Gordesch, Johannes/Dretzke, Burkhard (1998), Correctness in language: A formal theory. In: Journal of Quantitative Linguistics 5, 13K26. Greenberg, Joseph H. (1966), Some universals of grammar with particular reference to the order of meaningful elements. In: Universals of Language (ed. Joseph H. Greenberg). Cambridge, Mass.: MIT Press, 73K113. Gries, Stefan T. (2001), A multifactorial analysis of syntactic variation: Particle movement revisited. In: Journal of Quantitative Linguistics 8, 33K 50. Hawkins, John A. (1983), Word Order Universals. New York: Academic Press. Hawkins, John A. (1990), A parsing theory of word order universals. In: Linguistic Inquiry 21, 223K261. Hawkins, John A. (1994), A Performance Theory of Order and Constituency. Cambridge: Cambridge University Press. Hawkins, John A. (1999a), Processing complexity and filler-gap dependencies across grammars. In: Language 75, 244K285. Hawkins, John A. (1999b), The relative order of prepositional phrases in English: Going beyond Manner-Place-Time. In: Language Variation and Change 11, 231K266. Hawkins, John A. (2001), Why are categories adjacent? In: Journal of Linguistics 37, 1K34. Hawkins, John A. (2003), Efficiency and complexity in grammars: Three general principles. In: The Nature of Explanation in Linguistic Theory (eds.
Köhler, Reinhard (2003a), Zur Wachstumsdynamik (Type-Token-Ratio) syntaktischer Funktionen in Texten. In: Rusistika Slavistika Lingvistika. Festschrift für Werner Lehfeldt zum 60. Geburtstag. (Die Welt der Slaven, Sammelbände Bd. 19). (eds. Sebastian Kempgen/Ulrich Schweier/Tilman Berger). München: Otto Sagner, 498K504. Köhler, Reinhard (2003b), Zur Type-Token-Ratio syntaktischer Einheiten. Eine quantitativ-korpuslinguistische Studie. In: Sprache zwischen Theorie und Technologie (eds. Lea Cyrus/Henrik Feddes/ Frank Schumacher/Petra Steiner). Wiesbaden: Deutscher Universitäts-Verlag, 93K101. Köhler, Reinhard/Altmann, Gabriel (2000), Probability distributions of syntactic units and properties. In: Journal of Quantitative Linguistics 7, 189K200. Köhler, Reinhard/Martináková-Rendeková, Zuzana (1998), A systems theoretical approach to language and music. In: Systems. New paradigms for the human sciences. (eds. Gabriel Altmann/ Walter Koch). Berlin/New York: Walter de Gruyter, 514K546. Kroch, Anthony S. (1989), Reflexes of grammar in patterns of language change. In: Language Variation and Change 1, 199K244. Kroch, Anthony S./Taylor, Ann (1997), Verb movement in Early Middle English. In: Parameters and Morphosyntactic Change (eds. Ans van Kemenade/Nigel Vincent). New York: Cambridge University Press, 297K325.
20. Syntactic units and structures Levickij, Viktor V./Romanova, T. A. (1997), Use of tenses of verbs and adverbs in the English language: A statistical study. In: Journal of Quantitative Linguistics 4, 135K138. Lohse, Barbara/ Hawkins, John A./Wasow, Thomas (2004), Domain minimization in English verb-particle constructions. In: Language 80, 238K261. McCafferty, Kevin (2004), Innovation in language contact: Be after V-ing as a future gram in Irish English, 1670 to the present. In: Diachronica 21, 113K160. McWhorter, John H. (2001), The world simplest grammars are creole grammars. In: Linguistic Typology 5, 125K166. Mithun, Marianne (1987), Is basic word order universal? In: Coherence and Grounding in Discourse. (ed. Russell S. Tomlin). Amsterdam: John Benjamins, 281K328. Newmeyer, Frederick J. (2003), Grammar is grammar and usage is usage. In: Language 79, 682K 707. Nichols, Johanna/Peterson, David A./Barnes, Jonathan (2004), Transitivizing and detransitivizing languages. In: Linguistic Typology 8, 149K211. Ogura, Mieko (1993), The development of periphrastic do in English: A case of lexical diffusion in syntax. In: Diachronica 10, 51K85. Rijkhoff, Jan/Bakker, Dik (1998), Language sampling. In: Linguistic Typology 2, 263K314. Saukkonen, Pauli (1997), Typology of Finnish word order. In: Journal of Quantitative Linguistics 4, 257K265. Těšitelová, Marie (1992), Quantitative Linguistics. Amsterdam/Philadelphia: John Benjamins. Thümmel, Wolf (1992), Bewertung von Syntaxen für die beschreibung natürlicher Sprachen. In: Glottometrika 13 (ed. Burghard Rieger). Bochum: Brockmeyer, 241K286. Tuldava, Juhan (1980), K voprosu ob analitičeskom vyraženii svjazi meždu ob“emom slovarja i ob“emom teksta. In: Lingvostatistika i kvantitativnye zakonomernosti teksta. Tartu: Učenye zapiski Tartuskogo gosudarstvennogo universiteta 549, 113K144. Tuldava, Juhan (1995a), Informational measures of causality. In: Journal of Quantitative Linguistics 2, 11K14. Tuldava, Juhan (1995b), A comment on Bunge’s ‘Causality and probability in linguistics’. In: Journal of Quantitative Linguistics 2, 17K18.
291 Tweedie, Fiona J./Frischer, Bernard D. (1999), Analysis of classical Greek and Latin compositional word-order data. In: Journal of Quantitative Linguistics 6, 85K97. Uhlířová, Ludmila (1997), Length vs. order: Word length and clause length from the perspective of word order. In: Journal of Quantitative Linguistics 4, 266K275. Vulanović, Relja (1991), On measuring grammar efficiency and redundancy. In: Linguistic Analysis 21, 201K211. Vulanović, Relja (1993), Word order and grammar efficiency. In: Theoretical Linguistics 19, 201K222. Vulanović, Relja (1995), Model-based measuring of syntactic change. In: Journal of Quantitative Linguistics 2, 67K76. Vulanović, Relja (1997), The development of negation in French: A quantitative model. In: Journal of Quantitative Linguistics 4, 276K280. Vulanović, Relja (1999), Grammar efficiency and the historical development of word order in French. In: Issues in Mathematical Linguistics (ed. Carlos Martín-Vide). Amsterdam: John Benjamins, 193K206. Vulanović, Relja (2003a), Grammar efficiency and complexity. In: Grammars 6, 127K144. Vulanović, Relja (2003b), Fitting periphrastic do in affirmative declaratives. Paper presented at Qualico 2003 (to appear in the Journal of Quantitative Linguistics). Vulanović, Relja (to appear a), The rise and fall of periphrastic do in affirmative declaratives: A grammar efficiency model. In: Journal of Quantitative Linguistics. Vulanović, Relja (to appear b), The combinatorics of cases and word order. In: Research on Language and Computation. Yang, Charles D. (2000), Internal and external forces in language change. In: Language Variation and Change 12, 231K250. Yngve, Victor H. (1960), A model and an hypothesis for language structure. In: Proceedings of the American Philosophical Society 104, 444K466. Yngve, Victor H. (1996), From Grammar to Science: New Foundations for General Linguistics. Amsterdam/Philadelphia: John Benjamins. Zipf, Georg K. (1949), Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology. Cambridge, Mass.: Addison-Wesley.
Relja Vulanović, Canton (USA) Reinhard Köhler, Trier (Germany)
292
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
21. Probabilistic grammar 1. 2. 3. 4.
Introduction Probabilistic context-free grammar Other types of probabilistic grammars Literature (a selection)
1.
Introduction
During the last decades numerous grammatical formalisms have been put forward in order to enable linguists to describe the varieties of syntactic phenomena found in natural language in a systematic and principled way while at the same time guaranteeing desirable formal properties like being declarative, reversible and efficiently parsable. Considering grammars as tools which make it possible to assign structural descriptions to complex natural language expressions (sentences in most cases), it seems natural to classify them by a number of simple parameters (cf. Bod 1995, 15 f.): P1 Which simple objects (like rules or trees) for building structural descriptions does the grammar propose? P2 Which composition rules are used to combine (simple) objects? P3 What kind of structural descriptions does the grammar generate? Probabilistic Grammars make it necessary to add a further parameter: P4 Which probability model is used to compute the probability of an expression or a structural description? Take context-free grammars (CFGs) as an example. The structural descriptions a CFG generates can be represented as trees with simple symbols as node labels (P3). CFGs use context-free rules, which can be viewed as local trees, i. e. trees of depth 1 (P1). In a tree a leaf can be replaced by a local tree if the label of the root of this local tree and the label of the leaf are identical (P2). We will concentrate on probabilistic context-free grammars (2) including methods for parameter estimation (2.2) and grammar induction (2.3). Short descriptions of other types of probabilistic grammars, like dependency grammars (3.1), unification grammars (3.2), and tree grammars (3.3), follow.
2.
Probabilistic context-free grammar
Probabilistic context-free grammars (PCFGs) have been a starting point for quantitative
work in syntax. The first publications examining their theoretical properties and their practical potential date back to the late sixties and the early seventies (cf. Booth 1969; Suppes 1970; Booth/Thompson 1973; Sankoff 1969; 1971). A context-free grammar (CFG) G Z ! VN, VT, S, R O consists of (a) a finite set of non-terminal symbols VN denoting grammatical and lexical categories, (b) a finite set of terminal symbols VT , (c) a distinguished start symbol S 2 VN, and (d) a finite set R of context-free rules X / α, with X 2 VN and α 2 (VN g VT)*. The language L (G) defined by G is the set of all terminal strings which can be derived in G. A derivation of a string w Z w1 ... wn (wn1 for short) is a sequence α1 . αr with: α1 Z S, αr Z wn1 , αi 2 (VN g VT)* and αj Z β1 X β2, αjC1 Z β1 γ β2 (1 % j ! r) for some X / γ 2 R. A leftmost derivation is a derivation in which in every step the leftmost non-termimal is replaced. There is a one-toone correspondence between structural descriptions and leftmost derivations. In a PCFG a probability distribution for all rules expanding the same symbol is defined, i. e. each rule r is assigned a rule probability P (r) so that c (X 2 VN) ∑ P (X / αi) Z 1
(1)
i
For a rule X / α, the rule probability denotes the probabilty that in a derivation the symbol X is replaced by α. So P (X / α) can be taken as short for P (X / α | X). For this reason rule probabilities of this kind are sometimes called top-down probabilities. Rule probabilities are used in a straightforward manner to compute derivation and string probabilities. Let r1, ... , rn be the sequence of rules used in a (leftmost) derivation α Z α1, ... , α nC1 of a string w. The probability of α is defined as the product of the rule probabilities of the rules used in the derivation, i. e. n
P (α) Z ∏ P (ri) iZ1
(2)
293
21. Probabilistic grammar
The probability of a string w is defined as the sum of the probabilities of all leftmost derivations of w. P (w) Z ∑
α2δ
P (α)
1
S
NP
VP
(3) NP
with δ as the set of all leftmost derivations of w in G. Again P (α) and P (w) are short forms for P (α K G) and P (w K G). Example (1) Let G1 be a PCFG containing the following rules. r1 r2 r3 r4
S/NP VP 1.0 NP/n 0.45 NP/det n 0.35 NP/NP PP 0.2
r5 r6 r7 r8
VP/v 0.35 VP/v NP 0.5 VP/V NP PP 0.15 PP/P NP 1.0.
NP
n
2
v
det
(a) by the lexical context of c, i. e. the words to the left and right of c (b) by the structural context of c, i. e. the constituents in τ which are no subconstituents of c, or (c) by the actual position of wil within wn1 . A PCFG G can serve as a language model if it defines a probability distribution on the set of all possible leftmost derivations and thereby on L (G):
∑
P (w) Z 1
(4)
w2L(G)
It seems natural to expect that any PCFG fulfills this condition as long as equation (1) holds. But it is well known that there are PCFGs for which this is not true. The probability distributions of these grammars are called improper. Fortunately, it has been proven that standard methods for parameter estimation as described in the following section guarantee proper probability distributions (cf. Chi/Geman 1998).
n
p
det
n
S
NP
VP
There are two leftmost derivations for a sentence w Z n v det n p det n, which yields the structural descriptions τ1and τ2: P (τ1) Z P (r1) ) P (r2) ) P (r7) ) P (r3) ) P (r8) ) P (r3) Z 1 ) 0.45 ) 0.15 ) 0.352 ) 1 Z 0.0083 P (τ2) Z P (r1) ) P (r2) ) P (r6) ) P (r4) ) P (r3) ) P (r8) ) P (r3) Z 1 ) 0.45 ) 0.5 ) 0.2 ) 0.352 ) 1 Z 0.0055 P (w) Z P (τ1) C P (τ2) Z 0.0083 C 0.0032 Z 0.0138. This example reveals some characteristic properties of PCFGs. Let τ be an arbitrary structural description of a string wn1 and c a constituent of τ which dominates wli. The probability of c is not influenced
PP
NP NP
PP NP
n
v
det
n
p
det
n
Fig. 21.1: Two parse trees, their probabilities, and the sentence probability.
2.1. Parameter estimation How are the parameters of a PCFG to be selected? It is standard practice to use maximum-likelihood estimation for determining the rule probabilities. Given a (training) corpus C the probability of a rule X / α is estimated by calculating: f (X / α, C) Pˆ (X / α) Z , f (X, C)
(5)
where f (X / α, C) (versus f (X, C)) denotes the number of times the rule X / α (versus any rule expanding the symbol X) is used while parsing C. Two cases are to be considered: If the data are fully observed, i. e. if C is a parsed corpus, the f-values can be obtained directly. Otherwise, these values are computed by the Inside-outside algorithm (cf. Baum 1972; Dempster/Laird/Rubin 1977; Baker 1979), a generalized version of the forward-backward algorithm used for training hidden Markov models. Both algorithms are instances of the estimation maximization algorithm (EM algorithm). To understand how this algorithm works it is useful to consider a naive procedure for
294
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
computing the f-values: This procedure starts with a grammar G with arbitrarily chosen parameters (but still in accordance with equation (1)). Then G is used to compute for each sentence in C all parse trees derivable in G. The probabilities of the parse trees are calculated, and when counting the rules, the probabilities of the parse trees are used as weights. This last step can be repeated yielding each time a set of parameters which assign C a monotonically increasing probability, i. e. P (C K Gi) % P (C K GiC1). The inside-outside algorithm (IOA) can be considered an efficient version of this naive procedure which computes the f-values with the help of inside and outside probabilities. The IO algorithm can be formulated for arbitrary PCFGs (cf. Kupiec 1992; Charniak 1993), but to make things easier, we assume that G is in Chomsky Normal Form (i. e. G contains only rules of the form X / Y Z and X / a, with X, Y, Z 2 VN, and a 2VT). 2.1.1. Inside and outside probabilities * wki K G) that a symbol The probability P (X 0 X dominates a (sub)string of terminal symbols is called inside probability (IP) and denoted by β (X, i, k). The computation of IPs implies summation over the probabilities of all possible parse tree configurations of that string with root X. The IP of a string wn1 can be calculated by the inside algorithm, which operates bottom-up:
The probability that a constituent covering the string wki occurs within a structural description of wn1 is called outside probability (OP) and is denoted by α (X, i, k). The outside algorithm computes OPs top-down: PROCEDURE OUTSIDE (wn1 , wki, X, G) For all X 2 VN , 1 % i, j % n: α (X, i, j) :Z 0 α (S, 1, n) :Z 1 For k from n K 1 downto 1: For i from 1 to n K k: For m from i to i C k K 1: For each rule Y / Z1 Z2: α (Z1, i, m) :Z α (Z1, i, m) C α (Y, i, i C k) ! β (Z2, m C 1, i C k) ! P (Y / Z1 Z2) α (Z2, m C 1, i C k) :Z α (Z2, mC1, iCk)Cα (Y, i, iCk) ! β (Z1, i, m) ! P (Y / Z1 Z2) Return α (X, i, k). Again, the probability of a sentence can be computed efficiently by the outside algorithm for any k such that 1 % k % n: P (wn1) Z
* * w1 ...wk ...wn , X0 wk) ∑ P (S0
X2VN
Z
* w1kK1 XwnkC1) ∑ P (S0 * ! P (wk K S0 w1kK1 XwnkC1)
Z
∑ α (X, k, k) ! P (X/wk).
X2VN
(wn1,
PROCEDURE INSIDE X, G) For all Y 2 VN, 1 % i, j % n: β (Y, i, j) :Z 0. For each wi : For each rule Y / wi : β (Y, i, i) :Z P (Y / wi). For k from 1 to nK1 For i from 1 to nKk: For m from i C 1 to i C kK1: For each rule Y/Z1 Z2 : β (Y, i, i C k) :Z β (Y, i, i C k) C P (Y/Z1 Z2) ! β (Z1, i, m) ! β (Z2, m C 1, i C k). Return β (X, 1, n) Obviously, the probability of a sentence can be derived efficiently by the inside algorithm:
Now we are in a position to solve equation (5). 2.1.2. The Inside-outside algorithm Combining inside and outside probabilities, it is easy to determine the probability that given a string wn1 2 L (G) a rule was employed in the derivation of wn1 and covers a substring wki. For a lexical rule X / w we get: * * * P (S0 w1kK1 XwkC10 wn1 K S0 w1n) α (X, k, k) P (X / w) Z β (S, 1, n)
(6)
(8)
For a syntactic rule X / YZ we get: 1 * * * P (S0 wiK1 XwkC10 w1n K S0 w1n) k
Z∑ jZi
* P (wn1 ) Z P (S0 wn1 K G) Z β (S, 1, n).
(7)
X2VN
β (Y, i, j) β (Z, j, k) β (S, 1, n) !
α (X, i, k) P (X / Y Z) β (S, 1, n)
(9)
295
21. Probabilistic grammar
Let γ (X / α, i, j) denote the value computed by the two equations above. PROCEDURE INSIDE-OUTSIDE (C, G) Repeat until !terminationO: For each rule X / α: f (X / α, C) :Z 0. For each sentence w 2 C: For i from 0 to K w K K 1: For j from 1 to K w K K i: For each rule X/α: f (X/α) :Z f (X / α) Cγ (X / α, i, j) For each rule X / α: P (X / α): Z
f (X / α, C) . f (X, C)
The procedure is repeated for a predefined number of times or, which is more sensible, until the change in the parameter values falls below a specified threshold. Although the IOA is widely used, there are a number of problems, which limit its applicability: (a) The algorithm conducts basically a hillclimbing search and consequently suffers from the well-known shortcomings of this search strategy: It does not guarantee to produce the optimal solution, because it can get stuck in a local maximum or a plateau. As experiments have shown (cf. Charniak 1993, 104 f.), the strategy of running the IOA with different initial values seems not to be very successful in solving these problems. (b) The IOA is slow. As proven in (Lari/ Young 1990), its time complexity for a string of length w and a PCFG with n non-terminal symbols is O(w3n3). This makes the selection of the initial values of the grammar an important matter: Good values lead to a faster termination of the algorithm. Both problems lose impact if a bracketed corpus can be used for parameter estimation (cf. Pereira/Schabes 1992; Schabes/Roth/Osborne 1993): Phrase-boundary markers constitute a source of information which can guide the search process quite efficiently. 2.2. Inducing PCFGs Training a PCFG with the help of the IOA still leaves the burden of designing the grammar on the linguist. An algorithm which induces the complete PCFG would be handy. Grammatical inference is a vivid research topic of its
own. We will just sketch two approaches for inducing PCFGs. First, it is possible to use the IOA. Restricting the hypotheses space to grammars in CNF, it is possible to enumerate all rules which can be formulated over a fixed set of terminal and non-terminal symbols. Starting with an arbitrary probability distribution, the IOA can be applied in the usual way. Finally, all rules with probabilities lower than a predefined threshold are removed and the weights of the remaining rules are adjusted (cf. Lari/Young 1991). The other approach goes back to J. Horning (Horning 1969) and K as it heavily relies on Bayes’ rule K is called Bayesian grammar induction. The aim is to induce a grammar, which is as simple (or small) as possible while still fitting the data well. In other words, for a given corpus C, one tries to generate a grammar G with maximum a posteriori probability, i. e. ¯ K C) G Z arg max P (G ¯ G
(10)
Using Bayes’ rule we get: ¯ ) ! P (G ¯) P (C K G P (C) ¯ ) ! P (G ¯) Z arg max P (C K G
G Z arg max ¯ G
(11)
¯ G
‘P (G)’ is called the a priori probability of G and can be taken as a measure for the complexity of G. While Horning used an algorithm which enumerates all possible grammars ordered by decreasing a priori probability, an approach which proved to be infeasible for practical applications, more recent systems employ algorithms which are heuristic in spirit: Stolcke and Omohundro (Stolcke/Omohundro 1994) start with a primitive grammar for C (each sentence covered by a distinct rule) and then apply generalization operators, which merge non-terminals and introduce new rules for sequences of non-terminals (chunking). Their algorithm uses a beam search strategy which considers a number of grammars in parallel and stop when no possible action leads to an improvement. S. Chen, on the other hand, uses an incremental algorithm which starts with a small universal grammar, i. e. L (G) Z V* (Chen 1995). The final grammar is tuned in a post-pass by applying the IOA. In both systems the minimal description length principle is used to determine P (G).
296
3.
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
Other types of probabilistic grammars
Inspired by the re-emergence of empirical approaches in linguistics within the last decade, probabilistic variants of numerous types of grammars have been developed. 3.1. Probabilistic Dependency Grammars In structural descriptions generated by a phrase-structure grammar (PSG) the representation of the sentence is based on a partwhole relation. In contrast, a dependency grammar (DG) models syntactic structures by using dependency relations, which can be considered as head-modifier relations. Typically, in a dependency structure the verb is taken to be the head of the sentence. As the potential to act as a modifier or head is ascribed directly to words or word classes, a DG can be considered as a lexicalized grammar. It is this feature which makes DG an attractive candidate for developing probabilistic grammars that are able to represent the way lexical context influences parsing decisions much better than PCFGs. One of the grammar formalisms that has been successfully used for corpus linguistic research is link grammar (cf. Sleator/Temperley 1993), which can be regarded as a special kind of DG. Link grammars can be trained by a modified version of the IOA (Lafferty/Sleator/ Temperley 1992), and it has been argued that they form a much better candidate for grammar induction than PCFGs (de Marcken 1995). Experiments with a system for inducing DGs are reported in (Carroll/Charniak 1992a;
NP Det
N1 N
PP NP
P a
question of
honor
a
question of
honor
mod
head head
mod
mod
Fig. 21.2: Sentence with constituent and dependency structure.
1992b). Parsing algorithms and systems for DGs have been developed by J. Eisner and M. Collins (cf. Eisner 1996; Collins 1997). 3.2. Probabilistic unification grammars Unification-based grammar formalisms, like Generalized Phrase Structure Grammar (GPSG), Lexical-Functional Grammar (LFG) and Head-Driven Phrase Structure Grammar (HPSG), use feature structures to denote grammatical and lexical categories. With the help of general principles (namely, wellformedness conditions on structural descriptions), they can handle phenomena like agreement, (partially) free word order, and non-local syntactic dependencies, which are beyond the descriptive power of simple PSGs. A feature structure is a set of attribute-value pairs (values being atomic or feature structures themselves), with each attribute occurring at most once. Although most unification grammars (UGs) contain a context-free backbone, there are problems which have to be faced when formulating a probabilistic version of a UG: (a) It is well-known that even a small number of attributes with restricted domain can result in an enormous number of different categories. This leads to a massive sparse data problem. (b) A second problem arises when feature terms in a structure express dependencies (e. g. via re-entrancies). Abney has shown that in these cases estimation methods based on (empirical) relative frequencies lead to improper distributions (cf. Brew 1995; Abney 1997). One way to avoid the first problem is to disregard a number of features while training the grammar, i. e. for parameter estimation, the grammar is reduced to a context-free core grammar (cf. Black/Lafferty/Roukos 1992; Briscoe/Carroll 1993). The second problem can be solved by using a more general sampling method (Metropolis-Hastings algorithm) as proposed by Abney. Probabilistic feature grammar, a grammar formalism formulated by Goodman (cf. Goodman 1997), avoids both problems by (a) applying standard smoothing techniques and suitable independence assumptions, and (b) conditioning the probability of a feature on a restricted number of features in its local context.
21. Probabilistic grammar
3.3. Probabilistic tree grammars Although the structural descriptions generated by the grammar formalisms we have looked at so far differed both in syntax (atomic symbols vs. feature structures) and semantics (part-whole vs. head-modifier relation), these descriptions are nevertheless built up by combining objects which can be viewed as local trees. Tree grammars, on the other hand, do not restrict the size of the basic objects they use for generating structural descriptions in this way. In a Stochastic Tree-Substitution Grammar (STSG) the rule-set (P1) consists of a finite number of trees of arbitrary complexity. These trees are combined by leftmostsubstitution (P2) to form complete structural descriptions. STSG is the grammar formalism which underlies the data-oriented parsing approach as promoted by R. Bod (cf. Bod 1993; Bod 1998). Lexicalized Tree-Adjoining Grammars (LTAGs) and Lexicalized Tree Insertion Grammars (LTIGs), which form a restricted version of LTAGs, distinguish two types of trees. Initial trees, which are rooted by S and are used in the first step of a derivation; and auxiliary trees (P1). For both types of trees, different well-formedness conditions hold. Complex trees are formed by substitution and adjunction (P2). While LTAGs are mildly context-sensitive, LTIGs are contextfree due to further restrictions on the adjunction operation and the form of auxiliary trees (cf. Schabes/Waters 1995). Both formalisms have received a probabilistic treatment (cf. Schabes 1992; Schabes/Waters 1996). The main advantage of tree grammars over conventional PSFGs lies in their ability to describe the lexical and structural factors which affect the probability of a constituent. But this descriptive power is paid for with a loss of efficiency: In a tree grammar there is no one-to-one relation between canonical derivations and structural descriptions. Since different canonical derivations might lead to the same parse, one has to consider all derivations in order to determine its probability.
4.
Literature (a selection)
Abney, Steven P. (1997), Stochastic attributevalue grammars. In: Computational Linguistics 23 (4), 597K618.
297 Baker, James (1979), Trainable grammars for speech recognition. In: Communications Papers of the 97th Meeting of the Acoustical Society of America. Cambridge, M. A. Baum, Leonard E. (1972), An inequality and associated maximization technique in statistical estimation of probabilistic functions of Markov processes. In: Inequalities. 3: 1K8. Black, Ezra/Lafferty, John/Roukos, Salim (1992), Development and evaluation of a broad-coverage probabilistic grammar of English-language computer manuals. In: Proceedings of the 30th Annual Meeting of the ACL, 185K192. Bod, Rens (1993), Data-oriented parsing as a general framework for stochastic language processing. In: Parsing Natural Language (Eds. K. Sikkel/ A. Nijholt) Twente University, Twente, Netherlands. Bod, Rens (1995), Enriching Linguistics with Statistics: Performance Models of Natural Language. PhD thesis. Universiteit van Amsterdam. Bod, Rens (1998), Beyond Grammar. Ca: CSLI Publications, Stanford. Booth, Taylor L. (1969), Probabilistic representation of formal languages. In: 10th Annual IEEE Symposium on Switching and Automata Theory, 74K81. Booth, Taylor L./Thompson, Richard A., (1973), Applying probability measures to abstract languages. In: IEEE Transactions on Computers, C22 (5), 442K50. Brew, Chris, (1995), Stochastic HPSG. In: EACL, 83K89. Briscoe, Ted/Caroll, John (1993), Generalized probabilistic LR parsing of natural language (corpora) with unification-based grammars. In: Computational Linguistics, 19 (1), 25K61. Carroll, Glenn/Charniak, Eugene (1992a), Learning probabilistic dependency grammars from labeled text. In: Intelligent Probabilistic Approaches to Natural Language. Papers from the 1992 Fall Symposium, AAAI, 25K32. Carroll, Glenn/Charniak, Eugene (1992b), Two experiments on learning probabilistics dependency grammars form corpora. In: StatisticallyBased Natural Language Programming Techniques, 1K13. AAAI. Charniak, Eugene (1993), Statistical Language Learning. MA: MIT Press, Cambridge. Chen, Stanlay F. (1995), Bayesian grammar induction for language modeling. In: Proceedings of the ACL, 228K235. Chi, Zhiyi/Geman, Stuart (1998), Estimation of probabilistic context-free grammars. In: Computational Linguistics 24 (2), 299K305. Collins, Michael J., (1997), Three generative, lexicalized models for statistical parsing. In: Proceedings of the EACL, 16K23.
298
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
de Marcken, Carl (1995), On the unsupervised induction of phrase structure grammars. In: 3rd Workshop on Very Large Corpora, 1995. Dempster, Arthur P./Laird, Nan M./Rubin, Donald B. (1977), Maximum likelihood from incomplete data via the EM algorithm. In: Journal of the Royal Statistical Society. 39, 1K38. Eisner, Jason (1996), Three new probabilistic models for dependency parsing: An exploration. In: Proceedings of the ACL, 340K45. Goodman, Joshua (1997), Probabilistic feature grammar. In: Proceedings of the International Workshop on Parsing Technologies. Horning, James J. (1969), A study of grammatical inference. PhD thesis. Stanford. Kupiec, James (1992), An algorithm for estimating the parameters of unrestricted hidden stochastic context-free grammars. In: ICCL, 387K93. Lafferty, John/Sleator, Daniel/Tamperley, Dary (1992), Grammatical trigrams: A probabilistic model of link grammar. In: AAAI. Lari, Karim/Young, Steve J. (1990), The estimation of stochastic context-free grammars using the inside-outside algorithm. In: Computer Speech and Language 4, 35K56. Lari, Karim/Young, Steve J. (1991), Applications of stochastic context-free grammars using the inside-outside algorithm. In: Computer Speech and Language 5, 237K257. Pereira, Fernando/Schabes, Yves (1992), Insideoutside re-estimation from partially bracketed corpora. In: 20th meeting of the ACL, 128K35.
Sankoff, David (1969), Historical Linguistics as Stochastical Process. PhD thesis. McGill University, Montreal. Sankoff, David (1971), Branching processes with terminal types: applications to context-free grammars. In: Journal of Applied Probability 8, 233K 240. Schabes, Yves, (1992), Stochastic tree-adjoining grammars. In: DARPA Workshop, 140K45. Schabes, Yves/Roth, M./Osborne Randy (1993), Parsing the Wall Street Journal with the insideoutside algorithm. In: EACL 6, 341K47. Schabes, Yves/Waters Randy C. (1995), Tree insertion grammar: A cubic-time, parsable formalism that lexicalizes context-free grammars without changing the trees produced. In: Computational Linguistics 21 (4), 479K513. Schabes, Yves/Waters Randy C. (1996), Stochastic lexicalized tree-insertion grammar. In: Recent Advances in Parsing Technology. (Eds. H. Bunt/M. Tomita). Kluwer Academic Press, 281K294. Sleator, Daniel/Temperley, Davy (1993), Parsing English with a link grammar. In: Third International Workshop on Parsing Technologies. Stolcke, Andreas/Omohundro, Stephen (1994), Inducing probabilistic grammars by Bayesian model merging. In: Grammatical Inference and Applications. (Eds. C. Carrasco/J. Oncina). Springer, 106K118. Suppes, Patrick (1970), Probabilistic grammars for natural languages. In: Synthese 22, 95K116.
Sven Naumann, Trier (Germany)
22. Satzlänge 1. 2. 3. 4. 5. 6.
Satzlänge in der Forschung Annahmen zu einer Theorie der Verteilungen der Satzlängen Wie misst man Satz und Satzlänge? Verteilungen von Satzlängen Perspektiven Literatur (in Auswahl)
1.
Satzlänge in der Forschung
Ähnlich wie Wortlängen (vgl. Art. 19) sind auch Satzlängen bereits im 19. Jh. Gegenstand sprachstatistischer Bemühungen gewesen. Am Anfang standen anscheinend Shermans stilistische Untersuchungen zur Entwicklung der Satzlänge bei englischen Prosaautoren (Sherman 1888), wobei er eine allgemeine Tendenz zur Verkürzung der Sätze feststellte. Diese bahnbrechende Ar-
beit widmete sich außerdem der Frage, in welchem Maße damit eine Zunahme der einfachen Sätze auf Kosten der komplexen verknüpft ist, und stellt erste Erhebungen zur Variation der Satzlängen in verschiedenen Werken eines Autors an. Sherman (1888, 130) kommt zu dem Schluss: „It therefore seems clear that mathematics can be shown to sustain a certain relation to rhetoric, and may aid in determining its laws.“ Die weitere Forschung behandelt Satzlänge als Stilcharakteristikum, als Kriterium zur Klärung strittiger Autorschaft anonymer Texte sowie als Faktor der Lesbarkeit/ Textverständlichkeit. Es gibt außerdem etliche Untersuchungen, die Satzlänge im Rahmen des Menzerath-Altmannschen Gesetzes behandeln und darauf aufbauend in eine Text-
299
22. Satzlänge
theorie einbeziehen. Zu diesen Themen wird auf die entsprechenden Kapitel dieses Handbuchs verwiesen. Den Gesetzmäßigkeiten bei der Entwicklung der Satzlängen im Deutschen widmet sich Best (2002). Ein wichtiger Aspekt, der hier im Vordergrund der Darstellung stehen soll, ist ferner die Frage, ob es bestimmte Modelle gibt, denen die Verteilungen der Satzlängen entsprechen (Altmann 1988a, 148). Eine erste Lösung dieses Problems, die weithin akzeptiert wurde, ist der Vorschlag, dass Satzlängen der logarithmischen Normalverteilung gemäß in Texten vorkommen (Williams 1939, 357). Gegen diesen Vorschlag wurden zwei Argumente vorgebracht: (1) der Satzlängenmittelwert kann sich im Verlauf eines Textes erheblich ändern, und (2) werden Satzlängen keineswegs nur zufällig erzeugt, sondern unterliegen Textfaktoren, z. B. der Rücksicht auf den Hörer, stilistischen Absichten wie Simulierung unterschiedlicher Sprech- oder Schreibstile, etc. (Altmann 1988a, 150). Ein zweiter Vorschlag stammt von Sichel (1971; 1974), der Satzlängen als Variablen betrachtet, die der zusammengesetzten Poisson-Verteilung folgen. Der Vorteil dieses Vorschlags liegt darin, dass es sich um eine sehr allgemeine Verteilung handelt; sie hat aber den Nachteil, linguistisch nur schwer interpretierbar zu sein (Altmann 1988b, 58). Beide Vorschläge zeichnen sich also dadurch aus, dass sie gute Übereinstimmungen mit den empirischen Befunden ermöglichen; sie sind jedoch für linguistische Zwecke nicht hinreichend begründet und weisen erhebliche theoretische Mängel auf.
2.
Annahmen zu einer Theorie der Verteilungen der Satzlängen
Ausgangspunkt für eine Theorie der Satzlängenverteilungen sind die Überlegungen, die zunächst für Wort- und Silbenlängenverteilungen angestellt wurden. Dazu meinte schon Fucks (1956, 7): „Die Gesetze nun, die uns speziell die Theorie der Wortbildung und die der Silbenbildung darstellen, werden wir gewinnen als relativ einfache Spezialfälle wesentlich allgemeinerer Gesetze, vor denen wir vermuten dürfen, dass sie die relativen Häufigkeitsverteilungen der Bestandteile irgendeines Sprachelementes beschreiben.“ Ganz analog dazu schlägt Altmann (1988b, 63) vor, für die Satzlängenver-
teilung „den gleichen Ansatz“ wie für die Wortlängenverteilung zu verwenden, wobei ggfs. unterschiedliche Modelle zu nutzen seien, je nach dem, wie Satzlänge gemessen wird. Altmann (1988a, 151 ff.) geht von der Überlegung aus, dass der relative Unterschied der Wahrscheinlichkeiten zweier benachbarter Satzlängen x und x K 1 eine Funktion von x ist, d. h. Dx Z (Px K PxK1) / PxK1 .
(1)
Die Differenz Dx ist daher nicht immer gleich, sondern sie ändert sich mit x. Sie unterliegt dem Einfluss des Sprechers (a), des Hörers (c) und dem von Textfaktoren (b). Falls man Satzlänge nach der Zahl der indirekten Konstituenten (Wörter) bestimmt, muss auch ein weiterer Faktor (d) für die Indirektheit der Konstituenz in Betracht gezogen werden. Misst man Satzlänge nach der Zahl der direkten („clauses“) Konstituenten, so kann man ansetzen: Dx Z
b K ax ; cx
(2)
durch Einsetzen in (1) und nach Umformungen erhält man die negative Binomialverteilung, die in ihrer 1-verschobenen Form Px Z
(
)
k C x K 2 k xK1 p q , xK1 x Z 1, 2, ...
(3)
lautet (Altmann 1988a, 152K153). Misst man aber Satzlänge nach der Zahl der Wörter, so ist für die zusätzliche, zwischengeschaltete Ebene der „clauses“ mit einem Störfaktor (d) zu rechnen, woraus sich DZ
b K ax ergibt; cx C d
(4)
dieser Ansatz führt nach Einsetzen in (1) und Umformungen zur Hyperpascal-Verteilung, die in 1-verschobener Form
Px Z
( (
) )
kCxK2 xK1
mCxK2 xK1
qxK1 P1 , x Z 1, 2, ...
(5)
lautet. Dieser Ansatz stimmt weitgehend mit dem überein, der in Wimmer/Köhler/ Grotjahn u. a. (1994) und Wimmer/Altmann (1996) für Wortlängenverteilungen entwickelt wurde; der einzige Unterschied besteht
300
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
darin, dass für D noch einige Möglichkeiten mehr in Betracht gezogen wurden. Man kann daher die Ansätze für Satz- und Wortlängen als einheitliche Theorie der Häufigkeitsverteilungen dieser Einheiten betrachten; an anderer Stelle (vgl. Art. 18) wird deutlich, dass diese Theorie offenbar auch für Morphlängen gilt. Es scheint sich also zu bestätigen, dass Fucks (1956) zu Recht allgemeine Gesetze für beliebige linguistische Entitäten annahm.
der Silben pro Satz (Clayman 1981; Fucks 1955, 46 f.), oder, was anscheinend noch niemand versucht hat, nach der Zahl der Morphe. Auch noch kleinere Einheiten (Laut, Buchstabe) können für Satzlänge genutzt werden (Phoneme: Clayman 1981). Diese Möglichkeiten spielen bisher aber bei den Untersuchungen, die das Ziel verfolgen, die Gesetze der Verteilungen der Einheiten in Texten aufzudecken, keine Rolle.
4. 3.
Wie misst man Satz und Satzlänge?
Die Bestimmung von „Satz“ und „Satzlänge“ kann prinzipiell auf unterschiedliche Weise erfolgen. Im Falle von „Satz“ hat sich in der Quantitativen Linguistik eine recht pragmatische Art der Definition durchgesetzt: „Satz“ wird bei schriftsprachlichen Texten gemäß orthographischen Kriterien als die Folge von Wörtern bestimmt, die durch satzabschließende Interpunktion !.O, !!O und !?O markiert wird. Es gibt einige Probleme dabei, die sich aber aller Erfahrung gemäß durch zusätzliche Konventionen ausräumen lassen. So wird man sich entscheiden müssen, ob die direkte Rede in einem komplexen Satz als eigenständiger Satz gelten soll oder nicht. Handelt es sich also bei Hans sagte: „Heute soll das Wetter schön werden“ um einen oder um zwei Sätze? Man kann dies so oder so festlegen, wenn es nicht gerade um die absoluten Werte geht. Auch andere Fälle wie Ausrufeoder Fragezeichen innerhalb von Sätzen K z. B. bei Interjektionen, Parenthesen K lassen sich durch Regeln lösen. „Satzlänge“ eröffnet dagegen etliche Möglichkeiten. Man kann ja die Länge einer Einheit nach der Zahl ihrer Konstituenten messen, wobei zu beachten ist, dass eine komplexe Einheit wie „Satz“ mehrere verschiedene direkte oder indirekte Konstituenten aufweist. In der Forschung wurde „Satzlänge“ meist nach der Zahl der Wörter bestimmt; bei chinesischen Texten bietet sich stattdessen die Zahl der Schriftzeichen pro Satz an (Jing 2001). In einigen Fällen aber wurde als Maß die Zahl der „clauses“ (Teilsätze) als Kriterium bestimmt, wobei für „clause“ das Vorkommen eines finiten Verbs nötig ist. Für verblose Sätze sind dann wiederum Sonderregelungen erforderlich. Es spricht nun nichts dagegen, Satzlänge auch ganz anders zu messen: nach der Zahl
Verteilungen von Satzlängen
Den aktuellen Stand der Theorie der Satzlängenverteilung repräsentieren die Arbeiten von Altmann (1988a), Wimmer/Köhler/ Grotjahn u. a. (1994) und Wimmer/Altmann (1996). Entsprechend seiner Überlegung, dass Satzlängen (in clauses gemessen: clause-Variante) der negativen Binomialverteilung bzw. (in Wörtern gemessen: WortVariante) der Hyperpascal-Verteilung folgen sollten, hat Altmann (1988a) beide Aspekte mit gutem Erfolg untersucht. Für die Wort-Variante fanden sich viele, vor allem altgriechische, aber auch etliche englische Texte K und ein slowakischer K analysiert in der Literatur; dabei waren die Satzlängen nach 1K5, 6K10, etc. Wörtern pro Satz zusammengefasst. Nur 9 von 244 Texten widersprachen der Hypothese, die negative Binomialverteilung stelle ein gutes Modell für Satzlängen (Wort-Variante) dar; einige weitere schieden aus anderen Gründen (Textmischung, unbekannte Zahl der Autoren) aus (Altmann 1988a, 158 f.). Für die clause-Variante wurden 10 Texte ausgewertet; für diese 10 Fälle (aus mehreren Sprachen) konnte die Hypothese, dass die Satzlängen gemäß der negativen Binomialverteilung in Texten vorkommen, bestätigt werden (Altmann 1988a, 159). Inzwischen sind einige weitere Untersuchungen zu Satzlängenverteilungen durchgeführt worden, die teilweise etwas abweichende Ergebnisse erbracht haben. 4.1. Wort-Variante In Best (2001c) wurden 25 Texte untersucht (12 literarische, 11 Pressetexte und 2 wissenschaftliche Texte). Alle Texte wurden zweifach ausgewertet: Zunächst wurden alle Satzlängen einzeln aufgelistet und danach erfolgte wie üblich zwecks „Glättung“ der Daten eine Zusammenfassung der Sätze mit 1K5, 6K10, etc. Wörtern. Mit Hilfe des Alt-
301
22. Satzlänge
mann-Fitters (1994/97) wurde gemäß den Annahmen in Altmann (1988a) an alle 50 Textdateien die 1-verschobene HyperpascalVerteilung angepasst. Die Ergebnisse sind insgesamt unakzeptabel: Bei den Textdateien ohne Zusammenfassung lässt sich die Hyperpascal-Verteilung nur in wenigen Fällen erfolgreich anwenden, bei den Dateien mit Zusammenfassung häufiger, aber auch nur in 15 von 25 Fällen. Stattdessen lässt sich die 1-verschobene negative Binomialverteilung in 23 Fällen erfolgreich anpassen; nur bei zwei literarischen Texten gelingt dies nicht. Nur unwesentlich andere Ergebnisse hat Niehaus (2001) bei weiteren 20 deutschen Texten erzielt; bei Textdateien ohne Zusammenfassung der Sätze mit 1K5, 6K10, etc. Wörtern erweist sich die Hyperpascal-Verteilung wiederum als unbrauchbar; bei Dateien mit Zusammenfassung ermöglicht sie meist akzeptable Anpassungen, die aber deutlich schlechter sind als die der negativen Binomialverteilung. Dieses Modell bewährt sich auch bei englischen (Kaßel/Livesey 2001) und weiteren 20 deutschen Pressetexten (Best 2002). Damit zeigt sich bei den 65 deutschen Texten, dass man nicht immer für die zusätzliche Ebene zwischen Einheit und indirekter Konstituente einen Störfaktor einkalkulieren muss. Diese Feststellung wird unterstützt durch entsprechende Untersuchungen zu Satzlängen im Chinesischen (Jing 2001) und Russischen (Roukk 2001); in diesen beiden Fällen stellt die 1-verschobene Hyperpoisson-Verteilung Px Z
a xK1 b(xK1) 1F1 (1; b; a)
, x Z 1, 2, ...
4.2. Clause-Variante Hierzu liegen drei Untersuchungen zum Deutschen (Niehaus 1997; Strehlow 1997; Wittek 2001) und eine einzelne Datei zum Chinesischen (Bohn 1998) vor. Gemäß den Überlegungen von Altmann (1988a) ist zu erwarten, dass in diesen Untersuchungen, die ja den Satz in Beziehung zu seiner direkten Konstituente, dem Teilsatz, sehen, die negative Binomialverteilung ein geeignetes Modell darstellen sollte. Als Ergebnis der Untersuchungen zum Deutschen ist festzustellen: Bei Niehaus (1997) bewährt sich, wie angenommen, die (positive) negative Binomialverteilung einigermaßen. Bei späteren Berechnungen hat sich jedoch gezeigt, dass mit der Hyperpoisson-Verteilung noch erheblich bessere Anpassungen durchgeführt werden können. Genau das gleiche Ergebnis lässt sich für die von Wittek (2001) und Strehlow (1997) bearbeiteten Texte geltend machen: Auch wenn teilweise andere Modelle sich bewähren, lassen sich mit der Hyperpoisson-Verteilung deutlich bessere Ergebnisse erzielen. Sie kann bei den insgesamt 245 Texten nur ein einziges Mal nicht angepasst werden. Dieses Ergebnis wird durch aktuelle Untersuchungen zur deutschen Fachsprache der Pädagogik im 19. Jh. (Yu 2002) und der Biologie im 20. Jh. (Busch 2002) voll bestätigt. Bohn (1998, 65 ff.) hat für ein chinesisches Textkorpus und für einen Einzeltext die Satzlängen in der clause-Variante untersucht und festgestellt, dass die negative Binomialverteilung für das Korpus ein gutes Modell darstellt, für den einzelnen Text jedoch nicht. Stattdessen kann an diesen Einzeltext die 1-verschobene Hyperpoisson-Verteilung mit gutem Ergebnis angepasst werden:
(6) x
ein gutes Modell dar; nur im Fall eines der insgesamt 44 Texte (je 22 für beide Sprachen) ergab sich eine nicht ganz befriedigende Anpassung. Man erhält die Hyperpoisson-Verteilung, wenn man Dx Z
a cCx
(7)
ansetzt und entsprechende Umformungen vornimmt. Es ist bemerkenswert, dass dieser Ansatz für die Hyperpoisson-Verteilung nur die sog. „Zipfschen Kräfte“ (a: Wirkung des Sprechers und c: Wirkung des Hörers; (Altmann 1988a, 152)) und keine weiteren Gestaltungsfaktoren enthält.
nx
1 2 3 4 5 6 7 8
38 89 40 13 5 0 0 1
3 a Z b Z X2 Z FG Z P Z
186 0.7206 0.3077 2.727 2 0.26
Abb. 22.1.
NPx 36.18 84.74 46.69 14.58 3.17K 0.53K 0.07K 0.04K
302
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
Dabei bedeuten: a, b K Parameter der Verteilung; x K Zahl der clauses pro Satz; nx K beobachtete Zahl der Sätze der Länge x; NPx K aufgrund der 1-verschobenen Hyperpoisson-Verteilung berechnete (theoretische) Zahl der Sätze der Länge x; X2 K das Chiquadrat; FG K Freiheitsgrade; P K Überschreitungswahrscheinlichkeit des Chiquadrats. Die durch Striche markierten Satzlängen mussten zusammengefasst werden. Eine Anpassung ist zufriedenstellend, wenn P O 0.05; es handelt sich also um eine gelungene Anpassung, wie auch die folgende Graphik verdeutlicht:
lung, wie angenommen, oft ein gutes Modell darstellt; bei deutschen Texten und einem chinesischen Beispiel erweist sich jedoch die Hyperpoisson-Verteilung als das eindeutig besser geeignete Modell. Es scheint sich hier anzudeuten, dass bei Satzlängen mit ähnlichen Verhältnissen wie bei Wortlängen (vgl. Art. 19) zu rechnen ist: Es gibt für Satzlängenverteilungen in beiden Varianten nicht ein einziges Modell für alle Sprachen, sondern man muss damit rechnen, dass unterschiedliche Verteilungen in Abhängigkeit von verschiedenen Einflussfaktoren zu wählen sein werden. Unklar ist noch, wie stark der Einfluss dieser Faktoren sich bemerkbar machen wird. Die wenigen Untersuchungen, die bisher durchgeführt wurden, lassen noch keine begründeten
100 80 60
beob. theor.
40 20 0
Abb. 22.2.
4.3. Ergebnisse Die Untersuchungen haben ergeben, dass die Annahmen Altmanns (1988a, 1988b) in wesentlichen Teilen stimmen, z. T. aber auch modifiziert werden müssen: Der Faktor der zusätzlichen Textebene(n) bei Messung der Satzlänge nach der Zahl der indirekten Konstituenten erfordert nicht immer ein Modell wie die Hyperpascal-Verteilung, das auf einem komplexen Ansatz für Dx mit d als Faktor der intervenierenden Textebene beruht; es genügt in vielen Fällen, Modelle wie die negative Binomialverteilung oder die Hyperpoisson-Verteilung zu wählen, die aus einfacheren Ansätzen für Dx entwickelt werden können. Auf jeden Fall befindet man sich mit diesen drei Verteilungen jedoch innerhalb einer kleinen Familie von Modellen, wie Wimmer/Altmann (1996, 114) gezeigt haben. Bestimmt man Satzlänge nach der Zahl der direkten Konstituenten, der clauses, so zeigt sich, dass die negative Binomialvertei-
Schlüsse darüber zu, ob oder wie stark sich Sprachtyp, Sprache, die Entwicklungsphase einer Sprache oder der Stil eines Autors, einer Gattung oder Textsorte auf die Verteilungen auswirken. In einem solchen Fall kann ein Blick auf besser erforschte Bereiche hilfreich sein: So hat sich bei Wortlängen herauskristallisiert, dass die Verteilung, der die Wortlängen folgen, womöglich stärker von der einzelnen Sprache als vom Sprachtyp, dem sie angehört, bestimmt wird. Das Beispiel des Deutschen zeigt, dass der Typ der Verteilung auch unabhängig von den anderen genannten Faktoren über lange Zeit der gleiche bleiben kann. Es bleibt abzuwarten, ob ähnliches sich bei zunehmendem Wissen auch bei Satzlängen zeigen wird.
5.
Perspektiven
Aus den bisherigen Ergebnissen lassen sich die Perspektiven für die weitere Arbeit entwickeln. Die Erforschung der Verteilungen
303
22. Satzlänge
von Satzlängen in Texten hat demnach noch viele offene Fragen zu behandeln. Ein erster Aspekt ist darin zu sehen, dass noch nicht klar ist, welche Faktoren sich bei der Gestaltung der Verteilungen wie stark auswirken. Hierzu sind weitere gezielte Untersuchungen nötig. Es ist denkbar, dass Satzlängen vom Sprachtyp, von der einzelnen Sprache, von der Entwicklungsstufe, die die betreffende Sprache gerade erreicht hat, vom Autor, vom erwarteten Rezipienten sowie von Sprachstil, Fachlichkeitsgrad und womöglich noch weiteren Faktoren beeinflusst werden können. Hierbei dürften zukünftige Ergebnisse des von P. Grzybek initiierten Grazer Projekts zu Wortlängenverteilungen „Quanta“ (Grazer Projekt zur Quantitativen Textanalyse) hilfreich sein, der sich auch mit den Längenverteilungen von Sprichwörtern befasst (Grzybek 1999). Kelih/Grzybek (2004) demonstrieren, wie die Bearbeitung der Rohdaten sich auf die Wahl der Verteilungsmodelle auswirkt. Ein zweiter Aspekt ist darin zu sehen, dass Satzlänge in sehr unterschiedlichen Einheiten gemessen werden kann: Laute/ Phoneme/Buchstaben kommen als kleinste Einheiten infrage; auf der nächsten hierarchischen Ebene Silben oder Morphe; dann Wörter; ferner rhythmische Einheiten (Best 2001b) oder Satzglieder/Phrasen und schließlich clauses/Teilsätze. Hier ist u. a. der Frage nachzugehen, ob die Gesetzmäßigkeit der Verteilungen auch dann nachzuweisen ist, wenn Satzlängen in Einheiten gemessen werden, die vom Satz durch mehrere Strukturebenen getrennt sind. In den bisherigen Untersuchungen konnte nur festgestellt werden, dass der Faktor der Sprachebene sich nicht immer bemerkbar macht. Auf jeden Fall ist aber damit zu rechnen, dass Satzlängen unterschiedlichen Verteilungen folgen, wenn sie nach Einheiten verschiedener Größenordnung gemessen werden. Ein weiterer Aspekt drängt sich auf, wenn man die Verteilungen von Sätzen und anderen Einheiten in Texten betrachtet: Es könnte sich herausstellen, dass Satzlängen stärker vom Stil als von der Sprache, andere Einheiten aber stärker von der Sprache oder gar dem Sprachtyp als vom Stil beeinflusst werden. Es ist bekannt, dass Satzlängen mit anderen Sprachfaktoren interagieren; damit eröffnet sich die Perspektive, ob und wie man sie in einen größeren theoretischen Rahmen
integrieren kann. Hier wäre z. B. an die Synergetik (vgl. Art. 53) oder das MenzerathAltmannsche Gesetz (vgl. Art. 47) zu denken. Diese Liste lässt sich leicht fortsetzen: Es sind bisher nur sehr wenige Sprachen untersucht worden. Es wurde auch noch kaum damit begonnen, die Änderungen der Verteilungen über die verschiedenen Entwicklungsphasen einer Sprache hinweg zu untersuchen; das Gleiche gilt für viele andere Aspekte. Es soll genügen, darauf hinzuweisen, dass noch viele Fragen zu lösen sind, vermutlich auch solche, an die hier noch gar nicht gedacht wurde. Letztlich ist darauf hinzuweisen, dass die Verteilung von Satzlängen nur einen Spezialfall darstellt und in Zusammenhang mit den Verteilungen anderer Spracheinheiten zu sehen ist, zu denen bisher in der Regel noch weniger geforscht wurde (Best 1998; 2001a; 2003).
6.
Literatur (in Auswahl)
Altmann, Gabriel (1988a), Verteilungen der Satzlängen. In: Glottometrika 9. (Ed. Klaus-Peter Schulz). Bochum: Brockmeyer, 147K169. Altmann, Gabriel (1988b), Wiederholungen in Texten. Bochum: Brockmeyer. Altmann-Fitter (1994), Lüdenscheid: RAM-Verlag. Altmann-Fitter. Iterative Fitting of Probability Distributions (1997). Lüdenscheid: RAM-Verlag. Best, Karl-Heinz (1998), Results and Perspectives of the Göttingen Project on Quantitative Linguistics. In: Journal of Quantitative Linguistics 5, 155K162. Best, Karl-Heinz (2001a), Probability Distributions of Language Entities. In: Journal of Quantitative Linguistics 8, 1K11. Best, Karl-Heinz (2001b), Zur Verteilung rhythmischer Einheiten in deutscher Prosa. In: Best 2001, 162K166. Best, Karl-Heinz (2001c), Wie viele Wörter enthalten Sätze im Deutschen? Ein Beitrag zu den Sherman-Altmann-Gesetzen. In: Best 2001, 167K 201. Best, Karl-Heinz (Hrsg.), (2001), Häufigkeitsverteilungen in Texten. Göttingen: Peust & Gutschmidt. Best, Karl-Heinz (2002), Satzlängen im Deutschen: Verteilungen, Mittelwerte, Sprachwandel. In: Göttinger Beiträge zur Sprachwissenschaft 7, 7K31. Best, Karl-Heinz (2003), Quantitative Linguistik. Eine Annäherung. 2., überarbeitete und erweiterte Auflage. Göttingen: Peust & Gutschmidt.
304
IV. Gebiete und Phänomene: Syntax / Fields and phenomena: syntax
Bohn, Hartmut (1998), Quantitative Untersuchungen der modernen chinesischen Sprache und Schrift. Hamburg: Verlag Dr. Kovač. Busch, Andrea (2002), Zur Entwicklung der Satzlänge in deutscher Fachsprache. Staatsexamensarbeit, Göttingen. Clayman, Dee Lesser (1981), Sentence Length in Greek Hexameter Poetry. In: Hexameter Studies. (Ed. Rüdiger Grotjahn). Bochum: Brockmeyer, 107K136. Fucks, Wilhelm (1955), Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen. Köln/Opladen: Westdeutscher Verlag. Fucks, Wilhelm (1956), Die mathematischen Gesetze der Bildung von Sprachelementen aus ihren Bestandteilen. In: Nachrichtentechnische Forschungsberichte 3, 7K21. Grazer Projekt zur Quantitativen Textanalyse (2002) http://www-gewi.uni-graz.at/quanta/projekt_ descr.htm Grzybek, Peter (1999), Wie lang sind slowenische Sprichwörter? In: Anzeiger für Slavische Philologie XXVII, 87K108. Jing, Zhuo (2001), Satzlängenhäufigkeiten in chinesischen Texten. In: Best 2001, 202K210. Kelih, Emmerich/Grzybek, Peter (2004), Häufigkeiten von Satzlängen: Zum Faktor der Intervallgröße als Einflussvariable (am Beispiel slowenischer Texte). In: Glottometrics 8, 23K41. Kaßel, Anja/Livesey, Eleanor (2001), Untersuchungen zur Satzlängenhäufigkeit im Englischen: Am Beispiel von Texten aus Presse und Literatur (Belletristik). In: Glottometrics 1, 27K50. Niehaus, Brigitta (1997), Untersuchung zur Satzlängenhäufigkeit im Deutschen. In: Glottometrika 16. (Hrsg. Karl-Heinz Best). Trier: Wissenschaftlicher Verlag Trier, 213K275. Niehaus, Brigitta (2001), Die Satzlängenverteilung in literarischen Prosatexten der Gegenwart. In: Text as a Linguistic Paradigm: Levels, Constitu-
ents, Constructs. Festschrift in Honour of Lude˘k Hřebíček. Ed. by Ludmila Uhlířová, Gejza Wimmer, Gabriel Altmann and Reinhard Köhler. Trier: Wissenschaftlicher Verlag Trier, 196K214. Roukk, Maria (2001), Satzlängen im Russischen. In: Best 2001, 211K218. Sherman, L. A. (1888), Some Observations upon the Sentence-Length in English Prose. In: University of Nebraska Studies I, 119K130. Sichel, H. S. (1971), On a Family of Discrete Distributions Particularly Suited to Represent LongTailed Data. In: Proceedings of the Third Symposium on Mathematical Statistics. (Ed. N. F. Laubscher). Pretoria: CSIR, 51K97. Sichel, H. S. (1974), On a Distribution Representing Sentence-Length in Prose. In: Journal of the Royal Statistical Society (A) 137, 25K34. Strehlow, Michael (1997), Satzlängen in pädagogischen Fachartikeln des 19. Jahrhunderts. Staatsexamensarbeit, Göttingen. Williams, C. B. (1939), A Note on the Statistical Analysis of Sentence-Length as a Criterion of Literary Style. In: Bio XXXXI, 356K361. Wimmer, Gejza/Altmann, Gabriel (1996), The Theory of Word Length Distribution: Some Results and Generalizations. In: Glottometrika 15. (Hrsg. Peter Schmidt). Trier: Wissenschaftlicher Verlag Trier, 112K133. Wimmer, Gejza/Köhler, Reinhard/Grotjahn, Rüdiger/Altmann, Gabriel (1994), Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 98K106. Wittek, Martin (2001), Zur Entwicklung der Satzlänge im gegenwärtigen Deutschen. In: Best 2001, 219K247. Yu, Xiaoli (2002), Quantitative Aspekte in pädagogischen Fachartikeln des 19. Jahrhunderts. Magisterarbeit, Göttingen.
Karl-Heinz Best, Göttingen (Deutschland)
V. Gebiete und Phänomene: Lexik / Fields and phenomena: lexicology and lexicography 23. Properties of lexical units and systems 1. 2. 3. 4. 5.
Introduction Aims Methods and models Objects of investigation Literature (a selection)
1.
Introduction
Lexicons, vocabularies, and words belong to the linguistic objects which were studied with quantitative means very early (cf. art. 1). This is partly due to the fact that those objects are among the most obvious linguistic phenomena in general, partly to the apparently indeterministic properties of lexical items and relations. Regularities observed are incomplete and stochastic, they appear rather in the form of tendencies or preferences and are characterised by fuzziness, exceptions, ambiguities and fluctuations. Therefore, quantitative lexicography also plays a significant role in the work of George K. Zipf (cf. art. 10). The lexicon of a language and the vocabulary of a text as objectives of linguistic investigation in principle comprise all properties and relations which can be ascribed to words or other lexical units (phonetic/phonological, morphological, semantic, pragmatic, stylistic etc.), i. e. characteristics of usage which can only be defined in individual, concrete contexts, as well as properties which abstract from the individual occurrences in a text, such as frequency and polysemy. Mathematical statistics is used in lexicography in the same way as in other sciences: in the first place to describe the observed stochastic phenomena and test hypotheses; statistics also has (as everywhere) a heuristic function. Other quantitative means such as functions, stochastic processes, difference and differential equations, are employed as models of relations between quantitative properties, e. g. the dependency of word length on word frequency and on the size of the phonemic system, or the interrelation between word length and polysemy, the Type-Token Ratio (TTR, cf. art. 27), the Menzerath-Altmann law (cf. art. 47) or the
logistic function (“Piotrowski’s law”, cf. art. 44), which determines the increased usage of a linguistic unit in the course of time. Semantic vagueness can be taken account of by means of fuzzy sets theory; methods of general systems theory e. g., catastrophe theory (cf. art. 31), synergetics (cf. art. 53), and chaos theory (cf. art. 48) enable us to set up models of the lexical subsystem of language as a complex, dynamical, self-organising system.
2.
Aims
Application of quantitative methods in lexicography and lexicology serves various aims: (1) Synchronous and diachronous description. The lexicon of a language cannot be described completely because it is an open system and subject to continuous changes. It cannot be captured, even not for a given moment of time, because the number of lexical elements is so large that the majority of their (indeterministic) regularities cannot be recognised without statistical methods. (2) Characterisation and comparison of texts with respect to their vocabularies. Frequency distributions and indices describe, by a few indicators, lexical inventories and can be used for stylistic, text-typological, and other purposes. (3) Unveiling tendencies. By employing statistical methods in an explorative way, unknown patterns and interrelations may be detected (as in the case of partial vowel harmony, cf. Altmann 1987). (4) Applications. Statistical properties of lexical units are used as valuable information in various practical applications, such as text indexing and retrieval, search engines, information retrieval, document management, extraction of terminology from documents or corpora, matters of disputed authorship, measurement of text comprehensibility, text dating, compilation of learning and teaching materials, as a basis for psychological tests, etc. (5) Construction and testing of hypotheses. New hypotheses can be derived deductively from known or assumed relations. After their mathematical formulation, they
306
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
can be tested on empirical data from natural languages. (6) Concept formation. Existing categorial concepts established by qualitative linguistics are transformed by quantification or new concepts are created in order to deepen or to extend insights into the object under investigation. An example is the qualitative (categorical) concept of polysemy (expressing the fact that words may have more than one meaning), which was transformed into a new, quantitative concept of polysemy, which is defined as the number of different lexical or grammatical meanings of a given word or morpheme. This new concept turned out to be very fruitful as this property can be shown to be lawfully connected to other properties of a word, such as length, frequency, age, and dispersion or polytextuality. Examples of concepts which have been introduced as quantitative ones from the beginning (and maybe are thinkable in this way only) are inventory size, word length, frequency, age, articulatory effort and many others. (7) Theory building. The highest aim of science, viz. explanation, is possible only with the help of a theory K a system consisting of universal (i. e. valid in all languages at all times) laws (cf. Bunge 1967; Altmann 1993). Setting up a theory of the lexicon requires to find such universal laws, to connect them to each other and to link them to external instances with explanatory power (e. g. human cognition or articulatory apparatus). Such laws will necessarily contain quantitative variables and constants and/or are connected with quantities of the language-external factors (e. g. communicative efficiency, memory capacity, channel properties, sensorial differentiation capabilities etc.), or they contain a stochastic term which may be due to the method employed (e. g. measuring tolerances) or to their content in the case of stochastic laws.
3.
Methods and models
3.1. Quantification, measure, measurement The most important precondition for the use of quantitative methods is the creation of quantitative concepts which correspond to the objects of reality and their relevant properties. Quantification is a specific kind of model building (cf. Altmann/Grotjahn 1988) K with specific as to its purpose meaning the mapping of the properties of interest on a numerical system. The simplest
possible quantitative model is the measure of a given property, which must meet several requirements to make meaningful statements possible. An index is a simple model which relates two properties. Examples of lexicological indices (cf. Altmann/Lehfeldt 1973, 109 ff.) are synthetism, for which at least three different measurement procedures are possible (W/M: number of words divided by number of morphemes; W1/W: number of words consisting of one morpheme divided by number of all words; R/M: number of root morphemes divided by number of all morphemes), prefixation and suffixation with three different measures each (PW/W or SW/W, resp.: number of words with prefixes/suffixes divided by number of all words; P/M or S/M, resp.: number of prefixes/suffixes divided by number of all morphemes; P/A or S/A, resp.: number of prefixes/suffixes divided by number of all affixes), homonymy (WH/W: number of homonyms divided by number of all words), etc. One of the most famous indices is the typetoken ratio (cf. art. 27), a measure of the relative vocabulary richness of a text or author. It is the relation of the number of different words to the number of all the words of a given text. This index has a long tradition particularly in literary studies, similarly to the so-called index of liveliness V/A (number of verbs divided by number of adjectives), or V/ (VCA), where both are used for characterising texts and authors, for resolving disputed authorship, and for other stylistic purposes. Another well-known object of investigation is the ratio between parts of speech in a texts. Ohno’s law states that the proportion between the numbers of all the parts of speech keeps the same over time in the lexicon of a language, although, typically, the lexicon size grows. 3.2. Distributions A single number provides only little information on the structure and no information on the dynamics of an object. One could define an index of polysemy as the mean number of lexical ambiguities of the words of a lexicon. If, for a given language and with a dictionary being used, the measurement of this index would yield the number 2, this result could in principle reflect a situation where all the words have exactly two meanings or where there are many unambiguous words, fewer with two meanings, even fewer
307
23. Properties of lexical units and systems
with three etc., with an overall average of two. A precise answer to the question for the polysemy structure of a lexicon or dictionary is modelled with the help of a frequency or probability distribution, which gives the number or probability resp. of the words with one, two, three, etc. meanings. The simplest form of a distribution consists of a table where the occurring values of the feature of interest (e. g. the number of meanings or the length of a words) are listed together with their frequencies or probabilities. This kind of presentation suffices for many practical purposes. For scientific aims, a theoretical model in the form of a mathematical formula is needed which can be derived from a hypothesis. The most famous distribution in lexicology and lexicography is the ZipfMandelbrot law (cf. art. 30, 50) F (r) Z K / (r C B)Kγ which relates the frequency of a word with its frequency rank. Other distributions which have been investigated with respect to lexical properties are the distribution of polysemy (cf. Levitskij/Kiiko/Spolnicka 1996), homonymy, word length (cf. Best 2000), age, origin, parts of speech, word structure (cf. Altmann 2002; art. 13) and many others. 3.3. Functions Often, a model expressing the dependency of one property on another one is needed. One reason why an index such as TTR is only of limited use is the fact that the property measured is not constant but varies, in the case of TTR, with position in the text or with another quantity. Those properties whose distributions are known to us are connected to each other (like polysemy and word length) as well. In general, the index is then considered as the dependent variable, and one investigates the function assigning its values according to the values of the independent variable. This can be done in an inductive way, by searching a function that meets the observed data well enough, or in a deductive way by deriving the function from a theory or hypothesis. The latter alternative possesses a higher status with respect to the principles of philosophy of science, because this way to proceed can result in the formulation of a new language law. Let us consider an illustrative example: the function describing the dependence of polysemy on word length (cf. Altmann/Beőthy/Best
1982). Starting from the hypothesis that the meaning of a word becomes in general more and more specific with each attached affix, it is possible to conclude that polysemy decreases with increasing length (in languages with variable word length). The differential equation P#/ P Z b / L C c, (P Z polysemy, P# Z first derivative of P, i. e. the change in polysemy, L Z length, b and c constants), which expresses an inverse proportional dependence of the relative change of polysemy on length and whose solution is given by P Z a Lb e cx yields a deductively derived model, i. e. a model with explanatory power, which can be tested empirically.
4.
Objects of investigation
4.1. Synchronic studies of lexicon and vocabulary The most common and important form of statistical description as well of the lexicon of a language as of the vocabulary of a text is the frequency dictionary. It consists of an ordered list of lexemes or word forms with information on their usage, including at least the frequency of occurrence of the words. Often, their dispersion is also given, i. e. the distribution of the frequency over subcorpora, texts, genres/text types, technical languages, etc. The compilation of a frequency dictionary on the basis of an individual text is relatively unproblematic, because in this case, the frequency structure of the object under study as a whole is taken into account. When a text corpus is used as a data source two fundamental problems arise. (1) Representativity: No linguistic material of any kind can claim to be statistically representative of a language. Therefore, the task is necessarily limited to the practical choice and weight of material for the corpus. When compiling or using a frequency dictionary, one should not forget that the frequencies in a given corpus do not allow for conclusions concerning other texts, text types, authors, or even the language “as a whole”. (2) Homogeneity: With increasing corpus size, pragmatic diversity increases as well, which means increasing inhomogeneity. This should be kept in mind when the applicability of common statistical methods is consid-
308
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
ered. For detailed information and literature on frequency dictionaries cf. art. 24. Fundamental statistical characteristics of lexicons and vocabularies are text length K or corpus size K (N), the number of different lexemes (L), and the number of different word-forms (V). From these, other characteristics can be derived, such as vocabulary richness (R Z f (V, N) or R Z f (L, N)), mean word frequency (N / V or N / L), and syntheticism (defined as the ratio between the number of word-forms and number of lexemes: V / L). The values of all these measures heavily depend on N (cf. Tuldava 1998, 48 ff. and Chitashvili/Baayen 1993). In quantitative lexicology and lexicography, not only frequency based investigations have a long tradition. Other focal points of statistical analysis of synchronous linguistic variation of (not exclusively) lexical items are Variation Linguistics (variation with respect to socio-linguistic characteristics, cf., e. g. Labov 1972, 1980) and Dialectometry (variation with respect to areal characteristics (cf. Goebl 1993; art. 37). Both concern dependencies of linguistic variables on extra-linguistic ones. Among the earliest examples of quantitative approaches to intra-linguistic problems information theoretic concepts and measures are counted, such as information, entropy, and redundancy (cf. Alekseev/Kalinin/Piotrowski 1973; Balasubrahmanyan/ Naranan 1996; art. 61). Numerous investigations are dedicated to frequency distributions of units such as phonemes, morphemes, roots, words, their combinability (phonotactics, morphotactics, lexotactics etc.), their productivity and the productivity of word-forming mechanisms, the distribution of word classes/parts of speech and other classes, the positions of units, and of polysemy, homonymy, and synonymy (cf. Altmann 2002). Since 1992, the distribution of the length of lexical (and some other) units has gained special interest (cf. Best 2001 and art. 14, 18, 19, 22). In (Altmann/Kind 1983) a semantic law was mathematically formulated, inspired by the observations described by Martin (1974), and called “Martin’s Law”. Starting from a randomly chosen word in a dictionary, a “definition chain” can be formed by iteratively looking up in the same dictionary the genus proximum given in the definition of the previous word, e. g., revolver / gun / weapon / device / object etc., yielding
words with increasing generality. Martin’s law predicts the number of words found in a dictionary on the different generality levels. Departing from this, Sambor and Hammerl (cf. art. 33) set up and tested various models of quantitative properties of definition chains and of lexeme nets. The earliest studies on functional interrelations between properties of lexical items can be found in the work of George K. Zipf (Zipf 1929; cf. art. 10), among them the relations between length and polysemy. The scope of a number of language laws lies in the lexicon K partly or completely, such as Menzerath-Altmann’s law (cf. Altmann/ Schwibbe 1989 and art. 47) and some of its consequences (the length of syllables and of morphs as function of word length, the dependency of polysemy on word length or vice versa (Köhler 1989; Uhlířová 2001; Wimmer/Altmann 2001), the dependence of synonymy on polysemy (Köhler 1990, 8 ff.; Ziegler/Altmann 2001; Rottmann 2001), compounding productivity etc), Altmann’s semantic law (cf. Altmann/Kind 1983). It was probably (Guiter 1974) who was the first to explicitly consider more than two quantitative properties of lexical units at the same time; the systematic investigation of a larger number of variables as a lexical system was introduced not earlier than with Synergetic Linguistics (cf. art. 53). 4.2. Diachronic study of lexicon and vocabulary The earliest publication on this theme is probably (Jespersen 1929), who investigated the distribution of French loan words in the English lexicon as a function of time. In the same year, G. K. Zipf published his doctoral dissertation, which dealt with changes of sounds or phonemes, using the relation y Z n / x, (y Z intensity; x Z frequency; n Z proportionality factor). Zipf’s term intensity meant approximately informativity (as opposed to expectability), which he therefore assumed to be inversely proportional to frequency. Other early approaches were concerned with the determination of the genetic proximity of languages with respect to their vocabularies by the reconstruction of ‘family trees’. Corresponding methods were proposed by Kroeber and Chrétien in 1937. Similar approaches were developed during the following decades (cf. Embleton 1986; art. 45).
309
23. Properties of lexical units and systems
Almost as famous as Zipf’s laws is Glottochronology (Swadesh 1952; 1955). With his method, Swadesh tried to calculate the amount of words which disappear from a lexicon, to predict, and to date the moment of separation of two related languages on the basis of the observed proportion of common words in their lexicons. In analogy to the well-known method of dating objects in archaeology, which uses a mathematical model of the radioactive decay of the carbon isotope 14C, Glottochronology assumes that the number N(t) (the number of words from an original list which prevail through time t) can be calculated using the formula N (t) Z N (0) e
Kηt
Here, N(0) is the number of words in the original list, and η is the decay rate. Embleton (1986) avoids some of the problems of glottochronology by also taking into account loaning as a process which results in cognates. She presents a method of tree reconstruction which is based on techniques used in biology. Following Zipf on the one hand and Swadesh on the other, Arapov and Cherc (1974) set up a model of lexical change with the aim to overcome the limitations and the untenable assumptions of glottochronology with the help of a more complex mathematical approach. For one, they do no longer assume that the lexical decay rate be constant and identical in all languages at all times. Furthermore, they avoid the arbitrariness of dividing the lexicon into a “kernel” and the rest, and a number of other serious problems. One of the crucial measures taken by Arapov and Cherc is to consider the complete lexicon instead of a small number of arbitrarily selected words, another one is to change the aspect: Instead of individual words, considerations comprise the number of words moving from a given frequency class into the next lower one. This idea yields, at the same time, a quantification of the previously qualitative concept of the loss of a word (as a change from existence to non-existence). This model made it possible to find solutions for a large number of questions concerning the historical development of a lexicon. Only two of the many results of that work can be mentioned here. According to Arapov and Cherc, the following equation holds: Fi (t) Z n eKη i t,
where Fi is the number of words which prevail in the rank class i after time t, n the size of the rank class, and η the (variable) decay rate. That formula specifies the probability of a word to be handed to a follower-up lexicon. Probability increases with age and decreases with the square root of frequency. The model allows also to differentiate lexical material according to sources (substrate K language contact K autochthonous neologism). The corresponding number of loans from a given source in the time interval (t, 0) can be calculated for class i in the following way: ni (t, 0) Z 1 K eKηiVi The distribution of the loans from a source in the time interval [t1, t2] in the lexicon as the difference of the inventories of inherited words is given by: vi (t1, t2) Z eKηi t1KeKηi t 2 where i stands for the i th frequency rank class. The concrete course of lexical change processes is explained by the “Piotrowski law” (cf. art. 44). Altmann coined this term for the approach he presented in e. g., (Beőthy/Altmann 1982; Altmann/von Buttlar, Strauss et al. 1983; Best/Beőthy/Altmann 1990) which describes and predicts the observed trend of the changes on the time axis. The history of success of a new linguistic phenomenon always begins slowly, then speeds up and finally slows down again. Formerly, several authors made assumptions about the nature of the corresponding curves. A first systematic consideration was made by Piotrovskij/Piotrovskaja (cf. Beőthy/ Altmann 1982), to whom Altmann dedicated the law. Altmann derived his mathematical form of the law starting from an interactionist approach and set up a differential equation whose solution provides appropriate models for three different types of increase dynamics (Altmann 1983). 4.3. The lexicon as a complex dynamical system A modern systems theoretical approach in the framework of Synergetic Linguistics (cf. Köhler 1986; Köhler 1990; Köhler/Altmann 1993; art. 53) models the lexicon (later also other subsystems of language) as a complex self-organising and self-regulating system. This framework enables linguists to set up models of a kind for which previously no ad-
310
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
equate methodological K particularly mathematical K means were available. The aims of synergetic linguistics include, but are not limited to the following (1) to overcome the separation of synchronous and diachronous consideration, which formerly led to a purely static concept of system. General systems theory is able to provide means to combine the aspects of structure, function, and process; (2) to set up an explanatory model, i. e. a model beyond description enabling the construction of a first linguistic theory; (3) to overcome the atomism that is connected with the limitation to univariate probability distributions and two-dimensional functions; (4) to derive hypotheses which can be tested directly on empirical linguistic material. Explanatory instances in the lexical subsystem are the so-called system needs K extra-linguistic factors which have an influence on the system through the adaptation processes of language. One of the most fundamental needs in the area of the lexicon is the Coding Need which must be met by any semiotic system. It reflects the fact that linguistic (here: lexical) expressions for coding meanings must be provided by the system. Efficiency needs correspond to the requirement to create mechanisms for the optimisation of effort (thus, Zipf’s law can be derived from an optimising mechanism where most effort is saved if the most frequent words are the shortest ones); the need for redundancy represents the necessity of a secure coding method which works sufficiently even under noisy channel conditions (this is one of the reasons why e. g. not all possible phoneme combinations are used to build morphs and words, resulting in a language-specific phonotactic pattern), etc. It should be clear that it is not the need itself that influences the structure and variables of the system but rather self-organising processes which change the properties of the system in a way which corresponds as closely as possible to the requirements. The processes concerning the lexicon include the following (cf. Köhler 1990): Lexicalisation. This process serves the need to code meanings by introducing new lexical elements into the inventory. One of its consequences is the increase of the system variable lexicon size. K Lexical unification. This process increases polysemy and decreases synonymy in the lexicon, and it works in favour of the speaker’s need to
minimise coding effort. K Lexical diversification. It is the antagonist of lexical unification; it decreases polysemy, increases synonymy, and serves the hearer’s need to minimise decoding effort. K Lexical reduction. A process working towards the diminishing (or limiting) of lexicon size. It serves minimisation of inventories. K Specification. This process reduces polysemy and generality of word meanings, and indirectly increases word length. K Context globalisation. Increases the independence of an expression from context. Context centralisation. Makes an expression more dependent on its context. Application. This process represents the use of lexical units in text production. It is controlled by the communicative relevance of the given expressions and increases their frequency. K Shortening. As a consequence of the need to minimise production effort, all linguistic forms (syllable, morph, word) are shortened depending on their frequency and their current length. K Phonological restriction. The requirement of secure content transmission creates redundancy: The potential of combinations of phonemic elements forming strings of a given length is not exploited, therefore, the process results in increased word lengths. Starting from the postulated system requirements, differential equations can be set up, whose solutions are functions which map the interrelations between system variables and requirements. Some examples are given below (cf. Köhler 1990): LG Z CODV PLKL. Lexicon size is a function of the influence of the coding requirement (the number of contents that have to be coded lexically) and of mean polysemy PL. The quantity V is influenced by the needs for specification or despecification and variability or invariance. PH Z minDY1 minCKY2. The number of phonemes is a compromise combining the need to minimise the decoding and the coding effort (hearer’s and speaker’s needs). L Z LGA RedZ PHKP FKN. Word length is a function of lexicon size (the more words are needed the longer they have to be on the average, given a fixed number of phonemes/ tonemes), of redundancy, size of the phoneme/toneme inventory, and frequency. PL Z minCQ2 minDKQ1 LKT. Polysemy is a function consisting of a compromise between the influences of the needs for minimising the decoding and the coding effort on the one hand and word length on the other.
23. Properties of lexical units and systems
PT Z CES2 CSKS1 PLG. Polytextuality (the number of possible contexts of an expression) is given by the compromise between the influences of the context-globalising (context economy) and the context-centralising (context specificity) processes, and is a function of polysemy. F Z AppR PTK. Frequency depends on the communicative relevance of the meanings of a lexical element (represented in the model by the requirement of application) and is a function of polytextuality. SN Z CodVW PLM. Synonymy is a function of the coding requirement to the extent VW, which is determined by a compromise between the needs for flexibility or invariance of the form-meaning relation, and of polysemy. These, and further relations between system quantities possess the character of law-like hypotheses; they are tested empirically on suitable language and text data from as many as possible different languages. Since all these hypotheses contain a stochastic element, tests are conducted with statistical methods (fitting and goodness-of-fit test). The assumptions mentioned here have been tested up to now on some 50 languages; they have been corroborated without any exception.
5.
Literature (a selection)
Alekseev, Pavel M./Kalinin, V. M./Piotrowski, Rajmund G. (1973), Sprachstatistik. Aus dem Russischen von Lothar Hoffmann. München, Berlin: Fink (auch: Akademie-Verlag). Altmann, Gabriel (1983), Das Piotrowski-Gesetz und seine Verallgemeinerungen. In: Exakte Sprachwandelforschung (eds. K.-H. Best/J. Kohlhase), Göttingen: Herodot, 54K90. Altmann, Gabriel (1987), Tendenzielle Vokalharmonie. In: Glottometrika 8, 104K112. Altmann, Gabriel (1993), Science and Linguistics. In: Contributions to Quantitative Linguistics. (eds. R. Köhler/B. Rieger). Dordrecht: Kluwer 1993, 3K10. Altmann, Gabriel (2002), Einführung in die quantitative Lexikologie. Göttingen: Peust & Gutschmidt. Altmann, Gabriel/Beőthy, Erzsébeth/Best, KarlHeinz (1982), Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz. In: Zs. F. Phonetik, Sprachwissenschaft und Kommunikationsforschung 35, 537K543. Altmann, Gabriel/Grotjahn, Rüdiger (1988), Linguistische Messverfahren. In: Sociolinguistics. So-
311 ziolinguistik. (eds. U. Ammon/N. Dittmar/K. J. Mattheier). Berlin, New York: W. de Gruyter, 1026K1039. Altmann, Gabriel/Kind, Bernhard (1983), Ein semantisches Gesetz. In: Glottometrika 5, 1K13. Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. München: Fink. Altmann, Gabriel/von Buttlar, H./Strauss, U./ Rott, W. (1983), A law of change in language. In: Historical Linguistics (ed. Barron Brainerd). Bochum: Brockmeyer, 104K115. Altmann, Gabriel/Schwibbe, Michael (1989), Das Menzerath’sche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms. Altmann-Fitter (1997). Lüdenscheid: RAM-Verlag. Arapov, Michail V./Cherc, Maja M. (1974), Matematičeskie metody v istoričekoj lingvistike. (dt.: Mathematische Methoden in der historischen Linguistik. Aus dem Russischen von Reinhard Köhler und Peter Schmidt (1983). Bochum: Brockmeyer). Balasubrahmanyan, V. K./ Naranan, S. (1996), Quantitative linguistics and complex system studies. In: Journal of Quantitative Linguistics 3, 177K228. Best, Karl-Heinz (2001), Häufigkeitsverteilungen in Texten. Göttingen: Peust und Gutschmidt Verlag (Z Göttinger Linguistische Abhandlungen; 4). Best, Karl-Heinz/Beőthy, Erzsébeth/Altmann, Gabriel (1990), Ein methodischer Beitrag zum Piotrowski-Gesetz. In: Glottometrika 12, 115K124. Beőthy, Erzsébeth/Altmann, Gabriel (1982), Das Piotrowski-Gesetz und der Lehnwortschatz. In: Zeitschrift für Sprachwissenschaft 1, 171K178. Bunge, Mario (1967), Scientific Research I, II. Berlin: Springer. Chitashvili, Revaz Ja./Baayen, R. Harald (1993), Word Frequency Distibutions of Texts and Corpora as Large Number of Rare Event Distributions. In: Quantitative Text Analysis. (eds. L. Hřebíček/G. Altmann). Trier: Wissenschaftlicher Verlag Trier (Z Quantitative Linguistics; 52). Embleton, Sheila M. (1986), Statistics in Historical Linguistics. Bochum: Brockmeyer. Goebl, Hans (1993), Dialectometry: A Short Overview of the Principles and Practice of Quantitative Classification of Linguistic Atlas Data. In: Contributions to Quantitative Linguistics. (eds. R. Köhler/B. Rieger). Dordrecht: Kluwer 1993, 277K 315. Guiter, Henri (1974), Les relations fréquence K longueur K sens des mots (langues romanes et anglais). In: XIV Congresso Internazionale di linguistica e filologia romanza. Napoli, 15K20. Jespersen, Otto (1929), Growth and structure of the English Language. New York.
312
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
Köhler, Reinhard (1986), Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer (Z Quantitative Linguistics; 31). Köhler, Reinhard (1989), Linguistische Analyseebenen, Hierarchisierung und Erklärung im Modell der sprachlichen Selbstregulation. In: Glottometrika 11 (ed. Luděk Hřebíček). Bochum: Brockmeyer, 1K18. Köhler, Reinhard (1990), Elemente der synergetischen Linguistik. In: Glottometrika 12 (ed. Rolf Hammerl). Bochum: Brockmeyer, 179K187. Köhler, Reinhard/Altmann, Gabriel (1993), Begriffsdynamik und Lexikonstruktur. In: Theorie und Praxis des Lexikons. (eds. F. Beckmann/G. Heyer). Berlin, New York: de Gruyter 1993, 173K 190. Labov, William (1972), Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press. Labov, William (ed.) (1980), Locating Language in Time and Space. New York: Academic Press. Levitskij, Viktor V./Kiiko, J. J./Spolnicka, S. V. (1996), Quantitative analysis of verb polysemy in modern German. In: Journal of Quantitative Linguistics 3, 132K135. Martin, Robert (1974), Syntaxe de la définition lexicographique: étude quantitative des définissants dans le «Dictionnaire fondamental de la langue française». In: Statistique et linguistique. (eds. Jean David/Robert Martin). Paris: Klinksieck, 61K71. Rapoport, Anatol (1982), Zipf’s Law Re-visited. In: Studies on Zipf’s Law (eds. Henri Guiter/Michael V. Arapov). Bochum: Brockmeyer 1982, 1K28. Rottmann, Otto (2001), On the “Second Law of Synonymy”: Observations in Russian, Bulgarian, Polish and Ukrainian. In: Lexicographica ’99 (eds.
Slavomír Ondrejovič/M. Považan), Bratislava: Veda, 237K250. Swadesh, Morris (1952), Lexico-statistic dating of prehistoric ethnic contacts. With special reference to North American Indians and Eskimos. In: Proceedings of the American Philosophical Society 96, 452K463. Swadesh, Morris (1955), Towards greater accuracy in lexicostatistic dating. In: International Journal of American Linguistics 21, 121K137. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systemischen Lexikologie. Trier: Wissenschaftlicher Verlag Trier (Z Quantitative Linguistics; 59). Uhlířová, Ludmila (2001), Kolik je v čestině synonym? (K dynamické stabilitě v systému lexikálních synonym). In: Lexicographica ’99 (eds. Slavomír Ondrejovič/M. Považan), Bratislava: Veda, 237K250. Wimmer, Gejza/Altmann, Gabriel (2001), Two hypotheses on synonymy. In: Lexicographica ’99 (eds. Slavomír Ondrejovič/M. Považan), Bratislava: Veda, 218K225. Ziegler, Arne/Altmann, Gabriel (2001), Beziehung zwischen Synonymie und Polysemie. In: Lexicographica ’99 (eds. Slavomír Ondrejovič/M. Považan), Bratislava: Veda, 226K229. Zipf, George K. (1929), Relative frequency as a determinant of phonetic change. (Z Harvard Studies in Classical Philology; 40). Zipf, George K. (1949), Human Behaviour and the Principle of Least Effort. Reading, Mass.: Addison-Wesley. Zipf, George K. (21968), The Psycho-Biology of Language. An introduction to Dynamic Philology. Cambride, Mass.: M.I.T. Press.
Reinhard Köhler, Trier (Germany)
24. Frequency dictionaries 1. 2. 3. 4. 5. 6.
Definition Classification Compiling of a frequency dictionary Application Tendencies and prospects Literature (a selection)
1.
Definition
The frequency dictionary is a dictionary of a special kind. Its main feature consists in its capacity to provide information on the frequency of words, i. e. one can judge how often they occur. The dictionary entries may
be organized either in the regressive order of their frequencies, starting with the most frequent one, or in the alphabetic order. Often the dictionary may consist of two lists: the alphabetic and frequency ones. It is imperative that in either of them a frequency is ascribed to each dictionary word. Many frequency dictionaries are published only partially; then the boundary between the parts published and unpublished is determined by a certain frequency. Almost all the frequency dictionaries, known to the author, are of the latter type, i. e. they are incomplete. Moreover, rather often they are pub-
24. Frequency dictionaries
lished in the form of short lists of the most frequent words. Then, as far as the unpublished words are concerned, the number of words with this or that frequency is indicated. Unfortunately this important general rule is not always followed. The source of information about words and their frequencies is the text. This is to say that only those words, which occur in a certain text or a sampling corps of texts, enter the frequency dictionary. There has been, however, a case when such quasi-texts as dictionary definitions from a regular defining dictionary have been used as the text (Karaulov 1980). Sometimes the source of numerical data on the word occurrence is provided by words-responses to thematic words-stimuli, received from questioning of informants (Gougenheim/Michéa/Rivanc et al. 1956), as well as from interviews on prepared topics (Dahl 1979). A certain problem of informational (in a broad sense) character is created by the absence of uniformity in the names of frequency dictionaries. Though a kind of standard seems to have been arrived at, namely frequency dictionary, Häufigkeitswörterbuch, Frequenzwörterbuch, dictionnaire de fréquence, there are other names as well, e. g. frequency word book, word count, Rangwörterbuch. When one comes across such elements in the name of the dictionary as elementary (elememtarnyj), basic (bazovyj) or fundamental (fundamental’nyj) one manages to find out whether the dictionary is a frequency one only after a personal acquaintance with it. The situation becomes especially problematic when the corresponding reference, for instance from a library catalogue, does not contain sufficient information about such a dictionary. For the reasons, not quite understandable to a western reader, frequency dictionaries issued in the former USSR might miss the term dictionary in their names because only few publishers enjoyed the privilege of printing dictionaries. That is why such names as Study materials (Učebnye materialy) or Methodological recommendations (Metodičeskie rekomendacii) were a customary camouflage.
2.
Classification
More than five hundred frequency dictionaries, familiar to the author, for seven dozens languages may be classified on different
313 bases and by different characteristics. Such characteristics primarily include: language; sublanguage, style, idiolect; input unit; the volume of the sampling or of the text used for compiling the dictionary; the number of different units found in the sampling; their number published in the dictionary; the form of indicating frequencies and sufficiency of information about them; the structure of the dictionary and of the entry; compiling techniques; the main aim and addressee of the dictionary. 2.1. Language To be found among the languages supplied with frequency dictionaries are: Accadian, Ancient Armenian, Ancient Greek, Ancient Russian, Ancient Turkic, Arabic, Armenian, Armenian-Polovian, Bashkir, Basque, Bengali, Bulgarian, Buryat, Byelorussian, Canary (a dialect of Spanish), Catalan, Chinese, Croatian, Czech, Dacian-Roman, Danish, Dutch, English, Estonian, Finnish, French, Georgian, German, Gothic, Gudjarati, Hebrew, Hindu, Hungarian, Icelandic, Indonesian, Italian, Japanese, Kara-Kalpak, Kazakh, Kirghiz, Korean, Latin, Lettish, Lithuanian, Makassarese, Malay, Marathi, Moldavian, Norwegian, Papua, Persian, Polish, Portuguese, Pushtu, Rumanian, Russian, Slovak, Spanish, Sundanese, Swedish, Tagalog, Tajik, Turkish, Turkmen, Ukranian, Urdu, Uzbek, Vietnamese, Yiddish. Most numerous among frequency dictionaries are dictionaries of English (30 % of titles), Russian (15 %), German and French (7 % each), Latin (4 %) Polish and Japanese (3 % each). It was quite natural to count among frequency dictionaries those complete concordances, indices and dictionaries of writers’ language, which contain information about all occurrences of this or that word in the given text (texts) and besides indicate their frequencies. Especially noticeable among frequency dictionaries is the proportion of indices to Latin texts. 2.2. Sublanguage, style, idiolect, text A most general categorization inside the list of frequency dictionaries may be achieved by taking into account the form of the language they represent K a written or an oral one. Among the former one can single out general language and sublanguage dictionaries. General languages tend to represent the language on the whole (Kaeding 1897K 1898; Saukkonen/Haipus/Niemikorpi et al.
314
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
1979; Častotnyj slovar’ russkogo jazyka 1977; Thorndike/Lorge 1944; Kučera/Francis 1967). Among sublanguage dictionaries one can single out frequency dictionaries of fiction, scientific and technological texts, newspaper and magazine texts, historical literary monuments, epistles, children’s speech. Frequency dictionaries of fiction are subdivided according to its genres: prose (Častotnyj slovnyk sučasnoï ukrains’koï chudožn’oï prozy 1981; Mažėjka/Suprun 1976; Kurcz 1974a, 1974b, 1976, 1977, 1990), poetry (Mažėjka/Suprun 1992). Fiction may be represented by frequency dictionaries based on mixed sampling (Centre de Recherche pour un Trésor de la Langue Française, Nancy 1971), on all texts of a single author (Materialy k častotnomu slovarju jazyka Puškina 1963; Častotnyj slovar’ jazyka M. Ju. Lermontova 1981) and on the material of a single text (Genkel’ 1974; Častotnyj slovar’ avtobiografičeskoj trilogii M. Gor’kogo 1996; Villup 1978; Hanley 1951). Scientific and technical frequency dictionaries are divided into general scientific or general technical (Phal 1971; Častotnyj slovar’ obščenaučnoj leksiki 1970; Denisov/ Morkovkin/Saf’jan 1978) and branch-oriented ones (Častotnyj slovar’ indeksirovanija 1974; Gašpariková 1976). Samplings from newspaper or magazine texts either enter the dictionary sampling corps (Thorndike/Lorge 1944; Kučera/Francis 1967; Juilland/Edwards/Juilland 1965), or serve as a basis for frequency dictionaries of the newspaper (Allén 1970K1971; Pisarek 1972) or of the social and political journalism (Častotnyj slovar’ latyšskogo jazyka 1969; Mažėjka/Suprun 1979; Lewicki/Masłowski/Sambor 1975). Frequency dictionaries of historical literary monuments include dictionaries of religious texts (Institut für Neutestamentliche Textforschung/Rechenzentrum der Universität Münster 1980; Ruhani 1987K1990; Alekseev 1997). Besides frequency dictionaries proper (Dietze 1984), this group may also include dictionaries combining qualities of a frequency dictionary and those of an index (Slovoukazatel’ 1973). 2.3. Input unit In an ordinary dictionary entries are always lexemes and irregular word-forms or word combinations (in a phraseological dictionary). Besides these, frequency dictionaries can also register other linguistic units K word forms, morphemes (Allén 1970K1971;
Ljung 1974), graphemes (Dewey 1923), sounds (French/Carter/Koenig 1930), grapheme combinations (Mayzner/Tresselt/Wolin 1965), syllables (Bektaev 1973), flexions (Diederich 1938), syntactic constructions (Thorndike 1927), sentences (Eliseeva 1969). There exist frequency dictionaries of anthroponyms (Chajdarov 1986) and even of the language of gestures (Csonka/Mistrík/ Ubár 1986). Relatively numerous are also terminological frequency dictionaries (Častotnyj anglo-russkij fizičeskij slovar’-minimum 1996). 2.4. Volume of the text sampling The total length of texts, the volume of sampling is a crucial characteristic of a frequency dictionary, as the statistical reliability of a dictionary is primarily determined by the volume of the material analyzed in the process of its creation. The volume of sampling is made up by all the cases of occurrences of textual units, registered by the compiler and, hence, equals the sum total of frequencies of frequency dictionary entries. In a majority of cases current frequency dictionaries differ from each other in volumes of samplings. From this point of view dictionaries based on tens of thousands of occurrences are naturally opposed to dictionaries based on millions of occurrences. The latter are not numerous amounting to about thirty, one third of them having the base of two million or more occurrences (Centre de Recherche pour un Trésor de la Langue Française, Nancy 1971; Thorndike/Lorge 1944; Breland/Jenkins 1997; Kaeding 1897K1898; Rinsland 1945; Horn 1926; Carroll/Davies/ Richman 1971; Lorge/Thorndike 1938; Thorndike 1921; Kazarjan 1982). The volume of a sampling is conditioned by financial and physical opportunities of the compiler. (Recently on the background of computerization an important part is constituted by purely technical possibilities). Being aware of reliability dependence on the size of the sampling, he nevertheless has to limit the latter in such a way as to do the job within an acceptable period of time. Processing of extensive textual corps is practicable by teams only, and organizing such teams is not an easy task. 2.5. Volume of the dictionary The compiler of a frequency dictionary is usually apt to publish either the entire list of textually registered units or a part of it
24. Frequency dictionaries
represented by units with high occurrence rate. Accordingly, a frequency dictionary is published in a full or partial volume. Frequency dictionaries complete in the given sense are by far less numerous than partial (incomplete) ones. A frequency dictionary (its manuscript, card index, etc.) contains very many low-frequency units; units with a single occurrence registered may occupy up to one half of all the dictionary entries. However, the frequency dictionary as a rule attracts the user’s attention by its upper, high-frequency zone. That is why it’s up to the author to decide on the volume of the glossary to be published, depending on aims he pursues or on the opportunities the publisher opens to him. Thus, a broad majority of frequency dictionaries are incomplete. It should also be reminded that issue of any dictionaries is commercially reasonable only in case of mass and renewable circulation. Frequency dictionaries, especially those based on large sampling are published on donations and the mass user is not yet used to them. This the reason why both the compiler and the publisher aim at publishing frequency dictionaries with a small glossary volume, i. e. minimums, in order to reduce spending on preparation and printing of such dictionaries. That is why frequency dictionaries compiled on large samplings are not readily available in every library, let alone book-shops. One can judge about quantities of various vocabulary entries contained in the samplings relying on the following figures: a sampling from English texts amounting to 1 million occurrences has yielded 50,000 word-forms; a sampling of 5 million occurrences has provided 85,000 word-forms, homographs taken into account without their distinction (Kučera/Francis 1967; Carroll/Davies/Richman 1971). A million-strong sampling from Russian texts comprised 40,000 different words (Častotnyj slovar’ russkogo jazyka 1977). Another sampling, from French fiction of the 19thK20th centuries containing 71 million word occurrences amounted to 71,000 different word forms (Centre de Recherche pour un Trésor de la Langue Française, Nancy 1971). A frequency dictionary of a Swedish newspaper based on a sampling of 1 million word-occurrences includes 103,000 word-forms without distinguishing between homographs, 112,000 with the latter condition observed, and 71,000 lexemes (Allén 1970K1971). In a
315 sampling of 500,000 word-occurrences from Ukrainian fiction 86,000 word-forms and 33,000 lexemes have been registered (Častotnyj slovnyk sučasnoï ukraïns’koi chudožn’oï prozy 1981). 2.6. Quantitative characteristics of input dictionary units Numerical characteristics of the frequency dictionary entries may be either obligatory or optional. Almost all frequency dictionaries contain the absolute frequency as the main and minimally sufficient indicator of occurrence. It is also a universal quantitative characteristic. Its values ascribed to the input units together with the indicated sampling volume, yield the necessary and sufficient impression of reliability of the dictionary data (the larger the sampling the more certain are the frequencies) and of the representative capacity of the textual corpus used, with regard to language or sublanguage. The absolute frequency can undergo some additional calculations to obtain other, derivative characteristics, the reverse procedure being difficult. Some frequency dictionaries contain relative frequencies instead of absolute ones, obtained dividing absolute frequencies by the sampling volume (cf. a series of branch-oriented frequency minimums compiled by L. Hoffman’s team, e. g. the first of them Fachwortschatz Physik (Hoffmann 1970); see also the criticism in Alekseev 1998). Sometimes the compiler is apprehensive of the sampling imperfection, due to which one and the same word’s frequency appears to be unevenly spread over various parts of the text corpus as well as over subsamplings. This unavoidable phenomenon can be obviated by finding out a certain corrective coefficient. To calculate it one can use, for instance, a ratio of the number of samplings, in which a particular word occurs, to the total number of subsamplings (Kissen 1972) or the square root of the former number (Horn 1926). The frequency, multiplied by such a coefficient, yields its corrected value which is exactly the one indicated to the given word in a frequency dictionary. The dictionary words are hence ranged recessively by those corrected (not actual) frequencies. More sophisticated statistical procedures may also be offered, which include calculation of the normalized variation coefficient (Juilland/Edwards/Juilland 1965; Allén 1970K1971) to join it to the actual frequency for obtaining a com-
316
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
bined measurement of occurrence. A statistical procedure which is still more complicated envisages calculation of the standard frequency index on the basis of the lognormal word frequency distribution over the text (Carrol/Davies/Richmann 1971). To be seen in all this, is a desire smooth over the conflict between frequency and probability. The latter being a hypothetical, ideal and unobservable value is not exactly definable, in principle. Assessable is only a certain interval in which it may be concluded (Kralík 1997) with an infinite extension of the sampling in conditions analogous to those in which the given dictionary has been compiled. Compilers of many frequency dictionaries, besides indicating a certain frequency, supply each word with a figure reflecting the number of minimal textual samplings (Šteinfel’dt 1963) or larger subsamplings (Kučera/ Francis 1967). At least one dictionary, besides absolute frequencies contains also relative frequencies, numbers of subsamplings and minimal textual stretches, mean frequencies and a measure of the mean frequency deviation (Častotnyj slovnyk sučasnoï ukrains’koï chudožn’oï prozy 1981). Sometimes the number of subsamplings as a range indicator is considered to be the principal numerical characterictic, and the absolute frequency is treated as a subsidiary one (Charakoz 1971; Brown/Shane 1951; Cheydleur 1929; cf. range as the only word indicator in: 2380 slov, naibolee upotrebitel’nych v russkoj razgovornoj reči 1968). One more characteristic ascribable to a frequency dictionary entry is traditionally considered to be derived from frequency, namely the rank. The rank is an ordinal number of a word in the word-list, ordered in conformity with diminishing frequencies, starting with the highest one. Within such a list, the rank is placed to the left of the word; its frequency is indicated to the right of it. It is these two minimally sufficient indicators of the word occurrence, that make the dictionary a frequency list. When at certain level of diminishing frequencies there appears more than word with equal frequencies, they are ascribed a rank interval. If the compiler doesn’t number the words, but the frequencies proper, then the list doesn’t end at a sum total of all the words having the last rank, but at a sum of frequencies which are naturally much less numerous than dictionary words. Thus, the frequency rank is not
directly linked to the frequency dictionary as a list of words, but rather as a list of frequencies. 2.7. Structure of the dictionary and of the dictionary entry In this way, the frequency and the rank constitute the main numerical characteristics of the word as a frequency dictionary unit, which forms the nucleus of the dictionary entry. Additional characteristics, primarily the range, as well as other values derived from the absolute frequency, when combined with this denominator may only serve as addenda to the content of the entry. The alphabetic sections of some frequency dictionaries, e. g. those belonging to the Romance and Polish series, as well as the Ukrainian and Swedish dictionaries (see above, 2.2.), i. e. the dictionaries of words rather than word forms, accompany each frequency-ascribed entry by case and other forms of the given word, also supplied with frequency indications. Other dictionaries place below the key entry some word-combinations, formed with the participation of the given word or word-forms (Anglo-russkij častotnyj slovar’-minimum dlja čtenija gazetnych tekstov 1997). In the frequency section of the dictionary proper, words and word-forms are naturally represented by separate lists. 2.8. Technique of compiling of the dictionary A most general categorization of frequency dictionaries is also effected on basis of the fact whether they have been compiled with or without a computer. Over the past few years the number of computer-compiled dictionaries has been rapidly increasing, especially in case of team-work. However, the ratio of hand-made frequency dictionaries is still considerable, especially when moderately large samplings are used up to a few hundred thousand occurrences (see, for instance Častotnyj anglo-russkij slovar’-minimum gazetnoj leksiki 1984). In one particular case data of several branch-oriented frequency dictionaries, compiled by hand on the basis of a sum total of samplings amounting to 1 million occurrences have been united within a single generalized dictionary (Častotnyj anglo-russkij fizičeskij slovar’-minimum 1996). Well-known frequency dictionaries (Kučera/Francis 1967; Allén 1970K1971; Carroll/Davies/Richman
317
24. Frequency dictionaries
1970) and the polish series are all computer-compiled or, more exactly, in a computerized way. Within several past decades, practically all full concordances and indices, which are close to frequency dictionaries, have been compiled with the help of computers (Delatte 1981; Gaston 1973; Institut für Neutestamentliche Textforschung/ Rechenzentrum der Universität Münster 1980; Brunet 1988; Colin/Rutten 1993; Polnaja simfonija na kanoničeskie knigi Svjaščennogo Pisanija 1996; Spevack 1968K1969; cf. also Grinbaum 1996 which contains reference to a corpus of texts being collected at the Department of mathematical linguistics of St. Petersburg University). 2.9. The aim and the addressee One of the first frequency dictionaries, if not actually the very first one, namely a dictionary of Chinese logograms (Gamble 1861), was compiled for an optimum construction of type-setting machines in print-houses (Harkin 1957). One of the largest frequency dictionaries (Kaedig 1897K1898) was made on the material of German texts in order to improve the system of short-hand. Many of the first frequency dictionaries were aimed at improvement of language teaching (Eldridge 1911; Cheydleur 1929; Keniston 1929; Vander Beke 1929; Hauch 1931). This tendency remains visible throughout the second half of the 20th century (Štejnfel’dt 1963; Častotnyj slovar’ obščenaučnoj leksiki 1970; Gašpariková 1976; Častotnyj slovar’ obščenaučnoj leksiski nemeckogo jazyka 1983; Gjurova/Vlaseva/Darčeva 1983; Velinova/ Petrova/Bogdanova 1983; Dyrcheeva 1992). Somewhat fewer frequency dictionaries are devised to serve broader linguistic, linguostylistical and linguostatistical aims (Juiland/ Edwards/Juilland 1965; Kučera/Francis 1967; Allén 1970K1971; Bortolini/Tagliavini/Zampolli 1972; Ludeen 1974; Saukkonen/Haipus/ Niemikorpi et al. 1979). There are some frequency dictionaries for technical (French/ Carter/Koenig 1930), technical-informational (American Chemical Society 1967; Častotnyj slovar’ indeksirovanija 1974), linguopsychological (Howes 1966; Dahl 1979), military (Kolguškin 1970) purposes. Some frequency dictionaries were compiled to meet demands of defectology (Knowles 1904; Csonka/Mistrík/Ubár 1986). Frequency dictionaries of children’s speech (Cook/O’Shea 1914; Rinsland 1945; Beier/Starkweather/ Miller 1967; Wepman/Hass 1969; Lukić
1983; Zugólkowa/Bułczyńska 1987), reflecting, in particular, development dynamics in the speech of the child make it possible to arrive at conclusions, equally important for linguists, psychologists and teachers. The making of the frequency dictionary is often just a starting stage of a detailed structural study of the text representing language or sublanguage. Its primary aim consisting, let’s say, in improving language teaching methods, as a matter of fact makes the dictionary a multi-purpose entity, and vice versa, any frequency dictionary can be used for teaching purposes. New tendencies, cropping up in the computer age provide an opportunity to create a body of texts (Francis 1979) for extracting of various linguistic and other information. The first product of machine processing of such bodies are exactly frequency dictionaries (Kučera/Francis 1967; Carroll/Davies/Richman 1970; Centre de Recherche pour un Trésor de la Langue Française, Nancy 1971; Johansson/Hofland 1989). Multi-purpose frequency dictionaries produced by the Statistics of Speech team are based on standard-size samplings and generally accepted methodological principles and techniques yield, among others, a material for typological studies of languages and functional styles, and, it goes without saying, for linguodidactic and informationtechnological applications: in information search, machine translation and text compression (Čižakovskij/Bektaev 1986; Sadčikova 1992, as well as bibliography in Alekseev 1984).
3.
Compiling of a frequency dictionary
3.1. The scheme of abstraction from the text Compiling of a frequency dictionary is a rather challenging task, for if one is not aware of its possibilities and limitations, its data could have been taken for granted, uncritically, solely out of respect for linguistic statistics, which is not always understandable to an average reader. Some people are apt to consider statistics to be such a powerful tool as to produce the desired result all by itself. However statistics like some automaton is only capable of sorting out what has been put into this automaton. The sequence of information extraction from the text, its generalization in the process of crea-
318
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
tion of a frequency dictionary and a primary processing of its data can be visualized as follows. (a) Material, the object of study (M): an unordered set of texts. Information media (IM): an unordered set of language units. Procedure (P): study of textual fluxes, consultations with experts, etc. Result (R): schemes of ordered body of texts (b) M: a parent population of texts. IM: occurrence of language units in the parent population of texts. P: a selection of texts into the sampled textual body. R: a textual sampling. (c) M: a textual sampling. M: occurrence of language units in the textual sampling. P: analysis, ascription of characteristics. R: frequency inventory, a glossary of language units. (d) M: a frequency dictionary. IM: input units of the frequency dictionary with their frequencies attached. P: tabulation of the data. R: tables of distribution series. (e) M: tables of distribution series. IM: frequencies and other quantitative data. P: choice of scale, tracing of distribution graphs. R: distribution graphs. (f) M: distribution tables and graphs. IM: series of quantitative data, the type and form of the graphs. P: choice of formulae. R: analytical representation of distributions. (g) M: analytical representations of distributions. IM: distribution parameters. P: comparison of empirical and theoretical, smoothing distribution parameters. R: measure of proximity/divergence between empirical and theoretical distributions. Dictionary creation proper embraces points (a), (b) and (c), while points (d), (e), (f) and (g) describe actions at the frequency dictionary data; they are given here for the sake of completeness. 3.2. Determining the parent population In determining the parent population of texts one should make it absolutely clear for oneself and relate to the user what objects the compiler is going to describe with the help of his dictionary qualitatively, from the point of view of content, i. e. he is to decide whether it is going to be lexicon (or another level) of standard language, or language of
fiction, prose, poetry, scientific literature, colloquial speech, etc. If a general-purpose dictionary is planned, for example, one has to decide whether it is going to be a normative dictionary or it will register the actual usage in written and/or oral form. In the former case the parent population will consist of texts by renowned authors, and chronological frames may not be rigidly delineated. A frequency dictionary registering the usage of linguistic units in texts by authors of different levels of skill might serve a broader range of tasks. In this case the limits and structure of the parent population should be determined from the point of view of different information sources: the circulation of editions, the study of demand in book-shops and libraries, etc., in order that personal estimates be corrected by collective ones. Generally speaking, dreams about a certain full frequency dictionary, which could have registered the whole lexicon or the larger part of it, and moreover, could have determined probabilities of words in the language, appear to be unrealizable (Revzin 1962). Two principally different approaches are possible to the determination of the quantitative structure of the parent population: proportionate and disproportionate representation of its fields. The former solution will unavoidably be arbitrary inasmuch as no linguistic populations are actually segmented into equal parts. The latter solution will also be essentially arbitrary as in real practice it can’t be realized in a strictly correct way. For instance, how can one theoretically ground segmenting the parent population in such proportions: 25 % newspapers, 25 % radio broadcasts, and 50 % fiction? However, most of frequency dictionaries are based on this approach. 3.3. Formation of the sampling body The structure of a textual sampling must follow the structure of the parent population. This means that no matter how highly the frequency dictionary pretends to be an objective reflection of language or a sublanguage, its data may be to a certain degree reliable only relative to the general population whose content and structure are analogous to those of the sampled population, that is of the sampled body of texts. The statistical reliability of the frequency dictionary is determined by both the content of the sampling and its volume. Despite a natural desire to support sufficiency of such a vol-
24. Frequency dictionaries
ume with various complicated statistical calculations and estimates, the following general rule holds true: the larger the sampling the more reliable the results of observations. However, with equal samplings, texts of limited content yield more reliable information, what appears to be natural: a broader choice of situations requires a sufficient representation in the text body, and this entails the necessity of a larger sampling. A more detailed discussion of issues touched upon in 3.2. and 3.3. see in Francis (1979); Alekseev (1984; 1999). 3.4. Determining the registry unit The demand of structural correspondence of the sampled body to the parent population also presupposes an obligatory identity of linguistic units of these two entities and the registry units. If, for instance, the object of observation and the basic unit of the future frequency dictionary is constituted by the word, then there is no linguostatistical sense in measuring of the sampling by pages or typographical signs. When word combinations are meant, the sampling should be determined by word combinations as well, and the expression of its volume in words is only supplementary. The understanding of a textual word as a stretch from interval to interval does not only provide for a formalization of the text length, but also for identification of the word form, if the latter is to be understood in the same terms. One is challenged, however, to define his point of view on the problem of analytical forms and strings, present in the text continuously (as is the case with the German language), or with a hyphen and apostrophe (as in English), or with an apostrophe (as in French). Therefore a necessity arises to solve two main problems here. First, what should be taken for the entry unit of the frequency dictionary: a word form or a word? Second, what should be registered in the text: a word form, or obviating this stage, a word in its initial, dictionary form? 3.5. Text analysis (fragmentation) The choice implied by the solution of these problems is made directly in the course of the text analysis (writing out of all the occurrences). No problems occur in the course of machine compilation of the frequency dictionary in its simplest form, when the entry units are represented exactly as they are given in the text. Somewhat more compli-
319 cated variant is used in manual analysis, if the entry word is to be accompanied with grammar references, or at most, with semantic ones too. The machine compilation requires efficient lemmatization programs, which are still far from being perfect. The manual analysis usually finishes by compiling of a card catalog, which initially is arranged in the alphabetical order, and afterwards in the receding frequency order. Correspondingly, two lists are made up: the alphabetical, or more exactly, the alphabetical-frequency list and the frequency one. These lists are, as a matter of fact, a ready frequency dictionary. 3.6. Tabulating of the data Tables made, when the frequency dictionary is ready to published and used, do not only facilitate consideration of its data and enable the user to get a general idea of its quantitative structure. Those tables are also necessary for determining of the exact volume of the sampling analyzed (written out). Such tables allow for the procedure of linguostatistical processing of the frequency dictionary data. These are first and foremost, tables of rank and spectral distributions (Tuldava 1987, 42K47). For specimens of such tables, see Kučera/Francis (1967); they contain information sufficient for the above-mentioned purposes. 3.7. Dictionary efficiency estimate The frequency dictionary efficiency estimate may be obtained by following special criteria, which are to be found in mathematical statistics for various applications. Such estimates might be termed theoretical as far as they based on fundamental notions of a chance event probability of a true statement about such an event. A priori results do not always coincide with those obtained a posteriori. Therefore more realistic are the estimates obtained from comparison of several random samplings from the parent population. Such a comparison might be termed an empirical frequency dictionary efficiency estimate. The ideal case might be manifested by an analysis of several frequency dictionaries made on the basis of qualitatively and quantitatively identical samplings. Yet this method is not very attractive because of its difficulty. That is why a more accessible approach envisages a comparison of dictionary data with texts, smaller in volume than the sampling body. If the control sampling is
320
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
large enough it is advisable to unite it with the main one (Howes 1966). A simpler variant consists in comparison of the dictionary with large texts, chosen at random. Then, naturally, the greater qualitative discrepancies between the control sampling and the main one, the lower the efficiency of the dictionary. Efficiency of different frequency zones of the dictionary may also be estimated: e. g. of the first, second thousand words, etc. (Štejnfel’dt 1963, 73K86).
4.
Application
4.1. General-purpose application A general applicability of frequency dictionaries is linked to the demand of solving of a great number of problems which boil down to three basic problems. First, one has to single out the most probable and informationsaturated (in a statistical sense) lexical zones of language or a sublanguage (by which we mean a language subsystem used in this or that functional sphere and form of language). Second, it is necessary to determine the statistical stereotype in the structure of a linguistic object (language, sublanguage, text). Third, frequency dictionaries are used to describe deviations from this stereotype as a kind of pathology and to make typological conclusions on this basis. Thus, the general application and aim of the frequency dictionary consists in elaboration of a probability-statistical model of the lexical (or other) organization in a complex, systemic linguistic object, namely, language (sublanguage, style, idiolect). These aims are determined by applications of frequency dictionaries to more particular cases, and, in their turn, determine these applications. 4.2. Linguistic application proper Frequency dictionary data may also be used and actually are used in research in the field of linguistic theory, speech and speech activity, lexicography (especially for teaching purposes; see 4.4. below), lexicology, text attribution (at a juncture of linguistics and literary studies), text linguistics, stylistics (functional and individual) and style metrics, linguistic typology, linguistic synergetics, linguistic geography and dialectology, language diachrony. 4.3. Linguistic-statistical application Linguistic-statistical application of frequency dictionaries is determined by the
very essence of them, as it has been demonstrated above (4.1.). Analysis of these data is associated with construction procedures of more particular statistical models, parent population prognosis, as well as comparison of observation data with theoretically expected results. Essentially, linguostatistics proper began from compiling of frequency dictionaries, having achieved impressive results by now. 4.4. Didactic application Didactic applications include primarily optimization of language teaching in unfavourable conditions (when language milieu is absent). Here the leading part belongs to the choice of language material. It has been demonstrated that practically all selection criteria are statistically based. Creation of basic vocabularies and dictionary minimums enters the sphere of class-room statistical lexicography, an important part of it being formed by bilingual, multilingual and semantic frequency dictionaries (the two latter types are still underrepresented). Frequency dictionaries may also be used in defectology (teaching of the blind and deaf-mute) and general pedagogy, as well as in the studies of initial and developmental stages of children speech. A comparatively new sphere of linguodidactic applications of frequency dictionaries is a computerized foreign language teaching. 4.5. Informational and technological application The domain of information-technological applications of frequency dictionaries embraces their use in engineering linguistics. The computer here is not only a means of obtaining of linguistic data, but their user, too. Moreover, probability-statistical modeling of lexicon and other language levels by means of frequency dictionaries per se is an inseparable part of engineering linguistics. The latter is engaged in theory and practice of a reproductive language modeling. It presupposes an obligatory verification of the models offered by theoretical and applied linguistics, whereas its major aim consists in a computer-based solution of linguistic problems. The frequency dictionary, hereby, is the foundation of the computer informational base. The engineering-linguistic approach, envisaging a machine-level solution of linguistic problems, is applied for the purposes of language teaching optimization. In-
321
24. Frequency dictionaries
formation-technological applications of frequency dictionaries as they are, include their usage for linguistic support of machine translation systems (first and foremost, in elaboration of automatic dictionaries), information search, folding and compression of textual information, and generally, for automatic processing of the text. Computer-sustained compilation of frequency dictionaries, in its turn, enters the field of engineering-linguistic problems. 4.6. Other applications More particular and more concrete possibilities of frequency dictionaries are constituted by their applications in sociology, psychology and psycholinguistics, cultural studies, medicine (psychiatry), criminology, certain military situations, cryptography and deciphering, theory and practice of communication, theory and practice of translation, professional and social dialectology. For more detail of applications considered in 4., see, for instance, (Zipf 1949; Moles 1967; Herdan 1966; Carroll/Davies/Richman 1971; Frumkina 1971; Guiter/Arapov 1982; Piotrowskij 1988; Bektaev 1978; Köhler 1986).
5.
Tendencies and prospects
Within the first century of sensible statistical lexicography such tendencies have been clearly delineated as inclusion of an increasing number of languages and sublanguages, an aspiration for larger samplings, a transfer from the general to the particular, from hand-made to computer-made dictionaries, from dictionaries for few users to dictionaries for many users. Three types of problems appear to be very significant for further development of statistical lexicography. The first type is represented by the problems involved in creation of data banks based on frequency dictionaries and subsequent informational servicing. The corresponding information system must provide sufficient data on the frequency dictionaries: language, sublanguage, sampling volumes, input units and their arrangement, techniques, time and place of creation, the author. These are information problems. The second type is constituted by the problems of large-volume textual bodies for increasingly large number of languages and
sublanguages, as well as for efficient scanning of texts, written down in types of various quality and in symbols of different scriptures. Here also belong the problems of oral-into-written text transformation and complete automatic lemmatization. These are technical problems. Last, the third, theoretical group of problems is associated with elaboration of the theory of frequency dictionaries, linguistic sampling and linguistic distributions.
6.
Literature (a selection)
Alekseev, P. M. (1984), Statistische Lexikographie. Zur Typologie, Erstellung und Anwendung von Frequenzwörterbüchern. Lehrbuch. Übersetzung von W. Lehfeldt. Bochum: Brockmeyer. Alekseev, P. M. (1997), Častotnyj slovar’ Četveroevangelija. In: Žanry reči. Saratov: Kolledž, 205K211. Alekseev, P. M. (1998), Serijnye učebnye častotnye slovari. In: Strukturnaja i prikladnaja lingvistika 5. Sankt-Peterburg: Sankt-Peterburgskij universitet, 140K151. Alekseev, P. M. (1999), Statistika slov v biblejskich tekstach (Častotnyj slovar’ Novogo Zaveta). In: Tverskoj lingvističeskij meridian 2. Tver’: Tverskoj gosudarstvennyj universitet 3K14. Allén, S. (1970K1971), Nusvensk frekvensordbok baserad på tidningstext. Stockholm: Almqvist & Wiksell. American Chemical Society. Chemical Abstracts Service (1967), Chemical titles word frequency list (s.l.). Anglo-russkij častotnyj slovar’-minimum dlja čtenija gazetnych tekstov (1997), Avtory-sostaviteli P. M. Alekseev et al. Sankt-Peterburg: Sankt-Peterburgskij universitet. Beier, E./Starkweather, J. A./Miller, D. E. (1967), Analysis of word frequencies in spoken language of children. In: Language and Speech 10, 217K 227. Bektaev, K. B. (1973), Alfavitno-častotnyj slovar’ slogov kazachskogo jazyka. In: Statistika kazachskogo teksta I. Trudy gruppy “Statistiko-lingvisticeskoe issledovanie i avtomatizacija” III. AlmaAta: “Nauka”, 566K611. Bektaev, K. B. (1978), Statistiko-informacionnaja tipologija tjurkskogo teksta. Alma-Ata: Nauka. Bortolini, U./Tagliavini, C./Zampolli, A. (1972), Lessico di frequenza della lingua italiana contemporanea. Milano: Gazzanti. Breland, H. M./Jenkins, L. (1997), English word frequency statistics: analysis of a selected corpus of 14 million tokens. New York: College Entrance Examination Board.
322
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
Brown, C. B./Shane, M. L. (1951), Brazilian Portuguese idiom list. New York: Vanderbilt University Press.
Čižakovskij, V. A./Bektaev, K. B. (1986), Statistica reči 1957K1985. Bibliografičeskij ukazatel’. Kišinev: Štiinca.
Brunet, E. (1988), Le vocabulaire de Victor Hugo. Genève: Slatkine.
Dahl, H. (1979), Word frequencies of spoken American English. Essex: Verbatim; Detroit: Gale Research Co.
Carroll, J. B./Davies, P./Richman, B. (1971), The American Heritage word frequency book. New York: American Heritage Publications; Boston: Houghton Mifflin. Centre de Recherche pour un Trésor de la Langue Française, Nancy (1971), Dictionnaire des fréquences. Vocabulaire littéraire des XIXe et XXe siècles. II. Table des fréquences décroissantes. Paris: Didier. Chajdarov, Š. (1986), Častotnyj slovar’ antroponimov Aštskogo rajona. Dušanbe: “Doniš”. Charakoz, P. I. (1971), Častotnyj slovar’ sovremennogo russkogo jazyka. Frunze: “Merktep”. Cheydleur, F. D. (1929), French idiom list based on a running count of 1,183,000 words. New York: Macmillan. Colin, B./Rutten, C. (1993), Aristote, categoriae: index verborum, listes de fréquence. Liège: Université de Liège. Cook, W. A./O’Shea, M. V. (1914), The child and his spelling. Indianapolis: Bobbs-Merrill Co. Csonka, S./Mistrík, J./Ubár, L. (1986), Frekvenčny slovník posunkovej reči. Bratislava: Slovenské pedagogické nakl. Častotnyj anglo-russkij fizičeskij slovar’-minimum (1996), Avtory-sostaviteli P. M. Alekseev et al. Sankt-Peterburg: Sankt-Peterburgskij universitet. Častotnyj anglo-russkij slovar’-minimum gazetnoj leksiki (1984). Sostaviteli P. M. Alekseev/L. A. Turygina. Moskva: Voenizdat. Častotnyj slovar’ avtobiografičeskoj trilogii M. Gor’kogo (1996). Avtor-sostavitel’ P. M. Alekseev. Sankt-Peterburg: Sankt-Peterburgskij universitet. Častotnyj slovar’ indeksirovanija (1974). Perm’: Permskij gosudarstvennyj universitet. Častotnyj slovar’ jazyka M. Ju. Lermontova (1981). In: Lermontovskaja ėnciklopedija. Moskva: Sovetskaja ėnciklopedija, 714K774. Častotnyj slovar’ latyšskogo jazyka (1966K1976). Sostaviteli T. A. Jakubaitis et al. V 1K4. Riga: Zinatne. Častotnyj slovar’ obščenaučnoj leksiki (1970). Sostaviteli M. I. Zykina et al. Moskva: Moskovskij gosudarstvennyj universitet. Častotnyj slovar’ obščenaučnoj leksiki nemeckogo jazyka (1983). Sostaviteli M. M. Alekseeva et al. Moskva: Nauka. Častotnyj slovar’ russkogo jazyka. Okolo 40,000 slov (1977). Moskva: Russkij jazyk. Častotnyj slovnyk sučasnoï ukrains’koï chudožn’oï prozy (1981). V 1K2. Kyiv: Naukova dumka.
Delatte, L. (1981), Dictionnaire fréquentiel et index inverse de la langue latine. Liège: Travaux du L.A.S.L.A. Denisov, P. N./Morkovkin, V. V./Saf’jan, J. A. (1978), Kompleksnyj častotnyj slovar’ russkoj naučnoj i techničeskoj leksiki. 3047 slov. Moskva: Russkij jazyk. Dewey, G. (1923), Relative frequency of English speech sounds. Cambridge: Harvard University Press. Diederich, P. B. (1938), The frequencies of Latin words and their endings. Chicago: University of Chicago Press. Dietze, Joachim (1984), Frequenzwörterbuch zur jüngeren Redaktion der ersten Novgoroder Chronik. München: O. Sagner. Dyrcheeva, G. A. (1992), Ispol’zovanie častotnogo slovaja dlja optimizacii prepodavanija burjatskogo jazyka. Ulan-Udė: Burjatskij naučnyj centr RAN. Eldridge, R. C. (1911), Six thousand common English words; their comparative frequency and what can be done with them. Buffalo: The Clement Press. Eliseeva, L. A. (1969), Statističeskij analiz korotkich predloženij v anglijskom literaturnom dialoge. In: Učenye zapiski KGPI 64(2). Kalinin: Kalininskij gosudarstvennyj pedagogičeskij institut, 170K211. Francis, W. N. (1979), Problems of assembling and computerizing large corpora. In: Empirische Textwissenschaft,. Aufbau und Auswertung von TextCorpora. (Hrsg. H. Bergenholtz/B. Schaeder). Königstein: Scriptor, 110K123. French, N. R./Carter, C. W./Koenig, W. (1930), Words and sounds of telephone conversations. In: The Bell System technical journal IX (2), 290K 324. Frumkina, R. M. (1971), Verojatnost’ ėlementov teksta I rečevoe povedenie. Moskva: Nauka. Gamble, W. (1861), Two lists of selected characters containing all in the Bible and twenty-seven other books. Shanghai. Gaston, L. (1973), Horae synopticae electronicae. Word statistics of the Synoptic Gospels. Missoula: Society of Biblical Literature. Gašpariková, Š. (1976), Rusky frekvenčny slovník pre ekonómov. Bratislava: Vysoka škola ekonomicka. Genkel’ , M. A. (1974), Častotnyj slovar’ romana D. N. Mamina-Sibirjaka “Privalovskie milliony”. Perm’: Permskij gosudarstvennyj universitet.
24. Frequency dictionaries Gjurova, M./Vlaseva, K./Darčeva, I. (1983), Učeben čestotem rečnik po biologija. Sofija: Institut za čuždestranni studenti. Gougenheim, G./Michéa, R./Rivanc, P./Sauvageot, A. (1956), L’elaboration du française élémentaire. Paris: Didier. Grinbaum, O. N. (1996), Komp’juternye aspekty stilemetrii. In: Prikladnoe jazykoznanie. Učebnik. (Hrsg. A. S. Gerd). Sankt-Peterburg: Sankt-Peterburgskij universitet, 451K465. Guiter, H./Arapov, M. V. (Hrsg.), Studies on Zipf’s Law. Bochum: Brockmeyer, 1982. Hanley, M. L. (1951), Word index to James Joyce’s “Ulysses”. Madison: University of Wisconsin Press. Harkin, D. (1957), The history of word counts. In: Babel 3 (3), 113K124. Hauch, E. F. (1931), A German idiom list selected on the basis of frequency and range of occurrence. New York: Macmillan. Herdan, G. (1966), The advanced theory of language as choice and chance. Berlin u. a.: Springer. Hoffmann, L. (Hrsg.), Fachwortschatz Physik. Häufigkeitswörterbuch russisch-englisch-französisch. Leipzig: Enzyklopädie, 1970. Horn, E. (1926), A basic writing vocabulary. Iowa City: University of Iowa. Howes, D. (1966), A word count of spoken English. In: Journal of verbal learning and verbal behaviour 5 (6), 572K606. Institut für Neutestamentliche Textforschung/Rechenzentrum der Universität Münster (Hrsg.), Computer-Konkordanz zum Novum Testamentum Graece. Berlin/New York: Walter de Gruyter, 1980. Johansson, S./Hofland, K. (1989), Frequency analysis of English vocabulary and grammar: based on the LOB corpus. V. 1K2. Oxford/New York: Oxford University Press. Juilland, A./Edwards, P. N. H./Juilland, I. (1965), Frequency dictionary of Rumanian words. The Hague: Mouton. Kaeding, F. W. (1897K1898), Häufigkeitswörterbuch der deutschen Sprache. Berlin: Selbstverlag des Herausgebers. Karaulov, J. N. (1980), Častotnyj slovar’ semantičeskich množitelej. Moskva: Nauka. Kazarjan, B. K. (1982), Častotnyj slovar’ sovremennogo armjanskogo jazyka. Okolo 36,200 slov. Erevan: Akademija nauk Armjanskoj SSR. Keniston, H. (1929), Spanish idiom list. New York: Macmillan. Kissen, I. A. (1972), Slovar’ naibolee upotrebitel’nych slov sovremennogo uzbekskogo literaturnogo jazyka. Vysokočastotnaja leksika pod’ jazyka chudožestvennoj prozy. Posobie dlja učitelej uzbekskogo jazyka. Taškent: Ukituvči.
323 Knowles, J. Rev. (1904), The London point system of reading for blind. London. Kolguškin, A. N. (1970), Lingvistika v voennom dele. Moskva: Voenizdat. Köhler, R. (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Kralík, J. (1997), A short comment on probability in quantitative linguistics. In: Journal of quantitative linguistics 4 (1K3), 126K130. Kučera, H./Francis, W. N. (1967), Computational analysis of present-day American English. Providence: Brown University Press. Kurcz, I. (1974a), Słownictwo współczesnego jezyka polskiego. Listy frekwencyjne. I. Teksty popularnonaukowe. Warszawa: PAN. Kurcz, I. (1974b), Słownictwo współczesnego jezyka polskiego. Listy frekwecyjne. II. Drobne wiadomošci prasowe. Warszawa: PAN. Kurcz, I. (1976), Słownictwo współczesnego jezyka polskiego. Listy frekwencyjne. IV. Proza artystyczna. Warszawa: PAN. Kurcz, I. (1977), Słownictwo współczesnego jezyka polskiego. Listy frekwencyjne. V. Dramat artystyczny. Warszawa: PAN. Kurcz, I. (1990), Słownik frekwencyjny polszczyzny współczesnej. V 1K2. Kraków: PAN. Lewicki, A./Masłowski, W./Sambor, J. (1975), Słownictwo współczesnego jezyka polskiego. Listy frekwencyjne. III. Publicyctyka. Warszawa: PAN. Ljung, M. (1974), A frequency dictionary of English morphemes. Stockholm: AWE. Lorge, I./Thorndike, E. L. (1938), A semantic count of English words. New York: Colimbia university. Ludeen, D. M. (1974), Statistical dictionary of the Pashto language. Kabul: Pashto Academy. Lukić, V. (1983), Dečji frekvencijski rečnik. Beograd: Prosveta. Materialy k častotnomu slovarju jazyka Puškina (prospekt) (1963). Moskva: Institut jazykoznanija AN SSSR. Mayzner, M. S./Tresselt, M. E./Wolin, B. R. (1965), Tables of tetragram frequency counts for various word-length and letter-position combinations. In: Psychonomic monograph supplements 1 (4), 79K 143 (s.l.). Mažėjka, N. S./Suprun, A. J. (1976), Častotny slou˘nik belaruskaj movy. Mastackaja proza. Minsk: Belaruski dzjaržau˘ny universitėt. Mažėjka, N. S./Suprun, A. J. (1979), Častotny slou˘nik belaruskaj movy. Publicystyka. Minsk: Belaruski dzjaržau˘ny universitėt. Mažėjka, N. S./Suprun, A. J. (1992), Častotny slou˘nik belaruskaja movy. Paėzija. Minsk: Universitėtskae. Moles, A. A. (1967), Sociodynamique de la culture. Paris: Mouton.
324
V. Gebiete und Phänomene: Lexik / Fields and Phenomena: lexicology and lexicography
Phal, A. (1971), Vocabulaire général d’orientation scientifique (V.G.O.S.). Part du lexique commun dans l’expression scientifique. 1K2. Paris: CREDIF. Piotrowskij, R. G. (1988), Kompjuterizacija prepodavanija jazykov. Učebnoe posobie po speckursu. Leningrad: Leningradskij gosudarstvennyj pedagogičeskij institut. Pisarek, W. (1972), Frekwencja wyrazów w pracie. Wiadomości K komentarze K reportaże. Kraków: Osrodek Badań Prasoznawczyh RSW “Prasa”. Polnaja simfonija na kanoničeskie knigi Svjaščennogo Pisanija (1996). Sankt-Peterburg: Christianskoe obščestvo “Biblija dlja vsech”. Revzin, I. I. (1962), Soveščanie v g. Gor’kom, posvjaščennoe primeneniju matematičeskich metodov k izučeniju jazyka chudožestvennoj literatury. In: Strukturno-tipologičeskie issledovanija. Moskva: Nauka, 285K293. Rinsland, H. D. (1945), A basic writing vocabulary of elementary school children. New York: Macmillan. Ruhani, M. (1987K1990), A statistical dictionary of Quranic words. Mashad: Mussasah-i Chap va Intisharat-i-Astan-i Quds-i Razavi. Sadčikova, P. V. (1992), Statistika reči 1986K1991. Bibliografičeskij ukazatel’. Sankt-Peterburg/Čimkent: JužKazCNTI. Saukkonen, P./Haipus, M./Niemikorpi, A./Sulkala, H. (1979), Suomen kielen taajuussanasto. Porvoo u. a.: WSOY. Slovoukazatel’ (1973). In: Naziratel’. Moskva: Nauka, 515K710. Spevack, M. (1968K1969), A complete and systematic concordance to the works of Shakespeare. V 1K2. Hildesheim: Olms. Štejnfel’dt, Ė. A. (1963), Častotnyj slovar’ sovremennogo russkogo literaturnogo jazyka. 2500 naibolee upotrebitel’nych slov. Posobie dlja prepodavatelej russkogo jazyka. Tallin: NII pedagogiki ĖSSR.
Thorndike, E. L. (1921), The teacher’s word book. New York: Columbia University. Thorndike, E. L. (1927), An inventory of English constructions with measure of their importance. In: Teachers College Record 28 (February 1927). New York: Columbia University, 580K610. Thorndike, E. L./Lorge, I. (1944), The teacher’s word book of 30,000 words. New York: Columbia University. Tuldava, J. (1987), Problemy I metody kvantitativno-sistemnogo issladovanija leksiki. Tallin: Valgus. Učebnye materialy po russkoj nekodificirovannoj reči (leksika bytovych pisem). Častotnyj minimum (1981). Sostaviteli P. M. Alekseev/A. S. Grivor’eva. Leningrad: Leningradskij gosudarstvennyj pedagogičeskij institut. Vander Beke, G. (1929), French word book. New York: Macmillan. Velinova, I./Petrova, S./Bogdanova, P. (1983). Učeben čestoten rečnik po matematika. Sofija: Institut za čuždestranni studenti. Villup, A. (1978), Častotnyj slovar’ 1-go toma romana A. Ch. Tammsaare “Pravda i spravedlivost’” (avtorskaja reč’ i reč’ personažej). In: Učenye zapiski TGU 446. Tartu: Tartuskij gosudarstvennyj universitet, 5K106. Wepman, J./Hass, W. (1969), A spoken word count (children K ages 5, 6 and 7). Chicago: Language Research Associates. Zgólkowa, H./Bułczyńska, K. (1987), Słownictwo dzieci w wieku przedsˆzkolnym. Listy frekwecyjne. Poznań: Uniwersitet im. A. Mickiewicza. Zipf, G. K. (1949), Human behavior and the principle of least effort. Cambridge: Addison-Wesley. 2380 slov, naibolee upotrebitel’nych v russkoj razgovornoj reči (1968). Moskva: Universitet družby narodov.
Pavel M. Alekseev, Sankt-Petersburg (Russia)
VI. Gebiete und Phänomene: Text / Fields and phenomena: text 25. Eigenschaften der textuellen Einheiten und Systeme 1. 2.
5. 6. 7. 8. 9.
Einleitung Quantitative Textlinguistik und Systemtheorie Zum Begriff der statistischen Textorganisation Zur Methodik der quantitativen Textlinguistik Textgesetze im Überblick Ausgesuchte Fragestellungen Anwendungen Ausblick Literatur (in Auswahl)
1.
Einleitung
3. 4.
Nach Max Bense gliedert sich die mathematische Textlinguistik in drei Bereiche, die sich mit der algebraischen, topologischen und statistischen Beschreibung der Materialität von Texten (verstanden als Entitäten mit sprachlicher, semiotischer Eigenwelt, jedoch ohne semantische, metasemiotische Außenwelt) beschäftigen: die Textalgebra, die Texttopologie und die Textstatistik (vgl. Bense 1998). Während Textalgebra und Texttopologie auf dem Begriff der Verknüpfung bzw. der Nachbarschaft (Distanz) beruhen, ist es der Begriff der Häufigkeit (bzw. Verteilung), der im Mittelpunkt textstatistischer Untersuchungen steht (vgl. Fucks 1968; Fischer 1970; Fischer 1975). Vor diesem Hintergrund entwickelt die quantitative Linguistik eine empirische Textwissenschaft, die sich der Erforschung quantitativer, dynamischer Eigenschaften von Organisation und Struktur natürlichsprachlicher Texte widmet (vgl. Altmann 1988a). In diesem Sinne kann, in Erweiterung des Begriffs der Textstatistik, von einer quantitativen Textlinguistik (als Teilbereich der mathematischen Linguistik) gesprochen werden. Brinker (1992) unterscheidet zwei Grundrichtungen der Textlinguistik: während die sprachsystematisch ausgerichtete Textlinguistik den Satz als primäre Struktureinheit von Texten (verstanden als kohärente Satzfolgen) ansieht, thematisiert die kommunikationsorientierte Textlinguistik die Funktion textueller Einheiten in Abhängigkeit von variierenden Bedingungen der Kommu-
nikationssituation. Die ihrerseits kommunikationsorientierte quantitative Textlinguistik (QTL) rückt im Vergleich zu diesen beiden Richtungen einen Aspekt in den Vordergrund ihres Erkenntnisinteresses, den diese unberücksichtigt lassen: die statistische Textorganisation. Ist für die sprachsystematische Textlinguistik in Anlehnung an das Syntaxmodell Chomskys alles Probabilistische von Texten irrelevant, so betont die quantitative Textlinguistik umgekehrt gerade die Bedeutsamkeit quantitativer Aspekte von Textproduktion und -rezeption (vgl. Hřebíček/Altmann 1993b). Im Kern beruht der Textbegriff der quantitativen Linguistik auf der Auffassung, daß Texte quantitative Eigenschaften und Relationen aufweisen, die für ihre Struktur und Organisation konstitutiv sind. Textualität wird als eine Eigenschaft verstanden, die u. a. an der spezifischen statistischen Organisation textueller Einheiten zum Ausdruck kommt. Die Verteilungen quantitativer Texteigenschaften bilden sozusagen textspezifische Ordnungszustände. Der Begriff der statistischen Textorganisation wirkt in zweifacher Hinsicht differenzierend: zum einen zielt er auf quantitative Phänomene, die Texte gegenüber allen übrigen semiotischen Einheiten unterscheidbar machen (vgl. Altmann 1988a K Fragen dieser Art werden im Rahmen der Entwicklung einer Texttheorie untersucht). Zum anderen zielt er auf die Unterscheidung bzw. Klassifikation von Texten und Textsorten (vgl. Fucks 1968; Pieper 1979 K auf diesen Zusammenhang geht der Abschnitt zur quantitativen Stilistik genauer ein). Im Hinblick auf ihren Gegenstand behauptet die quantitative Textlinguistik die ontologische Realität des stochastischen, prozeßorientierten Charakters von Organisation und Struktur textueller Einheiten, die unter Rekurs auf Prozesse der Textproduktion und -rezeption beschrieben werden (vgl. Altmann 1988a; Tuldava 1998). Die QTL geht davon aus, daß Textprozesse in einem Kontinuum operieren, das durch die Extreme Determinismus und Zufälligkeit
326
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
aufgespannt wird. Diese Prozesse sind durch Fluktuationen gekennzeichnet, die einen integralen K und nicht etwa defizitären K Bestandteil der Textorganisation bilden. Sie resultieren aus der Notwendigkeit nach kommunikativem Sprachgebrauch unter den Bedingungen immer neuer, unvorhersehbarer, dynamischer Situationen. Die besondere Dynamik dieser Fluktuationen besteht in ihrer Interdependenz: quantitative Texteigenschaften variieren stets in Abhängigkeit von konkurrierenden bzw. kooperierenden Eigenschaften (derselben oder anderer Einheiten). Die in Folge dieser Fluktuationen in Gang gesetzten Anpassungsprozesse verlaufen nicht chaotisch, sondern unterliegen K so die Hypothese K Regularitäten fern vom Extremum deterministischer Regelzusammenhänge. Die oberhalb der Satzebene hinzutretenden Freiheitsgrade werden nach Altmann (1988a) durch Textgesetze kontrolliert, welche die Produzierbarkeit bzw. Rezipierbarkeit von Texten sichern. Diesen Textgesetzen gilt das Erkenntnisinteresse der quantitativen Textlinguistik. Basierend auf dem methodischen Instrumentarium der deskriptiven und induktiven Statistik untersucht sie die in natürlichsprachlichen Texten beobachtbaren (materialen) Strukturen als latente Resultate von Textgesetzen. Dabei erlaubt nach Tuldava (1995) der quantitative Ansatz nicht nur die empirische Überprüfung von Hypothesen über textuelle Strukturen, sondern zugleich die Erforschung prozeßhafter Zusammenhänge, die anders (d. h. durch rein algebraische oder topologische Methoden) nicht zugänglich sind (vgl. auch Grotjahn 1979; Altmann 1988a). Die quantitative Textlinguistik ist per definitionem nicht nur empirisch, korpuslinguistisch ausgerichtet K zu den erkenntnistheoretischen Grundlagen der Korpuslinguistik siehe Stubbs (1996) K, sondern besitzt darüber hinaus eine theoretische Orientierung, wie sie in folgendem Drei-Stufen-Modell ihres Wissenschaftsprozesses (zunehmender empirischer Absicherung und theoretischer Abstraktion) zum Ausdruck kommt: (1) Quantifizierung und Messung: Die Basis der quantitativen Textanalyse bildet die Quantifizierung von qualitativen Texteigenschaften, d. h. ihre Umformung in eine für die Messung geeignete Form, die Bestimmung von Meßeinheiten und schließlich die Messung quantitativer Texteigenschaften (vgl. Tuldava
1998). Die erste Stufe der quantitativen Textanalyse besteht in dem Zählen, Messen und statistischen Erfassen quantitativer Texteigenschaften und ihrer empirischen Verteilungen. (2) Entwicklung und Überprüfung von Hypothesen: Auf der zweiten Stufe wird die Entwicklung und empirische Überprüfung von Hypothesen vollzogen, welche quantitative und dynamische Aspekte der Organisation von Texten berücksichtigen und qualitative textlinguistische Annahmen sukzessive ersetzen. (3) Entwicklung einer Texttheorie: Über das Zählen, Messen und Überprüfen von Hypothesen hinaus zielt die quantitative Linguistik auf die Erforschung von Textgesetzen als Bestandteile von Texttheorien, d. h. von Systemen deduktiv systematisierter und empirisch bestätigter Hypothesen, mit deren Hilfe Textprozesse erklärt und ihre Resultate gegebenenfalls vorhergesagt werden (können) sollen. Die quantitative Textlinguistik zielt auf die Beschreibung von Texten mit Hilfe von Kenngrößen der statistischen Textorganisation, den Vergleich und die Klassifikation von Texten auf der Basis ihrer quantitativen Eigenschaften sowie auf die Erforschung von Textgesetzen und deren Integration zu einer Texttheorie, und zwar unter Beachtung des epistemologischen Postulats, wonach es unmöglich ist, alle Verteilungen von Texteinheiten, ihre Dimensionen und Interdependenzen in einem Modell zu berücksichtigen. Dieser Dreiteilung entspricht die Vielzahl quantitativ-textlinguistischer Ansätze, die variierende Ansprüche hinsichtlich der Beschreibung und Erklärung textueller Phänomene verfolgen. Sie reichen von der Berechnung einfacher Indizes und Quotienten bis hin zur Untersuchung der Gesetzmäßigkeiten von Textprozessen (vgl. Abschnitt 4.). Ein grundlegendes Charakteristikum des Textbegriffs der quantitativen Linguistik bildet seine Prozeßorientierung. In diesem Sinne beschreibt Brainerd (1976) mit Hilfe von Markov-Ketten (vgl. Köhler 1983) K als mathematische Modelle der Textproduktion K Texte als (diskrete) stochastische Prozesse (siehe auch Mandelbrot 1961; Grotjahn 1979; Altmann 1988a; Altmann/Köhler 1996; Piotrowski 1997; Halliday 1991b). Die-
327
25. Eigenschaften der textuellen Einheiten und Systeme
sem Modell zufolge stellen Texte das Ergebnis probabilistischer Prozesse der Auswahl aus dem seinerseits probabilistisch organisierten Sprachsystem dar. In einem vereinfachten, binären Modell (in dem weder diskontinuierliche, noch vorwärts gerichtete, noch kotextuelle Abhängigkeiten gegenüber über-/untergeordneten Konstituenten berücksichtigt werden) wird ein Text T als eine endliche Folge w1, ... , wn von Einheiten wi (Silben, Wörter, etc.) charakterisiert, die eine Sequenz X1, ... , Xn von Zufallsvariablen induziert, mit Xi Z 1, falls wi die untersuchte Eigenschaft A (Mehrsilbigkeit, Wortartenzugehörigkeit, etc.) besitzt, und Xi Z 0 sonst. Mit Hilfe von Markov-Ketten wird untersucht, wieweit der Einfluß von Textkomponenten im Hinblick auf die Ausprägungen der Eigenschaften folgender Komponenten reicht, inwieweit also aus der Kenntnis der Werte der Variablen XiK1, ... , XiKj , j ! i, auf den Wert der Variablen Xi geschlossen werden kann bzw. ab welchem j dieser Einfluß erlischt. Die Annahme darüber, wie schnell dieser Einfluß abnimmt, bestimmt die Ordnung der Markov-Kette. Brainerd deutet den mit diesem Parameter verbundenen Grad der Vorhersagbarkeit textueller Ereignisse als Stilcharakteristikum: je größer der Einfluß vorangehender Einheiten ist, desto gleichförmiger, redundanter ist die Textgestalt. Ein Ziel der quantitativen Linguistik besteht in der Erforschung stochastischer Gesetze, welche das Verhalten von Zufallsvariablen dieser Art kontrollieren. Der mit diesem Modell verbundene Textbegriff impliziert, daß die Produktion von Texten als stochastischer Prozeß aufzufassen ist, dessen Resultate, d. h. die Verteilungen quantitativer Texteigenschaften, ebenfalls probabilistisch organisiert sind und daher notwendigerweise Tendenzcharakter besitzen (vgl. Altmann 1995). Für die quantitative Textlinguistik ist weniger der Struktur- bzw. Regelbegriff, als vielmehr der Prozess- und Verteilungsbegriff grundlegend. Die Dynamik der Organisation von Texten stellt die Möglichkeit eines regelbasierten Textmodells in Frage, das wegen seines deterministischen Charakters die textkonstitutive Wirksamkeit stochastischer Prozesse leugnet. Der stochastische Charakter von Texten wird anhand ihrer spezifischen Komplexität deutlich: Texte sind prinzipiell durch Vagheit (der Grenzen ihrer Konstituenten und deren Relationen), Kontextsensitivität (im Sinne der Abhängig-
keit ihrer Produktion/Rezeption von kognitiven, situativen, sozialen Kontexten), Dynamik (in Bezug auf die Variation von Texteigenschaften im Textverlauf) und Variabilität (in Abhängigkeit von der zeitlichen Dimension) gekennzeichnet (vgl. Barwise/Perry 1983; Hřebíček/Altmann 1993b; Altmann 1995; Czyz˙akowski/Piotrowski 1993; Mehler 2004b). Die quantitative Linguistik sucht nicht nach formalen Regeln zur Beschreibung der Strukturen wohlgeformter Texte. Vielmehr beschreibt sie Texte als multidimensionale, multiresolutionale Systeme interdependenter Verteilungen von Textkonstituenten und ihrer Eigenschaften. Dabei umfaßt nach Tuldava (1998) der probabilistische Ansatz das regelorientierte, deterministische Modell als Spezialfall. Die quantitative Linguistik zielt aber nicht auf die prinzipielle Ersetzung der qualitativen Textanalyse oder die Auflösung textlinguistischer Taxonomien. Dies wird am Beispiel der statistischen Stilanalyse deutlich, die objektiv meßbare, quantitative Korrelate qualitativer Stilmerkmale sucht, auf deren Grundlage die intersubjektive Überprüfbarkeit und Wiederholbarkeit stilanalytischer Experimente gewährleistet werden kann (vgl. Tuldava 1995). Die quantitative Linguistik betrachtet die Herausbildung taxonomischer, typologischer Begriffe zur Beschreibung von Texten als Vorstufe auf dem Weg zu einer empirischen, erklärenden Textwissenschaft. Zu den allgemeinen Aufgaben der QTL zählen die Erforschung von Regularitäten und Gesetzen der statistischen Textorganisation, die Aufstellung mathematischer Modelle der Textproduktion und -rezeption, die quantitative Beschreibung der Einheiten der verschiedenen Textebenen, der Vergleich und die Klassifikation von Texten und Textsorten, die quantitative Analyse von Dialogen, die Messung des Komplexitätsgrads von Texten u. v. a. m. (zu diesbezüglichen Übersichten siehe Fucks 1968; Boroda/Dolinskij 1988; Altmann 1988a; Tuldava 1995; Tuldava 1998; Mehler 2004a; Mehler 2004b).
2.
Quantitative Textlinguistik und Systemtheorie
Der prozeßorientierte Textbegriff der QTL steht in Zusammenhang mit systemtheoretischen Konzeptionen der Sprache. Die Systemtheorie ist ein interdisziplinärer Ansatz, der im Bereich der Sprachwissenschaft zur
328
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Repräsentation dynamischer Aspekte der Erzeugung, Aufrechterhaltung und des Wandels von Struktur und Funktion semiotischer Systeme dient (Wildgen/Mottron 1987; Köhler 1988; Nöth 1990; Strohner 1990; Strohner/Rickheit 1990). Eine grundlegende Implikation der Systemtheorie im Bereich der Textlinguistik lautet, daß textuelle Entitäten als Systeme aufzufassen sind, deren spezifische Kohärenz aus der Kooperation und Konkurrenz von Teilprozessen der Textproduktion bzw. -rezeption hervorgeht. Einer der ersten systemtheoretischen Textbegriffe stammt von Oomen (1971). Sie beschreibt Texte als sprachliche Prozesse der Auswahl von Textkonstituenten, deren Gerichtetheit aus ihrer kommunikativen Funktion resultiert. Ferner betrachtet sie Texttypen nicht als taxonomisch, sondern als genetisch zu spezifizierende Entitäten. Die Vielzahl der systemtheoretischen Textbegriffe, die in der Folgezeit entwickelt wurden, kann im Hinblick auf den jeweils fokussierten Ausschnitt (Synchronie, Diachronie) differenziert werden, der unter systemtheoretischer Perspektive analysiert wird, aber auch auf der Grundlage des (kybernetischen, katastrophentheoretischen oder synergetischen) Modells, das zur Beschreibung dieses Ausschnitts verwendet wird (eine Übersicht zu systemtheoretischen Textbegriffen enthält Nöth 1990). Im folgenden werden sechs Ansätze skizziert, die je nach semiotischem (Nöth), kognitionslinguistischem (Strohner/Rickheit), textlinguistischem (de Beaugrande und Dressler) soziolinguistischem (Halliday), katastrophentheoretischem (Wildgen) und quantitativ-linguistischem (Altmann; Köhler) Erkenntnisinteresse den Textbegriff unter alternativen systemtheoretischen Perspektiven beleuchten. Nöth (1990) beschreibt natürliche Sprachen als offene, dynamische Systeme, die drei Typen von Prozessen zur Kompensation von Störungen aus ihrer Umgebung vorsehen. Unter regulativer Orientierung an statischen Sollzuständen beantworten homöostatische Prozesse Perturbationen des Sprachsystems durch Mechanismen negativer Rückkoppelung (Nöth 1983). Demgegenüber beruhen homöorhetische und morphogenetische Prozesse auf Mechanismen positiver Rückkoppelung, die sich an variablen Sollzuständen orientieren und die Verstärkung der im System wirksamen Perturbationen bedingen, wobei das System nicht in den vormaligen Zustand zurückkehrt, sondern
ein neues Gleichgewicht als Ausdruck seiner Anpassung an die Umgebung erreicht. Während homöorhetische Prozesse des Spracherwerbs in Übereinstimmung mit vorgegebenen Entwicklungspfaden verlaufen, fehlt bei morphogenetischen Prozessen des Sprachwandels eine solche Vorgabe; sie zielen auf ein Gleichgewicht von System und Umgebung auf der Basis neuer, höherer Entwicklungszustände. Vor diesem Hintergrund charakterisiert Nöth (1975; 1978) Texte als Systeme, deren Verarbeitung auf der Kompensation von Störungen der Kohärenz von Textsegmenten durch Mechanismen negativer Rückkoppelung beruht. Als homöostatische Variablen werden dabei die thematische Kohärenz einzelner Texte oder die Koinzidenz von Sprecherintention und Empfängerverhalten untersucht. Dabei verwendet Nöth das Modell des kybernetischen Regelkreises als ein systemtheoretisches Modell der Makrostruktur von Texten. Aus morphogenetischer Sicht korrelieren Sprachwandel und Offenheit des Sprachsystems in der Weise, daß mit abnehmender linguistischer Resolution (in Richtung der Ebene von Texten) die Instabilität des Kodes zunimmt: je geringer die sprachliche Resolution ist, desto größer ist die Instabilität und desto wirksamer ist der Sprachwandel für Einheiten der betroffenen Ebene. Die Textebene bildet daher nach Nöth (1990) den Bereich größter sprachlicher Offenheit bzw. Instabilität: Textsysteme reagieren am schnellsten auf Veränderungen ihrer Umgebung. Ihre Adaptabilität an heterogene soziale Systeme korreliert mit ihrer Instabilität, wobei Unterschiede von Texttypen anhand unterschiedlicher Grade der Instabilität ihrer Instanzen zum Ausdruck kommen. Texttypen und deren Grenzen sind daher notwendigerweise gradueller Natur. Beaugrande (1980) beschreibt ein kybernetisches Modell der Textverarbeitung. Er faßt Kommunikation als einen Prozess auf, dessen Teilnehmer auf die Kontinuität ihrer Kognition durch Integration des jeweiligen Texts in den Verarbeitungskontext zielen. Diese Kontinuität wird durch Diskrepanzen zwischen text- und kontextgeleiteten Erfahrungen gestört, denen der Verarbeitungsprozess durch Mechanismen regulativer Integration begegnet, die durch konkurrierende Bedürfnisse nach kommunikativer Effizienz und Effektivität gesteuert werden. Oberhalb des Moments vollständiger Desintegration ist eine Vielzahl von Integrations-
25. Eigenschaften der textuellen Einheiten und Systeme
stufen tolerierbar, ohne daß die Kommunikation als gescheitert zu betrachten ist. Die Graduierbarkeit der von Beaugrande/Dressler (1981) unterschiedenen Textualitätskriterien reflektiert gerade die Dynamik solcher Textverarbeitungsprozesse (siehe auch Beaugrande 1997). Einen systemtheoretischen Kohärenzbegriff entwickeln Strohner/Rickheit (1990). Sprachliche Kohärenz wird als Spezialfall von Kohärenzphänomenen beschrieben, die unter drei Aspekten untersucht werden: hinsichtlich der Tektonik wird die Integrität von Systemen bezogen auf den strukturellen Zusammenhang ihrer Komponenten sowie den funktionalen Zusammenhang mit ihrer Umwelt problematisiert. Unter dem Aspekt der Dynamik wird die Stabilität von Systemzuständen als Resultat kooperierender/konkurrierender Prozesse der (Selbst-)Regulation/Organisation untersucht. Schließlich bezieht sich der genetische Kohärenzaspekt auf die Kreativität von Systemen zur Herausbildung von (Teil-)Systemen, die ihrerseits unter den Aspekten der Tektonik, Dynamik und Genetik beschreibbar sind. Vor diesem Hintergrund identifizieren Strohner/Rickheit drei Ebenen sprachlicher Kohärenz: die Kohärenz individueller kognitiver Informationsverarbeitungssysteme, von Kommunikationssystemen, die aus der Kooperation mehrerer Systeme hervorgehen, sowie des Sprachsystems als Ganzes. Auf der Ebene kognitiver Systeme ergibt sich folgende Einteilung: unter dem Aspekt der Tektonik wird die Integrität kognitiver Textmodelle untersucht. Demgegenüber betrifft der Aspekt der Dynamik die Untersuchung von Textverarbeitungsprozessen. Schließlich bezieht sich der Kreativitätsaspekt auf die Fähigkeit zur Erweiterung des Wissens kognitiver Systeme (siehe auch Altmann (1988a), der den sprachlichen Kode, die zugehörigen Idiolektträger und deren textuelle Produkte als Teilsysteme des Sprachsystems identifiziert). Eine triadische Differenzierung von Prozessen der Organisation sprachlicher (insbesondere textueller) Phänomene sieht auch Wildgen vor (siehe Wildgen/Mottron 1987), der auf die Identifikation dynamischer Sprachprinzipien, die als Invarianten von Stabilität und Dynamik sprachlicher Prozesse und ihrer Resultate wirksam sind, zielt. Er wendet sich gegen Konzeptionen, welche die Diskretheit, Linearität und Determiniertheit sprachlicher Phänomene vor-
329 aussetzen und favorisiert demgegenüber einen katastrophentheoretischen Ansatz, der kontinuierliche, nichtlineare und nichtdeterministische Aspekte dynamischer Systeme zu modellieren erlaubt. Als mathematische Disziplin dient die Katastrophentheorie zur Beschreibung von Prozessen multidimensionaler Systeme, in denen Katastrophen als diskontinuierliche Übergänge zwischen verschiedenen Systemzuständen definiert werden. Ausgehend von der Kontinuierlichkeit als Standardfall wird die Konstitution diskreter Systemzustände problematisiert und nicht schon vorausgesetzt. Dabei zielt das Moment des Indeterminismus auf die Analyse der systemkonstitutiven Wirkung zufälliger Fluktuationen innerhalb der jeweiligen Systemumgebung. Wildgen beschreibt ein Modell mündlicher Erzählungen, das drei Stufen der Selbstorganisation unterscheidet (siehe Wildgen/Mottron 1987). Auf referenzieller Ebene wird die zeitliche Organisation von Ereignissen in Erzählungen untersucht, wobei Ereigniswechsel als bipolare Katastrophen modelliert werden: auf die Komplikation (als Ereignissumme vor) folgt der Höhepunkt und schließlich das Resultat (als Ereignissumme nach Eintritt der Katastrophe). Die evaluative Ebene untersucht die Organisation von Erzählungen unter Rekurs auf das Rezeptionsinteresse des Hörers. Schließlich rekurriert die Interaktionsebene auf die Einbettung der Erzählung in das jeweilige Kommunikationssystem, das auf die Linearisierung von Produktions- und Rezeptionsprozessen in Form möglichst konsekutiver Dialogbeiträge zielt. Wildgen (1983) beschreibt ein katastrophentheoretisches Dialogmodell, das Aspekte der sequentiellen, inhaltlichen und sprecherstrategischen Dynamik unterscheidet. Der probabilistische Textbegriff koinzidiert weiterhin mit Überlegungen der systemisch-funktionalen Linguistik, derzufolge natürliche Sprachen dynamische Systeme darstellen, die unter Rückgriff auf Texte als primäre Interaktionseinheiten durch permanente Interaktion mit ihrer Umgebung persistieren. Halliday (1991a) unterscheidet drei Momente der Dynamik dieser Interaktion: die Phylogenese bezieht sich auf den Wandel des Sprachsystems; die Ontogenese rekurriert auf die Geschichte einzelner Zeichenverarbeitungssysteme, die im Hinblick auf Wachstum, Reifephase und Absterben untersucht werden. Schließlich wird unter aktualgenetischer Perspektive der Prozess
330
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
der Erzeugung einzelner textueller Interaktionseinheiten betrachtet, die in großer Zahl die jeweilige Sprache konstituieren. Dabei instanziieren Frequenzen von Textkomponenten und deren Relationen wahrscheinlichkeitsbewertete Dispositionen des Sprachsystems. Aus dieser Sicht bilden Texte notwendigerweise probabilistische Systeme. Während die bislang erörterten Ansätze primär deskriptiv-typologische Fragen thematisieren, zielt die synergetische Linguistik, die auf der Synergetik als Theorie der spontanen Entstehung und Entwicklung von Strukturen beruht, auf die Erklärung von Genese und Wandel sprachlicher Phänomene (vgl. Köhler 1986; Art. Nr. 53). Dabei unterscheidet sie zwei Beschreibungsebenen: auf der Makroebene werden kooperierende/konkurrierende Systembedürfnisse (etwa nach Minimierung des Produktionsund Dekodierungsaufwands) beschrieben, die als Ordnungsparameter mikroskopische Mechanismen der Zeichenproduktion/-rezeption versklaven, d. h. in ihrer Dynamik kontrollieren. Bezogen auf natürlichsprachliche Texte impliziert diese Auffassung, daß sämtliche Prozesse der Textproduktion und -rezeption, die anhand der probabilistischen Distributionen quantitativer Texteigenschaften beobachtbar sind, durch Systembedürfnisse stochastisch kontrolliert werden. Der Texturbegriff wird weniger aus statischer, struktureller, als vielmehr aus prozessualer, systemkonstitutiver Sicht thematisiert: interdependente stochastische Teilprozesse erzeugen in Abhängigkeit von Ordnungsparametern und Randbedingungen des Textproduktionsprozesses auf allen Ebenen thematischer, funktionaler, pragmatischer Kohärenz regelhafte Verhältnisse und Muster von Textkonstituenten (siehe auch Altmann 1988a; Hřebíček/Altmann 1993b). Synergetische Prozesse sind durch Sensitivität gegenüber ihren fluktuierenden Randbedingungen gekennzeichnet. Auf der Ebene von Texten zählen hierzu u. a. der kognitive Kontext von Textrezipient und -produzent, der situative Kontext von Referenz- und Diskurssituation sowie der soziale, kulturelle Kontext, der u. a. durch Textsorten sprachlich realisiert wird. Veränderungen der Systembedürfnisse und Randbedingungen, ihrer Intensitäten und Gewichtungen bedingen die Dynamik von Entstehung und Rezeption textueller Systeme. Die synergetische Linguistik faßt Texte als synergetische Ganzheiten auf, d. h. als Resultate von Me-
chanismen harmonischer Selbstregulation und Selbstorganisation. Ein Beispiel für ein synergetisches Textmodell bildet die Interpretation der Zipfschen Kräfte als synergetische Ordnungsparameter (siehe Altmann 1988a).
3.
Zum Begriff der statistischen Textorganisation
Die begriffstheoretische Basis zur Analyse der statistischen Textorganisation bilden die Begriffe Texteinheit, Texteigenschaft und Wiederholung (Rekurrenz) sowie die hieraus ableitbaren Begriffe der Häufigkeit (Frequenz), Verteilung (Distribution), Länge, Kookkurrenz, Textposition und des Textsegments (vgl. Altmann 1988a; Tuldava 1998). Aus dynamischer Sicht sind weiterhin die Begriffe der Sequenz bzw. (Ab-)Folge und des Prozesses bzw. der Entfaltung der Textstruktur in der Zeit zu nennen. Texteinheiten (wie beispielsweise Buchstaben, Silben, Wortformen oder Sätze) sind in Texten auf der Basis eines Systems eindeutiger (nicht interpretativer) Kriterien (bzw. Prozeduren) zu identifizierende Entitäten, deren Merkmale zum Zwecke der Messung von Texteigenschaften K als in Texten beobachtbare probabilistische Korrelate stochastischer Textprozesse K quantifiziert werden (vgl. Altmann 1988a; Pieper 1979). Die Eindeutigkeit der Identifikationskriterien bildet eine Voraussetzung für die Wiederholbarkeit bzw. Übertragbarkeit textanalytischer Meßoperationen und Experimente. Wiederholung meint nun das mehrfache Vorkommen gleicher oder ähnlicher (Klassen von) Texteinheiten im Textverlauf (aufgrund grammatischer, thematischer, stilistischer oder anderer Restriktionen). Wiederholung basiert nicht nur auf dem Konzept der Identität und Differenz, sondern zugleich auf dem Konzept der Ähnlichkeit. Die Bedeutung, welche die quantitative Linguistik dem Konzept der Wiederholung beimißt, steht in Einklang mit der allgemeinen Semiotik, derzufolge Wiederholbarkeit eine Bedingung der Möglichkeit von Zeichenhaftigkeit darstellt. Wiederholbarkeit stellt eine Voraussetzung von Interpretierbarkeit dar und steht daher in Zusammenhang mit der Bedeutungsseite des Zeichens (vgl. hierzu Peirce 1991). Aus dem Begriff der Wiederholung sind unmittelbar die Begriffe der Häufigkeit und Verteilung als elementare
25. Eigenschaften der textuellen Einheiten und Systeme
Konstituenten der statistischen Textorganisation ableitbar: während Häufigkeit als primäre quantitative Eigenschaft einzelne Texteinheiten charakterisiert, repräsentieren Verteilungen (u. U. rang-)geordnete Gesamtheiten von Werten einer Texteigenschaft. Wiederholte Texteinheiten bilden (Äquivalenz- oder Toleranz-)Klassen, die ihrerseits durch das Merkmal der Häufigkeit (und Verteilung) charakterisierbar sind. Betrachtet man Textsegmente als Einheiten in einem Kontinuum, das durch zwei Extreme aufgespannt wird, die ausschließlich verschiedene bzw. identische Konstituenten aufweisen, so läßt sich weiterhin die Interdependenz der Begriffe Segmentierung und Wiederholung behaupten: danach resultieren Textsegmentstrukturen aus signifikanten, weder rein zufälligen, noch deterministischen Wiederholungen von Texteinheiten (vgl. Hřebíček/Altmann 1993b). Darüber hinaus zeigt Altmann (1988a) durch Analyse der positionalen Wiederholung, daß die Begriffe Textposition und Wiederholung in einen statistisch analysierbaren Zusammenhang zu bringen sind. Schließlich impliziert das Konzept des Textsegments den Begriff der (Segment-)Länge als weitere elementare quantitative Texteigenschaft. Ist also E eine Klasse von Texteinheiten, dann kann u. a. nach der Frequenz, Länge, Ausdehnung, Anordnung, Periodizität, Assoziativität, dem Abstand oder dem Anteil an der Textgestaltung von Instanzen dieser Klasse und damit nach unterschiedlichen quantitativen Texteigenschaften gefragt werden. Diese Betrachtung ist auf mehrstellige homogene oder heterogene Relationen auszudehnen, auf Relationen also, deren Elemente verschieden-stellig sein können. Der Begriff des numerischen Textrepräsentationsmodells, der diese Zusammenhänge umfasst, wird in Mehler (2004a; 2004b; 2004c) genauer erläutert. Die QTL verfolgt das Ziel, jene Typen der Wiederholung in Texten zu bestimmen, die dem Tendenzcharakter von Textstrukturen zugrundeliegen. Die in natürlichsprachlichen Texten beobachtbaren Wiederholungen werden dahingehend untersucht, inwiefern sie Muster erzeugen und in Abhängigkeit von welchen Parametern (wie z. B. Textsorte, Genre, Register, etc.) sie variieren (die Bedeutsamkeit einer Wiederholungstendenz wird durch den statistischen Test der Signifikanz ihrer Abweichung von der zugehörigen theoretischen Verteilung, die
331 unter der Bedingung reiner Zufälligkeit aufgestellt wird, bestimmt). In diesem Zusammenhang unterscheidet Altmann (1988a) neun Typen von Wiederholungen in Texten: (1) Die formlose Wiederholung bezieht sich auf die freie, unrestringierte Wiederholung von Texteinheiten. Die Geltung einer tendenziellen Rekurrenz ist an den Nachweis einer signifikanten Abweichung gegenüber den theoretisch erwartbaren Häufigkeiten der Einheiten unter der Bedingung, daß allein der Zufall ihre Vorkommen kontrolliert, gebunden. (2) Die positionale Wiederholung beruht darauf, daß Texteinheiten an Textpositionen bestimmten Typs häufiger vorkommen, als erwartet. Dabei unterscheidet man zwei Grundtypen der Positionierung: die funktionale Relation beruht auf dem Vorkommen von Einheiten in bestimmten Positionen innerhalb von Textsegmenten (etwa am Anfang oder am Ende einer zusammengesetzten Einheit). Die distributionelle Relation bezieht sich auf das Vorkommen von Texteinheiten vor oder hinter Einheiten einer bestimmten Klasse. In diesem Zusammenhang untersuchen Grotjahn (1979) und Altmann (1988a) tendenzielle Reimendungen, offene Reime, die Klimax (also die Tendenz zum Anwachsen einer quantitativen Eigenschaft in einer Texteinheit (so etwa das Anwachsen der Wortlänge im Vers) sowie die Positionierung von Wortarten in Sätzen. (3) Unter assoziativer Wiederholung wird die überdurchschnittliche, tendenzielle Kookkurrenz (bzw. Koinzidenz) von Texteinheiten in textuellen Rahmen (Sätze, Verse, Kapitel, Texte, Genre, etc.) verstanden. Dabei werden in Texten beobachtbare signifikante Assoziationen in zwei Gruppen unterteilt: Assoziationen, die für mehrere Texte oder Textsorten signifikant sind und solche, die einzeltextspezifisch sind. Ferner unterscheidet man links- und rechtsseitige Koinzidenz. Altmann (1988a) vermutet, daß der Übergang von speziellen zu allgemeinen Assoziationen durch das Piotrowski-Gesetz kontrolliert wird. Altmann (1992) beschreibt Wortassoziationen als das Resultat der Konkurrenz von Unifikations- und Diversifikations-
332
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
prozessen des Hörers (Textrezipient) und Sprechers (Textproduzent). Hřebíček (1996) thematisiert den Zusammenhang von Wortassoziationen und Textsegmentierung. (4) Nichtzufällige (ununterbrochene) Sequenzen von (gleichen oder ähnlichen) Texteinheiten als Ganzes (sozusagen die Klumpung identischer Einheiten in Form ununterbrochener Sequenzen) bzw. von identischen (benachbarten) Ausprägungen quantitativer Eigenschaften in Texten, die vor allem auf der Ebene formaler Einheiten beobachtbar sind, werden als iterative Wiederholungen bezeichnet, die auch Gruppen von Einheiten kennzeichnen können. In diesem Zusammenhang wird beispielsweise die Iteration von Versfußarten, Silbenlängen, Wortlängen oder Satztypen untersucht. Binäre Sequenzen beruhen auf einer Dichotomisierung des betrachteten Merkmals A, so daß gefragt wird, ob die lückenlose Sequenz von Texteinheiten mit der Eigenschaft A bzw. ¬A zufällig ist oder einen Trend aufweist. (5) Aggregative Wiederholungen resultieren aus Klumpungstendenzen identischer bzw. ähnlicher Einheiten. Im Gegensatz zur iterativen Wiederholung werden hier Klumpungen untersucht, die auch kürzere Unterbrechungen erlauben. Für den binären Fall (des Paares A / ¬A) leiten Strauß/Sappok/Diller et al. (1984) die negative Binomialverteilung als theoretisches Modell für die Verteilung der Distanzen der annahmegemäß klumpenden Einheiten ab. Dieses Modell beruht auf der Annahme, daß zur Klumpung neigende Texteinheiten wenige große und viele kurze Distanzen in Texten aufweisen. Das Modell von Strauß/Sappok/Diller et al. enthält einen Parameter, der das Klumpungsverhalten unterschiedlicher Texteinheiten abzubilden erlaubt (siehe Altmann 1988a für ein alternatives Modell, das auf Markov-Ketten beruht). Vor dem Hintergrund einer textlinguistischen Interpretation einer Hypothese Skinners, derzufolge identische Einheiten in Texten signifikant häufiger in kurzen Abständen vorkommen, als in längeren (daß also die Produktion einer Einheit ihre Vorkommenswahrscheinlichkeit in geringer Distanz erhöht), un-
(6)
(7)
(8)
(9)
tersucht ferner Zörnig (1984a; 1984b) theoretische Verteilungen für den (verallgemeinerten) Typ der nicht-binären aggregativen Wiederholung mehrerer Einheiten unter der Bedingung ihrer Unabhängigkeit. Schließlich untersucht Altmann (1988a) mit Hilfe dieses Modells die Klumpungstendenzen von Wortarten in Gedichten. Im Falle der ähnlichkeitsaggregativen Wiederholung wird die Annahme der Selbststimulation für das Erscheinen gleicher Einheiten auf formal oder semantisch ähnliche Einheiten ausgedehnt. Dabei ergibt sich das grundsätzliche Problem der Messung (insbesondere) der (inhaltlichen) Ähnlichkeiten von Zeichen. In diesem Zusammenhang untersucht beispielsweise Altmann (1988a) die Hypothese, daß benachbarte Verse phonisch ähnlicher sind, als distantere, daß also die phonische Ähnlichkeit von Versen als Funktion ihrer Distanzen beschrieben werden kann. Unter Rekurs auf den Begriff der blockmäßigen Wiederholung wird die Frage untersucht, welche Gesetze die Verteilungen von Texteinheiten auf Textblöcke (gleicher Länge) kontrollieren und wie sich diese Verteilungen unter den Bedingungen unterschiedlicher Blocklängen verändern. Ferner wird untersucht, welche Abhängigkeiten gegenüber welchen Wortarten und welchen Worthäufigkeiten bestehen. Parallele Wiederholungen (wie etwa der Reim) beruhen darauf, daß in mehreren (parallelen) komplexen Texteinheiten gleiche oder ähnliche formale oder semantische Einheiten vorkommen. Zyklische Wiederholungen schließlich, die vor allem im Bereich der Poetik untersucht werden, können als Wellenbewegungen in Texten veranschaulicht werden. Nach Halliday/Hasan (1976) sind auch Kohäsionsrelationen wellenartig, zyklisch organisiert. Phillips (1985) beschreibt wellenförmig organisierte Kapitelstrukturen. Boroda (1994) modelliert die rhythmische Organisation kohärenter Texte auf der Ebene von Wörtern. Zyklische Wiederholungen werden u. a. mit Hilfe von Zeitreihen und Markov-Ketten untersucht. Ein Beispiel bildet die zyklische Wiederholung des Akzents im Vers.
25. Eigenschaften der textuellen Einheiten und Systeme
Die Verteilungen von Wiederholungen variieren (wie Texteigenschaften generell) in Abhängigkeit von grammatischen, thematischen, stilistischen, textsortenspezifischen u. a. sprachlichen und außersprachlichen Randbedingungen. Die QTL verfolgt das Ziel, Wiederholungen in Texten unter Rekurs auf die ceteris paribus-Klausel als Resultate stochastischer Textprozesse zu beschreiben, die durch Textgesetze kontrolliert werden.
4.
Zur Methodik der quantitativen Textlinguistik
Der stochastische Charakter von Textprozessen bedingt den stochastischen Charakter ihrer Resultate, woraus wiederum die Unabdingbarkeit der Statistik als Methode der QTL folgt (vgl. Grotjahn 1979). In Anlehnung an ihren Wissenschaftsprozess (siehe oben) sind dabei Verfahren der deskriptiven Statistik, die zur numerischen Erfassung der Ausprägungen, Verhältnisse, Verteilungen und statistischen Momente quantitativer Texteigenschaften in Form einzelner oder geordneter Mengen (etwa in Form von Rangfrequenzverteilungen) von Meßwerten dienen, von solchen der induktiven Statistik zu unterscheiden, mit deren Hilfe Hypothesen über Verteilungen und Momente quantitativer Texteigenschaften im Hinblick auf ihre statistische Signifikanz getestet werden. Bezogen auf das Kriterium der Zahl untersuchter Texteigenschaften unterscheidet Pieper (1979) drei Verfahrensgruppen zur Beschreibung, zum Vergleich und zur Klassifikation von Texten: (1) Univariate Analyseverfahren beruhen auf der isolierten Untersuchung einzelner Texteigenschaften durch Berechnung von Indizes (Durchschnittswerten, Varianzen, etc.) zur Erfassung des typischen Verhaltens dieser Variablen in Texten oder Textgruppen. Beispiele solcher Indizes bilden die durchschnittliche Satzlänge oder auch die mittlere Häufigkeit von Wörtern einer bestimmten Wortart in den Texten eines oder mehrerer Autoren. (2) Im Rahmen bivariater Analysen werden die numerischen Zusammenhänge bzw. Ursache-Wirkungs-Beziehungen quantitativer Texteigenschaften mit Hilfe von Verhältniszahlen paarweise untersucht. Die Quotientenbildung er-
333 folgt auf der Grundlage von Summenwerten oder getrennt für jedes Paar von Werten und anschließende Charakterisierung durch Lageparameter. Beispiele für Quotienten dieser Art (bei denen wahlweise auf Lexeme oder Types Bezug genommen wird) sind der Konzentrationsindex (der Anteil der n häufigsten Wörter am Textvokabular), der Diversitäts- oder Type-Token-Index (das Verhältnis von Vokabular- und Textumfang), der Einmaligkeitsindex oder die hapax legomena (das Verhältnis der Zahl einmal vorkommender Wörter zum Textumfang), der Aktionsquotient (das Verhältnis der Zahl von Verben und Adjektiven), der Dichtegrad der Aussage (der durchschnittliche Anteil so genannter aussagehaltiger Wörter, wie etwa Nomina oder finite Verben, an der durchschnittlichen Wortzahl von Sätzen), der Analytizitätsindex (das Verhältnis der Zahl von Lexemen und Flexionsformen in Texten), die ClauseLänge (die Zahl der Wörter im Verhältnis zu der Zahl der Verben) u. v. a. m. (vgl. Pieper 1979; Altmann 1988a; Tuldava 1998). Im Rahmen von Sensitivitätsanalysen werden Fragen der Art untersucht, inwieweit der Wert einer Variablen des betrachteten Quotienten zunimmt, wenn die zweite Variable um einen bestimmten Betrag ansteigt. (3) Multivariate Analysen untersuchen die (korrelativen oder annahmegemäß kausalen) Zusammenhänge mehrerer Variablen der statistischen Textorganisation mit Hilfe von Methoden der Faktoren-, Diskriminanz- oder Clusteranalyse. Die Grundlage dieser Verfahren bildet die Hypothese, wonach der Betrag quantitativer Texteigenschaften in Abhängigkeit von den Beträgen anderer Texteigenschaften variiert. Ziel ist es, Texte anhand mehrerer Texteigenschaften zu gruppieren bzw. das Diskriminanzpotential einzelner Texteigenschaften zu bestimmen (vgl. Pieper 1979; Liiv/Tuldava 1993; Tuldava 1998; Lebart/Salem/Berry 1998; Lebart/Rajman 2000). Unter Bezug auf die formlose Wiederholung unterscheidet Altmann (1988a) globale Indizes (wie etwa Mittelwert, Varianz, Entropie als Maß der Ungleichmäßigkeit (Monotonie) der Verteilung der relativen Häufigkei-
334
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
ten von Texteinheiten sowie die Wiederholungsrate K diese mißt ebenfalls basierend auf den Häufigkeiten von Texteinheiten die Stereotypie von Texten) und Wahrscheinlichkeitsverteilungen als zwei Varianten zur Beschreibung von Mengen quantitativer Texteigenschaften. Wie schon univariate und bivariate Indizes so repräsentieren auch globale Indizes quantitative Charakteristika durch einzelne Werte, ohne die Dynamik der Textorganisation im Textverlauf zu berücksichtigen. Die Dynamik der Veränderungen quantitativer Texteigenschaften ist mit Hilfe isolierter Indizes aber nicht hinreichend zu erfassen. Hierzu werden vielmehr Verteilungsmodelle benötigt, welche die Ausprägungen von Texteigenschaften an einer Vielzahl von Textpositionen berücksichtigen. So erläutern beispielsweise Köhler/ Galle (1993), auf welche Weise Quotienten aus der Perspektive ihrer dynamischen Entwicklung im Textverlauf, und zwar unter Bezug auf konsekutive Textpositionen oder -blöcke, untersucht werden können. Zur Ableitung von (theoretischen) Verteilungen K als Repräsentationen von Textgesetzen bzw. Gesetzeskandidaten K werden (im Rahmen des synergetischen Sprachmodells) grundsätzlich zwei, nicht strikt geordnete Verfahrensalternativen unterschieden (vgl. Altmann 1988b; Altmann/Köhler 1996): (1) Gleichgewichtsmodelle gehen resultatsbezogen von Annahmen über die Ausprägungen/Verhältnisse von Systembedürfnissen bzw. Randbedingungen von Textprozessen in Gleichgewichtszuständen aus und versuchen aus den resultierenden Differenzen- bzw. Differentialgleichungen Funktionen (Wahrscheinlichkeitsverteilungen) abzuleiten, die vor dem Hintergrund empirischer Bestätigung und theoretisch-deduktiver Einbettung den Status von Gesetzen erlangen können (einen solchen Ansatz verfolgt indirekt Orlov 1982a; 1982b). (2) Demgegenüber inkorporieren Prozessmodelle diskrete oder kontinuierliche Zeitvariablen, mit deren Hilfe die Produktion von Texten als stochastischer Prozess beschrieben wird, der von (Produktions-)Zustand (als System von Ausprägungen und Relationen quantitativer Texteigenschaften) zu Zustand voranschreitet und die unmittelbare Beobachtung der Wertänderungen dieser Ei-
genschaften erlaubt (vgl. Brainerd 1976; Hřebíček 1995). Beispiele für solche Prozesse bilden das Vokabularwachstum oder auch die Zunahme phorischer Ausdrücke in Abhängigkeit von der Variation der Länge und dem Wachstum der Zahl der Sätze in Texten. Betrachtet man beispielsweise die Länge als quantitative Eigenschaft der Texteinheit Satz, so kann aus der Beobachtung der Längen aller Sätze eines Texts dessen durchschnittliche Satzlänge als quantitative Texteigenschaft, d. h. als Konstituente seiner statistischen Organisation abgeleitet werden. Diese Eigenschaft ist nicht über alle Sätze des Texts gleichmäßig verteilt (so daß sie durch den univariaten Index der durchschnittlichen Satzlänge nur unvollständig charakterisiert wird), sondern variiert annahmegemäß in Abhängigkeit von konkurrierenden/kooperierenden Ordnungsparametern, welche die Textproduktion als stochastischen Prozess kontrollieren, dessen Zustände durch die Satzlängen konsekutiver Textpositionen (d. h. von Sätzen) repräsentiert werden. Dieser Prozess induziert eine Verteilung von Satzlängen, die mit Hilfe von Wahrscheinlichkeitsverteilungen theoretisch modelliert und anhand der Analyse weiterer Texte überprüft werden kann (vgl. Altmann 1988b, der die negative Binomialverteilung als Wahrscheinlichkeitsverteilung der Satzlänge in Texten ableitet; siehe ferner Art. Nr. 25). Die typische Schrittfolge quantitativer Textanalysen kann K vereinfachend gesprochen K wie folgt charakterisiert werden (vgl. Grotjahn 1979): (1) Hypothesenbildung; (2) Formalisierung (Indikatorbildung und Operationalisierung); (3) Datenerhebung und Datenanalyse; (4) Entscheidung (über Annahme oder Ablehnung eines Modells, einer Hypothese); (5) linguistische Interpretation (Rückübersetzung des numerischen Modells; Einordnung in ein Hypothesensystem, etc.). Die Methodik der QL ist insofern durch eine grundsätzliche Modellpluralität gekennzeichnet, als dieselbe empirische Verteilung mit mehreren, einander nicht zwangsläufig widersprechenden Modellen erfaßt werden kann, die möglicherweise als Spezialfälle eines allgemeineren Modells beschreibbar sind. Ferner sind Verteilungsmodelle vielfach von Parametern abhängig, die einerseits aufwendige Schätzungen und linguistische Interpretationen indu-
25. Eigenschaften der textuellen Einheiten und Systeme
zieren, andererseits aber Anpassungen an sozusagen pathologische Daten erleichtern, wobei (bei sonst gleicher Eignung und linguistischer Interpretation) das Modell mit der kleineren Parametermenge vorzuziehen ist.
5.
Textgesetze im Überblick
Das Erkenntnisinteresse der QTL besteht in der Erforschung von Regularitäten, denen die empirisch beobachtbaren quantitativen Eigenschaften und Relationen von Texteinheiten folgen. Die QTL verfolgt das Ziel, die Ausprägungen, Abhängigkeiten, Wechselwirkungen und Kausalzusammenhänge der Konstituenten der statistischen Textorganisation durch ein System von Gesetzesaussagen, d. h. mit Hilfe einer Texttheorie, zu beschreiben und zu erklären. Wie von Gesetzen wissenschaftlicher Disziplinen im Allgemeinen, so wird auch von Kandidaten für Textgesetze verlangt, daß sie durch empirische Tests bestätigt und mit anderen Gesetzen und Hypothesen systematisch, deduktiv verbunden werden (vgl. Altmann 1993). Die Erforschung von Textgesetzen komplettiert den deskriptiven und induktiven Bereich von Methode und Erkenntnisinteresse der QTL aus sprachtheoretischer Sicht. Wie im vorangehenden Kapitel erläutert wurde, werden Textgesetze in der Regel mit Hilfe von Wahrscheinlichkeitsverteilungen repräsentiert. Textgesetze sind keine Größen, die im Zuge von Prozessen der Textproduktionbzw. -rezeption Bewußtsein erlangen. Sprachteilnehmer besitzen nicht die Entscheidungsfreiheit, sich im Einklang oder Widerspruch zu Sprachgesetzen zu verhalten (vgl. Altmann/Köhler 1996). Der Geltungsbereich von Textgesetzen ist an die spontane, kontinuierliche Produktion/Rezeption vollständiger Texte gebunden (vgl. Altmann 1988b). Hieraus folgt im Umkehrschluß, daß Texte, für die ein Textgesetz nicht gilt, die Bedingungen der Spontaneität, Kontinuierlichkeit und Abgeschlossenheit nicht erfüllen. In diesem Fall schließt man auf die Wirkung unvorhergesehener, im Rahmen der Anwendungsbedingungen der Gesetze nicht berücksichtigter Randbedingungen (als das Ergebnis diskontinuierlicher Textproduktion, der Einflußnahme mehrerer Autoren, etc.), welche die Geltung des betroffenen Gesetzes aber nicht allgemein außer Kraft
335 setzen. Gilt ein Gesetz für einen geschlossenen Text, so muß es nicht für einen beliebigen Ausschnitt oder eine Stichprobe dieses Texts gelten. Darüber hinaus erläutert Orlov (1982a) die Unmöglichkeit repräsentativer Korpora, anhand derer die Gesetze einer fiktiven Sprachnorm zu untersuchen wären. Gesetze, die einzelne Texte erfüllen, beanspruchen keine Geltung für quasi normierte Texte, die aus der Mischung oder Konkatenation dieser Texte hervorgehen. Die Vorhersagefunktion von Textgesetzen bezieht sich daher auf einzelne, kohärente Texte. Im folgenden werden einige Textgesetze und statistische Regularitäten textueller Einheiten exemplarisch erläutert. 5.1. Die Häufigkeitsstruktur des Textvokabulars In den folgenden zwei Abschnitten werden die Gesetzmäßigkeiten zweier Verteilungen beschrieben, welche die Häufigkeitsstruktur des Vokabulars als Bestandteil ihrer statistischen Organisation modellieren: die Rangfrequenzverteilung sowie das Frequenzspektrum der Lexik (vgl. Art. Nr. 30). Den statistischen Zusammenhang von Rang und Frequenz thematisiert das Zipfsche Gesetz (vgl. Art. Nr. 10), demzufolge die Häufigkeitsstruktur von Texten gesetzmäßig mit dem Textumfang variiert. Die relativen Häufigkeiten der nach ihren Frequenzen geordneten Texteinheiten (Silben, Morpheme, Wörter, etc.) eines Texts weisen (beginnend mit Rang 1 für die häufigste Einheit) eine Ungleichverteilung in Form von Konzentrations- und Dispersionseffekten auf, denenzufolge eine kleine Gruppe häufiger Wörter in eine große Gruppe seltener Wörter fließend übergeht. Verteilungen dieser Art sind dadurch gekennzeichnet, daß zwar dieselbe Texteinheit in verschiedenen Texten unterschiedliche Ränge einnehmen kann, die Rangfrequenzverteilung ihrer Topologie nach aber invariant ist. Tuldava (1998) betrachtet Verteilungen dieser Art als Instanzen eines allgemeinen semiologischen (bzw. semiotischen) Präferenzgesetzes. Das Zipfsche Gesetz, das diesen Zusammenhang als Wahrscheinlichkeitsverteilung repräsentiert, hat die allgemeine Form einer Potenzfunktion mit negativem Exponenten (Tuldava 1998 enthält eine Übersicht zu alternativen Repräsentationen des Zipfschen Gesetzes und seinen Modifikationen/ Erweiterungen):
336
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Fi Z CiKγ bzw. pi Z k iKγ
(1)
Dabei ist Fi (pi Z Fi / N) die absolute (relative) Häufigkeit (als Schätzer für die Wahrscheinlichkeit) und i der betrachtete Rang. C Z k N, k, γ sind Parameter der Verteilung, N ist der Textumfang. Der Parameter γ bestimmt die Steigung der Geraden in bilogarithmischer Darstellung. Anhand der Diffed Fi / Fi rentialgleichung Z K γ ist ersichtdi / i lich, daß die relativen Veränderungen der Variablen Fi und i im Verhältnis konstant sind. Die Häufigkeit Fi nimmt also mit einer (anhand des Rangs i gemessenen) Geschwindigkeit ab, die proportional zum Wachstum des Vokabulars ist. Tuldava (1998) sieht im Zipfschen Gesetz, auf das er u. a. zur Untersuchung typologischer Unterschiede von Sprachen rekurriert, den Ausdruck eines allgemeineren Gesetzes des konstanten relativen Wachstums (hier: der Abnahme), wie es für eine Vielzahl semiotischer Phänomene kennzeichnend ist. Das Zipfsche Gesetz zeigt in der Repräsentation nach Gleichung (1) u. a. im Bereich hochfrequenter Einheiten typischerweise Abweichungen gegenüber empirischen Daten. Eine bessere Anpassung gelingt mit Hilfe der Mandelbrotschen Korrektur B als Bestandteil des Zipf-Mandelbrotschen Gesetzes: Fi Z C (i C B)Kγ ; pi Z k (i C B)Kγ
(2)
Dieses Gesetz ist mit einer Vielzahl textlinguistischer Fragen verbunden (vgl. Boroda/ Zörnig 1990; Tuldava (1998) erläutert, inwiefern das Zipf-Mandelbrotsche Gesetz zur Ermittlung des Textabdeckungsgrads von Wortformen herangezogen werden kann): Für welche Texteinheiten gilt das Gesetz und welche Werte nehmen seine Parameter für Einheiten welcher Sprachebene an? Welche Abhängigkeiten bestehen gegenüber anderen quantitativen Texteigenschaften oder auch Textsorten, Genre und Registern? Weiterhin ist zu fragen, ob das Zipf-Mandelbrotsche Gesetz nur für ganze Texte oder auch Textsegmente und beliebige Textausschnitte gilt. Letztere Frage wird unten unter Rekurs auf die Zipfsche Zahl erörtert. 5.2. Das Frequenzspektrum Mit der Rangfrequenzverteilung eng verwandt ist das Frequenzspektrum bzw. die Spektralverteilung der Häufigkeiten, die folgerichtig analoge Konzentrations- und Dis-
persionseffekte aufweist. Das Frequenzspektrum basiert auf der (rangierten) Gegenüberstellung der Häufigkeiten Fi mit der Anzahl m (Fi) von Texteinheiten, die diese Frequenz im untersuchten Text aufweisen. Eine Konzentration ist im Bereich der Wörter mit geringen Häufigkeiten zu beobachten. Wegen der Interdependenz von Rangfrequenzund Spektralverteilung kann das Zipf-Mandelbrotsche Gesetz auch auf das Frequenzspektrum bezogen werden. Es besitzt nun folgende Gestalt: m (F) Z c F K(1Cα)
(3)
Dabei ist m (F) die Anzahl der Wörter mit der Häufigkeit F. α Z 1 / γ (das γ stammt aus Gleichung (2) und c Z α (L K 1) / Kα (1 K Fmax ) sind Parameter, wobei L der Vokabularumfang und Fmax die Häufigkeit des häufigsten Wortes des betrachteten Texts ist. Um bessere Übereinstimmungen mit empirischen Daten zu erreichen, diskutiert Tuldava (1998) die Möglichkeit, (wie schon im Falle des Zipf-Mandelbrotschen Gesetzes) drei verschiedene Parameter γi, i Z 1, 2, 3, in Entsprechung zu den Abweichungen innerhalb der drei Stadien der Rangverteilung vorzusehen: für den Anfangs-, Mittelund Endteil. Eine andere Form zur analytischen Beschreibung der Spektralverteilung stammt von Herdan (vgl. Tuldava 1998), mit deren Hilfe versucht wird, auf den Umfang des Gesamtvokabulars von Autoren zu schließen. Die Anwendungsgebiete der Spektralverteilung (ebenso wie der Rangfrequenzverteilung) liegen u. a. im Bereich quantitativ-stilistischer und texttypologischer Analysen. 5.3. Die Zipfsche Zahl Z Orlov (1982a; 1982b) zeigt, daß das ZipfMandelbrotsche Gesetz nur für vollständige (kohärente) Texte bzw. Textsegmente gilt, nicht aber für beliebige Stichproben aus Texten (Orlovs Modell setzt u. a. die Homogenität von Texten voraus, derzufolge die Wahrscheinlichkeit von Texteinheiten unabhängig von der Textposition ist und also nicht von vorangehenden/folgenden Einheiten abhängt). Danach plant der Textproduzent sozusagen im voraus (unbewußt) eine (optimale) Textlänge K die sogenannte Zipfsche Zahl Z K, welche das Wachstum des Vokabularumfangs im Zuge der Textproduktion regelt. Aus dieser Steuerung resultiert im Erfolgsfall eine Rangfrequenzverteilung, die dem Zipf-Mandelbrotschen
337
25. Eigenschaften der textuellen Einheiten und Systeme
Gesetz entspricht und entsprechende (Differenzen benachbarter rangierter) Frequenzen von Einheiten des Textvokabulars aufweist. Von Verteilungen dieser Art weichen Stichproben als das Ergebnis der Mischung verschiedener Texte, für die folglich kein solcher Steuerungsprozess angenommen werden kann, zwangsläufig ab. Und also ist es nicht möglich, das Zipf-Mandelbrotsche Gesetz an Häufigkeitswörterbücher anzupassen, die auf der Grundlage mehrerer Texte gebildet werden. Der Zipfsche Umfang Z eines Texts ist der einzige Textumfang, bei dem dieser Text (bei gegebenem Textvokabular) dem Zipf-Mandelbrotschen Gesetz folgt. Mit Hilfe dieser Zahl leitet Orlov mehrere Parameter der Frequenzstruktur von Texten ab, und zwar den Vokabularumfang sowie das Frequenzspektrum der Lexik für beliebige Textumfänge N + Z. Nach Orlov ist jedem Text ein eigener Zipfscher Umfang zugeordnet (zur approximativen Ableitung von Z für Texte mit gegebenem Vokabularumfang v¯ (N) und Textumfang N siehe Orlov 1982b). Weicht der tatsächliche Umfang eines Texts von seiner Zipfschen Zahl Z ab, so erfüllt er nicht das Zipf-Mandelbrotsche Gesetz. Orlov verwendet Z als Maß der lexikalischen Konzentration bzw. des relativen Vokabularreichtums von Texten. Dazu zeigt er, daß von zwei Texten mit unterschiedlichen Z-Werten derjenige Text lexikalisch reicher ist, der ein größeres Z besitzt. Weicht die Länge eines Texts von seinem (angenommenen) Idealumfang ab, so schließt Orlov, daß dieser Text entweder nicht von einem Autor spontan und kontinuierlich erzeugt worden ist, oder daß er in Segmente (Teile, Kapitel, etc.) zu separieren ist, für die eigene Zipfsche Längen existieren. Das Konzept des Zipfschen Umfangs kann also dazu dienen, Hypothesen über die Existenz von Textsegmentgrenzen zu unterstützen. Orlov geht davon aus, daß lange Texte, die ihre Zipfsche Zahl übersteigen, vom jeweiligen Autor in Teile untergliedert werden, deren Längen wieder Zipfschen Umfängen entsprechen. Dabei nimmt Orlov an, daß die Produktions- bzw. Rezeptionskosten eines zu langsamen/schnellen Vokabularwachstums Textproduzenten von einem deutlichen Unterschreiten/Überschreiten des zugehörigen Z abhalten. Die Zipfsche Zahl steht daher in Zusammenhang mit der lexikalischen Abgeschlossenheit bzw. Vollständigkeit von Texten.
5.4. Vokabularumfang und Textumfang Die QL erforscht die Abhängigkeiten der quantitativen Eigenschaften von Sprachen. Im Bereich der Textlinguistik ist diesbezüglich die Abhängigkeit von Vokabular- und Textumfang vielfach untersucht worden (vgl. Altmann 1988a). Tuldava (1998) beschreibt das Anwachsen des Vokabularumfangs in Abhängigkeit vom Anwachsen der Textlänge als stochastischen Prozess, der vor dem Hintergrund des Prinzips der Begrenzung der lexikalischen Vielfalt die Auswahl zwischen alten, bereits verwendeten, und neuen Wörtern kontrolliert. Tuldava verwendet den Type-Token-Index L / N als ein Maß für die lexikalische Vielfalt von Texten, wobei L die Zahl der Types ist und N (d. h. der Textumfang) der Zahl der Tokens entspricht: während die mittlere Worthäufigkeit ansteigt, fällt L / N monoton mit steigendem Textumfang. Der Quotient L / N kann als Korrelat der Wahrscheinlichkeit für das Auftreten eines neuen Wortes und also der Vergrößerung des Vokabularumfangs von Texten aufgefaßt werden. Es stellt sich nun die Frage, welche Gestalt der quantitative Zusammenhang von Vokabular- und Textumfang besitzt. Ausgehend von der Annahme, daß die Rate der relativen Zunahme des Vokabularumfangs proportional zu jener des Textumfangs ist, leitet Altmann (1988a) folgende, auf Herdan (1966) zurückgehende Formel für den Zusammenhang beider Größen ab: L Z c N a, 0 ! a ! 1
(4)
Dabei ist c ein Parameter, der von der Art der Zählung von Wortformen abhängt, während a ein quantitatives Textcharakteristikum darstellt: je seltener bereits verwendete Wörter wiederholt werden, desto schneller ist der Zuwachs neuer Wörter und desto größer ist a. Wäre a Z 0 (und c Z 1), dann würde der betrachtete Text genau ein Type instanziieren. Der genaue Wert von a wird u. a. durch die Konkurrenz der Bedürfnisse nach Begrenzung des Textvokabulars (aus Gründen der Rezipierbarkeit im Kontext begrenzter Gedächtniskapazität) bzw. nach Vergrößerung des Vokabularumfangs (zur Vermeidung lexikalischer Redundanz) kontrolliert. Gleichung (4) ergibt gute Übereinstimmungen mit empirischen Verteilungen für kurze Texte bzw. für den Anfangsteil der Textproduktion. Tuldava (1998) beschreibt ein alternatives Modell, das zusätzlich die
338
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Tatsache berücksichtigt, daß die Geschwindigkeit des Vokabularzuwachses mit wachsendem Textumfang sinkt. Die Anwendung von Type-Token-Modellen reicht von der Schätzung des Gesamtvokabulars von Autoren bis hin zur Unterscheidung von Texten, Textsorten und Stilen. Dabei stellt sich jeweils die Frage, wie der Parameter a in Abhängigkeit von diesen Größen variiert. 5.5. Wiederholungen in Textblöcken Altmann/Burdinski (1982) beschreiben eine statistische Regularität der blockmäßigen Wiederholung von Wörtern in Texten, die sie als Frumkina-Gesetz bezeichnen. Hierzu betrachten sie Texte als in Blöcke (Passagen) gleicher Länge unterteilt und untersuchen die Vorkommen von Einheiten (etwa Wörtern) mit der Eigenschaft A (etwa die Zugehörigkeit zu einer bestimmten Wortart) in diesen Blöcken. Das Frumkina-Gesetz sagt aus, daß die Umfänge der Blöcke fx, die genau x Vorkommen von Einheiten mit der Eigenschaft A enthalten, eine Regularität erkennen lassen, die mit Hilfe einer Wahrscheinlichkeitsverteilung in Form der negativhypergeometrischen Verteilung modelliert werden kann. Sei hierzu p die Wahrscheinlichkeit des Vorkommens von Einheiten mit der Eigenschaft A und n die maximal mögliche Anzahl solcher Vorkommen im betrachteten Block. Unter Berücksichtigung der Tatsache, daß p in Abhängigkeit von der Textposition variiert, und der Annahme, daß p dabei der Beta-Verteilung folgt, ergibt sich die negativ-hypergeometrische Verteilung als Funktion zur Bestimmung der Wahrscheinlichkeit, daß in einem Block mit höchstens n Einheiten genau x Einheiten mit der Eigenschaft A vorkommen:
P (X Z x) Z
( )( ) ( ) KM x
KK C M nKx
, KK n x 2 {0, ... , n} , n 2 ⺞ , K O M O 0
(5)
Dabei können je nach Konvergenz der Parameter n, K, M, die stilistische Spezifika der betrachteten Wörter, Passagen, Texte und Textsorten abzubilden erlauben, die Binomial-, negative Binomial- und Poissonverteilung als Grenzfälle abgeleitet werden. Altmann/Burdinski (1982) testen dieses Verteilungsmodell anhand von Texten aus fünf
Sprachen. Piotrowski (1984) diskutiert mehrere Anwendungsmöglichkeiten einer Statistik der blockmäßigen Wiederholung, darunter die Identifikation thematisch dominanter Texteinheiten sowie die Messung stilistischer Eigenheiten von Texten. 5.6. Referenzstruktur Hřebíček (1985; 1992) beschreibt ein Modell der Verteilung phorischer Ausdrücke (Referenzen) in Texten, das auf der Hypothese beruht, wonach ihre Zahl in Abhängigkeit vom Vokabularumfang und der Zahl der Sätze eines Texts variiert K dabei unterscheidet er nicht zwischen Anaphern, Kataphern und Substitutionen: (i) Je größer die Wiederholungsrate der lexikalischen Einheiten eines Texts ist, je kleiner also der Betrag des Quotienten L / N der Zahl der Lexeme und Wortformen (als Modell der lexikalischen Textstruktur) ausfällt, desto weniger Referenzen enthält dieser Text. (ii) Je mehr Sätze ein Text enthält, desto mehr Referenzen kommen in ihm vor. Sei x ein Text mit der Zahl der Wortformen N. Sei ferner L die Zahl verschiedener Wortformen und k die Zahl der Sätze in x. Sei schließlich z die Zahl der Referenzen von x, dann implizieren die Hypothesen (i) und (ii) folgenden quantitativen Zusammenhang: z Z ak
L N
(6)
Dabei dient der Parameter a zur Berücksichtigung sprachlicher und stilistischer Charakteristika des untersuchten Texts. Hřebíček überprüft dieses Verteilungsmodell anhand von 10 Texten des Türkischen. Aus der empirischen Bestätigung seines Referenzgesetzes leitet Hřebíček die Vorhersage ab, wonach die Zahl der Referenzen in Einheiten wachsender Länge steigen muß, soll es sich bei diesen Einheiten um kohärente Texte handeln. Die textlinguistische Bedeutung des Referenzgesetzes liegt unter anderem darin, daß es die Wort- und Satzstruktur von Texten mit dem Begriff der Kohärenz in einen quantitativen Zusammenhang bringt. 5.7. Textaggregate Hřebíček (1993; 1995; vgl. Art. Nr. 26) untersucht eine Hypothese zur Segmentstruktur von Texten als Implikation des Menzerathschen Gesetzes (siehe Art. Nr. 47). Dieses Gesetz sagt folgendes aus: Je länger ein sprachliches Konstrukt ist, desto kürzer sind
25. Eigenschaften der textuellen Einheiten und Systeme
seine unmittelbaren Konstituenten. Hřebíček verfolgt das Ziel, mit Hilfe des Menzerathschen Gesetzes empirisch überprüfbare Hypothesen über die Existenz einer supra-sententiellen Sprachebene sogenannter Aggregate als unmittelbare Konstituenten von Texten abzuleiten. Dazu definiert er Aggregate lexikalisch: für eine gegebene lexikalische Einheit ist das zugehörige Aggregat gleich der Menge aller (möglicherweise diskontinuierlich geordneten) Sätze des betrachteten Texts, in denen diese Einheit vorkommt. Das Menzerathsche Gesetz macht folgende Vorhersagen: Je länger ein Text ist, desto kürzer sind seine Aggregate (gemessen an ihrer Kardinalität). Ferner: Je länger ein Aggregat ist, desto kürzer ist die mittlere Länge seiner Satzkonstituenten (gemessen an der Zahl ihrer Wortformen). Hypothesen dieser Art werden mit Hilfe der Gleichung y Z A xb
(7)
numerisch repräsentiert. Dabei ist y die mittlere Länge der Konstituenten und x die Länge des betrachteten Konstrukts gemessen an der Zahl seiner Konstituenten. A und b sind Konstanten. Negative Werte der Konstanten b bringen gerade obige Hypothesen zum Ausdruck. Hřebíček überprüft diese Hypothesen anhand eines Korpus türkischer Texte.
6.
Ausgesuchte Fragestellungen
Zu den Teilaufgaben der QTL zählen die Beschreibung, der Vergleich und die Klassifikation von Texten auf der Basis ihrer statistischen Organisation. Im Folgenden wird dieses Aufgabenspektrum anhand einer Auswahl quantitativer Ansätze näher charakterisiert. Hierzu werden teils ältere Ansätze vorgestellt, die zwar nicht den Stand der jeweiligen Forschung dokumentieren, dafür aber grundlegende Lösungsprinzipien exemplarisch vor Augen führen. Zu den hiervon betroffenen Aufgaben zählen unter anderem die quantitative Stilistik, der Vergleich von Texten anhand ihrer lexikalischen Organisation, ihre Klassifikation unter Rekurs auf Systeme quantitativer Texteigenschaften, die Bestimmung des Vokabularreichtums von Texten, die Analyse von Kohärenzphänomenen mit Hilfe quantitativer Methoden, die automatische Textsegmentierung sowie die Messung des Schwierigkeitsgrads von Texten.
339 6.1. Quantitative Stilistik Die Kernthese der quantitativen Stilistik lautet, daß stilistische Unterschiede von Autoren, Textgruppen oder Textsorten unter Rekurs auf die quantitativen Eigenschaften der betroffenen Texte gemessen werden können (vgl. Herdan 1966; Fucks 1968; Grotjahn 1979; Dolezˇel 1972; Pieper 1979; Tuldava 1995). Die quantitative Stilistik zielt auf eine deskriptiv exakte, objektiv wertende Text- bzw. Literaturwissenschaft (vgl. Fucks 1968). Sie geht von der Annahme aus, daß Stilunterschiede anhand von (nicht-deterministischen, nicht-regelbasierten) Tendenzen zur Verwendung von Ausdrucksarten beobachtet und mit Hilfe von Wahrscheinlichkeitsverteilungen beschrieben werden können. In diesem Sinne betrachtet die quantitative Stilistik den probabilistischen Charakter textueller Zusammenhänge als primäre Eigenschaft stilistischer Phänomene (vgl. Dolezˇel 1972). Die Operationalisierung des quantitativen Stilbegriffs setzt die Spezifikation jener Texteigenschaften voraus, die zur Differenzierung des Stils einzelner Autoren oder Autorengruppen dienen. In diesem Zusammenhang unterscheidet Dolezˇel (1972) subjektive, Autoren- bzw. Diskurskontext-bezogene und objektive, Sprachnorm-bezogene pragmatische Einflußfaktoren der Textproduktion. Dabei werden nur solche Texteigenschaften, die in Abhängigkeit von pragmatischen Faktoren der Textproduktion variieren und folglich die stilistische, autorenspezifische Differenzierung von Texten erlauben, als quantitative Stilcharakteristiken eingestuft (zur Unterscheidung von stationären und nicht-stationären Stilcharakteristiken siehe Grotjahn 1979). Der Stil eines Texts wird dann als die Gesamtheit seiner objektiv faßbaren, quantitativen Stilcharakteristiken definiert (vgl. Fucks 1968; Grotjahn 1979). Suprastilistische Eigenschaften, die bezogen auf die Menge untersuchter Texte eines bestimmten Zeitraums stabil sind K und also im Hinblick auf ein bestimmtes statistisches Zufallsmodell keine signifikanten Differenzen aufweisen K, werden nicht unter stilistischen Gesichtspunkten untersucht. Beispiele für quantitative Stilcharakteristika sind die durchschnittliche Wort- und Satzlänge, der Schachtelungsgrad von Sätzen, ihre Gliederung in (oder die Reihung von) Haupt- und Nebensätze(n), die Häufigkeiten einzelner Wortarten, die Anordnung grammatischer Elemente in Fol-
340
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
gen, die Häufigkeiten von Übergängen zwischen Wortklassen, die Mischungsverhältnisse von Textmerkmalen, metrische Eigenschaften von Texten, ihre lexikalischen Profile, etc. (vgl. Fucks 1968; Pieper 1979). Teilaufgaben der quantitativen Stilistik bilden die quantitative Differenzierung von Individual-, Funktional- und Gattungsstilen, die Prüfung der Autorenschaft bzw. Echtheit von Texten, die chronologische Ordnung von Texten, die Bestimmung textueller Soziogramme, in denen sich Texte aufgrund ähnlicher Ausprägungen quantitativer Stilcharakteristiken vergesellschaften, die texttypologische Zuordnung von Texten zu Textgruppen (Textsorten, Registern, Genre, etc.) K wie etwa die quantitative Identifikation von Trivialliteratur K, die exakte Bestimmung metrischer Eigenschaften mit Hilfe von Metrikmaßen, die Bestimmung des Vokabularreichtums von Autoren u. v. a. m. (vgl. Herdan 1966; Fucks 1968; Wickmann 1972; Pieper 1979). Die statistische Stilanalyse sucht nach quantitativen, meßbaren (objektiven) Korrelaten qualitativer (subjektiver) Stilmerkmale, auf deren Grundlage die intersubjektive Überprüfbarkeit stilistischer Urteile gewährleistet werden kann. Nach Pieper (1979) strebt die quantitative Stilanalyse keine grundsätzliche Auflösung oder Ersetzung qualitativer Stilanalysen an. Vielmehr zielt sie auf eine Objektivierung bzw. Ergänzung der qualitativen Textanalyse (vgl. Tuldava 1995). 6.2. Zum Vokabularreichtum von Texten Ein naheliegendes Beispiel für eine quantitative Stileigenschaft bildet der Vokabularreichtum von Texten, der im einfachsten Fall als die Anzahl unterschiedlicher Wörter im Text definiert wird. Die Bemessung des Vokabularreichtums kann auf einfachen Indizes (wie beispielsweise dem Diversitätsoder Einmaligkeitsindex) oder auf Funktionen beruhen, welche die Dynamik des Vokabularwachstums bei wachsendem Textumfang berücksichtigen und daher den Vergleich von Texten unterschiedlicher Längen erlauben (zu einer Übersicht zu alternativen Verfahren siehe Tuldava 1998; Wimmer/Altmann 1999 erörtern grundlegende Fragestellungen und Probleme der Messung des Vokabularreichtums von Texten). Für den Vergleich kurzer Texte (mit einem Umfang von weniger als 10.000 Wortformen) schlägt Tul-
dava (1998) folgende Formel ersten Grades von Tornquist vor: LZ
aN NCb
(8)
wobei L die Zahl der Lexeme und N der Textumfang des betrachteten Texts ist. Aus stilistischer Sicht sind die (textspezifisch zu schätzenden) Parameter a und b bedeutsam: während a die Geschwindigkeit des Anwachsens der Lexik im Vergleich mit dem Anwachsen des Textumfangs bestimmt, spezifiziert der Parameter a K wegen aN limN/N Z a K als quantitatives StilNCb charakteristikum die Wachstumstendenz des Vokabulars des jeweiligen Texts. Mit Hilfe des für verschiedene Texte zu berechnenden Charakteristikums a kann der potentielle Reichtum (für N / N) der Lexik dieser Texte (im Sinne einer oberen Grenze) geschätzt und verglichen werden. Mit dem Verhältnis φ Z a / b, das die relative Geschwindigkeit des Vokabularwachstums ausdrückt K je größer φ ist, desto stärker wächst das Vokabular in den Anfangsstadien des Texts K leitet Tuldava ein weiteres quantitatives Stilcharakteristikum ab. Die anhand von Einzeltexten ermittelten Ausprägungen der Stilcharakteristika werden in einem zweiten Schritt auf Textgruppen (Individualstile, Funktionalstile, Genre, Textsorten) bezogen (vgl. Pieper 1979). Hierzu werden beispielsweise Mittelwerte der Ausprägungen einer Stileigenschaft in Textgruppen berechnet und als Indikatoren für gruppenspezifische Normwerte verwendet. Ausgehend von den Stileigenschaften a und φ diskutiert Tuldava mehrere Typen von Stilabweichungen, die gegenüber den jeweiligen Normwerten durch ein höheres (C), geringeres (K) oder gleichbleibendes (Z) a (bzw. φ) gekennzeichnet sind. So charakterisiert beispielsweise das Paar Ca / Kφ solche Texte, die gegenüber der Norm einen potentiell größeren Wortschatz aufweisen, der allerdings langsamer anwächst. Eine weitere Dimension zur Differenzierung von Untersuchungen des Vokabularreichtums betrifft die ausschließliche Betrachtung von Vorkommen bestimmter Wortarten oder Wortklassen. Schließlich kann die Frage des Reichtums von Texten auch auf Vorkommen von Einheiten anderer Ebenen sprachlicher Resolution bezogen werden.
25. Eigenschaften der textuellen Einheiten und Systeme
6.3. Textklassifikation Die automatische Textklassifikation verfolgt das Ziel, natürlichsprachliche Texte auf eine Menge von Kategorien abzubilden bzw. zu Klassen zu gruppieren, die u. a. durch thematische, funktionale oder stilistische Homogenität gekennzeichnet sind. Hierzu rekurrieren Klassifikationsverfahren auf Datenrepräsentationsmodelle, mit deren Hilfe die zu klassifizierenden Texte x als Vektoren / x von Meßwerten der jeweils berücksichtigten Klassifikationsdimensionen dargestellt werden (vgl. Manning/Schütze 1999). Aus der Sicht der QTL stellen Dimensionen dieser Art notwendigerweise Konstituenten der statistischen Textorganisation dar (vgl. Alekseev 1987). Die QTL fragt allgemein nach den typologischen bzw. textgruppendifferenzierenden Potentialen quantitativer Texteigenschaften. Ziel ist es, aufgrund dieser Eigenschaften zu entscheiden, welcher Textsorte (Genre oder Register) ein gegebener Text angehört bzw. welchen Homogenitätsgrad bestimmte Gruppen von Texten besitzen. In diesem Zusammenhang klassifizieren Liiv/Tuldava (1993) und Tuldava (1998) englischsprachige Texte verschiedener Textsorten (Dichtung, wissenschaftliche Texte, Pressetexte, etc.) unter Rekurs auf insgesamt zehn Charakteristika ihrer quantitativen Organisation. Hierzu verwenden sie Methoden der unscharfen Clusteranalyse, mit deren Hilfe überlappende Gruppen solcher Texte gebildet werden, deren Elemente aufgrund der untersuchten Charakteristika größere Ähnlichkeiten aufweisen als Einheiten verschiedener Cluster. Jedem Text wird ein Merkmalsvektor mit den Werten der betrachteten Texteigenschaften zugewiesen. Zu diesen Charakteristika zählen u. a. die mittlere Worthäufigkeit, der Konzentrationsindex sowie der Einmaligkeitsindex. Die Vektoren / x, / y bilden (als numerische Repräsentationen der Texte x, y) den Ausgangspunkt zur Berechnung einer Distanzmatrix unter Verwendung der Euklidischen Metrik d als Distanzmaß. Dabei wird der // Abstand d (x , y) der Vektoren / x, / y als Grad der Unähnlichkeit der Texte x, y interpretiert. Die resultierende Distanzmatrix dient als Ausgangspunkt für die unscharfe Clusteranalyse. Mit Hilfe von Dendrogrammen ordnet Tuldava (1998) die Ergebnisse einer hierarchischen Clusteranalyse baumartig an, wodurch Textgruppen verschiedener Agglomerationsstufen erkennbar werden. Weiter-
341 gehende Verfahren der Textklassifikation werden in Lebart/Salem/Berry (1998) und Manning/Schütze (1999) vorgestellt. 6.4. Die lexikalische Nähe von Texten Die Klassifikation von Texten setzt Verfahren zur Bestimmung der Ähnlichkeit von Aspekten ihrer statistischen Organisation voraus. In diesem Zusammenhang existiert eine Klasse von Verfahren, die unmittelbar an der lexikalischen Struktur der Texte ansetzen. Dabei werden Texte in dem Maße als lexikalisch verwandt eingestuft, als sie identische oder (syntagmatisch/paradigmatisch) ähnliche lexikalische Konstituenten aufweisen. Tuldava (1995) beschreibt mehrere Methoden zur Bestimmung der lexikalischen Nähe von Texten. Ausgehend von den Zahlen Vx, Vy verschiedener Wortformen in den Texten x, y und der Zahl C gemeinsamer Wortformen beider Texte berechnet Tuldava mehrere Indizes, deren Werte vom Vokabularumfang abhängen. So berechnet beispielsweise der Index R Z 2C / (Vx C Vy) 2 [0, 1] den Anteil des gemeinsamen Vokabulars C am durchschnittlichen Vokabularumfang beider Texte. Eine andere Methode zur Bestimmung der lexikalischen Nähe, welche die Worthäufigkeiten berücksichtigt, beruht auf der Vereinigung ihrer Vokabularien. Dazu geht Tuldava von der Nullhypothese aus, daß das Vokabular beider Texte x, y derselben, annahmegemäß homogenen Lexik (als das Ergebnis der Vereinigung beider Texte) entstammt. Ferner wird vorausgesetzt, daß im Falle einer homogenen Lexik die Teilhäufigkeiten der Wörter im vereinigten Text nach der Formel (p C q)F verteilt sind, wobei p (bzw. q) die Wahrscheinlichkeit dafür ist, daß ein zufällig gewähltes Wort des vereinigten Texts zur Stichprobe x (bzw. y) gehört. F ist die Häufigkeit des Wortes im Gesamttext. Aus dieser Verteilung können die theoretischen Wahrscheinlichkeiten der Teilhäufigkeiten der Wörter in den beiden Texten berechnet und mit den empirischen Werten verglichen werden. Ergibt sich eine signifikante Abweichung beider Verteilungen, so ist davon auszugehen, daß beide Texte lexikalisch heterogen sind. Nach Tuldava (1998) sind mit diesem Instrumentarium Rangordnungen abzuleiten, welche die Texte im Hinblick auf ihre lexikalische Nähe zum jeweils fokalen Text ordnen. Einen anderen Ansatz verfolgt Mehler (2002): Ausgehend von Vektorrepräsentationen von Wörtern werden Texte auch
342
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
dann als ähnlich eingestuft, wenn sie nur wenige oder gar keine gemeinsamen Konstituenten aufweisen, dafür aber überwiegend solche Konstituenten besitzen, die paradigmatisch verwandt sind, so daß ihre Vektorrepräsentationen geringe Abstände aufweisen. Zu einem vergleichbaren Verfahren siehe Landauer/Dumais (1997). 6.5. Quantitative Aspekte der Kohärenz von Texten Kohäsion und Kohärenz bilden zwei grundlegende Kriterien der Textualität sprachlicher Einheiten. Es stellt sich die Frage, auf welche Weise insbesondere die semantischpragmatisch fundierte Kohärenz von Texten mit Hilfe quantitativer Methoden zu erfassen ist. Givo´n (1985) spricht in diesem Zusammenhang von der Notwendigkeit einer Integration quantitativer, statistischer Methoden in das Methodenarsenal der Diskursanalyse. In vergleichbarer Weise geht Karlgren (1975) von der Unabdingbarkeit stochastischer Modelle zur Beschreibung des Tendenzcharakters der Kohärenz textueller Einheiten aus. Die quantitative Analyse solcher Phänomene setzt jedoch ihre meßtheoretische Quantifizierung voraus. Bereits das Referenzgesetz von Hřebíček beruht auf einer quantitativen Analyse des Zusammenhangs von Wort- bzw. Satzstruktur und referenzieller Kohärenz (siehe Abschnitt 5.6.). Ein weiteres Beispiel für die quantitative Erfassung von Aspekten der textuellen Kohärenz findet sich in Marcus (1980), der die Kohäsion bzw. Kohärenz als Funktionen der Konnektivität graphentheoretischer Textrepräsentationen beschreibt, die auf syntaktischen bzw. semantischen Dependenzrelationen beruhen. So wird beispielsweise der Kohäsionsgrad eines Texts als die kleinste positive Zahl von Kanten bestimmt, deren Eliminierung die Konnektivität des Textgraphen aufhebt. Einen anderen Ansatz verfolgt Givo´n (1983b), der mehrere Maße zur Messung der thematischen, topikalen Kontinuität von Texten beschreibt, welche an den Vorkommen funktionaler Äquivalente zur Kodierung von Topik-Comment-Strukturen und ihren Diskurspositionen ansetzen. Dabei geht Givo´n von einer (aus Gründen effizienter Kommunikation notwendigerweise) dynamischen, imperfekten Korrelation von thematischen Strukturen und sprachlichen Kodierungsmitteln aus. Identifikation und Aufrechterhaltung von Topik-Comment-
Strukturen entfalten sich folglich in einem skalaren Kontinuum. Ausgehend von der Topik des jeweils fokalen Satzes bestimmt das Maß der referenziellen Distanz die Zahl der linksseitigen Sätze (clauses), die diesen Satz vom nächsten vorangehenden Satz mit derselben Topik trennen. Demgegenüber mißt das Maß der thematischen Persistenz (bzw. Wichtigkeit) die Zahl der rechtsseitigen Sätze mit thematischer Kontinuität. Anhand der quantitativen Analyse eines englischsprachigen Texts beobachtet Givo´n (1983c) Konzentrations- und Dispersionseffekte der relativen Häufigkeiten funktionaler Äquivalente zur Kodierung thematischer Kontinuität, wie sie typisch für Phänomene sprachlicher Diversifikation sind. Die zugehörige Verteilung korreliert mit der Verteilung der durchschnittlichen referenziellen Distanz (und Persistenz) der solcherart kodierten Topiken, was darauf schließen läßt, daß verschiedene Stufen thematischer (Dis-) Kontinuität und (Un-)Wichtigkeit mit der (nicht-deterministischen) Präferenz bestimmter Kodierungsmittel verbunden sind (vgl. Karlgren (1975), der von der Auswahl relevanter Wörter zur Identifikation von Thema-Rhema-Strukturen auf der Basis von Wortfrequenzverteilungen spricht). Inwiefern es sich bei diesen empirischen Verteilungen um den Ausdruck gesetzmäßiger Zusammenhänge handelt, ist im Rahmen der QTL zu untersuchen. Das Ziel einer quantitativen Analyse textueller Kohärenz besteht nicht allein in der taxonomischen Unterscheidung von Klassen von Kohärenzrelationen. Kohärenz wird als ein nichtdeterministisches, nicht-regelbasiertes Phänomen aufgefaßt, das in seinem Zustandekommen (in Abhängigkeit von anderen Konstituenten der statistischen Textorganisation) durch stochastische Gesetze kontrolliert wird. Mit dieser Auffassung sind zwei grundlegende Implikationen verbunden: (i) Es wird erwartet, daß die Verteilungen von Kohärenzrelationen in Texten die für sprachliche Phänomene typischen Konzentrations- und Dispersionseffekte aufweisen (vgl. Altmann/Köhler 1996). (ii) Kohärenz ist notwendigerweise ein graduelles Phänomen, das sich an der imperfekten Korrelation von Botschaft und Kode niederschlägt (hierbei handelt es sich um eine Auffassung, die bereits Halliday/Hasan (1976) vertreten).
25. Eigenschaften der textuellen Einheiten und Systeme
6.6. Textsegmentierung Im Rahmen der automatischen Textsegmentierung geht es um die Suche nach linguistisch interpretierbaren, quantitativen Kriterien zur Ermittlung von Textsegmenten (oberhalb der Satzebene), deren Überprüfung an einen Automaten delegiert werden kann. Die QTL fragt, unter welchen quantifizierbaren Bedingungen die überdurchschnittliche Klumpung von Texteinheiten als Indiz dafür zu werten ist, daß diese Einheiten innerhalb eines Textabschnitts vorkommen, der von seiner Umgebung als (thematisch, stilistisch, autorenschaftlich, funktional, etc.) homogenes Textsegment separierbar ist. Ein einfaches quantitatives Segmentierungsverfahren stellen Dannhauer/Wickmann (1972) vor. Ihr Modell beruht auf der Hypothese, dass affine Lexeme in Texten signifikant geringere Distanzen aufweisen als repugnante Lexeme. Die signifikante überdurchschnittliche Distanz der Vorkommen affiner Lexeme wird als Indiz für die Existenz einer Segmentgrenze gewertet: seien xi, xj affine Lexeme, die zu der Sorte x zusammengefaßt werden, deren Vorkommens(wi Cwj) gewahrscheinlichkeit durch px Z w schätzt wird. Dabei ist w der Textumfang und wi die Häufigkeit von xi. Der zu segmentierende Text wird nun als Folge von Einheiten der Sorte x und x¯ (i. e. Wortformen, die weder xi noch xj zuzuordnen sind) aufgefaßt. Unter der Annahme der Unabhängigkeit der Sorten x, x¯ wird die Wahrscheinlichkeit P (d), mit der nach einem Vorkommen der Sorte x ein Element derselben Sorte in einem Abstand der Länge d vorkommt, mit P (d) Z (1 K px)d K 1 px identifiziert. Setzt man nun die Wahrscheinlichkeit dafür, daß dieser Abstand d größer ist als die gesuchte Schranke dS für Textsegmente, deren Grenzen durch Elemente der Sorte x markiert werden, gleich α, das formal einer Irrtumswahrscheinlichkeit in einem statistischen Testverfahren entspricht, so läßt sich die Schranke dS wie folgt berechnen: dS Z
log α log (1 K px)
(9)
Die Wahrscheinlichkeit eines Vorkommens der Sorte x in einem Abstand von maximal dS Wortformen nach einem Vorkommen derselben Sorte beträgt dann 1 K α. Ist der beobachtete Abstand zweier ununterbro-
343 chener Vorkommen der Sorte x größer als dS, dann wird eine Segmentgrenze zwischen ihnen gezogen. Es besteht grundsätzlich die Möglichkeit, anstelle der Funktion P (d) andere Funktionen zur Berechnung der Wahrscheinlichkeit von Distanzen ähnlicher Texteinheiten zu verwenden (vgl. Zörnig 1984a; 1984b). Darüber hinaus können Sorten von Texteinheiten betrachtet werden, die mehr als zwei Elemente umfassen. Ein weitergehendes Textsegmentierungsverfahren, das sich an dem Begriff der lexikalischen Kohäsion orientiert, beschreiben Kozima/Furugori (1994). 6.7. Die Lesbarkeit von Texten Das Ziel der quantitativen Lesbarkeitsforschung (vgl. Art. Nr. 64) besteht in der Aufdeckung des Zusammenhangs von Schwierigkeitsgrad und statistischer Textorganisation. Die QTL sucht nach objektiven, auf quantitativen Texteigenschaften basierenden Kriterien zur Bemessung der Lesbarkeit (bzw. Komplexität) von Texten, mit deren Hilfe subjektive Lesbarkeitskriterien, die auf dem introspektiven Urteil (oder Leseverhalten) von Rezipienten beruhen, sukzessive ersetzt (zumindest aber ergänzt) werden sollen. Tuldava (1993a; 1993b) diskutiert eine Reihe von Indizes zur Bemessung des Schwierigkeitsgrads von Texten, die im Kern auf zwei Hypothesen beruhen (vgl. Mikk/Elts (1993), Mikk (1995) und Elts/Mikk (1996), welche die Frage nach den optimalen Ausprägungen quantitativer Texteigenschaften K wie etwa Wort- oder Satzlänge K in Abhängigkeit von unterschiedlichen Lesergruppen untersuchen): (i) Von zwei Texten derselben Länge ist jener Text (tendenziell) komplexer, der einen größeren Vokabularumfang besitzt. (ii) Je länger die Konstituenten einer bestimmten Sprachebene (Wortebene, Satzebene, etc.) sind, desto komplexer ist der Text. Tuldava diskutiert u. a. den Type-Token-Index, den Einmaligkeitsindex, das kumulative lexikalische Spektrum V1 .. n / N (d. h. das Verhältnis der Zahl der Wörter, die genau 1, 2, .... oder n mal vorkommen, zum jeweiligen Textumfang) sowie den Konzentrationsindex als Maße des Vokabularreichtums. Ausgehend vom Zipfschen Gesetz und seiner Repräsentation nach Gleichung (1) unterscheidet Tuldava weiterhin drei Häufigkeitszonen, denen unterschiedliche Parameter γ1, γ2, γ3 zugeordnet sind, die im Bereich der Wörter hoher, mittlerer und niedriger Frequenz die
344
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Steigung der Kurve in bilogarithmischer Darstellung festlegen. Je kleiner der Parameter γ3 des Bereichs der seltenen Wörter ausfällt, desto größer ist der Anteil dieser Wörter im Text, desto komplexer ist folglich seine lexikalische Varietät. Schließlich betrachtet Tuldava den Index der objektiven (Ebene der) Textschwierigkeit: R Z ¯i ln ¯j
(10)
R steht für den Lesbarkeitsgrad, ¯i für die mittlere Wortlänge in Silben und ¯j für die mittlere Satzlänge in Wörtern des betrachteten Texts. Tuldava (1993b) diskutiert die Möglichkeit, mit Hilfe von R Zonen unterschiedlicher Lesbarkeit zu unterscheiden, auf deren Grundlage Texte vergleichbaren Schwierigkeitsgrads gruppiert werden können.
7.
Anwendungen
Über die im vorangehenden Abschnitt erläuterten Fragestellungen hinaus besteht eine Vielzahl von Anwendungsmöglichkeiten der QTL, die anhand dreier primär texttechnologisch ausgerichteter Beispiele abschließend skizziert werden sollen (zu quantitativen Verfahren der Textanalyse siehe Burgess/Livesay/Lund 1999; Landauer/Dumais 1997; Lebart/Salem/Berry 1998; Mehler 2001; Mehler 2002; Piotrowski 1984; Schütze 1997; siehe auch Manning/Schütze 1999). (1) Im Bereich computerlinguistischer Ansätze wird vielfach die Frage untersucht, auf welche Weise die paradigmatische Ähnlichkeit (bzw. die Similaritätsassoziation) von Wörtern auch dann numerisch zu bewerten ist, wenn diese nur selten, oder im Extremfall gar nicht kookkurrieren. Durch Anwendung eines Maßes zur Bemessung solcher Ähnlichkeiten kann für jedes untersuchte Wort eine Verteilung bestimmt werden, die nun nicht mehr, wie im Falle von Rangfrequenzverteilungen, Häufigkeiten, sondern Ähnlichkeitswerte rangiert. Auf der Grundlage solcher Rangähnlichkeitsverteilungen ergeben sich zwei grundsätzliche Fragen: Unterliegen diese Verteilungen vergleichbaren Gesetzmäßigkeiten wie etwa die Häufigkeitsverteilungen von Wortbedeutungen, die im Rahmen der lexikalischen Diversifikation untersucht werden? Können, ähnlich wie im Falle des Zipf-
schen Gesetzes, Zonen unterschieden werden, für die eigene Verteilungsparameter zu veranschlagen sind? Im Falle einer positiven Antwort dieser Fragen ergäbe sich die Möglichkeit, die Auswahl von Ähnlichkeitsmaßen aufgrund texttheoretischer Kriterien zu steuern. (2) Im Rahmen des Information Retrieval werden Gewichtungsfunktionen dazu verwendet, die Eignung von Termen als Deskriptoren von Texten zu bewerten. Salton/McGill (1987) untersuchen eine Reihe von Gewichtungsfunktionen, die im Sinne der Retrievalfunktionen (recall und precision) gute Retrieval-Ergebnisse erbringen. Aus sprachwissenschaftlicher Sicht ist hiermit das Problem verbunden, daß der verfolgte quantitative Ansatz funktioniert, ohne daß hierfür eine linguistische Interpretation bzw. Begründung bereitsteht. Es stellt sich nun die Frage, ob mit Hilfe der QTL Kriterien zu ermitteln sind, auf deren Grundlage linguistisch interpretierte Gewichtungsfunktionen abgeleitet werden können. Salton/McGill (1987) stellen bereits eine Gewichtungsfunktion vor, die auf dem Zipfschen Gesetz beruht. Ferner ist zu fragen, inwiefern beispielsweise das Wissen um die Verteilungen inhaltsspezifischer bzw. unspezifischer Wörter (vgl. Piotrowski 1984; Orlov 1995) zur Eingrenzung solcher Wortgruppen beiträgt, die entweder gar nicht oder nur in geringem Umfang an der Generierung von Deskriptoren beteiligt werden. (3) Die Entwicklung neuer Medien führt zu einer Erweiterung des Gegenstandsbereich der Textlinguistik. Aus der Sicht der QTL stellt sich die Frage, welche grundlegenden Gesetzmäßigkeiten sprachlicher Strukturen auch auf der Ebene hypertextueller Einheiten Geltung besitzen. In diesem Zusammenhang weisen Cooley/Mobasher/Srivastava (1999) darauf hin, daß das Zeitverhalten von Internetzugriffen mit Hilfe von Verteilungen beschrieben werden kann, die Konzentrations- und Dispersionseffekte erkennen lassen, wie sie das Zipfsche Gesetz beschreibt: neben einer Menge hochfrequentierter Seiten, auf die sehr kurz zugegriffen wird, existiert eine Menge selten frequentierter Seiten, auf die sehr lange zugegriffen wird, wobei ein fließender Übergang zwischen beiden Be-
25. Eigenschaften der textuellen Einheiten und Systeme
reichen beobachtbar ist. Dieses erwartbare Ergebnis wirft die weitergehende Frage auf, ob mit Hilfe von Methoden der QTL das Verhalten von Rezipienten hypertextueller Einheiten genauer vorhergesagt werden kann und welche Empfehlungen für die Produktion von Hypertexten hieraus abzuleiten sind. Vor dem Hintergrund dieser Überlegungen ergibt sich die weitergehende Frage, inwieweit die quantitative Textlinguistik zur theoretischen Fundierung texttechnologischer Ansätze beitragen kann, so daß von einer quantitativen Texttechnologie zu sprechen ist.
8.
Ausblick
Die quantitative Textlinguistik steht am Anfang der Entwicklung einer Texttheorie (vgl. Altmann 1988a; Hřebíček/Altmann 1993b). Neben der Aufdeckung weiterer Textgesetze und ihrer texttheoretischen Integration bildet die Erforschung weiterer Typen der Wiederholung in Texten eines ihrer grundlegenden Forschungsziele. Eine bedeutende Gruppe von Konstituenten der statistischen Textorganisation bilden mehrstellige homogene und heterogene Relationen zur Manifestation der Zusammenhangsstruktur von Texten. Ziel wird es sein, die Begriffe der Kohäsion und Kohärenz anhand der Quantifizierung von Texteigenschaften und Textrelationen numerisch zu rekonstruieren. Schließlich beruht die Unterscheidung von Texttopologie, Textalgebra und Textstatistik auf keinem unüberbrückbaren, ontologischen und erkenntnistheoretischen Gegensatz. Die Konvergenz dieser unterschiedlichen Disziplinen zur Analyse der Zusammenhangs-, Verknüpfungs- und Repetitionsstrukturen textueller Einheiten in einem umfassenden, quantitativ fundierten, algebraisch operierenden, empirisch abgesicherten und theoretisch orientierten Ansatz kann als weitergehendes Ziel einer mathematisch ausgerichteten Textwissenschaft verstanden werden.
9.
Literatur (in Auswahl)
345 Altmann, Gabriel (1988b), Verteilungen der Satzlängen. In: Glottometrika 9. (Hrsg. Klaus-Peter Schulz). Bochum: Brockmeyer, 147K161. Altmann, Gabriel (1992), Two models for word association data. In: Glottometrika 13. (Hrsg. Burghard Rieger). Bochum: Brockmeyer, 105K 120. Altmann, Gabriel (1993): Science and Linguistics. In: Contributions to Quantitative Linguistics. (Hrsg. Reinhard Köhler/Burghard Rieger). Dordrecht: Kluwer, 3K10. Altmann, Gabriel (1995), Die Natur der Spracheinheiten. In: Musikometrika 6. (Hrsg. Moisei G. Boroda). Bochum: Brockmeyer, 1K12. Altmann, Gabriel/Burdinski, Violetta (1982), Towards a law of word repetitions in text-blocks. In: Glottometrika 4. (Hrsg. Werner Lehfeldt/Udo Strauß). Bochum: Brockmeyer, 146K167. Altmann, Gabriel/Köhler, Reinhard (1996), „Language Forces“ and Synergetic Modelling of Language Phenomena. In: Glottometrika 15. (Hrsg. Peter Schmidt). Bochum: Brockmeyer, 62K76. Barwise, Jon/Perry, John (1983): Situations and Attitudes. Cambridge: MIT Press. Beaugrande, Robert-Alain de (1980), Text, Discourse, and Process. Toward a Multidisciplinary Science of Texts. Norwood: Ablex. Beaugrande, Robert-Alain de (1997), New Foundations for a Science of Text and Discourse: Cognition, Communication, and the Freedom of Access to Knowledge and Society. Norwood: Ablex. Beaugrande, Robert-Alain de/Dressler, Wolfgang Ulr. (1981), Einführung in die Textlinguistik. Tübingen: Niemeyer. Bense, Max (1998), Ausgewählte Schriften. Band 3. Ästhetik und Texttheorie. Stuttgart u. a.: Metzler. Boroda, Moisei G. (1994): Complexity Oscillations in a Coherent Text: Towards the Rhythmic Foundations of Text Organization. In: Journal of Quantitative Linguistics 1 (1), 87K97. Boroda, Moisei G./Dolinskij, V. A. (1988), Problems of Quantitative Text Analysis. In: Glottometrika 9. (Hrsg. Klaus-Peter Schulz). Bochum: Brockmeyer, 135K145. Boroda, Moisei G./Zörnig, Peter (1990): ZipfMandelbrot’s Law in a Coherent Text: Towards the Problem of Validity. In: Glottometrika 12. (Hrsg. Rolf Hammerl). Bochum: Brockmeyer, 41K60. Brainerd, Barron (1976), On the Markov Nature of the Text. In: Linguistics 176, 5K30.
Alekseev, Pavel M. (1987), Quantitative Typology of Texts. In: Glottometrika 8. (Hrsg. Ingeborg Fickermann). Bochum: Brockmeyer, 202.
Brinker, Klaus (1992), Linguistische Textanalyse. Eine Einführung in Grundbegriffe und Methoden. Berlin: Erich Schmidt.
Altmann, Gabriel (1988a), Wiederholungen in Texten. Bochum: Brockmeyer.
Burgess, Curt/Livesay, Kevin/Lund, Kay (1999): Exploration in Context Space: Words, Sentences,
346
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Discourse. In: Discourse Processes 25 (2&3), 211K257. Cooley, Robert/Mobasher, Bumshad/Srivastava, Jaideep (1999), Data Preparation for Mining World Wide Web Browsing Patterns. In: Journal of Knowledge and Information Systems 1 (1), 5K32. Czyz˙akowski, W./Piotrowski, Raijmund G. (1993): Über den gegenwärtigen Stand der automatischen Textverarbeitung in der Forschungsgruppe „Sprachstatistik“ (Zum Problem des linguistischen Automaten). In: Glottometrika 14. (Hrsg. Gabriel Altmann). Trier: Wissenschaftlicher Verlag, 161K 189. Dannhauer, Heinz-Martin/Wickmann, Dieter (1972), Segmentierung eines fortlaufenden Prosatextes zur Bestimmung semantischer Umgebungsfelder. In: Zeitschrift für Literaturwissenschaft und Linguistik 8, 44K49. Dolezˇel, Lubomír (1972), Ein Begriffsrahmen für die statistische Stilanalyse. In: Literaturwissenschaft und Linguistik. Ergebnisse und Perspektiven. Band 1. Grundlagen und Voraussetzungen. (Hrsg. J. Ihwe). Frankfurt am Main: Athenäum, 253K273. Elts, Jaanus/Mikk, Jaan (1996), Determination of Optimal Values of Text Characteristics. In: Journal of Quantitative Linguistics 3 (2), 144K151. Fischer, Walther L. (1970), Mathematik und Literaturtheorie. Versuch einer Gliederung. In: Sprache im technischen Zeitalter 34, 106K120. Fischer, Walther L. (1975), Mathematische Texttheorie. In: Grundzüge der Literatur- und Sprachwissenschaft. Band 1: Literaturwissenschaft. (Hrsg. H. L. Arnold/V. Sinemus). München: Deutscher Taschenbuch Verlag, 44K61. Fucks, Wilhelm (1968), Nach allen Regeln der Kunst. Diagnosen über Literatur, Musik, bildende Kunst K die Werke, ihre Autoren und Schöpfer. Stuttgart: Deutsche Verlags-Anstalt. Givon, Talmy (Hrsg.), Topic Continuity in Discourse: A Quantitative Cross-Language Study. Amsterdam u. a.: Benjamins, 1983a. Givon, Talmy (1983b), Topic Continuity in Discourse: an Introduction. In: Givon 1983a, 1K41. Givon, Talmy (1983c), Topic Continuity in Spoken English. In: Givon 1983a, 343K363. Givon, Talmy (1985), Introduction. In: Text 5 (1K2), Special Issue: Quantified Studies in Discourse, 1K6. Grotjahn, Rüdiger (1979), Linguistische und statistische Methoden in Metrik und Textwissenschaft. Bochum: Brockmeyer. Halliday, Michael A. K. (1991a), Towards Probabilistic Interpretations. In: Functional and Systemic Linguistics. (Hrsg. E. Ventola). Berlin u. a.: Mouton de Gruyter, 39K61. Halliday, Michael A. K. (1991b), Corpus Studies and Probabilistic Grammar. In: English Corpus
Linguistics. Studies in Honour of Jan Svartvik. (Hrsg. K. Aijmer/B. Altenberg). London u. a.: Longman, 30K43. Halliday, Michael A. K./Hasan, Ruqaiya (1976), Cohesion in English. London u. a.: Longman. Herdan, Gustav (1964), Quantitative Linguistics. London: Butterworths. Herdan, Gustav (1966), The Advanced Theory of Language as Choice and Chance. Berlin u. a.: Springer. Hřebíček, Ludeˇk (1985), Text as a Unit and CoReferences. In: Linguistic Dynamics. Discourses, Procedures and Evolution. (Hrsg. T. T. Ballmer). Berlin u. a.: de Gruyter, 190K198. Hřebíček, Ludeˇk (1992), Text in Communication: Supra-Sentence Structures. Bochum: Brockmeyer. Hřebíček, Ludeˇk (1993), Text as a Construct of Aggregations. In: Contributions to Quantitative Linguistics. (Hrsg. R. Köhler/B. Rieger). Dordrecht: Kluwer, 33K39. Hřebíček, Ludeˇk (1995), Text Levels. Language Constructs, Constituents and the Menzerath-Altmann Law. Trier: Wissenschaftlicher Verlag. Hřebíček, Ludeˇk (1996), Word Associations and Text. In: Glottometrika 15. (Hrsg. P. Schmidt). Trier: Wissenschaftlicher Verlag, 96K101. Hřebíček, Ludeˇk/Altmann, Gabriel (Hrsg.), Quantitative Text Analysis. Trier: Wissenschaftlicher Verlag, 1993a. Hřebíček, Ludeˇk/Altmann, Gabriel (1993b), Prospects of Text Linguistics. In: Hřebíček/Altmann 1993a, 1K28. Karlgren, Hans (1975), Text Connexitivity and Word Frequency Distribution. In: Style and Text. Studies Presented to Nils Erik Enkvist. (Hrsg. H. Ringbom/A. Ingberg/R. Norrman/K. Nyholm/R. Westman/K. Wikberg), Trelleborg: Spra˚kförlaget Skriptor, 335K348. Köhler, Reinhard (1983), Markov-Ketten und Autokorrelation in der Sprach- und Textanalyse. In: Glottometrika 5. (Hrsg. R. Köhler/J. Boy). Bochum: Brockmeyer, 134K167. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, Reinhard (1997), Semiotik und Synergetik. In: Semiotik. Ein Handbuch zu den Grundlagen von Natur und Kultur. (Hrsg. R. Posner/K. Robering/Th. Sebeok). Berlin: de Gruyter. Köhler, Reinhard/Galle, Matthias (1993), Dynamic Aspects of Text Characteristics. In: Hřebíček/ Altmann 1993a, 46K53. Kozima, Hideki/Furugori, Teiji (1994): Segmenting Narrative Text into Coherent Scenes. In: Literary and Linguistic Computing 9 (1), 13K19. Landauer, Thomas K./Dumais, Susan T. (1997), A Solution to Plato’s Problem: The Latent Semantic
25. Eigenschaften der textuellen Einheiten und Systeme Analysis Theory of Acquisition, Induction, and Representation of Knowledge. In: Psychological Review 104 (2), 211K240. Lebart, Ludovic/Rajman, Martin (2000): Computing Similarity. In: Handbook of Natural Language Processing. (Hrsg. R. Dale/H. Moisl/H. Somers). New York: Dekker, 477K505. Lebart, Ludovic/Salem, André/Berry, Lisette (1998), Exploring Textual Data. Dordrecht u. a.: Kluwer. Liiv, Heino/Tuldava, Juhan (1993): On Classifying Texts with the Help of Cluster Analysis. In: Quantitative Text Analysis. (Hrsg. L. Hřebíček/G. Altmann). WVT: Trier, 253K262. Mandelbrot, Benoit (1961), On the Theory of Word Frequencies and on Related Markovian Models of Discourse. In: Structure of Language and its Mathematical Aspects. (Hrsg. R. Jakobson). Providence: American Mathematical Society, 190K219. Manning, Christopher D./Schütze, Hinrich (1999), Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. Marcus, Solomon (1980), Textual Cohesion and Textual Coherence. In: Revue romaine de linguistique 25 (2), 101K112. Mehler, Alexander (2001): Textbedeutung. Zur prozeduralen Analyse und Repräsentation struktureller Ähnlichkeiten von Texten. Sprache, Sprechen und Computer K Computer Studies in Language and Speech Bd. 5. Frankfurt am Main: Peter Lang. [Zugl. Dissertation Universität Trier]. Mehler, Alexander (2002): Hierarchical Orderings of Textual Units. In: Proceedings of the 19th International Conference on Computational Linguistics (COLING 2002), August 24KSeptember 1, 2002, Taipei, Taiwan. San Francisco: Morgan Kaufmann, 646K652. Mehler, Alexander (2004a): Quantitative Methoden. In: Texttechnologie. Perspektiven und Anwendungen. (Hrsg. H. Lobin/L. Lemnitzer). Tübingen: Stauffenburg-Verlag, 83K107. Mehler, Alexander (2004b): Textmining. In: Texttechnologie. Perspektiven und Anwendungen. (Hrsg. H. Lobin/L. Lemnitzer). Tübingen: Stauffenburg-Verlag, 329K352. Mehler, Alexander (2004c): Textmodellierung: Mehrstufige Modellierung generischer Bausteine der Textähnlichkeitsmessung. In: Automatische Textanalyse: Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte. (Hrsg. A. Mehler/H. Lobin). Wiesbaden: Verlag für Sozialwissenschaften, 101K120. Mikk, Jaan (1995), Methods for Determining Optimal Readability of Texts. In: Journal of Quantitative Linguistics 2 (2), 125K132. Mikk, Jaan/Elts, Jaanus (1993), Comparison of Texts on Familiar or Unfamiliar Subject Matter. In: Hřebíček/Altmann 1993a, 228K238.
347 Nöth, Winfried (1975), Homeostasis and Equilibrium in Linguistics and Text Analysis. In: Semiotica 14, 222K244. Nöth, Winfried (1978), Systems Analysis of Old English Literature. In: A Journal for Descriptive Poetics and Theory of Literature 3, 117K137. Nöth, Winfried (1983), Systems Theoretical Principles of the Evolution of the English Language and Literature. In: Current Topics in English Historical Linguistics. (Hrsg. M. Davenport/E. Hansen/H. F. Nielsen). Odense: University Press, 103K122. Nöth, Winfried (1990), Systems Theory and Semiotics. In: Semiotics in the individual Sciences. Part II. (Hrsg. W. A. Koch). Bochum: Brockmeyer, 536K557. Oomen, Ursula (1971), Systemtheorie der Texte. In: Folia Linguistica 1, 12K34. Orlov, Jurij K./Boroda, Moisei G./Nadarejsˇvili, I. Sˇ. (Hrsg.), Sprache, Text, Kunst. Quantitative Analysen. Bochum: Brockmeyer, 1982. Orlov, Jurij K. (1982a), Linguostatistik: Aufstellung von Sprachnormen oder Analyse des Redeprozesses? (Die Antinomie „Sprache-Rede“ in der statistischen Linguistik). In: Orlov/Boroda/ Nadarejsˇvili 1982, 1K55. Orlov, Jurij K. (1982b), Ein Modell der Häufigkeitsstruktur des Vokabulars. In: Orlov/Boroda/ Nadarejsˇvili 1982, 118K192. Orlov, Jurij K. (1995): A Statistical Model of Homogeneous Text and its Possibilities in Text Study. In: Journal of Quantitative Linguistics 2 (3), 248K257. Peirce, Charles S. (1991), Naturordnung und Zeichenprozess. Schriften über Semiotik und Naturphilosophie. Mit einem Vorwort von Ilya Prigogine. Frankfurt am Main: Suhrkamp. Phillips, Martin (1985), Aspects of Text Structure. An Investigation of the Lexical Organisation of Text. Amsterdam: North-Holland. Pieper, Ursula (1979), Über die Aussagekraft statistischer Methoden für die linguistische Stilanalyse. Tübingen: Narr. Piotrowski, Raijmund (1984), Text K Computer K Mensch. Bochum: Brockmeyer. Piotrowski, Raijmund (1997): Text Informational Estimates and Synergetics. In: Journal of Quantitative Linguistics 4 (1K3), 232K243. Salton, Gerard/McGill, Michael J. (1987), Information Retrieval K Grundlegendes für Informationswissenschaftler. Hamburg: McGraw-Hill. Schütze, Hinrich (1997): Ambiguity resolution in language learning: computational and cognitive models. CSLI Lecture Notes, Bd. 71, Stanford: CSLI Publications. Strauß, U./Sappok, Ch./Diller, H. J./Altmann, G. (1984): Zur Theorie der Klumpung von Textenti-
348
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
täten. In: Glottometrika 7, Bochum: Brockmeyer, 65K80. Strohner, Hans (1990), Textverstehen. Kognitive und kommunikative Grundlagen der Sprachverarbeitung. Opladen: Westdeutscher Verlag. Strohner, Hans/Rickheit, Gert (1990), Kognitive, kommunikative und sprachliche Zusammenhänge: Eine systemtheoretische Konzeption linguistischer Kohärenz. In: Linguistische Berichte 125, 3K24. Stubbs, Michael (1996), Text and Corpus Analysis. Computer-Assisted Studies of Language and Culture. Cambridge: Blackwell Publishers. Tuldava, Juhan (1993a), The Statistical Structure of a Text and its Readability. In: Hřebíček/Altmann 1993a, 215K227. Tuldava, Juhan (1993b), Measuring Text Difficulty. In: Glottometrika 14. (Hrsg. G. Altmann). Bochum: Brockmeyer, 69K81. Tuldava, Juhan (1995), Methods in Quantitative Linguistics. Trier: Wissenschaftlicher Verlag. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systemischen Lexikologie. Trier: Wissenschaftlicher Verlag.
Wickmann, Dieter (1972): Urteilsstruktur und Signifikanzschwelle. Quantifizierung eines nichtnumerischen Problems K Statistik zur unbekannten Verfasserschaft. In: Literatur und Datenverarbeitung. (Hrsg. H. Schanze). Tübingen: Max Niemeyer, 107K122. Wildgen, Wolfgang (1983), Dialogdynamik. In: Papiere zur Linguistik 29 (2), 3K21. Wildgen, Wolfgang/Mottron, Laurent (1987), Dynamische Sprachtheorie: Sprachbeschreibung und Spracherklärung nach den Prinzipien der Selbstorganisation und der Morphogenese. Bochum: Brockmeyer. Wimmer, Gejiza/Altmann, Gabriel (1999), Review Article: On Vocabulary Richness. In: Journal of Quantitative Linguistics 6 (1), 1K9. Zörnig, Peter (1984a), The Distribution of the Distance between like Elements in a Sequence I. In: Glottometrika 6. (Hrsg. J. Boy/R. Köhler). Bochum: Brockmeyer, 1K15. Zörnig, Peter (1984b), The Distribution of the Distance between like Elements in a Sequence II. In: Glottometrika 7. (Hrsg. U. Rothe). Bochum: Brockmeyer, 1K14.
Alexander Mehler, Bielefeld (Deutschland)
26. Text laws 1. 2. 3. 4. 5. 6. 7.
Introduction The Menzerath-Altmann law on the text level Context and location of words Co-reference Positional series Conclusions Literature (a selection)
1.
Introduction
Text linguistics actually appears to be a generally accepted term for the linguistic branch developing since the 1960s. Text laws form the framework of that branch. Text linguistics tries to construct general text theory and its basic problem is: Which are the main properties of an arbitrary text structure? What kind of linguistic entity can be thought of as a construction formed by a set of sentences? In the present chapter we intend to give a short answer to these questions. First, it is necessary to characterize the notion law (in the narrower sense scientific law) in linguistics and especially in quantitative linguistics. This term need not obtain
some special comprehension different from its validity in other sciences. Probably, the best delimitation of this concept can be found in the works by the philosopher of scientific knowledge Karl Raimund Popper as well as in the works by some other representatives of the contemporary philosophy of science. To express it in a condensed way, according to this conception, theory is a system of expressions containing a law, i. e. a testable conjecture, as its core. Similar attitudes can be found in the solutions of linguistic problems displayed by quantitative linguists. In the word compound text law the term law designates a certain kernel proper to each scientific theory. A given conjecture, which is proved by some adequate and reliable examination of the data observed, is taken as a law until once in the future it becomes rejected on the basis of a more comprehensive generalization, or a new probation of the observed data. An old law, valid before, can thereupon be substituted by some new formulation offering a better explanation.
349
26. Text laws
When the puzzle of text structures becomes the aim of intellectual activities in linguistics, some other attitudes to scientific explanation in linguistics can scarcely be maintained. The reason is evident: any text exhibits such a great complexity in its internal structures that the methods of description or the ways of explanation used at the lower linguistic levels (i. e. mainly at the grammatical or lexical level) do not lead to acceptable results. Quantitative linguistics offers a large set of instruments for text analyses and for the construction of theories which are able to explain text structures. Many approaches described elsewhere in this book outside the present chapter can be used for text analyses. Here, however, we try to found those general principles enabling us to grasp text as a linguistic unit containing a certain newly defined higher language level. While in classical linguistics the highest level is that of sentences, in text linguistics we surpass from sentences to text. Thus linguistics can obtain quite new features. However, the properties of language structures uncovered by classical linguistics further remain an important part of the supra-sentence text structures. Quantitative linguists do not intend to change or reduce linguistics, they simply enlarge the range of its interests. Delimiting the object of investigation, we cannot define the notion of text in advance at a satisfying degree of accuracy. The variety of items commonly designated as texts is quite large, therefore we ask, which sort of objects we are to observe and analyse. When using the term text we think of an observed and continuous part of speech in a written or spoken form of natural languages. This means that for the approbation of the ideas exposed concerning text structures we select such language expressions K or parts of them K produced by competent language users and recorded under natural conditions of language communication. The beginning and the end of such a part may not coincide with some natural limits of language expression (the beginning of a book, of a chapter, or a short story as well as the beginning of a speech after a longer cessation of speech or in a new situation). However, between these limits text must remain unbroken by some sort of discontinuity be it (in a written text) tables, figures, lists of items removed from syntactic structures of sentences, formulas, etc. The reason for this requirement is evident: we wish to seek the language rela-
tions existing inside and among the sentences forming one text. Our aim is to find that sort of language units which form text in the same way or a similar one as sentences are formed by lower language units (phones, syllables, morphs, words, syntactic constructions). Louis Hjelmslev (1969) formulated the authentic aim of linguistics as seeking something unknown somewhere beyond language. This supposed something probably is located in human brains. Therefore we limit ourselves to the texts analysed and thus to the properties imprinted by human minds to texts.
2.
The Menzerath-Altmann law on the text level
The Menzerath-Altmann law (cf. art. 47) represents a tool capable of embracing not only the classical linguistic levels, but the supra-sentence text units as well. This law formulates a certain principle applicable as a definition of language level, the classical levels as well as some new ones. It unifies all different levels, while before its formulation, language levels were treated as relatively independent language subsystems. P. Menzerath (1928; 1954) and mainly Altmann (1980) introduced the notions of language construct and language constituent to linguistics together with the following basic idea: The longer a language construct the shorter its components (constituents). Its mathematical form was derived by Altmann (1980) and later tested in languages of different types, see, for example Altmann/Schwibbe (1989). The mathematical expression, which is equivalent to Menzerath’s conjecture quoted above, states that the relative change of constituents dy/y is inversely proportional to the relative change of construct dx/x: dy y
f
dx x
.
According to the basic conjecture, the coefficient of proportionality is negative, so we obtain equation: dy y
Z Kb
dx x
.
(1)
Following integration we have: ln y Z K b ln x C c .
(2)
350
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
With A Z e c the basic form of the Menzerath-Altmann’s formula is: y Z AxKb.
(3)
Constants A and b function as parameters, which means that they differ from text to text of the same language and thus can be taken as text characteristics. The Menzerath-Altmann law has been proved for phones as constituents both for morphs and syllables. Then, similarly, words (word forms) proved to be constructs, and morphs and syllables their parallel constituents. At the higher levels, words are constituents of clauses and of sentences, and clauses are constituents of sentences. In general, for each construct, the lower units of different levels are their constituents. The mutual relationship between constructs and constituents can be documented by the distribution of syllable length in American English as it was published by Roberts (1965), quoted according to Altmann/Schwibbe (1989, 51K52), cf. Table 26.1: Table 26.1: Mean syllable length (measured in phonemes) in American English (according to Altmann/Schwibbe et al. 1989, 51K52). xi
ni
1 2 3 4 5 6
2747 3969 2247 874 213 14
yi
y*i
4.16 3.11 2.77 2.57 2.42 2.23
4.09 3.19 2.76 2.49 2.30 2.15
xi Z word length expressed by the number of syllables; ni Z the number of words; yi Z mean syllable length; y*i Z theoretical mean syllable length.
The computed values are obtained from the equation y* Z 4.0852 xK0.3578, which is formula (3) with estimated parameters. The structure of formula (3) corresponds to the type of equation called power law, see, e. g., Schroeder (1991) and art. No. 50. The same mathematical equation structure frequently corresponds to phenomena that are studied in natural sciences as an empirical expression of dependencies between certain variables. Thus the fundamental language law adjoins the natural phenomena. This is not a wonder since speech chains are produced by organs of the human body.
Formula (3) can also be derived from (2) with c Z 0, from which the following proportionality is deduced: yx C 1 yx
f
(x C 1)Kb xKb
,
x Z 1, 2, ...
(4)
Unlike the derivation of equation (3), the discrete treatment of the function is an inherent quality of (4). Then yx C 1 Z yx
( ) xC1
Kb
Z yx
x
( ) x
xC1
b
.
(5)
Let the first term of the progression contained in (5) be y1 Z A. Its other members are: y2 Z A y3 Z A y4 Z A ... yx Z A
() ()() ()()() ( ) 1
b
2 1
b
2
2 1
b
3
b
2
2
b
3
3
12
...
23
b
4
xK1
b
x
Consequently, the formula of the discrete Menzerath-Altmann law can be formulated in the following way: yx Z A
(
)
(x K 1)! x!
b
,
x Z 1, 2, ...
(6)
From (5), the analogous formula with negative b can be derived: yx Z A
(
)
(x C 1)! x!
Kb
(6a)
When in (6) and (6a) the fractions are reduced, formula (3) is obtained. This way of derivation stands more closely to the linguistic facts, for which the infinitesimal increment is not an adequate concept. In this way, formula (3) covers all the language levels up to the one of sentence. For the sake of brevity let us only remark that its validity has been proved for different languages, see the quoted works. When analysing the supra-sentence structure of texts, it is practical to formulate the following preliminary conjecture concerning the existence of two kinds of context which appear to be relevant for each lexical unit of a text:
351
26. Text laws
(a) narrower context of a lexical unit, that is the clause or sentence (generally, the larger syntactic construction; below, we will speak of sentences only) containing the given word as its member; (b) larger context of a lexical unit, represented by all those sentences (i. e. narrower contexts) in a given text, in which the given lexical unit occurs. These two kinds of context were observed in different languages and different texts. (In some works quoted below, larger context is called sentence aggregate, aggregation, etc.) Claudia Schwarz (1995) presents data observed in German texts, from which we quote data observed in a journalistic text, cf. Table 26.2. Table 26.2: Two types of context in a German text (according to Schwarz 1995, 63). x
y
y* Z AxKb
ZA
x
y
y* Z AxKb
ZA
1 2 3 4 5 6
283 51 20 13 5 3
283.0 57.5 22.6 11.7 7.0 4.6
283.00 45.01 22.26 13.09 8.52 5.92
7 8 9 10 11 12
7 2 2 2 2 3
3.2 2.4 1.8 1.4 1.1 0.9
4.32 3.27 2.54 2.02 1.64 1.41
x Z the length of larger context (expressed by the number of sentences); y Z the mean length of narrower context, i. e. the mean length of sentences forming contexts of the corresponding x (in the number of words); theoretical values y* are computed with A Z 283 and b Z K2.3. ZA Z Zipf-Alekseev distribution, computed with the help of Altmann-Fitter (1994). Text: Frank Schirmacher, Dem Druck des härteren, strengeren Lebens standhalten. Frankfurter Allgemeine Zeitung. Samstag, 2. 6. 1990, Nr. 127.
All occurrences of each lexical unit virtually form a set of sentences representing its larger context; the cases of more than one occurrence of a given lexical unit in one and the same sentence are rare and can be neglected in statistical assumptions. It appeared that in different languages and different texts the distribution of narrower contexts y with larger contexts x corresponds to the Menzerath-Altmann law and thus the relation of both contexts can be treated as the relation of language construct and its constituents in the sense of this law. Consequently, the same principle can be applied to all language levels from phones up
to the sets of sentences forming larger contexts as the highest defined language constructs. The concept of lexical unit, on which the idea of the two types of context is based, points to the fact that each word form is evaluated by language users (text producers and recipients) in relation to all the other word forms occurring in a given text. Language users, being in contact with a text, state identities between individual word forms mutually co-ordinating them into one lexical unit and thus bring their narrower contexts into one larger context. Therefore the interpretation of a text, when formally analysed, means delimitation of the set of lexical units contained in the text. Of course, the depth of interpretation may be extended and together with lexical entities embrace synonyms and synonymic expressions on which larger contexts can also be defined. Hence it follows that speaking about text we always have in mind the contact between (written or spoken) language expressions and language users. Text is not simply a record of a text, but a lively contact with a (produced or received) language formation which is actually interpreted. And interpretation is the seeking of relationships between narrower and larger contexts. The steps from the lowest level to the highest one are formed by those units, each of which represents a constituent in relation to its higher levels, and a construct in relation to the lower levels. Formula (3) can be reformulated as x Z f (y), or xz Z
( )
1/bz
Az
yz C 1
,
z Z 1, 2, ...
(7)
which represents a mapping where language level is designated as z. Hřebíček (1995b; 1997, 47K89) brings data from several Turkish texts which (after their logarithmic transformation) are in agreement with the following general equation: log x1 Z
1 b1
log A1 K 1
C ... G G
b1 b2 b3 1
1 b1 b2
log A2
log A3 K ...
b1 b2 ... bz K 1 1 b1 b2 ... bz K 1
log Az K 1 log xz Az.
(8)
352
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Here, for example, z Z 1 indicates the level of phones, z Z 2 the level of morphs, z Z 3 the level of words, etc. These results can be interpreted as a clear indication that language is a self-similar set structured on the basis of the principle formulated in the Menzerath-Altmann law. This holds when languages are viewed through the optics of texts and not only of sentences. Of course, this conclusion needs proofs in other languages and texts of different kinds. From the quantitative expressions like (8) it can be deduced that the classical assertion concerning language levels and treating them as relatively autonomous language subsystems, is dubious from the viewpoint of the Menzerath-Altmann law. All these subsystems form one integral language system. It can be indicated that constructs are scaled according to their natural constituents and these constituents can be measured in an arbitrary measure, for example in phones, details can be read in Hřebíček (1998). In Table 26.3 the length of sentences is presented in the number of clauses and the length of the corresponding constituents (Z clauses) is presented in the number of phones observed in a Turkish text. Table 26.3: Sentence length (expressed by the number of clauses) and clause length (expressed by the number of phones) in a Turkish text. (1)
(2)
(3)
1 2 3 4 5 7
30.23 26.21 30.69 24.42 23.80 18.64
32.05 27.71 25.45 23.95 22.86 21.30
(1) sentence length expressed by the number of clauses, (2) mean clause length expressed by the number of phones, (3) expected clause length computed according to Menzerath-Altmann’s law: A Z 32.05, b Z K0.21. Wilcoxon test: T Z 9 O 0 Z T0.05.
The analogous way of measurement can be applied to all language levels. When the data are inserted into equation (8), all terms on its right-hand side are measured in phones. Consequently, there is no complicated labelling in many different language units as units of measurement, cf. Köhler (1995). In this sense, the Menzerath-Altmann law holds regardless of the units of measurement.
In relation to lower levels, the units of an arbitrary language level represent constructs, and in relation to the higher levels they are constituents. Their mutual relation can be considered as a progression realized by double concepts: ... [constructKconstituent] 5 [constructK constituent] 5 [constructKconstituent] ... For this reason, formula (3), taken as a consequence of (6) or (6a), with respect to the identity of x Z y can be formulated as x Z A x b or y Z A y b. Both these expressions lead to one and the same solution: x Z A1/(1Kb) and y Z A1/(1Kb). This means that any text taken as a compact system, which is represented by units on different levels, is a dynamic system complying with the general expression a Z f (a). Thus the parameters of the Menzerath-Altmann law, in the configuration of equations (9), fulfil the criterion for equilibrium value or fix point, see Sandefur (1990, 18). Seeking the empirical sense of these concepts in text linguistics, in all analysed cases it appeared that this expression (at the level of larger contexts and sentences as their constituents) has a value which is very close to mean sentence length. This is documented by the values of mean sentence length and A1/(1Kb) in Table 26.4 observed in Turkish texts of different stylistic qualities. Table 26.4: Mean sentence length and fixed points A1/(1Kb) in a sample of Turkish texts ! y O A1/(1Kb) ! y O A1/(1Kb) ! y O A1/(1Kb) 13.82 13.32 9.26 8.97 6.20 6.21
4.17 21.43 11.72
4.54 19.52 11.61
10.06 19.44 10.57
9.27 18.78 10.57
In general, fix point equals the mean value of the length of constituents. Fix point is classified as being stable if the absolute value of its derivation is less than 1. Otherwise the equilibrium is instable. The derivation of the point of equilibrium is: !yO# Z
1 1Kb
Ab/1Kb.
(9)
At the level of supra-sentence constructs and sentences, for the analysed Turkish texts we obtained the value !yO# z 0.8. Thus the systems of these texts can be classified
353
26. Text laws
as stable (attracting) and not instable (repelling). The well-known investigative operation in psychology directed to the inspection of human minds is based on word associations. The experimenter selects one word which stimulates the tested person to quickly pronounce words which according to her/his semantic intuition are associated with it. The result is an observed distribution indicating how many times (fx) the tested person’s responses exactly contain x words as associating words during a given experiment. Psychologists sought some theoretical distribution fitting the observed distributions and modelling the process running in minds during these experiments. For a linguist this operation of associating words is directly connected with seeking the pure meanings hidden somewhere behind words in the human mind. These words are set free of contextual dependencies taking place in texts; here these connections are replaced by the act of association. On the other hand, when language users produce texts, semantic associations in their minds determine a given word as a possible context for some other words in the text actually produced. The semantic dependencies in texts can be assumed to be correlated with semantic dependencies in minds. Altmann (1992) analysed several observed distributions together with several theoretical distributions applied in psychological studies. He found that a new distribution appeared more satisfactory. This new distribution was the Zipf-Alekseev (cf. Alekseev 1978) distribution. Hřebíček (1996; 1997, 1K44) tried to explain this correspondence between the observed psychological data and this theoretical distribution with the help of the Menzerath-Altmann law in the following way: The formula of the Zipf-Alekseev distribution operates with the two parameters a and b: fx Z f1 xK(aCb ln x) ,
(10)
where fx is the number of cases, in which the number of associating words is x. When the observed data published by psychologists are analysed carefully, the following conjecture appears to be valid for the data: The number of occurrences fx is directly proportional to the number of one occurring
association f1 and indirectly proportional to x. In a simpler formulation this conjecture says that the relation f1 / fx is proportional to x. Consequently, we can write: 1 fx f f1 . x After supplying this proportionality relation with the coefficient of proportionality c and transforming the whole expression into logarithmic form we obtain: ln f1 K ln fx Z (ln c) (ln x) The resulting equation is
() f1
1/ln x
fx
Z c.
(11)
It is not difficult to prove that (11) is completely unrealistic with regard to the data obtained in psychological experiments. From text linguistics, however, we already know that words (and, consequently, their meanings) in human minds are organized in accordance with the Menzerath-Altmann law. This fact is imprinted in the above described text structures. Therefore in (11), we try to substitute the unrealistic constant c by the expression taken from (3), or better, from (6):
() f1
fx
1/ln x
Z Axb.
(12)
With A Z e a the Zipf-Alekseev function, i. e. formula (10), is obtained. This means that the Menzerath-Altmann principle is hidden in the interior of the structure contained in formula (10). The reason for which this theoretical distribution corresponds to the data obtained from the experiments with word associations is explained in text linguistics: the way in which human mind operates with meanings is almost the same for both, texts and word associations. This conclusion is confirmed by the analysis of texts, see, for example, Table 26.2, columns ZA; the other observed data can be found in Schwarz (1995) for German and in Hřebíček (1995b, 76K82; 1997, 95 ff.) for Turkish. In texts, lexical units as nuclei of larger contexts (i. e. supra-sentence constructs and the respective sentences as their constituents) are distributed in agreement
354
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
with the Zipf-Alekseev distribution. This means that word frequencies in texts are also distributed according to this distribution. This is documented by the values taken from a Turkish text, see Table 26.5. (The insignificant difference between the observed and theoretical values in this Table, as well as in Table 26.2, has been proved by the Wilcoxon test.) Table 26.5: Word frequencies and the Zipf-Alekseev distribution in a Turkish text x
fx
ZA
x
fx
ZA
1 2 3 4 5 6 7
273 83 39 14 17 5 7
273.01 83.11 36.97 19.76 11.81 7.61 5.18
8 9 10 12 13 17 19
4 2 2 1 1 2 1
3.67 2.69 2.03 1.22 0.98 0.44 0.32
The arguments introduced in connection with text analysis and word associations in psychology indicate that the Menzerath-Altmann law is a principle of semantic character. Behind this law we assume the existence of a characteristic manner in which human brain operates with meanings; these operations are lightly engraved on text structures. This is obvious not only from the results of psychological experiments with word associations, but also from the relation between large and narrow contexts, i. e. between constructs and constituents, respectively. Now the question arises what all this means for the sub-sentence levels. Can we retain the argument about the semantic character of this law at the lower levels as well? Let us consider these levels simultaneously; or better, the units representing constructs and constituents: SENTENCE
CLAUSE
WORD SYLLABLE
MORPH
PHONE
Regardless of their formal properties, all these kinds of units K with the exception of
syllables K can be characterized as items with outstanding semantic traits. Even phones in the treatment of structuralists’ schools, when described as phonemes, can be identified as certain semantic units. The above diagram instigates the question why the class of word constituents is manifested by two (in many languages different) kinds of units K syllables and morphs. While morphs evidently have semantic traits, syllables are units of technical nature, whose structure corresponds to the organs of articulation and the way, in which human beings move them when speaking. It can be maintained that apart from syllables, there must be another type of units in the language system fulfilling the demands of semantics at the level of word constituents. The Menzerath-Altmann principle grows through all the language levels, even if the respective units have a technical character, submitting them to this fundamental principle. The assumption that this principle has a governing character during the entire history of the development of language structures seems to be quite probable and acceptable. The main aim of language communication is the transfer of meanings. According to the discussed conjecture, the relation between larger and narrower context can be assumed an archetype for the whole string of language levels. Now let us focus our attention on the concept of text in connection with the idea of the two types of context. Let us consider the problem worded as follows: Suppose a text of some reasonable length, not very short and not very long, for example, a newspaper article or a short story; suppose a given lexical unit occurring in its first and last sentences. These two sentences are classified as members of the larger context defined on the basis of the assumed lexical unit. When the same situation, however, arises in a very large text K for example in a novel by Tolstoy K, can we speak of larger context again? Intuitively, this is not an acceptable idea; human mind with its great but not unlimited capacity is scarcely able to update all specific contextual relations of lexical units in such a large text. It is quite natural to expect that, when a text increases extremely during its production or reception, the contextual bindings among words minimize step by step and what was valid for shorter texts, now ends its functioning. This means that when a text
355
26. Text laws
increases beyond some reasonable limits, the Menzerath-Altmann law and the distribution derived from it (i. e. Zipf-Alekseev distribution) becomes ineffective. For the present, this expectation was substantiated by means of a Turkish novel, cf. Hřebíček (1997, 90K120). Here we merely summarize the results: The first eight chapters of the novel were analysed, each chapter as a separate text; the purpose of the analysis was to obtain the observed distribution of words and to compare it with the theoretical values. We observed x, i. e. the number of sentences in which a given word occurs (this value approximately equals the word frequency in the text), and zx, i. e. the number of lexical units, for which the larger context equals x. The expected values ze were computed according to the formula ze Z z1 xK(a C b ln x), i. e., according to the Zipf-Alekseev distribution, see formula (10). The observed and computed values for the first chapter of the novel are presented in Table 26.6. Table 26.6: Observed (zx) and expected (ze) distribution of larger contexts containing x sentences in a Turkish text x
zx
ze
x
zx
ze
1 2 3 4 5 6 7 8 9 10 11
377 124 50 27 15 10 10 3 4 2 2
377.00 117.99 52.18 28.18 16.75 10.71 7.24 5.09 3.70 2.77 2.11
12 13 14 15 16 17 18 19 20 21
1 2 2 0 0 0 1 1 0 1
1.65 1.30 1.04 0.85 0.70 0.58 0.48 0.41 0.35 0.40
The values of ze computed according to the ZipfAlekseev distribution: a Z 1.46, b Z 0.2897; Chi-square test: X 2 Z 6.20, degrees of freedom df Z 11; P Z 0.8594.
The X 2-test indicates that there are no significant differences between observed zx and expected ze. Consequently, the theory holds for individual short texts. Now let us, in the same way, analyse the same text as one continual text, and let us enlarge this text chapter by chapter. The following data are results of the X 2-test obtained after individual chapters:
After chapter:
P
After chapter:
P
1 2 3 4
0.8594 0.2226 0.1901 0.0125
5 6 7 8
0.0654 0.2229 0.0001 0.0001
The values of probability P indicate that after the first three chapters the functioning of the principles based on contextual relations becomes ineffective, it is lower than 0.05; then the value of P fluctuates and after the first six chapters it definitely descends almost to zero. Generally, the expectations are accomplished, the increasing text loses its compact character, its structure based on the contextual properties of its units gets lost. It seems to be reasonable to introduce a new term for those texts which are in agreement with Menzerath-Altmann’s model of text. We propose the term compact text. In this way text becomes a defined term. A warning must be presented in this connection: The concept of compact text can hardly be used for obtaining some objective segmentation of longer texts into compact formations. Text is always interpreted by its producer and recipient, who determine word forms belonging to individual lexical units. Thus the structure of larger contexts and the sentences belonging to them are determined as well. In the real situations of language communication this is an intuitive informal operation. When linguists prepare similar analyses, their semantic intuition is activated in the same way as it is done in the case of normal competent language users. Linguists, however, strive after a degree of objectivity providing analyses of different texts without great disparity in their approaches. Let us submit the following metaphor: Compact text is a train running through a landscape; its length, the number of its wagons, depends on the external viewers’ ability to observe the number of the wagons (language constructs), as well as on the character of the landscape (communicated meanings).
3.
Context and location of words
According to the explained theory, frequency of lexical units is roughly equated with the length of constructs forming larger
356
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
contexts, because the number of cases when a lexical unit is repeated in the same sentence is low; as indicated above, the length of constructs is given in the number of sentences. This means that each occurrence of a lexical unit belongs to a certain sentence labelled by its rank number; the same sentence is a constituent of the construct (larger context) defined by the lexical unit. (The sequence of word forms in texts was also used for the numerical labelling of the variable location of a word form and it appeared that the location according to sentences is sufficient and satisfactory for the experiment described.) The correlation between word frequency and word location belongs to one of the marginal traits of the model. Now we want to ascertain, whether there exists some structure organizing the location of the words with respect to their frequency in the text producer’s thinking. How is text organized from the viewpoint of frequency of lexical units? One sort of dependence is evident: new lexical units with higher frequencies must be introduced at sufficient distance from the text end, this is trivial. When each word form in a text was labelled according to the rank number of the respective sentence, and its correlation to the frequency was estimated, the correlation coefficient actually was zero. However, when only the first occurrence of each lexical unit and its frequency and location were taken into account, the ascertained value of the linear correlation coefficient r about K0.75 was significant for all the analysed Turkish texts. Words with lower frequencies close to 1 occur anywhere, the higher frequencies depend on word location. It can be concluded that the introduction of a lexical unit into a text is significant for the relationship between larger contexts of words and their location. The higher the frequency the sooner the introduction of the respective word. And thus the importance of a lexical unit for the communicated message is to some extent reflected by its frequency. Each larger context arranged around a given lexical unit is unfolded among the other text units in their sequence. The question arises which are the regular features of the location of their constituents. In a Czech short story, the distances between the occurrences of its key word otec “father” in the sequence of word forms were measured by the number of words. The distribution of the observed distances is pre-
sented in Table 26.7, where the theoretical values are computed according to the ZipfAlekseev distribution. Table 26.7: The distances x (measured in words) between the occurrences of the lexical unit otec „father“ in a Czech short story x
zx
ze
x
zx
ze
1 2 3 4 5 6
8 8 3 2 1 2
8.10 6.34 3.80 2.59 1.90 1.47
7 8 9 10 11 12
1 1 0 1 1 1
1.18 0.96 0.81 0.69 0.59 0.57
x Z distance (in words), zx Z the number of occurrences of x, ze Z the expected zx computed according to the Zipf-Alekseev distribution (Altmann-Fitter); parameters: a Z 1.0968, b Z 0.0934. X 2-test: X 2 Z 2.23, df Z 4, P Z 0.6944.
The differences between the observed and theoretical values are insignificant. These results indicate that the internal organization of larger contexts follows the principles of Menzerath-Altmann’s theoretical model. The penetration of these principles, originally occurring in the vertical organization of a text (i. e. in the whole range between phones and supra-sentence constructs), into its horizontal (or linear) organization is obvious.
4.
Co-reference
The above presented model is sufficiently flexible to enable the existence of many other principles materializing the unity of sentences called compact text. One of such principles is the relation of cohesion, in linguistics described earlier than the Menzerath-Altmann law was mathematically formulated. As for the description of cohesion in English texts see Halliday/Hasan (1976). Cohesion is shaped by many types of relations; here they are subsumed under the term of co-reference. While the relation of constructs and constituents is based on repetitions of constituents, co-references are relations based on different language expressions related to the same extralinguistic reality. As an illustration let us quote the co-reference Mr. X.Y. and the expression this man in the following part of the same text; the members of one co-reference (formed always by two different expressions) may occur in one and the
357
26. Text laws
same sentence or in different sentences. The observation of co-references in texts is quite uncertain, the estimation of the number of co-references always depends on the semantic sensitivity of the analyst. The analyses performed up to now indicate that it is advantageous to possess in advance a list of those units and types of expressions forming co-references in order to obtain comparable results for different texts and different languages. Statistically correct would be working with average data obtained from a group of competent analysts for each text; this, however, is rarely possible. One can assume that co-references depend on (a) the degree of repetition of lexical units in a text, and (b) text segmentation into sentences or clauses which are tied together with the help of co-references. In connection with (a), the relation of coreference is indirect. In connection with (b), this relation is direct. The respective conjecture thus comprises two assertions: The higher the lexical homogeneity of a text, the lower the number of co-references; the more a text is syntactically segmented into sentences (or clauses), the higher is the number of co-references. Let us introduce the following variables: z Z number of co-references, k Z number of sentences (or clauses), w Z the characteristic of the lexical homogeneity of a text. On behalf of simplicity, the two parts of the above presented conjecture are subsumed under one and the same value a of the proportionality coefficient for a given text. The mentioned relations can be expressed as one system containing two equations: vz vk
Z aw,
vz vw
Z ak.
(13)
The sense of these partial differential equations can be formulated as follows: When we assume the mutual relation of infinitely little increases of z and k, it is proportional to w. When we assume the mutual relation of infinitely little increases of z and w, it is proportional to k. The solution of (13) is: z Z f (k, w) Z akw.
(14)
This variable is derived as a continuous function while the real variables observed in texts are discrete. Therefore, as to this con-
tinuous function, we take into account its discrete points only. The discussion of the factual sense of w indicates that two variables are important: the number of lexical units v and text length n in the number of word forms. Their mutual relation expresses the mean frequency (or the mean value of word repetition) f¯ Z n / v . With respect to the indirect proportionality of this mean to z we can write: 1 1 v z Z ak Z ak Z ak . f¯ n n
(15)
v Now we recall Herdan’s presumption log v Z C log n, see Herdan (1966, 76). Hence it follows that v Z nC. After its insertion into (15) the following equation is obtained: z Z aknCK1.
(16)
Let us remember that 1 w Z nC K1 Z nC nK1 Z v . n Equation (16) has the structure of a power law. It can be concluded that this kind of mathematical structure plays an outstanding role in texts. Table 26.8 presents an illustration of coreferences which are observed in an English text containing k Z 42 sentences. This experiment has been accomplished in steps: the number of co-references indicates the increasing number of co-references after each 5th sentence and then after the last sentence for the whole text. Table 26.8: Observed (z) and expected (ze) number of co-references in an English text k
n
v
z
ze
5 10 15 20 25 30 35 40 42
71 139 206 279 361 427 524 577 603
54 98 143 190 233 255 302 327 343
16 36 51 66 86 104 126 137 141
22.4 41.6 61.4 80.4 95.2 105.7 119.0 133.7 140.9
a Z 5.9 Text: Sir James Redhouse (1811K1892). In: Redhouse Yeni Türkc¸e K I´ngilizce Sözlük. Istanbul 1968, pp. XIIKXIII.
358
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
The observed and expected values of z were tested with the help of the coefficient of determination which comprises the relation of explained variation to total variation, i. e., D Z [Σ (ze K !zO)2 / Σ (z K !zO)2]1/2, where !zO is the mean value of z. The resulting D Z 0.91, which means that the 91 % of the co-references in the text is explained by the above presented theory. This is the maximal variant of the analysis, when all possible co-references including the suspected or dubious cases were taken into account. On the other hand, the minimal variant of the analysis has been applied to the same text and the questionable relations were excluded. This time the coefficient of determination was D Z 0.87. Other data are published and analysed in Hřebíček (1985; 1992); for application of this theory to a poetic figure that is similarly structured as to co-reference, cf. Hřebíček (1986).
5.
Positional series
The Menzerath-Altmann text model operates with iterations applied in a vertical sense, i. e. in the range between the lowest (phone) level and the supra-sentence level of larger contexts. Language expressions and their structures, however, are K under natural conditions of communication K horizontally unfolded obtaining thus a linear structure. It is necessary to seek the principles according to which the Menzerath-Altmann structure is linearly evolved. To the best of our knowledge, the investigation of this aspect has not been developed sufficiently yet. Certain indications, however, testify that the entire language structure, including its linear forms, has grown owing to one leading principle. For the general problems of sequential models see Pawlowski (1999). Let us introduce the notion of word frequency series forming the positional series of word frequencies. The term positional series is an analogy to time series where equal time intervals are substituted by position in a sequence. The word frequency series consists of integers ascribed to each word form indicating the frequency of lexical units in a given text. This kind of positional series can be examined from many viewpoints and in many different methods. The analysis of the described data taken from a Turkish text follows their sequence. Each value of the series
was evaluated as higher or equal (i. e., H) or lower (i. e., L) than the mean word frequency in the respective text. The positional series has thus been transformed into a sequence of the letters H and L: H H L H L L L H H H H H L ... Then the length of the intervals at which the same letter(s) were placed in the neighbourhood of each other were measured. The distribution of these intervals is presented in Table 26.9. Table 26.9: The distribution of intervals with higher and lower word frequencies in relation to their mean value in the word-frequency series of a Turkish text Interval
zo
ze
Interval
zo
ze
1 2 3 4 5 6 7 8
306 155 58 28 18 16 6 6
306.00 150.91 60.86 30.94 17.98 11.40 7.69 5.44
9 10 11 12 13 14 15
4 4 3 1 0 0 1
3.08 3.00 2.32 1.83 1.47 1.19 0.98
zo Z the observed number of intervals, ze Z the expected distribution according to ZipfAlekseev. Parameters: a Z 1.95, b Z 0.16. X 2-test: X 2 Z 5.82, df Z 9, P Z 0.7581 (Altmann-Fitter). Text: D. Özlü, Bir Yaz Mevsimi Romanisı Istanbul, Ada, 1st chapter.
The distribution of the intervals is in accordance with the Zipf-Alekseev distribution, as it is attested by the expected values in Table 26.9 and their insignificant difference from the observed values. Similar results were obtained when the positional series of sentence length measured by the number of word forms has been examined. This time the intervals are represented by sentences (elements of the series) which are higher or lower than the mean sentence length. The comparison of the observed distribution with the values obtained with the help of Zipf-Alekseev theoretical distribution is contained in Table 26.10. It is evident that there is no reason to reject the conjecture that there is no significant difference between the observed and expected values. These two preliminary probes of the regularities which are observable in the series obtained from one Turkish text were also repeated with other texts of two other lan-
359
26. Text laws Table 26.10: The distribution of intervals containing higher and lower values than the mean value in the sentence-length series (the same Turkish text as in Table 26.9) Interval
zo
ze
1 2 3 4 5 6 7 8
42 16 12 5 8 2 1 1
42.00 16.53 10.50 6.75 4.47 3.05 2.14 1.56
zo Z observed intervals, ze Z intervals expected according to Zipf-Alekseev theoretical distribution. Parameters: a Z 0.0374, b Z 0.6035. X 2-test: X 2 Z 4.64, df Z 3, P Z 0.2006 (Altmann-Fitter).
guages of different types. They can be taken as a precursory test of the range, in which the principle expressed by the MenzerathAltmann law is applied to text structures. This investigation should be repeated many times with other texts and languages. Nevertheless, these two probes indicate that the further investigation is promising from the viewpoint of the better knowledge of text structures. For the time being we can conclude that text seems to comprise a structural symmetry based on the Menzerath-Altmann law.
6.
Conclusions
The question: How is a set of sentences probably shaped into a language pattern called text? which was asked at the beginning, can be answered by the MenzerathAltmann law and its consequences; in the entire range of its application, language then appears to be a set structured according to the self-similarity principle expressed by this law. (The outlined theory is largely developed in Ziegler/Altmann 2002.) The Menzerath-Altmann law has a semantic property at its bottom. Trying to summarize its linguistic consequences we present the following principal points: (1) When applied to the supra-sentence level, the Menzerath-Altmann law obtains intuitively understandable traits. The larger context of a lexical unit (which is a language construct) and the narrower context(s) of the same word (constituents) are two phenomena hav-
ing semantic character. They both can be subsumed under the following assertion: In a text, meanings of language units are more precisely delimited by collocation with units of the same level thus forming a higher construct. Such collocation encompasses binary as well as many-sided relationships. (2) The above quoted assertion concerns contextual relationships and can be taken as a basic axiom of language structure. According to this assertion the Menzerath-Altmann law can be treated hypothetically as a principle valid at first for lexical units in the two kinds of context, and then commonly for constructs and constituents at all language levels. Axioms are generally acceptable assertions. It seems to be correct to consider the above assertion self-evident truth. Lexical units, together with their contexts, can be compared to communicating vessels: if a lexical unit is so important to be presented with a frequency higher than one, its larger context becomes enlarged, and then narrower context need not be larger. (3) The same principle functions during the entire history of the language development and grows through the whole language structure, at least down to phones. Such units as syllables were also touched by this principle regardless of the fact that they are not semanticizing units (naturally, with the exception of the languages characterized by syllable/morph identities). The Menzerath-Altmann law is a principle capable of defining language levels. Even the lower units like phones achieve the properties enabling them to play an outstanding semantic role in language expressions. (4) The difference between compact text and text, in general sense, indicates the contextual basis of this law. This quality has something in common with the memory capacity proper to human individuals. When a text increases over some reasonable limits, its cohesion built up on contextual bonds weakens and the increasing text suspends its character as a compact text.
360
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
(5) From the viewpoint of the MenzerathAltmann law there is no spiky difference between form and semantic content of language units. The way, in which language formants are organized in a text, is deduced from the interpretative properties of these formants. This is evident when the set of lexical units forming texts is confirmed by a language user. (6) Semantic interpretation still remains the main way to text structures. A given text can be interpreted distinctly by two equally competent language users. Therefore it is senseless to assume some text without a direct contact with the language user’s mind. Language is a highly abstract concept. The existence of this concept is possible thanks to the radical reductionism applied to the main mean of human communication. Language of classical linguistics is sentence expanded to the dimension of all sentence types and the entire lexicon substituted into the abstract terms of these types. Trying to understand a text edifice, the formerly analysed sentence structures are not refuted, but embraced by the text structures described above; they include sentences and their inherent structures as constituents of larger contexts. The step from sentence to text requires certain K otherwise not discernible K operations with meanings taking place in human minds. Their traces are imprinted into language structures. At one time in the future linguistics will possibly be able to say something substantial for the future knowledge of mental dynamism. From the higher complexity proper to texts, language structure emerges as a whole with its two basic qualities: self-similarity proved on different language levels by Menzerath-Altmann’s law, and internal symmetry confirmed by invariance with respect to the reciprocal transformation from vertical to horizontal (linear) form.
7.
Literature (a selection)
Alekseev, Pavel (1978), O nelinejnych formulirovkach zakona Zipfa. In: Voprosy kibernetiki 41, 53K65. Altmann, Gabriel (1980), Prolegomena to Menzerath’s law. In: Glottometrika 2. (ed. R. Grotjahn). Bochum: Brockmeyer.
Altmann, Gabriel (1992), Two models for word association data. In: Glottometrika 13 (ed. B. Rieger). Bochum: Brockmeyer, 105K120. Altmann, Gabriel/Schwibbe, Michael H. (eds.), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim u. a.: Olms, 1989. Halliday, Michael Alexander Kirkwood/Hasan, Ruqaiya (1976), Cohesion in English. London: Longman. Herdan, Gustav (1966), The advanced theory of language as choice and chance. Berlin et al.: Springer. Hjelmslev, Louis (1969), Prolegomena to the theory of language. Madison et al.: University of Wisconsin Press. [Russian translation in: Novoe v lingvistike, Vypusk I, Moskva, Izd. inostrannoj literatury, 264K389]. Hřebíček, Luděk (1985), Text as a unit and coreferences. In: Linguistic dynamics. Discourses, procedures and evolution. (ed. T. Ballmer). Berlin/ New York: de Gruyter. Hřebíček, Luděk (1986), Cohesion in Ottoman poetic texts. In: Archív orientální 54, 252K256. Hřebíček, Luděk (1992), Text in communication: supra-sentence structures. Bochum: Brockmeyer. Hřebíček, Luděk (1995a), Phase transition in texts. In: Zet Zeitschrift für Empirische Textforschung 2, 52K58. Hřebíček, Luděk (1995b), Text levels. Language constructs, constituents and the Menzerath-Altmann law. Trier, Wissenschaftlicher Verlag Trier. Hřebíček, Luděk (1996), Word associations and text. In: Glottometrika 15. (ed. P. Schmidt). Wissenschaftlicher Verlag Trier, 96K101. Hřebíček, Luděk (1997), Lectures on text theory. Prague: Oriental Institute. Hřebíček, Luděk (1998), Language fractals and measurement in texts. In: Archív orientální 66, 233K242. Köhler, Reinhard (1995), Maßeinheiten, Dimensionen und fraktale Strukturen in der Linguistik. In: Zet Zeitschrift für Empirische Textforschung 2, 5K6. Menzerath, Paul (1928), Über einige phonetische Probleme. In: Actes du premier congres international de linguistes. Leiden: Sijthoff, 104K105. Menzerath, Paul (1954), Die Architektonik des deutschen Wortschatzes. Bonn: Dümmler. Pawlowski, Adam (1999), Language in the line vs. language in the mass: On the efficiency of sequential modelling in the analysis of rhytm. In: JQL (6), 1, 70K77. Roberts, Aaron H. (1965), A statistical linguistic analysis of American English. The Hague: Mouton. Sandefur, James T. (1990), Discrete dynamical systems. Theory and application. Oxford: Clarendon Press.
361
27. The type-token relation Schroeder, Manfred (1991), Fractals, chaos, power laws. New York: Freeman. Schwarz, Claudia (1995), The distribution of aggregates in texts. In: Zet Zeitschrift für empirische Textforschung 2, 62K66.
Ziegler, Arne/Altmann, Gabriel (2002), Denotative Textanalyse. Ein textlinguistisches Arbeitsbuch. Wien: Edition Praesens. Software Altmann-Fitter, RAM-Verlag, Lüdenscheid 1994.
Ludeˇk Hřebíček, Prague (Czech Republic)
27. The type-token relation 1. 2. 3. 4. 5. 6. 7.
Introduction Type identification Interpretation Measurement Genesis and modelling Sampling, indices and curves Literature (a selection)
1.
Introduction
The type-token relation is understood as the ratio of the number of different words to all words in text, or with other words, the ratio of vocabulary richness to text length. The problem developed probably in analogy to that of species frequency or species abundance in biology and has been imported in linguistics by statisticians who were active in both disciplines. Nowadays, this research is not only very extensive but also very inhomogeneous because every deepening brings new anomalies. The lack of uniformity is contained in the following aspects: (a) (b) (c) (d) (e)
Type identification, Interpretation, Measurement, Genesis and theoretical approach, Statistical processing (sampling etc.).
Let us consider the problems step by step.
2.
Type identification
There are two possibilities to identify types in text: (i) To consider different word forms K a technique prefered by mathematicians who ignore the concept of lexeme or lemma. If identified in this way, the result has nothing to do with vocabulary richness but rather with form richness (syntheticity) of a language. (ii) To consider different lexemes (lemmas) K a technique leading to intricate
(a)
(b)
(c) (d)
(e)
qualitative problems. First, the data must be adequately prepared (by hand or program) which is dependent on the linguistic school or performed with ad hoc criteria. Let us consider some of the problems: In German the indefinite articles einer, eine, eines and their forms are united in one lexeme. But what about the definite articles der, die, das or the parallel pronouns er, sie, es? What about analytic constructions like German am schönsten being the superlative of an adjective whose other forms are synthetic? How to solve the problem of verbs like ich werde gelobt werden? Are there two lemmas, three or four? The problem of homonyms which can be rather disguised by a program, e. g. the article ein, the number ein and the detachable prefix ein (ich trat ein)? How to solve the problem of feminine forms, e. g. fr. beau and belle, or it. attore, attrice?
Etc. The problem does not consist in writing a program which is able to consider all these fine differences but in well founded decisions. Language does not care for boundaries and identities, this is our conceptual problem. Mathematicians, who do not take care of these problems, set up wonderful models for dubious data and draw still more dubious conclusions.
3.
Interpretation
There are two interpretations of the TTR: (i) It is a characteristic of vocabulary richness of the text. (ii) It is a model of information flow in text.
362
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Case (i) holds only if the type-identification according to (ii) in Section 2. has been performed. Let us assume that it was done. Then TTR will be characterized by a number (index) or a curve. However, it is known that with increasing text length the increase of new words slows down, thus the indices must be relativized and this circumstance lead to the development of ever new indices or to a transformation of existing ones (usually a logarithmic one). From this point of view some indices are quite irrelevant. The same holds for curves describing the increase of new words. Several ones mathematically converge to infinity, which is linguistically impossible. Mathematicians found remedies and secured convergence against a finite value or truncated the curve at the text length. This point has then been called vocabulary richness of the author. As a matter of fact, all texts of an author converge to different points, thus any prediction is illusory. Every adult person knows almost all words of his/her language, even if he/she does not use them all; the difference consists in some thousands of words contained in special dictionaries. In order to save the hypothesis, mathematicians assumed that the point of convergence means the number of those words which the writer placed at his own disposal for writing the given text. This is a sheer nonsense. Thus TTR as a measure of vocabulary richness is a misnomer. As a measure of the richness of the text it can perhaps function if some problems can be solved (see 4.1. (a)). Let us consider case (ii). This interpretation is correct. In text information is conveyed. One of the ways to do it is to bring new words or combine old ones in different ways. In didactic texts the information flows slowlier since repetition is necessary, in lyrical poetry it is more rapid since here repetition is shunned. The transfer of information means that the speaker (writer) builds in the hearer a knowledge system similar to his own, which needs both maintaining input and information input K in analogy to living systems. The first consists of repetitions of known words or their recombinations, increasing merely the number of tokens and maintaining, corroborating the existing knowledge system (repetitio est mater studiorum), the second one increasing the number of types builds new relations in the knowledge system and expands it. Thus the first kind is regulative, stabilizing, the sec-
ond one is self-organisatory. Using Method (i) in chapter 4. the first is displayed by horizontal points characteristic of stasis, the second displays vertical jumps characteristic of information avalanches (cf. e. g. Bak 1999). The TTR-curve is thus a typical devil’s staircase known from natural sciences. It is neither predictable how long a period of stasis will be nor the extent of information batches. The more the new knowledge system is stabilized the longer the periods of punctuated equilibria, the smaller and seldomer the vertical jumps.
4.
Measurement
Up to now three types of TTR-measurement were proposed. (i) Ascribing to the position of each token (x) the number of types (y) up to this position. This is the most usual practice yielding a monotone increasing series !token, typeO. (ii) Dividing the number of types up to position x by the position itself yielding a not monotone decreasing function !token, type/tokenO. There are some variants of this method considering not each token separately but pooling them e. g. by hundreds in order to achieve monotonicity. (iii) The Köhler-Galle method (Köhler, Galle 1993) using the formula: xT tx C T K N TTRx Z (1) N where x Z position in text (number of tokens up to position x), tx Z number of types up to position x (inclusively), T Z number of types in the whole text, N Z text length (number of tokens in the whole text), yielding rather a fractal which is even optically very characteristic of the text. Here we have Cx, TTRxD. Let us exemplify these methods using a letter written by F. Schiller in Figure 27.1. The words are in the first column, the tokens (positions) (x) in the second. In the third column the number of types up to position x is given (Method (i)); in the fourth column the data according to Method (ii), i. e. types/ tokens is given; in the last column one finds the numbers according to Köhler-Galle Method (iii); since there are T Z 80 types and N Z 100 tokens in the text, we obtain
363
27. The type-token relation Words
x
yx
yx/x
K-G
Words
x
yx
yx/x
K-G
O lieben Kinder wie sehne ich mich nach Euch Wie sehr verstimmt mich diese freundelose Einsamkeit In einer Wüste wollt ich mirs noch eher gefallen lassen dort hätte ich wenigstens mehr Raum Euch in Gedanken um mich her zu versammeln Möchtet Ihr so vergnügt sein als ich es nicht bin
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
1 2 3 4 5 6 7 8 9 9 10 11 11 12 13 14 15 16 17 18 18 19 20 21 22 23 24 25 25 26 27 28 28 28 29 30 30 31 32 33 34 35 36 37 38 39 39 40 41 42
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.90 0.91 0.92 0.85 0.86 0.87 0.87 0.88 0.89 0.89 0.90 0.86 0.86 0.87 0.87 0.88 0.88 0.89 0.89 0.86 0.87 0.87 0.87 0.85 0.82 0.83 0.83 0.81 0.82 0.82 0.83 0.83 0.83 0.84 0.84 0.84 0.85 0.83 0.83 0.84 0.84
0.802 0.804 0.806 0.808 0.810 0.812 0.814 0.816 0.818 0.810 0.812 0.814 0.806 0.808 0.810 0.812 0.814 0.816 0.818 0.820 0.812 0.814 0.816 0.818 0.820 0.822 0.824 0.826 0.818 0.820 0.822 0.824 0.816 0.808 0.810 0.812 0.804 0.806 0.808 0.810 0.812 0.814 0.816 0.818 0.820 0.822 0.814 0.816 0.818 0.820
Übermorgen ist es ein Jahr daß wir uns zum ersten mal von Angesicht zu Angesicht sahen Warum müßt Ihr gerade jetzt ferne von mir sein Ich würde einen so schönen Tag feiern können Aber Ihr Ihr werdet über lauter Zerstreuung kaum daran denken wie viele Ursache ich habe fröhlich zurückzusehen
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
43 44 44 45 46 47 48 49 50 51 52 53 54 54 54 55 56 57 57 58 59 60 60 61 61 61 62 63 63 64 65 66 67 68 68 68 69 70 71 72 73 74 75 75 76 77 77 78 79 80
0.84 0.85 0.83 0.83 0.84 0.84 0.84 0.84 0.85 0.85 0.85 0.85 0.86 0.84 0.83 0.83 0.84 0.84 0.83 0.83 0.83 0.83 0.82 0.82 0.81 0.80 0.81 0.81 0.80 0.80 0.80 0.80 0.81 0.81 0.80 0.79 0.79 0.87 0.80 0.80 0.80 0.80 0.81 0.80 0.80 0.80 0.79 0.80 0.80 0.80
0.822 0.824 0.816 0.818 0.820 0.822 0.824 0.826 0.828 0.830 0.832 0.834 0.836 0.828 0.820 0.822 0.824 0.826 0.818 0.820 0.822 0.824 0.816 0.818 0.810 0.802 0.804 0.806 0.798 0.800 0.802 0.804 0.806 0.808 0.800 0.792 0.794 0.796 0.798 0.800 0.802 0.804 0.806 0.798 0.800 0.802 0.794 0.796 0.798 0.800
Fig. 27.1: The type-token relation in Schillers letter “An die Weibchen”
here e. g. TTR1 Z [1 C 80 K 1 (80) / 100] / 100 Z 0.802, TTR2 Z [2 C 80 K 2 (80) / 100] / 100 Z 0.804 etc. The series are displayed in Figure 27.2 to 27.4. For modelling purposes evidently Method (i) is the most feasible but it does not mean
that the other ones, especially Method (iii), reminding us of renewal processes, of avalanches in sand piles and of theory of runs, would not bring another special insight. But up to now, nobody tried to follow this way, all efforts were concentrated at modeling
364
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Fig. 27.2: TTR for Schiller’s letter, Method (i)
Fig. 27.3: TTR for Schiller’s letter, Method (ii)
Fig. 27.4: TTR for Schiller’s letter, Method (iii)
the first curve. The text of Schiller’s letter in the example is too short in order to show longer periods of stasis but the longer the text the more clearly they are visible.
5.
Genesis and modelling
In general there are three approaches to characterize the TTR of a text. (i) To devise an index that characterizes in some way the vocabulary of a text. The majority of them takes into account the
lexeme number and the text length (number of tokens) or also a special frequency class (e. g. hapax legomena) or the whole distribution of lexemes and proposes usally a ratio of some quantities. Of this kind are e. g. Yule (1944), Kuraszkiewicz (1963), Guiraud (1954), Herdan (1960; 1966), Dugast (1979), Woronczak (1967), Ejiri/Smith (1993), Brunet (1978) etc. (ii) To devise a curve capturing the flow of information in text. Of this type are Herdan (1966), Mizutani (1983), Müller (1971), Maas (1972), Nešitoj (1975), Ratkowsky/Halstead/Hantrais (1980), Tuldava (1974; 1980; 1995; 1998), Orlov/ Boroda/Nadarejsˇvili (1982), Baayen/ Tweedie (1998), etc. In many cases the indices and the curves are pairwise transformable into one another. (iii) To start from a stochastic process generating new words and use the results for different purposes (vocabulary richness, prediction, TTR, frequency distribution etc.) Of this kind are e. g. Simon (1955), Haight/Jones (1974), Lánský/ Radil-Weiss (1980), Brainerd (1972), McNeil (1973), Gani (1975), etc. The bibliography is too long to be shown here completely (cf. Köhler 1995). In the series “Travaux de Linguistique Quantitative” a number of monographs concerning this problem appeared. As a matter of fact, all these indices, curves, distributions are acceptable, the problem is what do we want to capture and to which theoretical depth do we want to go. If we merely want to characterize the given text, then at least the comparability of the indices or curves should be guaranteed, i. e. with indices at least their sampling distribution should be known in order to be able to perform asymptotic tests; with curves and distributions we should care that they can be embedded in a more general theory. Though we admit that any text is generated according to some laws, we know that laws hold only if some general conditions (ceteris paribus) are fulfilled. However, the boundary conditions are in every text different and this is why every formula brings a bit of truth but holds merely for a restricted number of texts. Seen from another perspective, the flow of information is a process directed to an attractor which can be either very general and relatively stable or it can rise ad hoc
365
27. The type-token relation
through self-organization stimulated by the complex interplay of different factors (e. g. genre, school, communication aim, kind of hearer, etc.). If we consider text as a complex component system in which components can be switched on and off or old components can be exchanged for new ones (cf. Kampis 1991) K which is the usual technique of evolution K we see that one special model applied to a certain text must be merely a special case of a more general theory. Thus multiplicity of models is something quite natural in linguistics. We assume that all linguistic phenomena of a certain kind are generated by the same mechanism but the outcomes can display enormous variety. Here we show merely the simplest assumption due to Herdan (1966) concerning the measurement Method (i) in chapter 4. yielding graphs like Figure 27.1. It is the simplest special case of the theory presented by Wimmer / Altmann (cf. art. 55). If the text should fulfill a given purpose, there must be a well-balanced relation between the types and the tokens. It is the problem of information transfer strategy. In any case, the relative increase of types must be proportional to the relative increase of tokens: d (types)
d (tokens) w
types
tokens
,
(2)
or, if we denote types as y and tokens as x dy y
Zb
dx x
(3)
where b is the proportionality constant. This is the simplest case, which can be modified according to the theory set up by Wimmer / Altmann (cf. art. 55). The solution of this case yields y Z Cxb
(4)
c
with C Z e . The constant C follows from the fact that the first token of the text is its first type, i. e. 1 Z C1b 0 C Z 1. The parameter b takes values in the interval (0, 1); b Z 0 is not possible because the text would consist of repetitions of the same word; b Z 1 is possible only in a very short text in which each token is a new type. Thus Herdan’s TTR has the form y Z xb, x Z 1, 2, 3, ..., 0 ! b ! 1
(5)
determination coefficient yields D Z 0.9988. In general one should always begin with this curve and complicate the situation as the need arises. For example, in (3) one can replace b by a function g (x). The first problems arise when the texts get longer. We can be sure that longer texts do not arise in one go. The writer makes pauses which are either subjective (he drinks coffee or sleeps) or objective (new chapter, seeking inspiration). In the pause both the rhythm of the text changes and the author forgets which words were already used. Thus in the text structural breaks can arise that may have an extent of a catastrophe thwarting any smooth curve. The data are not any more homogeneous but for the theory homogeneity is a basic condition. This is why claiming a unique curve for all TTR cases is an illusion, this is why TTR predictions in the long run are so problematic, this is why we need a whole battery of TTR-formulas, whether indices or curves.
6.
Sampling, indices and curves
Since problems arise merely with the characterization of long texts which are not homogeneous, it is questionable whether computing the TTR for a whole (long) text does not distort the facts. Would it, perhaps, be more adequate to divide the text in several parts, compute the TTR for the parts separately and at last take a weighted average of an index or of the parameters of a curve? Perhaps, but the decision concerning the length of the parts would be so arbitrary that no better results could be obtained. Thus we must seek an approximative solution in the sampling distribution of the indices. Let us present here five most known indices set up with the aim to relativize the different length of texts. Let V be the extent of the vocabulary (types) and N the text length (tokens): C1 Z
V ON
(cf. Guiraud 1954) C2 Z
ln V ln N
(7)
(cf. Herdan 1960) C3 Z N V
Ka
Fitting (5) to Schiller’s letter by means of least squares we obtain b Z 0.9525 and the
(6)
(cf. Brunet 1978)
(8)
366
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
C5 Z
ln2 N
50
(9)
ln N K ln V
40
ln N K ln V
(10)
ln N K 1
ln 2 N N ln N –1
13
30
(cf. Ejiri/Smith 1993).
13
C4 Z
20
All of them are adequate in some cases and all of them have a reasonable foundation. They represent different attractors: it is possible that texts arise under different regimes. Thus from the theoretical point of view it is not easy to decide which one is “better”. From the empirical point of view we can compare their usefulness. An index is useful (1) if we know which values it can attain, (2) if a lower value of the index signalizes a lower degree of the investigated quality, (3) if texts are comparable by means of the index. Let us first analyze the first two requirements. In Figure 27.5 the values of the above indices are given at the extreme points, namely when V Z 1, V Z N and N / N which is a purely mathematical consideration (cf. Wimmer/Altmann 1999, Wimmer et al. 2003)
10
ln N
02
4
6 N
8
10
Fig. 27.6: Interval for C4
3 2.5
N 2 1.5 1 1/ N
0.5
Index
VZ1
C1 C2 C3
1/ON 0 (N s 1) N (a O 0) N (a ! 0) ln N ln N/(ln N K 1) (N s 1)
C4 C5
N/N VZN
N/N
0 0 N N N
ON 1 Ka NN NKa N K
N 1 1 N K
1
0
0
Fig. 27.5: The range of the indices
Now, C5 is defined in N 2 C2, N) but requirement (2) is not fulfilled: the richer the text the smaller the index. Of course, a transformation is possible. C3 depends both on N and a, it moves in CN, N N K aD and it contradicts requirement (2), too. C4 is not defined for N Z 1 and V Z N. For N 2 C2, N), V 2 C1, N K 1D we obtain C4 2 Cln N, ln2 N / ln [N / (N K 1)]D yielding a wide interval shown in Figure 27.6. C1 is “fixed” merely for N / N, it lays in !1 /ON , ON O shown in Figure 27.7. Merely C2 has fixed boundaries but even here direct comparison is not possible even if logarithming makes the interval narrow.
2
4
N
6
8
10
Fig. 27.7: Interval for C1
In order to render the indices comparable one can set up an asymptotic test transforming the difference of index values (C(i) l , iZ 1, 2, l Z 1, 2, ., 5) of two texts in a random variable zZ
(2) C(1) l K Cl (2) OVar (C(1) l ) C Var (C l )
.
(11)
The indices are considered as random variables. Defining fx as the number of “words” occuring x-times, we have V Z ∑ fx, x N Z m or, equivalently, N Z ∑ x fx. Thus V x N V Z (m being the estimator of the mean m value µ of the distribution of words according to their occurence). For fixed (measured) N (the text length) is V a random variable with variance
27. The type-token relation
367
()
der to remove this empirical impossibility, Tuldava (1974; 1998) proposed the Tornquist curve
Var (V) Z N 2 Var z N2
( )
2
1
K
m2
1
m
Var (m) z
N 2µ2
z
m4 V
N 2 m2 Vm4
µ2
Var (V)
Var (C1) Z
Z
Vm
(12)
N 2 m2
Var (V)
Var (C 2) Z
, 4
Z V 2 ln2 N
V 3 m4 ln2 N
,
(13)
Var (C3) Z (KaVKaK1N V ln N)2 Var (V) Ka
a2 N 2V
Ka
C2
Z
m2 ln2 N
V 2aC3 m4
,
(14)
ln4 N Var (V)
Var (C4) Z
V2 (ln N K ln V)4 N 2 m2 ln 4N
Z
V 3 m4 (ln N K ln V)4
,
(15)
Var (V)
Var (C5) Z
2
V (ln N K 1)2 N 2 m2
Z
V 3 m4 (ln N K 1)2
(16)
which can be directly inserted in (11). We (2) can test the equality of two indices C(1) l , Cl (l 2 {1, 2, 3, 4, 5}) belonging to two different texts using the test statistics z given in (11). (2) Under the hypothesis C(1) z has the l Z Cl normalized normal distribution. The test can show that seemingly great differences of indices are not significant. In order to fit a curve obtained by measurement with Method (i) in chapter 4., formulas (6) to (10) can be solved for V as follows V Z CON C
(18)
VZN
V Z (ln N / ln C)1/ a V Z Ne C
K(ln² N) / C
VZe N
(17)
1KC
(19) (20) (21)
All these curves converge to infinity, a fact that can be tolerated cum grano salis. In or-
aN aK1CN
(22)
whose asymptote is a, i. e. a finite value. In a reparametrized form it can also be found in music (cf. Köhler/Martináková-Rendeková 1998).
7.
Nm2
N
by
m2
; V V µ2 is the variance of above mentioned word distribution and m2 is its estimate). The approximate variances of C1 to C5 can be found by Taylor expansion as follows (because of replacing Var (m) Z
VZ
Literature (a selection)
Baayen, R. Harald/Tweedie, Fiona J. (1998), Sample-size invariance of LNRE model parameters: Problems and opportunities. In: Journal of Quantitative Linguistics 5, 145K154. Bak, Per (1999), How nature works. The science of self-organized criticality. New York: Copernicus-Springer. Brainerd, Barron (1972), On the relation between the type-token and species-area problem. In: Journal of Applied Probability 19, 785K793. Brunet, Etienne (1978), Le vocabulaire de Jean Giraudoux, structure et evolution. Genève: Slatkine. Dugast, Daniel (1979), Vocabulaire et discours. Essai de lexicométrie quantitative. Genève: Slatkine. Ejiri, Koichi/Smith, Adolph E. (1993), Proposal for a new ‘constraint measure’ for text. In: Contributions to Quantitative Linguistics. (eds. Reinhard Köhler/Burghard Rieger). Dordrecht: Kluwer, 195K211. Gani, John (1975), Stochastic models for type counts in a literary text. In: Perspectives in Probability and Statistics. (ed. John Gani). London: Academic Press, 313K323. Guiraud, Pierre (1954), Caractères statistiques du vocabulaire. Essai de méthodologie. Utrecht: Spectrum. Haight, Frank A./Jones, R. B. (1974), A probabilistic treatment of qualitative data with special references to word association tests. In: Journal of Mathematical Psychology 11, 237K244. Herdan, Gustav (1960), Type-token mathematics. The Hague: Mouton. Herdan, Gustav (1966), The advanced theory of language as choice and chance. Berlin: Springer. Kampis, George (1991), Self-modifying systems in biology and cognitive science. A new framework for dynamics, information and complexity. Oxford: Pergamon. Köhler, Reinhard (1995), Bibliography of quantitative linguistics. Amsterdam: Benjamins. Köhler, Reinhard/Galle, Matthias (1993), Dynamic aspects of text characteristics. In: Quantita-
368
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
tive text analysis. (ed. L. Hřebíček). Trier: WVT, 46K53. Köhler, Reinhard/Martinákova-Rendeková, Zuzana (1998), A systems theoretical approach to language and music. In: Systems. New paradigms for the human sciences. (eds. Gabriel Altmann/ Walter A. Koch). Berlin: de Gruyter, 514K546. Kuraszkiewicz, Witold (1963), Statystyczne badanie slownictwa polskich tekstów XVI wieku. In: Z polskich studiów slawistycznych. (ed. P. Zwoliński). Warszawa: Państwowe wydawnictwo naukowe, 240K257. Lánský, Petr/Radil-Weiss, Tomas (1980), A generalization of the Yule-Simon model, with special reference to word association tests and neural cell assembly formation. In: Journal of Mathematical Psychology 21, 53K65. Maas, Heinz-Dieter (1972), Über den Zusammenhang zwischen Wortschatzumfang und Länge des Textes. In: Zeitschrift für Literatur und Linguistik 8, 73K96. McNeil, Donald R. (1973), Estimating an author’s vocabulary. In: Journal of the American Statistical Association 68, 92K96. Mizutani, Shizuo (1983), Lecture on Japanese. Tokyo: Asakura. Müller, Werner (1971), Wortschatzumfang und Textlänge. Eine kleine Studie zu einem vielbehandelten Problem. In: Muttersprache 81, 266K276. Nešitoj, V. V. (1975), Dlina teksta i ob’em slovarja. Pokazateli leksičeskogo bogatstva teksta. In: Metody izučenija leksiki. Minsk: BGU, 110K 118.
Orlov, Jurij K./Boroda, Moisei G./Nadarejšvili, Isabella Š. (1982), Sprache, Text, Kunst. Quantitative Analysen. Bochum: Brockmeyer. Ratkowsky, David A./Halstead, M. H./Hantrais, L. (1980), Measuring vocabulary richness in literary works: A new proposal and a reassessment of some earlier measures. In: Glottometrika 2 (ed. R. Grotjahn). Bochum: Brockmeyer, 125K147. Simon, Herbert A. (1955), On a class of skew distribution functions. In: Biometrika 42, 425K440. Tuldava, Juhan (1974), O statističeskoj strukture teksta. In: Sovetskaja pedagogika i škola 9, 5K33. Tuldava, Juhan (1980), K voprosu ob analitičeskom vyraženii svjazi meždu ob’emom slovarja i ob’emom teksta. In: Lingvostatistika i kvantitativnye zakonomernosti teksta, 113K114. Tuldava, Juhan (1995), Methods in quantitative linguistics. Trier: WVT. Tuldava, Juhan (1998). Probleme und Methoden der quantitativ-systemischen Lexikologie. Trier: WVT. Wimmer, Gejza/Altmann, Gabriel (1999), On vocabulary richness. In: Journal of Quantitative Linguistics (6), 1K9. Wimmer, Gejza/Wimmerová, Sona/Ondrejovič, Slavo/Hřebíček, Luděk/Altmann, Gabriel (2001), Úvod do analýzy textov. Bratislava (to appear). Woronczak, Jerzy (1967), On an attempt to generalize Mandelbrot’s distribution. In: To honor Roman Jakobson. 2. The Hague: Mouton, 2254K 2268. Yule, Udney G. (1944), The statistical study of literary vocabulary. Cambridge: University Press.
Gejza Wimmer, Bratislava (Slovakia)
28. Stylistics, author identification 1. 2. 3.
Background and history Methods and measurements Literature (a selection)
1.
Background and history
1.1. Introductory remarks It is generally accepted that stylistic analysis, “the study of patterns formed in the process of the linguistic encoding of infomation, is of importance to any major research focusing upon or dependent upon the production or analysis of language” (Sedelow/Sedelow 1966, 1). Present-day stylistic studies have gradually been acquiring a strict systemic character. An increasing interest is also ap-
parent in the quantitative aspect, where the statistical and numerical counts of linguistic objects, the comparison and analysis of quantitative data, as well as the use of electronic computers, have given stylistics a more exact basis than hitherto. A quantitatively rigorous and intense study of style in natural languages has given rise to statistical stylistics (or stylostatistics, also called stylometrics or quantitative stylistics and, with the advent of computers, computational stylistics). Statistical stylistics deals with two interdependent issues: (1) investigating texts from the standpoint of individual or functional styles, and (2) investigating texts with a view of author identification, particularly in case of disputed or anonymous author-
369
28. Stylistics, author identification
ship. It has been noted that statistical stylistics is closely connected with language typology (e. g. Greenberg 1960; Herdan 1964; Alekseev 1983) and textology (Vašák 1980). New methods of research, such as factor and cluster analyses, discriminant analysis, path analysis, etc. make statistical stylistics even a more sensitive tool for analysis of individual and functional styles (genres, registers), including the style of fiction. The traditional qualitative methods will not disappear K they only get a good helpmate, a sufficiently precise instrument in form of statistical and other quantitative methods. It is also useful to remember the apt remark of V. I. Perebejnos (1967): “statistical methods enable us not only to check up the correctness of our intuitive views about style, but also establish such regularities, which could not be found by other methods”. (V. I. Perebejnos 1967, 233). On the whole, statistical stylistics has immediate, practical implications for the studies in various areas ranging from stylolinguistics and literary research to other social sciences (pedagogy, sociology, psychology, etc.). 1.2. Some principles of stylostatistical analysis As to the notion of style, we agree with the statement that “style is an amorphous allemcompassing entity which cannot be meaningfully discussed except from a specific viewpoint” (O’Donnell 1966, 108). From the viewpoint of statistical stylistics, it seems reasonable to proceed from the thesis that “style is a probabilistic concept” by which selection (choice), conscious or non-concious, can be considered the basic component of the style-forming process, emerging from the fact that there are several possibilities for expressing an idea where the speaker employs in selecting the most appropriate mode of expression from a set of alternatives (Doložel 1969, 10 ff.). In terms of the probabilistic approach, the repeated selective operation will result in the arrangement of set A into a probability distribution P {A} Z P (a), P (b) ... P (n).
(1)
L. Doložel in his essay “A Framework for the Statistical Analysis of Style” (Doložel 1969) has made an attempt to outline a probabilistic theory of style where he notes that a probabilistic approach reveals the stylistic stability behind the variability of concrete manifestations (i. e. the fluctuations of
frequency distributions). In practical work the student has to use specific statistical procedures K statistical tests K to distinguish between insignificant fluctuations which do not affect the basic character of style and significant fluctuations which signal differences in styles or stylistic change. The stilistic analysis is aimed at viewing and explaining an individual system of stylistic means, or (2) examining an individual system against the background of other, most often similar systems (e. g. discussing style as “deviation from norm” according to P. Guiraud, G. Kjetsaa and others, see chapter 2.4.). In both cases K (1) and (2) K the basic component of the style-forming process remains selection (choice), as accepted by many authors (cf. Krallmann 1966; Winter 1969; Lesskis 1973; Arnold 1974). The process of selection is controlled not only by subjective factors but also by objective factors in accordance with the requirements of context (in the broadest sense), such as time and place, genre, the form of discourse (dialogue or monologue), linguistic restrictions. The specification of the text characteristics K subjective or objective K requires the establishment of a pragmatic classification of texts (cf. Doležel 1969, 17 ff.). The set of a language, symbolically T (L), can be classified into two dimensions: (1) according to the subjective factors K T (Xi), i. e. classes of the texts produced by a certain speaker or writer, and (2) according to the objective factors K T (Qj), i. e. classes of texts in a certain context FQj . As the two criteria are independent, they can be applied in combination: T (Xi Qj)
(2)
to represent text sets by a certain speaker or writer in a certain context, giving classes T (X1 Q1), T (X1 Q2), ... T (X2 Q1), T (X2 Q2) ... etc. Formula (2) helps account for stylistic differences between the texts and provides a framework for the taxonomy of texts in stylostatistical analysis. A specification of the formula reveals (cf. Doležel 1969, 18K 19): (1) supra-stylistic features, i. e. stable characteristics in a language, which represent a backgound for stylistic differentiation of texts; (2) sub-stylistic features, produced by the significant fluctuations within the classes which are to be explained by the impact of inaccountable and undescribable (as yet) factors. (3) Eliminating both supra-stylistic and sub-stylistic characteristics from
370
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
the text-style formula, we shall finally obtain a set of characteristics proper. Further specification of the style characteristics will lead to the disclosure of subjective, objective and subjective/objective “distinctive features” of style (cf. Doložel 1969, 21K22). Very often, the question is not only how to formally distinguish an individual or functional style (genre) from another one but also to give a qualitative interpretation of the formal quantitative text characteristics. In some of the recent style theories quantity and frequency as a source of style have been interpreted in a pragmatic and cognitive frame (cf. Nagy 1998). Also the interrelation of the expressive means of a language (e. g. emotional words) and the ideas expressed has been examined in statistical stylistics, particulary in poetics. In general, it seems reasonable to distinguish between two kinds of style characteristics, qualitative and quantitative (Tuldava 1998, 41K42): (1) latent (“covert”) variables, i. e. qualitative characteristics that the researcher has chosen and fixed for stylistic analysis but which are openly not observable and measurable, and (2) formal-statistical (“overt”) variables, or indicators which can directly be observed and measured in the texts. Undoubtedly, there has to exist a logical connection between the qualitative latent variables and the formal-statistical variables. In the framework of statistical stylistics this connection can only be oblique and probabilistic. The task is to establish good and appropriate indicators founded on experience and theoretically acceptable assumptions. The widespread qualitative stylistic notion of “lexical richness” which can be compared, under given condition, with the relative size of vocabulary or the ratio of hapax legomena (see 2.1.3.), might serve as an example. However, we have to remember that any interpretation of stylostatistical data has a highly hypothetical character, and only if both qualitative and quantitative approaches lead to similar results, the conclusion is more likely to be sound. “If they disagree, however, both sides must think again” (Williams 1970, 149). Besides providing criteria for formal-statistical and qualitative analysis, another problem has to be solved K the problem of sampling technique. It is clearly necessary that the sampled data are representative of
the work being examined. Of course, if the work under consideration is not too lenghty, one can use the whole of it. But even then it could be divided into several subsamples in order to assess the reliability of one’s measures. The main objective in selecting samples is to get an idea of the accuracy needed, with the least possible unnecessary work. C. B. Williams has noted: “There is no way of finding the best number size of sample without some preliminary survey and estimation of error. The number and size of samples depend on many factors, including: (1) what degree of accuracy is demanded by the question one is trying to answer; (2) how reliable one requires the result to be; (3) how variable is the material examined within itself; (4) when comparing two sets of data, how large is the difference between them in relation to the variability within each” (Williams 1970). The ways in which sampled data have been obtained substantially influence the methods of analysis. (For more about sampling methods in stylostatistic analysis, cf. Somers 1966, 129K133; Williams 1970, 31K32, 72K75; Martin 1976, 174; Enkvist 1978). 1.3. A historical survey The history of modern statistical stylistics apparently begins in the middle of the 19th century when the English mathematician Augustus de Morgan in 1851 made a suggestion that the styles of different authors could be distinquished by means of hidden statistical characters (cf. Lord 1958). His suggestions were made about some problems of Greek prose: he argued that the average length of words by an author might well prove to be a characterististic trait of a writer’s style. However, as we know, de Morgan himself did not make any actual counts (cf. Morton/Levison 1966; Bailey 1969; Williams 1970). There was also a group of mid-ninteenthcentury scholars developing a technique called “stylometrics” (Williams 1970, 3). They counted the numbers of repetitions of certain words and the variation of metre in verse. The researchers presented their results as averages or percentages. The school reached its height with the foundation, about 1874, of the New Shakespearean Society. Among the members of the Society were, e. g. F. G. Fleary (“On metrical tests applied to dramatic poetry I. Shakespeare”, (Fleary 1874)), J. K. Ingram (1874), F. W.
28. Stylistics, author identification
Furnival (1887). The main result of their work was the discovery of a slow but steady change in style during the twenty-two years over which Shakespeare wrote thirty-six plays starting in 1589 when he was 26 years of age and ending in 1612 when he was 48. The term “stylometry” (stylometrics) was also used by the German researcher W. Dittenberger (1880) who made an attempt to solve the task of attribution and chronology of the dialogues of Plato. He examined the frequencies of words, mainly function words, in Plato’s texts. Later on, his investigations on various material were continued by E. Zeller (1887), F. Cāda (1901) and C. Ritter (1903), the latter comparing Plato and Goethe statistically (cf. Martynenko 1988, 5). The development of the ideas of de Morgan was the work of T. C. Mendenhall, an American geophysician, who, between 1887 and 1901, studied word length in English. He realized that the distribution of words of different lengths gave more opportunities for comparison of styles than the simple aritmethic mean proposed by de Morgan. Mendenhall’s first paper entitled “The Characteristic Curve of Composition” (Mendenhall 1887) was an outstanding advance towards the present-day stylostatistical approach. He investigated the difference between the literary styles of Dickens and Thackeray insofar as the word-length ditribution was concerned and gave also examples of other writings in modern and classical languages. All his results were shown in the form of graphs (“word spectrums” as he called them), unfortunately without the lists of original numbers. In a later article (1901) Mendenhall used word-length frequency distributions in a study of the authorship of Shakespeare’s plays. He showed that in every single count from Shakespeare’s plays there were more words with four letters than three. In comparison, Bacon had more three-letter words than four-letter words. Bacon had also a distinctly higher proportion of longer words than Shakespeare. So the word-length distribution of Bacon was completely different from that of Shakespeare. Mendenhall’s published works seem to have attracted little attention at that time. In this early period of statistical stylistics only few investigations with the help of statistical methods can be reported, e. g. the study by L. A. Sherman (1888) on sentence-length in English prose. H. A. Parker (1896) studied
371 sentence-length in two works by Carlyle. C. Hildreth (1897) made a new contribution to the Shakespeare-Bacon controversy. W. Lutosławski (1897) used statistical methods in establishing the chronology of Plato’s dialogues, L. Frank (1909) wrote on the frequency of colour terms in Goethe’s works, P. Parzinger (1911) studied the evolution of Cicero’s style. In Russia the mathematician A. A. Markov (1913) applied statistical methods to the study of “Evgenij Onegin” by Puškin, and N. A. Morozov (1915) raised the problem of the means for distinguishing plagiate forms from the genuine works of well-known authors examining the use and the frequency of function words and their variations in individual texts. However, he employed only simple numerical counts. In the twenties of the 20th century only a few serious stylostatistic works can be reported, e. g. by R. E. Parker (1925), Z. E. Chandler (1928), M. Parry (1928) and, particularly, A. Busemann (1925), the inventor of the so-colled Verb-Adjective-Ratio which will be discussed in 2.2.1. In the thirties a new step was made in the use of statistical methods in stylistics by J. V. Fletcher (1934) who examined the evolution of the style of Spenser, G. M. Bolling (1937) with a critical essay on the statistical investigation of Homer’s language, and finally classics of statistical stylistics such as J. B. Carroll (1938) who raised the problem of “diversity” in a vocabulary, and U. G. Yule (1938) with his first study on the sentencelength distribution as a statistical characteristic of style and later, in 1944, with his wellknown study of literary vocabulary presenting his famous “Characteristic K”. With U. G. Yule the real start of the application of modern statistical methods in stylistics begins. Since then the study of stylistic problems with the help of statistical methods has spread throughout the world. Numerous concrete studies in the field of stylostatistics (concerning various languages) have attracted attention, beginning with the works of W. Fucks (1952) and P. Guiraud (1954 etc.). There was a rapid growth of interest in statistical linguistics, especially in the period of the sixties and the seventies; cf. J. B. Carroll (1960), G. Herdan (1960K), H. H. Somers (1960K), Ch. Muller (1964K), B. Kelemen (1964), L. T. Milic (1966), J. Mistrík (1967), L. Doležel (1969), C. B. Williams (1970), B. N. Golovin (1971), M. Těšitelová (1972), J. Kraus (1972), M. N.
372
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Kožina (1972), V. I. Perebejnos (1983), B. Brainerd (1973), T. Zsilka (1974), G. Engwall (1974), C. Hassler-Göransson (1976), G. Altmann (1978) K to mention only some of the authors of that period, and a great number of essays in the collections “Mathematik und Dichtung” (cf. Kreuzer/Gunzenhäuser 1965), “The Computer and Literary Style” (cf. Leed 1966), “Statistics and Style” (Doležel/Bailey 1969), “Voprosy statističeskoj stilistiki” (cf. Golovin/Perebejnos 1974), “The Computer in Literary and Linguistic Studies” (cf. Jones/Churchhouse 1976), and many others, and in series, e. g. “Prague Studies in Mathematical Linguistics” (1966K), “Studia metrica et poetica” (1976K), “Glottometrika” (1978K), in the “Journal of Quantitative Linguistics” and in the Theses and Proceedings of numerous conferences in quantitative linguistics. The most recent works are also very numerous, among them mention can be made of the monographs of P. Thoiron (1980), P. M. Alekseev (1984), M. Těšitelová (1985), R. Köhler (1986), V. M. Arapov (1988), G. J. Martynenko (1988), L. Hřebíček (1992), J. Tuldava (1995; 1998), and some special studies on text attribution (assignment of authorship) and textology, written by G. Kjetsaa et al. (1984; 1986), P. Vašák (1980), G. Ermolenko (1988), V. V. Levickij (1989), and M. A. Marusenko (1990), where stylostatistical methods have been used. Also various surveys have appeared from time to time, e. g. by J. Thavenius (1966), G. Herdan (1966), R. W. Bailey (1969), C. B. Williams (1970), M. Těšitelová (1977) with bibliographies. Special bibliographies, devoted to statistical stylistics, can be found in “An Annotated Bibliography of Statistical Stylistics” by R. W. Bailey and L. Doležel (1968) and in the lately published “Bibliography of Quantitative Linguistics” by R. Köhler (1995, 377K401), in Section “Stylistics”.
2.
Methods and measurements
The importance of making use of suitable methods, incl. appropriate stylostatistical characteristics (style-identifying markers, distinctive features, discriminators, criteria) cannot be overstressed. Many linguistic characteristics on various levels K lexical, grammatical, phonetical, semantic-pragmatic levels K have been proposed as criteria of style which
can serve as markers in identifying and comparing texts and their authors. A choice of the most typical and well-known methods and measurements used in the works of competent scholars in the field of statistical stylistics, mainly in the last half of the 20th century, will be examined. 2.1. Lexical criteria A good insight into the mind of a writer by statistical methods is obtained by the study of his vocabulary and its usage in texts. The suitable criteria must be quantifiable and measurable. Words and word groups appear to be easily countable and measurable and their organization can be studied rather unsubjectively. Certain quantitative aspects of the use of words can be regarded as persistent in a given text or group of texts (e. g. a genre) and can describe the style in a satisfactory way (cf. Herdan 1966, Bailey 1969, Williams 1970, and others). J. Kraus (1969) distinguishes between micro- and macro-statistical analysis of vocabulary. On the micro-level it means the analysis of word characteristics “proper” K frequency, length, age, semantics K but on the macro-level it means the analysis of vocabulary characteristics in relation to some overall linguostatistical qualities, such as distribution, concentration, diversity, “coverage” (see 2.1.3.). 2.1.1. Micro-level On micro-level there have been numerous stylostatistical investigations concerning the frequency and use of both meaningful (autosemantic, content) and function (synsemantic, auxiliary) words. A. McKinnon (1978) examines most frequent words and the clustering of Kierkegaard’s works, many researchers have examined an author’s vocabulary development through time: changes, growth, decrease of vocabularies (e. g. Bailey 1969; Burwick 1969; Williams 1970; Engwall 1974; Thoiron 1980; Tuttle/Stanich 1988). Such investigations lead to significant discoveries about an author’s style, they direct attention to psychological factors or cultural influences on a writer’s behaviour, and can be employed to determine more reliably the chronology of works by the same author. B. Brainerd’s (1983) essay on “A stochastic model for language change” is of methodological interest; cf. Mańczak (1980), Altmann/Buttlar/Rott et al. (1983), Arapov (1983).
28. Stylistics, author identification
Function words can also be a fertile source of discriminators, they respond in a very sensitive manner to style, not only to differ functional styles but also individual style of the authors (cf. Těšitelová 1976). Thus, the use and frequencies of articles and pronouns (Krámský 1967; Brainerd 1972), conjunctions (Krámský 1983), prepositions, particles and other auxiliary words (for recent works cf. Hug 1998) have been examined in relation to style. Analysing and comparing the statistical data concerning word usage in various texts, the researchers have mainly used the Chisquare-test but also more refined methods such as computation on the basis of Bayes’ Theorem (Francis 1966, 51 ff.). Sometimes simply ocular comparison has given the needed result, so, e. g., when examining Swift’s style, the tendency to use connectives (and, or, but, for, etc.) where they are not really needed, and the accumulation of connectives both in initial and medial position in Swift’s writing, is conspicuous, in comparison with the respective frequencies of connectives in samples taken from Addison, Johnson and Macauly (cf. Milic 1966). Among the meaningful and function words under examination, the so-called “key-words” (plus- and minus-words) are singled out as they are assumed to reflect sensibly the peculiarities of individual style because they essentially differ from a certain standard (“norm”) or from other texts and authors (cf. Guiraud 1954; Ellega˚rd 1962; Ager 1976; Helbich 1978; McKinnon 1980; Shaikevich 1994). Often some specific aspects have been studied from the stylostatistical point of view, for instance, the mixture of “native” and “borrowed” words in Towneley Plays (viewed by Anttila 1967), the incidence of conciously archaic words in Spenser (cited by Bailey 1969), or the use of emotional words and expressions, e. g. proverbial sayings in Ibsen (Anstensen 1936), metaphors in Wilfred Owen (Landon 1969). B. O’Donnell (1966) has pointed out that many characteristics which are not ideosyncratic and which appear in practically all types of writing discriminate well when their pattern of interrelation can be used. In this connection, the employ of concordances can be mentioned (cf. Allén/Thavenius 1970; Tallentire 1976), or the use of word associations which can be valuable stylistic dis-
373 criminators (cf. Mosteller/Wallace 1963; Sedelow/Sedelow 1966; Altmann 1992). It has already been mentioned (in the historical survey, cf. 1.3) that the earliest investigations in statistical stylistics were made by means of word length measurements. Later many researchers have considered it a perspective idea to employ the results of word length studies in order to characterise languages, functional and individual styles. Illustrative examples can be found in the books and essays of Muller (1964), Arens (1965), Fucks/Lauter (1965), Herdan (1966), Williams (1970), Zsilka (1974), Martin (1976), Kjetsaa (1981), Alekseev (1986), Těšitelová (1987), Schmidt (1996). Word length studies have also been carried out in psychiatric investigations, e. g. by Reynolds/ Pylyshin (1970). Experimental data have been compared by various methods, especially by Chi-square-test and KolmogorovSmirnoff-test, graphically and with the help of analytical functional analysis (cf. Kjetsaa 1981; Tuldava 1998, 98 ff.; and many others). 2.1.2. Macro-level On macro-level the frequency distributions of words are used in two ways: (1) in the form of rank-frequency lists (analogical to frequency dictionaries), and (2) in the form of the so-called frequency, or lexical spectra (cf. Tuldava 1996), i. e. in listing the number of words occurring once, twice, thrice, etc. Frequency distributions of vocabulary have often been considered as a possible means by which an individual expresses his personality (cf. Bailey 1969, 220; referring to Baker (1951), who examined the linguistic behaviour of a paranoic schizophrenic). J. Tuldava (1998, 64K65) regards the variation of Zipf’s parameter γ in different frequency zones as a stylostatistical characteristic of functional styles and languages. One of the possibilities to evaluate the frequency spectrum from the stylostatistical point of view is the comparison with WaringHerdan distribution (Herdan 1964). It reveals stylistic peculiarities and illustrates typological differences between the distributions. The value of this method lies in its simplicity, since it only employs unmodified data K text size N, vocabulary size V, and the number of once-words V1 (For details and practical examples cf. Muller 1967; Muller 1968; Muller 1969; Tuldava 1995, 124 ff.). Another well-known and estimable method for stylostatistical evaluation of the
374
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
frequency distribution (spectrum) is the Characteristic K, proposed by G. U. Yule (1944) and its modification marked Vm, by G. Herdan (1966, 101 ff.). They belong to the kind of “summary” parameters in quantitative linguistics as they are expressed as simple numerical values. Other criteria of the same kind are, e. g. Simpson’s index of diversity, adapted for linguistic use by C. B. Williams (1970, 96 ff.), and the informational measurement of entropy for evaluation of a linguistic distribution as a whole, practically employed in many investigations, e. g. by Piotrowski (1968), Herdan (1966, 272 ff.), Zsilka (1974), Arnold (1974), etc. Yule’s formula for the Characteristic (K) is: K Z 104 (S2 K S1) / (S1)2 Z 104 (S2 / S1) K 1 / S1)
(3) 2
where S1 Z Σfx X and S2 Z Σfx X . Here is X the frequency, fx is the occurrence of X, i. e. the number of words with the frequency of X. The number 104 is introduced simply to avoid the inconvenience of handling very small decimals. For large samples the expression of 1/S1 (in formula 3) becomes negligibly small and we can write K* Z 104 (S2 / S1).
(4)
Yule’s Characteristic measures the repetitiveness, or “uniformity” of vocabulary. In its reciprocal form it expresses stylostatistical “diversity” of vocabulary. The coefficient is practically independent of the sample size, excluding small and very large samples (Williams 1970, 103). At first Yule considered the possibility of using K as an index of “richness” of vocabulary but on closer examination had to abandon that interpretation and then he explained the value of K only as an “index of concentration, measured approximately for large samples by the ratio S2 / S 21”. As Herdan (1966, 101K102) points out, Yule’s derivation of his Characteristic K is only possible under the assumption that the occurrences of a word are governed by the Poisson Law. Herdan’s modification (also called Yule-Herdan Index) is expressed by the formula (V K size of vocabulary; Vx K coefficient of variation): Vm Z Vx / OV
(5)
which represents the coefficient of variation of the mean where no assumption has been
made about the variate being governed by the Poisson Law or any other stochastic process (For the derivation of Vm cf. Herdan 1966, 424K425; Nikitopoulos 1973, 60K 61). In comparison with Characteristic K the square of Vm (i. e. Vm2 ) is approximately equal to K* (formula 4). It represents a measure of concentration of vocabulary with larger effect on words with high frequency (Muller 1968, 169 ff.). For a qualitative interpretation additional content analysis is needed. Practical examples for using K or Vm can be found in works of Anttila (1963, 84 ff.), Herdan (1966, 106 ff.), Muller (1964, 86 ff.; 1967, 105 ff.); Holstein (1965, in a study of the language of schisophrenic persons); Bennett (1969) and others. An index which expresses the relation between vocabulary and text is the so-called “Type-token ratio” (cf. art. No. 27). It represents the ratio of vocabulary size (V) to text size (N), i. e. V / N. Conversely, the ratio N / V represents the average frequency, or repetitiveness of vocabulary items. It is well known that the TTR-index as well as the average frequency are not stable indicators if the length of text is not constant. If one wants to compare texts where only N and V are known, one has to use samples of the same length, or to modify the indexes, for instance, by taking logarithms K logV / logN, proposed by Herdan (1960), which can be satisfactory when dealing with small samples, or loglogV / loglogN, proposed by Somers (1959), based on longer texts. The TTRindex and its modifications are meant to express in a most immediate way the relative size of vocabulay, sometimes called lexical “richness” of vocabulary. (More about this notion cf. Thoiron/Labbé/Serant 1988; Thoiron 1995; and 2.1.3.) The rate of increase of vocabulary with increase of text size can also be used as a stylostatistical characteristic (cf Williams 1970, 90K95; Tuldava 1995, Chap. 2.3, and 1998, Chap. 8). Several methods have been used in stylostatistical studies to measure lexical connection (closeness or distance) of texts, particularly, to compare the lexical compositions of two texts. At present there are two main approaches to the comparison of the vocabularies of two texts. In the first case the closeness or distance of the texts with regard to their lexical composition is measured considering the degree of coincidence (overlap) of the vocabularies or the correlation be-
375
28. Stylistics, author identification
tween the word frequency distributions (taking into account the fact that the words have different frequencies of occurrence in the compared texts). Special measures, such as the coefficients of association, correlation and contingency have been used (cf. Herdan 1966; Sambor 1974; Geens 1991). The second approach is characterised by an entirely different view of the notions of connection or correlation between vocabularies. Here the investigator does not proceed from the requirement of coincidence or the degree of identity of vocabularies but from the assumption of the probability distribution of word frequencies in a “joint text” according to the method proposed by Muller (1968, 210K214). For the comparison of vocabularies of two texts an experiment of combining the vocabularies into a whole should be carried out, taking into account the repeated use of words in both texts. The observed word frequency distribution will be compared with a theoretical model and the hypothesis of homogeneity will be tested by a statistical criterion. Beside this, it is possible to carry out qualitative stylistic-semantic analysis of the lexical composition of the copared texts (For practical examples and interpretation cf. Tuldava 1995, Chap. 7; and 1998, 156K161). 2.1.3. Coverage A useful method for analysing the structure of vocabulary in stylostatistics is the computation of ratios based on the so-called coverage (Abdeckung, pokryvaemost’), which represent the relation of certain fractions of the vocabulary to the whole (vocabulary or text). The ratio, or proportion V1 / V, i. e. the number of once-words (hapax legomena) in relation to the respective vocabulary size, is widely known as an index of diversity, or richness of vocabulary (proposed by Guiraud 1954). The ratio V1 / N, i. e. the number of once-words in relation to text size, has also been used for the same purpose. If a text includes a relatively large number of words with frequency 1, it may testify to the author’s wish to find image-bearing expressions, choose rare or peculiar words, or avoid repetition of words. On the other hand, an insignificant share of words with frequency 1 is a sign of spontaneity of expression, dependence on the content of thought, but sometimes a sign of banality and commonplaceness. Thus, the value of
the index should be evaluated “not from the aesthetic position, but from the viewpoint of functional suitability and co-ordination” (Mistrík 1967, 43). Mistrík has formally strengthened the significance of once-words by multiplying the number of once-words by 20, thus getting a formula which he calls the index of “exclusiveness” (in our notation): Ie Z 20 V1 / N
(6)
and constructing the complementary value, the index of gravity: Ig Z 1 K Ie Z 1 K (20 V1 / N),
(7)
with other words, the portion of words with the frequency of more than one (F O 1). Mistrík computed also the distances between the occurrences of the same word and constructed an index of “stereotypeness” which may characterise the style of low diversity: Is Z (N K V) / (V K V1).
(8)
M. Těšitelová (1972; 1977) measures lexical richness of vocabulary by three coefficients expressing size (R), dispersion (D), and concentration (K): R80 Z 100 (V / 0.8 N) or R70 Z 100 (V / 0.7 N)
(9)
counting with 80 % of text, if one considers as meaningful the categories of nouns, adjectives, pronouns, numerals, verbs and adverbs, and with 70 % of text, if one omits pronouns and numerals; D Z 100 (Vi10 / V)
(10)
10
where V1 is the number of meaningful words in the frequency interval F Z 1 . 10, and K Z 100 (N110)
(11)
which expresses the cumulative frequency of the 10 most frequent words (or word forms) in the given text in general. As the top of any frequency dictionary of a text usually does not contain meaningful words (or there are only a few of them), the index (11) in its essence measures the concentration of function words, primarily conjuctions, prepositions, and some pronouns. A well-known index of lexical concentration was proposed by Guiraud (1944): CZ
(∑ ) / N 1
50
(12)
which expresses the portion of cumulative frequency of the most frequent 50 meaning-
376
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
ful (autosemantic, content) words in the given text. A high value of the index shows that the author concentrates his attention on a relatively narrow range of words with full meaning which are used in the given text very often. This can testify to thematic compactness, to the concentration on the main theme, in some cases also to stock phrases. A comparison of 7 Estonian fiction texts (by 7 authors) has shown great differences, e. g. the values of the index vary from 0.10 to 0.057, i. e. the most frequent meaningful words from the vocabulary of the first text cover as much as 10 % of the text, whereas in another text the 50 most frequent meaningful words cover only 5.7 % of the text, that is, the degree of concentration of autosemantic lexis is nearly half as small (cf. Tuldava 1995, 77). All kinds of coverage ratios, especially indicators of lexical “richness” (diversity, variety of vocabulary, relative size of vocabulary, etc.) as stylostatistical characteristics have been used by many researchers in the form of diverse combinations of vocabulary items and their groups, e. g. by Muller (1968), Woronczak (1965; 1972), Enkvist (1978), Ratkowsky/Halstead/Hantrais (1980), Tuldava (1993; 1998, Chap. 4.3). In most cases one has to take into consideration the fact that the values of the characteristics depend on the sample size. For comparison, samples of the same size have to be used, or the values have to be modified (by logarithmization or some other procedure, cf. Baayen/ Tweedie 1998). Besides, one has to remember that the stylostatistical (formal) evaluation needs careful qualitative analysis and interpretation. 2.2. Grammatical criteria Grammatical properties of individual and functional styles have generally been approached in statistical studies of morphological word classes, of syntactical and, to some extent, of phonetical characteristics. 2.2.1. Morphological level Frequencies and frequency distributions of all kind of word classes, mostly traditional parts of speech, have often been used in stylostatistical investigations concerning differences and resemblances between authors and genres. Since G. U. Yule’s (1944) pioneering study of noun frequencies, many researchers have examined the usage of parts of speech in texts from various languages,
e. g. Muller (1967, 113 ff.), comparing English authors; Kraus (1972), with a stylisticsemantic analysis of adjectives in Czech journalistic style; Herdan (1966, 121 ff.), examining the stability of grammatical forms in Russian texts; Zsilka (1974) with a comparison of the frequency distributions of parts of speech in Hungarian; Ross (1977) about the use of parts of speech in Keats’ sonnets; Jakubajtis (1981) and Klavina (1983) about the parts of speech and text types in Latvian and Žilinskene (1981) in Lithuanian; more recently Best (1994) about word class frequencies in contemporary German short prose texts, and Tuldava (1998, 111 ff.) with a review of frequency distributions of word classes in different languages. For the statistical comparison of frequency distributions the Chi-square-test and Kolmogorov-Smirnoff-test, sometimes also the informational entropy measures are used. Considerably more information may be found from grouping and interaction of word classes from the stylostatistical point of view (cf. Altmann 1978; Altmann 1988). The pioneering work was done by A. Busemann (1925) who studied the relation between the frequencies of “active statements”, expressed in words that “imply action” (as he called it), and “qualitative statements”, expressing “properties”. Later, V. Neubauer and A. Schlismann (cited by Antosch 1953) simplified the method by restricting active statements to verbs and qualitative statements to adjectives and adjective-modifiers, and the formula was altered to a simplified form, known today as Busemann’s Verb-Adjective-Ratio (VAR): VAR Z (Number of Verbs) / (Number of Adjectives).
(13)
The interaction between the usage of verbs and adjectives is supposed to express the contrast between two possibilities of characteristing an event K by verbal action or by qualitative-adjectival description (e. g. in poetic language: “Nature smiles” vs. “Nature is bright/propitious”). The higher the value of VAR, the higher the preference of activeverbal form of expressing an idea by the speaker or writer. Busemann noted that the VAR was higher in spoken language than in the “written” language, i. e. in conversational vs. non-conversational style. F. Antosch (1953; 1969) observed a gradual decline from the VAR of the dialogue (which
377
28. Stylistics, author identification
is closer to the spoken language) to the monologue, and further to the narrative passages in German literary texts. A gradual decline from the verbal-active style of the characters of Goethe’s “Faust” was also observed in the speech of Gretchen (VAR Z 5.43), Wagner (4.04), Mephistoteles (3.08) and Faust (2.60). One could conclude that the VAR values of the characters are not accidental but a function of the character’s personality, here reflected in the work of a great writer. Since Busemann’s work, numerous other interactive characteristics in the form of ratios within word classes have been proposed and practically used. For instance, the ratio (Number of Adjectives) / (Number of Nouns)
(14)
refers to another type of “qualitative” style, taking into consideration that “some authors are more prone than others to use adjectives to qualify nouns” (Williams 1970, 143): e. g. Shakespeare in a 1000-word sample from 10 plays had 0.51 adjectives per noun, Macaulay in his essay on Francis Bacon K 0.57, but Sitwell in his essay on d’Annunzio K 0.64, i. e. about two adjectives on three nouns. The ratio (Number of Nouns) / (Number of Verbs)
(15)
measuring the degree of “nominality” (nominal expression) has been used by Golovin (1974, 12), Zsilka (1974, 72), Těšitelová et al. (1987, 187) and many others. Some indexes are of the complex type, e. g. the ratio of the number of Adjectives C Adverbs to the number of Nouns C Verbs which expresses “qualitative characterization”, and the ratio of the number of Nouns C Pronouns to the number of Adjective C Verbs represents “materiality” (“predmetnost’” according to Golovin 1971, 147 ff.). The usage of the inflected forms of nouns and verbs have also been subject to stylostatistical study, e. g. comparing the use of Perfect and Preterite in British and American English (Dušková 1976). 2.2.2. Syntactical level In applying stylostatistic approach to syntax the sentence structure and the sentence length have usually been investigated. The quantification of syntactical structures discloses certain proportionalities that
are obviously characteristic of sentence types in various functional styles (genres). So, for instance, M. Těšitelová (1980, 205) has found in Czech artistic texts more than 50 % of simple sentences, about 30 % of subordinative complex sentences and 15 % of coordinative complex sentences. In technical texts there are more than 50 % of subordinative complex sentences, 40 % of simple sentences and 10 % of coordinative complex sentences. C. W. Hayes (1969) has detected differences between individual styles on the basis of such structural phenomena as nominalization, transformation (active K passive), embedding, etc. B. N. Golovin (1971, 78 ff.) has employed characteristics of modality (narrative, interrogative, etc.), tense and aspect as stylostatistical indicators, N. Rusova (1974) has presented an extensive register of grammatical (and semantic) characteristics of sentences which can serve as stylostatistical discriminators. Vulanović (1995) has introduced a model-based method for quantitative representation of syntactic change (in Polynesian languages). J. Miles (1967) has quantitatively and qualitatively studied the typical and favoured sentence patterns in the history of English and American literature (between 16th and 20th centuries). There have also been investigations in the specific field of “positional stylometry” (Michaelson/Morton 1973), where the position of sentential elements, sentence initial structures, seriation, etc. are examined in order to distinguish different styles (cf. Krallmann 1966, 169 ff.; Milic 1966; Koeber 1967; Winter 1969; Tanaka 1989, 179 ff.). Some scholars have been working on text units larger than a sentence. W. Świeczkowski (1961) has studied inter-sentence connection in an attempt to show variations in cohesiveness in different types of prose (cited by Bailey 1969, 222). The investigation of sentence length has been very popular since the pioneer works by L. A. Sherman and H. A. Parker (see 1. 3.) and G. U. Yule (1938K1939) in characterising styles as well as in authorship studies. Only some of the practical and theoretical investigations may be mentioned: Kraus (1974), Kent (1976), Tallentire (1976), Kjetsaa (1981), Uhliřová (1987). G. Altmann (1983) has examined the relation of sentence length and word length from the synergetic point of view where the parameters can be used in stylistic analysis.
378
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Some researchers have examined sentence length combined with word length in readability (text complexity) studies (first Flesch 1948; cf. Tuldava 1993). 2.2.3. Phonetical level Phonetical (or phonological) characteristics have mainly been used in stylostatistical investigations of poetics. Some examples: In “The phonological aspects of style” by H. D. Hymes (1960) the author proposed a method which involved ranking the vowels and consonants in a poem according to their weighted frequencies and examining the poem for “summative words” that act as a nexus of sound and sense (illustrating it with several sonnets by Wordsworth and Keats). L. G. Jones (1969) in a study of tonality in Russian verse analyses the frequency distributions of phonemes as bundles of distinctive features (vocalic, consonantal, diffuse, compact, nasal, etc.) and compares the phonological patterns of prose and conversation style. C. B. Williams (1970, 105 ff.) examines statistical characteristics of rhyme and rhythm in terms of long and short syllables and shows differences in their sequences in the works of different English and Latin poets. T. Zsilka (1971) compares nine Hungarian poets with regard to the frequency of vowels vs. consonants and the length of syllables. G. Kjetsaa (1976) has compared “sound and meaning” on the basis of frequency distributions of graphemes in Lomonosov’s poetry. P. Vašák and S. Mazáčová (1976) have examined the frequencies of rhyme and “rhythmic types” of various Czech poets. Phonetical and phonological characteristics have also been employed in comparative studies of texts, e. g. M. Ludviková (1976) studies differences and resemblances between two spoken texts on the syllable level and compares the conditions of “covering” the text, i. e. counting the percentages of 10, 50, 100 most frequent units in different samples, examining also phonotactical characteristics (syllable types in terms of CV-sequences), which all appear to be good discriminators of styles. Phonotactical characteristics of Polish texts have been studied by H. Bluhme (1971). Frequency distributions of phonemes and biphonematic groups in the speech of aphatic persons have also been studied in psychiatric investigations, e. g. by L. Mihăilescu (1970). For some other remarkable works in the field of using pho-
netical characteristics see: R. Grotjahn (1979, 90 ff.), D. H. Crisholm (1982), G. Altmann (1988, 92 ff.). Sometimes phonetical characteristics have been used in comparative studies of functional styles (cf. Perebejnos 1967; Kohrt 1998) and languages (Strauss 1980; Veenker 1982; Tambovcev 1986; Rothe/Zörnig 1989; Zlatoustova 1994; Tuldava 1995, 176 ff.). 2.3. Semantic criteria Stylistical characteristics on the semantic level can be subdivided into objective and subjective characteristics. Among the objective stylistical characteristics simple semantic descriptions of word classes can be mentioned, such as nouns represented by the categories of concrete K abstract, animate K inanimate, etc., verbs represented by the categories of action K statics (non-action), and others. But generally the use of such universal categories is highly influenced by the subject or theme, which is more dominant in discourse than the influence of personal style of an individual. A refinement of this approach was proposed by J. B. Carroll (1960; 1969) and by K. Kroeber (1969). For instance, K. Kroeber examined certain specific groups of words arranged in clusters refferring to human beings, such as nouns expressing the body and verbs expressing bodily movements, verbs of “psychic action” (e. g. believe, hope, know, like), descriptive adjectives (dear, sure, happy, handsome, agreeable, etc.), adverbs answering the question “how” and ending in -ly (hardly, simply, gradually, etc.). The fixed groups were then studied quantitatively and qualitatively on the material from the texts of four English authors, and individual differences were established between the examined authors. Analogous attempts at semantic-thematic analysis were also made by many other researchers, e. g. by J. Kraus (1974) who attempted to analyse semantic characteristics of adjectives from the quantitative point of view, G. Silnitsky (1993) whose actual task was the establishment of empirically valid relations between different types of verbal meanings where he distinguished between two mutually independent dimensions of verbal meanings: “chronostructural” and “thematic”. The thematic components were grouped into 20 verbal classes, e. g. “locomotion” (including such verbs as move, fly, rise/raise), “location” (stand, lie/lay, put, place), “physical and
28. Stylistics, author identification
physiological processes”, “perception”, “cognition”, “emotional processes”, etc. For a practical realization of this method see, e. g. N. A. Schmidt (1996). Subjective measures are secured partly by interpretation of results of objective characterization, partly using judging procedures, i. e. by carrying out experiments of style evaluation by qualified informants (experts), e. g. by evaluating current ideals of style (plainness, expressiveness, clarity etc.) (cf. Carroll 1969; Königová 1976; Tuldava 1995, 93 ff.). Beside psychometric evaluation also sociological and, in the broad sense, pragmatic characterization have been used in stylostatistics. Already in 1964, J. N. Winburne sketched the outlines of a quantitative discourse analysis “a method of continuing descriptive linguistics beyond the limits of a single sentence” (after Z. S. Harris, cited by Herdan 1966, 443). A. B. Ellis and F. A. Favat (1966) pointed to some possibilities of quantitative analysis of “leitmotifs” carried out on the basis of the General Inquirer Dictionary (Bailey 1969, 222). Uhliřová (1993) analysed parts of the sentence, seeking evidence of their communicative significance in text structure. Searching for a model of analysis which would unite form and content, T. PitkänenKoli (1989) proposed to employ the principles of “Systemic Grammar” (after Halliday), which would “open up a new area for style markers for qualitative and quantitative analysis and bring linguists closer to the study of literary structure, thematic development, and point of view ...” (Enkvist 1973). The model, proposed by Pitkänen-Koli, analyses the cause-effect action clauses for subject, predicative verb and object, as well as other types of predicate verbs, mental (reaction, perception, cognition and verbalization) and relation predicates and their subjects, either causer or affected. The use of the method has practically been demonstrated on some Swedish fictional texts. Another method of pragmatic-semantic analysis based on a number of substantial parameters assumed to be closely connected with the basic style-formative features was proposed by S. O. Savchuk (1994) who analysed the parameters (after M. M. Bakhtin): the speaker’s reference to the subject of the speech, the reference to the addressee and to another one’s statements on the same subject. A corpus of texts belonging to three
379 main styles in Russian was analysed. The method of analysis could also serve as a basis for stylistic typology of texts. Further examples of objective and subjective characterization in stylostatistics will be examined 2. 4. (Complex criteria). 2.4. Complex criteria A carefully reasoned case of stylostatistical investigation and comprehensive analysis is often based upon a complex of criteria. The real desideratum is “to develop objective measures of several different significant aspects of style” (Bennett 1969, 41). It is advisable to select heterogeneous groups of style markers which include characteristics from diverse language levels. 2.4.1. Combined characteristics As an illustrative example of a stylostatistical analysis with a combination of criteria, the investigation by C. Hassler-Göransson (1976) may be mentioned. A number of Swedish writers (twenty men and twenty women) over a period of 100 years were compared by means of 17 characteristics, including formal lexical features (size of vocabulary, coverage by the ten most frequent words, sentence length) and semantic properties (the relative frequency of abstract and concrete nouns, frequencies of words with visual, acoustic, temporal and some other pragmatic aspects of meaning). The examined samples, one from each author, consisted of 2,500 running words of text, and every decade of the century 1880K1979 was represented by two male and two female recognised authors. The analysis was carried out by correlation analysis and by some other tests. The intention was to demonstrate possible differences in styles between sexes and between different time periods. For the formal lexical variables no significant differences between male and female authors were found, but within several semantic-pragmatic aspects sex and time variation was considerable. For instance, for the “visual” words (words denoting see, shine, pale, bright, colours, etc.) the tests showed that on the whole, the women were more visually oriented than the men though the reverse was true for the earlier periods. For both sex groups “concrete” words as well as the groups “person identifiers”, “human”, “religion” and “nature” appeared more often during the earlier part of the investigated time span than in the later part,
380
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
whereas the relation was inversed for some other groups, viz. “culture”, “profession”, “politics”, etc. Many other investigations based on combinations of characteristics have been carried out by means of various methods, see e. g. W. Gibson (1966) who proposed a diagnostic apparatus of 16 style markers to develop “style profiles” for the comparison of individual styles. Likewise comparative analysis were made by Ch. Muller (1967, 125 ff.), G. Engwall (1974), Těšitelová/Nebeská/Králík (1976). Besides correlation analysis and statistical tests, also entropy measures (Burwick 1969; Zsilka 1974), discriminant analysis (Brainerd 1973), cluster analysis (Liiv/ Tuldava 1993) were used. 2.4.2. Factor analysis Texts may differ on some parameters and be similar on others. The picture may become confusing and difficult to survey if a large number of parameters are analysed. The question arises whether it is possible to express all the information about the parameters (characteristics) in a more compact form, since it is natural to presume that a compact form reflects the more substantial, regular aspects of variation of the characteristics of different objects. The problem can be solved by means of correlation and factor analysis, which enables the investigator to apply a large number of measurement procedures to a sample of objects and find out to what extent these measures overlap with each other. The procedure of factor analysis is used to “compress” the information which is contained in a correlation matrix and it is supposed that the correlations between the pairs of measured variables can be explained by the connections of the measured variables to a small number of non-measurable, but meaningful, variables, called factors. Philosophically, factor analysis is based on the hypothesis that the parameters observed and measured are but external characteristics of the object or phenomenon studied, and that there actually exists a small number of internal, latent (“covert”) parameters or qualities which determine the values of the observable parameters (cf. under 1.2.). The first serious attempt to employ factor analysis in a stylostatistical study was made by J. B. Carroll (1960; reprinted 1969). The samples of objects studied consisted of 150 passages each about 300 words from various
sources and styles of English prose from the 19th and 20th centuries K both British and American K novels, newspaper features and editorials, scientific papers, textbooks, legal documents, etc. The measures taken fell into two classes: subjective and objective. The objective measures (of 39 characteristics) involved various counts, indices, and ratios based on the enumeration of certain classes of words, clauses, sentences, and other linguistic entities. Subjective measures (29 characteristics) were secured by assigning ratings by competent judges to pragmaticstylistic characteristics arranged on adjectival scales of the type: emotional/rational, interesting/boring, precise/vague, profound/superficial, etc. All these scales, in differing degrees, denoted overall positive or negative evaluation of a prose passage. It appeared that six factors could be given meaningful interpretation, which were considered to express the “dimensions of literary style”. Besides a “general stylistic evaluation”, a second factor, called “personal affect” was based on positive values on the subjective scales “personal” (vs. impersonal), “intimate” (vs. remote), “vigorous” (vs. placid) connected with a number of objective measures, such as frequent use of pronouns, negatively with word length, i. e. words tending to be short. The third factor called “ornamentation” (opposed to “plainness”) was indexed by positive values of the subjective measure of “affected” (vs. natural), “complex” (vs. simple), “elegant” (vs. uncouth), and by objective characteristics such as long sentences, high proportion of common nouns preceded by adjectival and participial modifiers, and by nouns with Latin suffixes, a high number of descriptive adjectives and a high degree of use of dependent clauses of various orders. The remaining three factors identified in this study were “abstractness”, “seriousness”, “characterization” (versus “narration”), all of them based on subjective and objective measures, which allowed the investigator to come to the conclusion that “there is no hard and fast distinction between style and content” (Carroll 1969, 155). This does not mean, naturally, that we could draw direct conclusions about the qualitative side of style depending on the existence and strength of certain stylostatistical formal parameters of texts. Nevertheless, the results of a similar research into the interrelation between objective and subjective characteristics can be of help for a compre-
28. Stylistics, author identification
hensive qualitative analysis of style and for solving the problems connected with the study of typology of styles. For analogous experiments with the help of factor analysis based on subjective and/or objective style characteristics the reader is directed to investigations by Somers (1966), Miles/Selvin (1966), Kraus (1971), Geoffroy/ Guilhaumou/Hartley et al. (1976); more recently by Saukkonen (1990), Tuldava (1995, Chap 5). A piece of criticism: Marx/Strube (1980).
Additional remarks Functional styles K also called registers or discourses or simply genres in the broad sense of meaning K can be defined as historically formed and socially recognised varieties of speech which are determined by different spheres of its use K official, scientific, publicistic, aesthetic, and the sphere of everyday life (for literature of this topic, see, e. g., Kraus 1967, Winter 1969, Koźina 1972, Palmer 1976, Galperin 1977, Těšitelová 1983, Fortanet et al. 1998).
Abbreviations ACUT Acta et Commentationes Universitatis Tartuensis JQL Journal of Quantitative Linguistics PSML Prague Studies in Mathematical Linguistics StSt Statistics and Style QL Quantitative Linguistics
3.
Literature (a selection)
Ager, Dennis E. (1976), The importance of the word in the analysis of register. In: The Computer in Literary and Linguistic Studies. (eds. A. Jones/ R. F. Churchhouse). Cardiff: The University of Wales Press, 194K207. Alekseev, Pavel M. (1983), Metodika kvantitativnoj tipologii teksta. Leningrad: LGPI. Alekseev, Pavel M. (1984), Statistische Lexikographie. Bochum: Brockmeyer. Alekseev, Pavel M. (1986), Raspredelenie leksičeskich edinic po dline v tekste i slovare. In: ACUT 745, 3K28. Allén, Sture/Thavenius, Jan (eds.), Spra˚klig databehandling. Datamaskinen i spra˚k- och litteraturforskning. Lund: Studentlitteratur, 1970. Altmann, Gabriel (1978), Zur Verwendung der Quotiente in der Textanalyse. In: Glottometrika 1
381 (Hrsg. Gabriel Altmann). Bochum: Brockmeyer, 91K106. Altmann, Gabriel (1983), Hans Arens “Verborgene Ordnung” und das Menzerathsche Gesetz. In: Allgemeine Sprachwissenschaft, Sprachtypologie und Textlinguistik (Hrsg. M. Faust). Tübingen: Narr, 31K39. Altmann, Gabriel (1988), Wiederholungen in Texten. Bochum: Brockmeyer. Altmann, Gabriel/Buttlar, V./Rott, W./Strauß, U. (1983), A law of change in language. In: Historical linguistics (ed. Barron Brainerd). Bochum: Brockmeyer, 104K115. An Annotated Bibliography of Statistical Stylistics (1968), By Richard W. Bailey & Lubomír Doležel. Ann Arbor: University of Michigan Press. Anstensen, Ansten (1936), The proverb in Ibsen. New York: Columbia University Press. Antosch, Friederike (1953), Stildiagnostische Literaturuntersuchungen mit dem Aktionsquotienten. In: Wiener Archiv für Psychologie, Psychiatrie und Neurologie, III, 65K73. Antosch, Friederike (1969), The diagnosis of literary style with the verb-adjective ratio. In: Doložel/ Bailey 1969, 57K65. Anttila, Raimo (1963), Loanwords and statistical measures of style in the Towneley Plays. In: Statistical Methods in Linguistics, 2. Stockholm: Skriptor, 73K93. Arapov, Michail V. (1983). Word replacement rates of standard Russian. In: Historical linguistics (ed. B. Brainerd). Bochum: Brockmeyer, 50K61. Arapov, Michail V. (1988), Kvantitativnaja lingvistika. Moskva: Nauka. Arens, Hans (1965). Verborgene Ordnung. In: Wirkendes Wort. Beiheft 11. Düsseldorf. Arnold, I. V. (1974). Stilistika dekodirovanija. Kurs lekcij. Leningrad. Baayen, R. Harald/Tweedie, Fiona J. (1998), Sample-size invariance of LNRE Model parameters: Problems and opportunities. In: Journal of Quantitative Linguistics (5) 3, 145K154. Bailey, Richard W. (1969), Statistics and style: a historical survey. In: Doložel/Bailey 1969, 217K 236. Bailey, Richard W./Doložel, L. (1968), An Annotated Bibliography of Statistical Stylistics. Ann Arbor: University of Michigan Press. Baker, Sidney J. (1951), Ontogenetic evidence of a correlation between the form and frequency of use of words. In: The Journal of General Psychology 44, 235K251. Bennett, Paul E. (1969), The statistical measurement of a stylistic trait in Julius Caesar and As you like it. In: Doložel/Bailey 1969, 29K41. Best, Karl-Heinz (1994), Word class frequencies in contemporary German short prose texts. In: Journal of Quantitative Linguistics (1), 144K147.
382
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Bibliographie de la statistique linguistique (1954), Edited by Pierre Guiraud & J. Whatmough. Utrecht/Anvers: Mouton. Bibliography of Quantitative Linguistics (1995), By Reinhard Köhler. Amsterdam/Philadelphia: John Benjamins Publishing Company. Bluhme, Hermann (1971), Notes on Polish phonotactics. In: Linguistics, 69, 5K23. Boder, David P. (1940), The Adjective-Verb Quotient: A contribution to the psychology of language. In: The Psychological Record III, 309K343. Bolling, George M. (1937), Statistics of the Homeric language and a queer bit of criticism. In: Language, XIII, 238K240. Brainerd, Barron (1972), Article use as an indicator of style. In: Linguistik und Statistik (Hrsg. S. Jäger). Braunschweig: Vieweg, 11K32.
Crisholm, D. H. (1982), Phonological patterning in English and German verse. A computer-assisted approach. In: Glottometrika 4 (eds. W. Lehfeldt/U. Strauß). Bochum: Brockmeyer, 114K146. Darčuk, N. P. (1975). Individual’noe i obščee v leksičeskoj sisteme avtorskogo stilja. Kiev. Dittenberger, Wilhelm (1880), Sprachliche Kriterien für die Chronologie der Platonischen Dialoge. In: Zeitschrift für klassische Philologie. Bd. 16. Berlin, 321K345. Doležel, Lubomír (1969). A framework for the statistical analysis of style. In: Doložel/Bailey 1969, 10K35. Doležel, Lubomír/Bailey, R. W. (Eds.), Statistics and Style. New York/London: Elsevier, 1969. Dušková, Libuše (1971), On some functional and stylistic aspects of the passive voice in present-day English. In: Philologica Pragensia, 14, 117K143.
Brainerd, Barron (1973), On the distinction between a novel and a romance: A discriminant analysis. In: Computers and the Humanities (7), 1973, 259K270.
Dušková, Libuše (1972), The passive voice in Czech and English. In: Philologica Pragensia, 15, 93K117.
Brainerd, Barron (1983), A stochastic model for language change. In: Historical linguistics (ed. B. Brainerd). Bochum: Brockmeyer, 25K49.
Ducretet, Pierre R. (1970), Quantitative stylistics. An essay in methodology. In: Computers and the Humanities, 4:3, 187K191.
Brinegar, Claude S. (1963), Mark Twain and the Curti’s Snuodgrass Letters: A statistical test of authorship. In: Journal of American Statistical Association (58), 85K96.
Dugast, Daniel (1979), Vocabulaire et stylistique. Gene`ve: Slatkine. (Travaux de linguistique quantitative, 8).
Burwick, Frederick L. (1969), Stylistic continuity and change in the prose of Thomas Carlyle. In: Doložel/Bailey 1969, 178K196.
Engwall, Gunnel (1974), Fréquence et distribution du vocabulaire dans un choix de romans français. Stockholm: Skriptor.
Busemann, Adolf (1925), Die Sprache der Jugend als Ausdruck des Entwicklungsrhythmus. Jena: Fischer.
Enkvist, Nils E. (1978), Stylistics and text linguistics. In: Current trends in text linguistics (ed. W.U. Dressler). Berlin/New York: de Gruyter, 174K 190.
Busemann, Adolf (1948). Stil und Charakter. Meisenheim/Glan: Westkulturverlag Anton Hain.
Ermolenko, Georgij V. (1988), Anonymnye proizvedenija i ich avtory. Minsk: Universitetskoe.
Căda, F. (1901), Datováni Platónowas Faidra. In: Listy filologické (28), 173K193.
Fleary, F. G. (1874), On metrical tests applied to dramatic poetry, I. Shakespeare. In: New Shakespearean Society Trans. Ser. 1, Part 1, 1K16; 38K39.
Carroll, John B. (1938), Diversity of vocabulary and the harmonic series law of word-frequency distribution. In: The Psychological Record II, 379K386. Carroll, John B. (1960), Vectors of prose style. In: Sebeok 1966, 283K292. Carroll, John B. (1969). Vectors of prose style. In: Doložel/Bailey 1969, 147K155. Chandler, Zilpha E. (1928), An analysis of the stylistic technique of Addison, Johnson, Hazlitt and Pater. In: University of Iowa humanistic studies, 4, Iowa. Climenson, W. D. (1962). Report from Data Systems Center, RCA. In: Current Research and Development in Scientific Documentation. No. 11, National Science Foundation, Nov. 1962, 313K 314. Computers and the Humanities. New York 1966.
Flesch, Rudolph F. (1948), A new readability yardstick. In: Journal of Applied Psychology (32), 221K233. Fletcher, James V. (1934), Some observations on the changing style of the “Faerie Queene”. In: Studies in Philology (32), 152K159. Frank, L. (1909), Statistische Untersuchungen über die Verwendung der Farben in den Dichtungen Goethes. Giessen. Fucks, Wilhelm (1952), Mathematical Analysis of style. In: Biometrica 39, 122K129. Fucks, W./Lauter, J. (1965), Mathematische Analyse des literarischen Stils. In: Kreuzer/Gunzenhäuser 1965, 107K122. Furnival, F. J. (1887), Introduction to the Leopold Shakespeare. London: Cassel & Co.
28. Stylistics, author identification Galperin, Ilja R. (1977), Stylistics. Moscow: Higher School. Geens, Dirk (1991), On measurement of lexical differences by means of frequency. In: Glottometrika 1. (ed. G. Altmann). Bochum: Brockmeyer, 46K63. Geoffroy, A./Guilhaumou, J./Hartley, A./Salem, A. (1976), Factor analysis and lexicometrics. Shifters in some texts of the French Revolution (1793K1794). In: The Computer in Literary and Linguistic Studies. Cardiff: The University of Wales Press, 177K193. Gibson, Walker (1966), Thought, Sweet and Stuffy. An Essay on Modern American Prose Styles. Bloomington/London. Golovin, Boris N. (1971), Jazyk i statistika. Moskva: Prosveščenie, 1K191. Golovin, Boris N. (1974), Opyt primenenija korreljacionnogo analiza v izućenii jazyka. In: Voprosy statističeskoj stilistici (eds. B. N. Golovin/ V. I. Perebejnos). Kiev: Naukova dumka, 5K16. Greenberg, Joseph H. (1960), A quantitative approach to the morphological typology of language. In: International Journal of American Linguistics. 26/3, 178K194. Grotjahn, Rüdiger (1979), Linguistische und statistische Methoden in Metrik und Textwissenschaft. In: Glottometrika 2 (ed. Rüdiger Grotjahn). Bochum: Brockmeyer. Guiraud, Pierre (1954), Les caracte`res statistiques du vocabulaire. Essai de méthodologie. Paris. Guiraud, Pierre, Proble`mes et méthodes de la statistique linguistique. Dordrecht: Reidel. Guiraud, Pierre/Whatmough, Joshua (1954), Bibliographie de la statistique linguistique. Utrecht/ Anvers: Mouton. Hassler-Göransson, Carita (1976), Fyrtio författare i statistik belysning. Stockholm: Skriptor. Hayes, Curtis W. (1969), A study in prose styles: Edward Gibbon and Ernest Hemingway. In: Doložel/Bailey 1969, 80K91. Helbich, Jan (1978), Some results of an experiment in statistical selection of key-words. In: PSML (6), 159K175. Herdan, Gustav (1960), Type-token mathematics. The Hague: Mouton. Herdan, Gustav (1964), Quantitative Linguistics. London: Butterworths. Herdan, Gustav (1966), The Advanced Theory of Language as Choice and Chance. Berlin et al.: Springer. Herdan, Gustav (1969), About some controversial results of the quantitative method in linguistics. In: Zeitschrift für Romanische Philologie, Bd. 85, Heft 3/4. Tübingen, 378. Hildreth, Carson (1897), The Bacon-Shakespeare controversy. A contribution. In: University of Nebraska Studies, 2, 147K162.
383 Holstein, Arthur P. (1965), A statistical analysis of schizophrenic language. In: Statistical Methods in Linguistics. Stockholm: Skriptor, 10K14. Hřebíček, Luděk (1992), Text in communication: Supra-sentence structures. Bochum: Brockmeyer. Hug, Marc (1998), French demonstrative articles ci and la’. Linguistic intuitions and statistical facts. In: Journal of Quantitative Linguistics (5) 3, 195K 205. Hymes, Dell H. (1960), Phonological aspects of style: Some English Sonnets. In: Sebeok 1966, 109K131. Ingram, J. K. (1874), On the weak endings of Shakespeare. In: New Shakespearean Society, Trans. Ser. 1, Part 3, 442K446. Jakubajtis, T. A. (1981), Časti reči i tipy tekstov. Riga: Zinātne. Jones, Lawrence G. (1969), Tonalty structure in Russian verse. In: Doložel/Bailey 1969, 122K143. Jones, Alan/Churchhouse, R. F. (eds.), The Computer in Literary and Linguistic Studies. Cardiff: The University of Wales Press, 1976. Kelemann, Bela (1964), A propos des caractéristiques des styles de la langue a` la lumie`re de la statistique linguistique. In: Revue Roumaine de Linguistique, 621K624. Kjetsaa, Geir (1976). Sound and meaning according to Lomonosov. In: Jones/Churchhouse 1976, 230K239. Kjetsaa, Geir (1979), The Battle of The Quiet Don: Another pilot study. In: Computers and the Humanities, vol. 11, 341K346. Kjetsaa, Geir (1981), Written by Dostoevsky? In: ALLS Journal, vol. 2, 25K33. Kjetsaa, Geir (1983), A norm for the use of poetical language in the age of Puškin: A comparative analysis. In: Meddelelser, Nr. 33. University of Oslo. Slavisk-baltisk Institutt. K54 p. Kjetsaa, Geir (1986), Attributed to Dostoevsky: The problem of attributting to Dostoevsky ananymous articles in Time and Epoch. Oslo: Solum Forlag A/S. (Slavia Norvegica IV). (Text in Russian). Kļaviņa, Sarma P. (1983), Linguostatistischer Vergleich von Funktionalstilen der lettischen Sprache. In: Glottometrika 5 (eds. Reinhard Köhler/ Joachim Boy). Bochum: Brockmeyer, 14K44. Köhler, Reinhard (1986), Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, Reinhard (1993), Synergetic linguistics. In: Contributions to Quantitative Linguistics (eds. Reinhard Köhler/Burghard B. Rieger). Dordrecht et al.: Kluwer Academic Publishers, 41K51. Köhler, Reinhard (1995), Stylistics. In: Bibliography of Quantitative Linguistics. (ed. Reinhard Köhler). Amsterdam/Philadelphia: John Benjamins Publishing Company, 377K401.
384
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Kožina, M. N. (1972), O rečevoj sistemnosti naučnogo stilja sranitel’no s nekotorymi drugimi. Perm: Permskij Universitet. (Summary in English.)
Ludviková, M. (1976), On some statistical differences in two spoken texts on the syllabic level. In: PSML, 5, 91K104.
Krallmann, Dieter (1966), Statistische Methoden in der stilistischen Textanalyse. Inaugural-Dissertation. Bonn (Rheinische Friedrich-Wilhelms-Universität.)
Lutosławski, W. (1897), The origin and growth of Plato’s logic, with an account of Plato’s style and the chronology of his writings. London/New York: Longmans, Green & Co.
Krámský, Jiří (1967), The frequency of articles in relation to style in English. In: PSML (2), 89K95.
Machauf, Liora/Rosenhouse, Yehudit (1989), Some stylistic aspects of technical English. In: 16 th Intern. Systemic Congress. Helsinki, Hanasaari, Finland, 43.
Krámský, Jiří (1983), A stylostatistical examination of conjuctions in modern English. In: PSML (8), 81K92. Kraus, Jiří (1969), K statistickomu rozboru publicistického stylu. In: Slovo a slovesnost, 30, 371K 379. Kraus, Jiří (1972), On the stylistic-semantic analysis of adjectives in journalistic style. In: PSML, 4, 95K106. Kraus, Jiří (1974), K kvantitativnym sociolingvističeskim modeljam v teorii jazyka i stilja. In: Voprosy statističeskoj stilistiki. Kiev: Naukova dumka, (eds. B. N. Golovin et al.), 203K216. Kraus Jiří/Polák, Josef (1967), Text factors and characteristics. In: PSML, 2, 155K171. Kreuzer, Helmut/Gunzenhäuser, Rul (Hrsg.), Mathematik und Dichtung. München: Nymphenburger Verlagshandl., 1965. Kroeber, Karl (1967), Computers and research in literary analysis. In: Computers in Humanistic Research (ed. C. A. Bowles). Englewood Cliffs, N. J.: Prentice-Hall, Inc., 142K152. Landon, George M. (1969), The qualification of metaphoric language in the verse of Wilfred Owen. In: Doložel/Bailey 1969, 170K177. Leed, Jacob (ed.), The Computer and Literary Style. (Kent Studies in English, 2). Ohio: Kent State University Press, 1966. Lehtsalu, U./Liiv, G./Mutt, O. (1973), Introduction to English Stylistics. Tartu: University Press. Lesskis, G. A. (1973), Funkcional’naja differenciacija stilej. In: Sbornik naučnych trudov. I MGPI Ja im. M. Toreza, Vyp. 73. Moskva, 201. Levison, Michael (1967), The computer in literary studies. In: Machine translation (ed. A. D. Booth). Amsterdam: North-Holland Publ. Co. 173K194. Levickij, Viktor V. (1989). Statističeskoe izučenie leksičeskoj semantiki. Kiev: Minvuz. Liiv, Heino/Tuldava, Juhan (1996), Formal characteristics of style. In: AI LA Proceedings. Jyväskylä, 4.K9. August. Liiv, Heino/Tuldava, Juhan (1993), On classifying texts with the help of cluster analysis. In: Quantitative Text Analysis. (eds. L. Hřebíček/G. Altmann). Trier: WVT, 253K262. Lord, R. D. (1958), De Morgan and the statistical study of literary style. In: Biometrika, 45, 282.
Mańczak, Witold (1980), Frequenz und Sprachwandel. In: Kommunikativtheoretische Grundlagen des Sprachwandels. Berlin: de Gruyter, 37K 79. Markov, Andrej A. (1913), Primer statističeskogo isslednovanija nad teksdom “Evgenija Onegina”. In: Izvestija Akademii Nauk, serija XI, No. 3, 153K162. Martin, Willy (1976), On the evolution of wordlength in Dutch. In: The Computer in Literary and Linguistic Studies. (eds. Alan Jones/R. F. Churchhouse). Cardiff: The University Of Wales Press, 271K284. Martynenko, Grigorij J. (1988). Osnovy stilemetrii (the Foundations of Stylometrics). Leningrad: University of Leningrad Press. Marusenko, Michail A. (1990), Atribucija anonimych i psevdonimnych literaturnych proizvedenij metodami raspoznavanija obrazov. Leningrad: University of Leningrad Press. Marx, Wolfgang/Strube, Gerhard (1980), The Butterfly revisited. In: Glottometrika 3 (ed. W. Matthäus). Bochum: Brockmeyer, 97K104. McKinnon, Alastair (1978), Most frequent words and the clustering of Kierkegaard’s works. In: Style 12, 241K257. McKinnon, Alastair (1980), Aberrant frequency words: Their identification and uses. In: Glottometrika 2. (Hrsg. R. Grotjahn). Bochum: Brockmeyer, 108K124. Mendenhall, Thomas C. (1887), The characteristic curves of composition. In: Science 9 (214) (Supplement), 237K249. Mendenhall, Thomas C. (1901), A mechanical solution of a literary problem. In: Popular Science Monthly 9, 97K105. Mikk, Jaan (1991), Studies on teaching material readability. In: ACUT 926, 34K50. Miles, Josephine/Selvin, Hanan C. (1966), A factor analysis of the vocabulary of poetry in the seventeenth century. In: Leed 1966, 116K127. Milic, Louis T. (1966), Unconscious ordering in the prose of Swift. In: Leed 1966, 79K106. Mistrík, Jozef (1967), Matematiko-statističeskie metody v stilistike. In: Voprosy jazykoznanija 16 (3), 42K52.
28. Stylistics, author identification Morgan, Sofia de (1882), Memoir of Augustus de Morgan by his wife Sofia Elisabeth de Morgan with selections from his letters. London: Longman, Green & Co. Morozov, Nikolaj A. (1915), Lingvističeskie spektry. In: Izvestija Imper. Akademii Nauk. Otdel jazyka i slovesnosti, XX, kn. 4, 93K134. Morton, Andrew Q./ Levison, Michael (1966), Some indications of Authorship in Greek Prose. In: Leed 1966, 141K179. Muller, Charles (1964), Essai de statistique lexicale. L’Illusion comique de Pierre Corneille. Paris: Klincksieck. Muller, Charles (1967), Etude de statistique lexicale. Le vocabulaire du théâtre de Pierre Corneille. Paris: Larousse. Muller, Charles (1968), Initiation a` la statistique linguistique. Paris: Larousse. Nagy, Gábor T. (1998), Quantity and style from a cognitive point of view. In: Journal of Quantitative Linguistics 5 (3), 232K239.
385 texts. In: Sixteenth International Systemic Congress. Plenary Abstracts. Helsinki, Hanasaari, 12K16 June, 51. Polikarpov, Anatolij A. (1987), Polisemija: sistemno-kvantitativnye aspekty. (Polysemy: systemic-quantitative aspects). In: ACUT 774, 135K 154. Raben, Joseph/Lieberman, David V. (1976), Text comparison: principles and a program. In: The Computer in Literary and Linguistic Studies (eds. Alan Jones/R. F. Churchhouse). Cardiff: University of Wales Press, 297K308. Ratkowsky, David A./Halstead, Maurice H./Hantrais, Linda (1980), Measuring vocabulary richness in literary works: A new proposal and re-assessment of some earlier measures. In: Glottometrika 2 (Hrsg. R. Grotjahn). Bochum: Brockmeyer, 125K145. Reynolds, Allan G./Pylyshin, Zenon W. (1970), Stylostatistics of various psychiatric groups. In: Language and Speech 13 (3), 194K198.
Nikitopoulos, Pantelis (1973), Statistik für Linguisten, Eine methodische Darstellung. Tübingen: Narr.
Ritter, Constantin (1903), Die Sprachstatistik in Anwendung auf Platon und Goethe. In: Neue Jahrbücher für das Klassische Altertum, 241K 261, 313K325.
O’Donnell, Bernard (1966), Stephen Crane’s The O’Ruddy: A problem in authorship discrimination. In: Leed 1966, 107K115.
Renský, Miroslav (1965), The noun-verb quotient in English and Czech. A tentative statistic analysis. In: Philologica Pragensia, 8, 289K303.
Osgood, Charles E. (1960), Some effects of motivation on style of encoding. In: Sebeok 1966, 293K306.
Ross, Donald Jr. (1977), The use of word-class distribution data for stylistics: Keat’s sonnets and chicken soup. In: Poetics, 6, 169K195.
Parker, H. A. (1896), Curves of literary style. In: Science 13, 246.
Sambor, Jadwiga (1974), Słownictwo bardzo częste w pięcu stylach wspólczesnej polszczyzny pisanej. In: Poradnik jezykowy, 1, 9, 466K475; 2, 533K537.
Parker, Roscoe E. (1925), Spenser’s language and the pastoral tradition. In: Language I, 80K87. Parry, Milman (1928), L’épithe`te traditionelle dans Home`re. Essai sur un proble`me du style homérique. Paris: Ed. ‘Les Belles Lettres’. Parzinger, P. (1911), Beiträge zur Kenntnis der Entwicklung des Ciceronischen Stils. Landshut. Paškovskij, Vladimir E. (1983), Statističeskie charakteristiki patologičeskogo teksta. In: ACUT 658, 65K81. Perebejnos, Valentina I. (Hrsg.). Statystyčni parametri styliv. Kiev: Naukova dumka, 1967. Perebejnos, Valentina I. (1983), O tak nazyvaevom delovom, nechudožestvennom stile s kvantitativnoj točki zrenia. In: ACUT, 136K138.
Saukkonen, Pauli (1990), Interpreting textial dimensions through factor analysis: Grammatical structures as indicators of textual dimensions. In: Glottometrika 11 (ed. L. Hřebíček). Bochum: Brockmeyer, 157K171. Schlismann, Annemarie (1948), Sprach- und Stilanalyse mit einem vereinfachten Aktionsquotienten. In: Wiener Zeitschrift für Philosophie, Psychologie und Pädagogik, II, 1K42. Schmidt, Peter (ed.), Glottometrika 15: Issues in General Linguistic Theory and the Theory of Word Length. Trier: WVT, 1996. Sebeok, Thomas A. (ed.), Style in Language. Cambridge, Mass.: MIT Press, 1966.
Piotrovskij, Rajmund G. (1968), Informacionnye izmerenija jazyka. (Informational measures of the language). Leningrad: Nayka.
Sedelow, Sally Y./Sedelow, Walter A. Jr. (1966), A preface to computational stylistics. In: Leed 1966, 1K13.
Piotrovskij, Rajmund G. et al. (eds.). Jazykovaja norma i statistika. Moskva: Nauka, (1977).
Shaikevich, A. Ya. (1994), Lexicostatistic analysis of literary characters. In: Qualico. Second International Conference of QL. Moscow. 207.
Piotrovskij, Rajmund G. (1984), Text K Computer K Mensch. Bochum: Brockmeyer. Pitkänen-Koli, Taina (1989), Using systemic grammar in the analysis of some Swedish fictional
Sherman, L. A. (1888), Some observations upon the sentence-length in English prose. In: University of Nebraska Studies, I, 119K130.
386
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Silnitsky, George (1993), Typological indices and language classes: A quantitative study. In: Glottometrika 14 (ed. G. Altmann). Trier: WVT, 139K160. Sil’nitsky, Georgij G. (ed.), Korreljatsionnaja tipologija. Smolensk: Smolenskij Gumanitarnyj Universitet, 1999. (Summary in English: p. 267K315). Sirotinina, Ol’ga B. (1969), Izmenenija v jazyke naučnoj prozy. In: Voprosy stilistiki. Saratov. 37K 55. Somers, Herman H. (1959), Analyse mathematique du langage. Louvain: Nauwelaert. Somers, Herman H. (1960), Analyse statistique du style: Différences individuelle et facteurs psychologiques. Louvain: Nauwelaerts. Somers, Herman H. (1966), Statistical methods in literary analysis. In: The Computer and Literary Style (ed. J. Leed). Kent, Ohio: Kent State Univ. Press, 128K140. Statističny parametry styliv. (1967). Ed. by Valentina S. Perebijnis. Kyiv (Kiev): Naukova dumka. K260. Studia metrica et poetica (1976K). (Acta et Commentationes Universitatis Tartuensis). Tartu: Tartu University Press. Świeczkowski, Walerian (1961), On the margin of syntax and style. (A quantitative study). In: Poetics. Warszawa, 463K469. Tallentire, David R. (1976), Confirming intuitions about style using concordances. In: Jones/ Churchhouse 1976, 309K328. Tambovcev, Jurij A. (1986), Konsonantnyj koefficient v jazykach raznych semej. Thesis of the academic degree. Leningrad (mimeogr.). Tanaka, Akio (1989), Stochastic model of sentence structure in Japanese literature. In: Glottometrika 11 (ed. L. Hřebíček). Bochum: Brockmeyer, 172K197. Těšitelová, Marie (1972), On the so-called vocabulary richness. In: PSML, 3, 103K120. Těšitelová, Marie (1976), On the frequency of function words, In: PSML, 5, 9K28. Těšitelová, Marie (1977), Lingvistické príručky: Kvantitativní lingvistika. Praha: Státní pedagogické nakladatelství. Těšitelová, Marie (ed.), Kvantitativní charakteristiky současné češtiny. Praha: Accademia, 1985. Těšitelová, Marie (ed.), O češtiné v číslech. Praha: Accademia, 1987. Thavenius, Jan (1966), Kvantitativa metoder i stilistiken. In: Litteraturvetenskap. Nya ma˚l och metoder. (eds. P. Hallberg). Stockholm, 37K62. Thoiron, Philippe (1980), Dynamisme du texte et stylostatistique. Gene`ve: Ed. Slatkine. (Travaux de linguistique quantitative, 11). Thoiron, Philippe/Labbé, Dominique/Serant, Daniel (1988), Etudes sur la richesse et la structure lexicale. Paris/Gene`ve: Chamion-Slatkine.
Tuldava, Juhan (1974), Ob izerenii svjazi tekstov na urovne slovarja. In: Voprosy statističeskoj stilistiki. (ed. B. N. Golovin). Kiev: Naukova dumka, 35K42. Tuldava, Juhan (1993). Measuring text difficulty. In: Glottometria 14 (ed. G. Altmann). Trier: VWT, 69K81. (In: Quantitative Text Analysis (eds. G. Altmann/L. Hřebíček). Trier: VWT, 215K227.) Tuldava, Juhan (1995), Methods in Quantitative Linguistics. Trier: WVT. Tuldava, Juhan (1996), The frequency spectrum of text and dictionary. In: Journal of Quantitative Linguistics, vol. 3, 38K50. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systemischen Lexikologie. Trier: WVT. Tuttle, H./Stanish, W. (1988), Usage trends in the vocabulary of François Rabelais. In: Glottometrika 9 (ed. K. P. Schultz). Bochum: Brockmeyer, 201K218. Uhliřová, Ludmila (1987), Jak jsou české ve˘ty dlouhé? In: Te˘šitelová 1987, 141K144. Uhliřová, Ludmila (1993), Parts of the sentence. Evidence of their communicative significance in text structure. In: Quantitative Text Analysis (Gabriel Altmann/Luděk Hřebíček). Trier: WVT. 263K270. Vašák, Pavel (1972), Metody ustanovlenija spornogo avtorstva (Problema Barak K Neruda). In: PSML, 3, 143K162. Vašák, Pavel (1974), Dlina slova i dlina predloženija v tekstach odnogo avtora. In: Voprosy statističeskoj stilistki. (ed. B. Golovin). Kiev, 314K329. Vašák, Pavel (1980), Metody určování autorství. Praha: Academia. Vašák, Pavel/Mazáčová, S. (1976), Rhyme, stanza and rhythmic types. In: PSML, 5, 163K189. Williams, C. B. (1970), Style and Vocabulary: Numerical Studies. London: Griffin. Wimmer, Gejza/Altmann, Gabriel (1996), The theory of word length: Some results and generalizations. In: Schmidt 1996, 112K133. Winter, Werner (1969), Styles as dialects. In: Doležel/Bailey 1969, 3K9. Woronczak, Jerzy (1972), Metody vyčislenija pokazatelej leksičeskogo bogatstva tekstov. In: Semiotika i iskusstvometrija. Moskva. Yardi, M. R. (1946), A statistical approach to the problem of the chronology of Shakespeare’s plays. In: Sankhyā 7, (3), 263K268. Yule, Udney G. (1938/1939), On sentence length as a statistical characteristic of style in prose: With application to two cases of disputed authorship. In: Biometrika, 30, 363K390. Yule, Udney G. (1944), The Statistical Study of Literary Vocabulary. Cambridge, Mass.: MIT Press.
387
29. Statistical models in stylistics and forensic linguistics Zeller, Eduard (1887), Über die Unterscheidung einer Gestalt der Ideenlehre in den Platonischen Schriften. Berlin. Žilinskiene, V. (1981), Korreljacionnyj i klasternyj analiz častej reči litovskoj publikacii. In: Kalbotyra, 32. 121K133. Zipf, George K. (1949), Human Behavior and the Principle of Least Effort. Cambridge, Mass.
Zörnig, Peter/Altmann, Gabriel (1993). A model for the distribution of syllable types. In: Glottometrika, 14, 190K196. Zsilka, Tibor (1974), Stilisztika és statisztika. Budapest: Akadémiai Kiadó.
Juhan Tuldava †, Tartu (Estland)
29. Statistical models in stylistics and forensic linguistics 1. Introduction 2. Function words 3. Multivariate analyses of the most common words 4. Measures of vocabulary richness 5. Time series analysis 6. The Thisted-Efron tests 7. The variability of measures 8. Techniques from artificial intelligence 9. Syntax-based methods 10. The Qsum controversy 11. Conclusions 12. Literature (a selection)
1.
Introduction
Quantitative methods for the description of text have been used for over a century, with early work being carried out by de Morgan in 1852 and reported in de Morgan (1887), and Mendenhall (1887; 1901). The large amount of data present in any text made analysis difficult until the advent of the computer. Even then, difficulties were faced K the punched cards bearing the data used in Mosteller/Wallace (1964)’s study of the Federalist Papers were destroyed in a flood. Concordancing packages such as OCP and TACT brought quantitative data to the general researcher, allowing traditional scholarship to be augmented with quantitative analysis. This article I have concentrates on techniques employed in recent years for text classification. Details of earlier work can be found in Morton (1978), and Holmes (1994) is a useful review of the general area. Techniques to describe and classify text have been drawn from various fields. Some are technically straightforward, the counting of occurrences of certain words or characteristics of the text. The use of function words is covered in the next section, and simple measures of vocabulary richness are included in section 4. Other techniques are
drawn from statistics; the multivariate analysis of function words, pioneered by Burrows, is discussed in section 3. Time series analysis, the study of dependent data, such as sentence lengths or metre is described in section 5. When the investigation concerns a small sample of text being compared with a large baseline corpus, Thisted and Efron proposed the use of Poisson regression, described in section 6. Another type of question is addressed in section 7, where the variability, rather than the level of measures is examined. Variability is of interest in cases where multiple authorship or heterogeneity is suspected within a text. Computer science and artificial intelligence have provided techniques recently; the use of neural networks and genetic algorithms are described in section 8. Computational and corpus linguistics have provided tools for parsing texts and research making use of such syntactic information is described in section 9. Finally, section 10. details a technique which was used in law courts in the UK, Eire and Australia, but which was shown to be ineffective. Not all proposed methods of authorship attribution actually work.
2.
Function words
If, in the analysis of a piece of text, it is decided to examine the author’s vocabulary, a decision has to be made regarding the number of words to be counted. As will be illustrated in the following sections, it is possible to count words occurring once, a few times, or all the words. A compromise position is the use of function words. A function word is usually an article, conjunction, preposition or common adverb, adjective or pronoun, whose use is independent of the content of the text. Their rates of occurrence are thought to be author specific and their use
388
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
is reflexive, a matter of habit, and consequently a good measure of style. If the use of function words is independent and we assume that they occur randomly through the text then the Poisson distribution may be a good model. However, as Mosteller/Wallace (1964) found, the tail of the Poisson is not long enough to include the function word frequency data. They turn instead to the Negative Binomial distribution. McColly/Weier (1983) use Likelihood Ratio tests based on Poisson distributions in their examination of Middle English poetry. Damerau (1975) has proposed that function words do not follow a Poisson distribution and that before any analysis can take place, the distribution of the proposed function words should be examined in each text. Perhaps the best-known and definitive study of authorship attribution, Mosteller/ Wallace (1964)’s examination of the Federalist Papers, uses function words to discriminate between authors of the papers. As mentioned above, McColly/Weier (1983) examine the Middle English poems in the Cotton Nero manuscript, Sir Gawain and the Green Knight, Pearl, Cleanness and Patience using function words. McColly subsequently uses them to examine the structure of the poem Cleanness (McColly 1987). Function words for Chaucer are produced in Phelan’s study of Chaucer’s vocabulary (Phelan 1976). Frischer (1991) uses function words in a rather different way in his study of Horace’s Ars Poetica. His interest is in dating the work with respect to other works by Horace. Frischer considers a variety of function words as possible chronometers, where their use changes in a systematic way through the works of Horace. Quadratic regression models are then used to find the most appropriate dates for the Ars Poetica. The use of function words is still plagued by unresolved questions over their distribution through the text. It is time-consuming to find effective content-free words to use and this may be the biggest hindrance to their application.
3.
Multivariate analyses of the most common words
One of the most successful and frequently used techniques for authorship attribution was set out in a series of papers by Burrows (1987; 1989; 1992). Burrows examines a number of texts and authors by considering
the most common words in a text. Principal components analysis (PCA; e. g. Chatfield/ Collins 1980) is applied to the standardised occurrences of thirty, fifty or a hundred words in a number of texts. PCA is a dimension-reducing technique which allows the information contained in the thirty, fifty or one hundred dimensional space to be displayed in a few dimensions, or principal components. The components are chosen so as to display the maximal amount of information. Burrows considers a variety of authors in his papers, including Jane Austen, Henry James, the Bronte sisters, Sir Walter Scott and Lord Byron. In each case, text segments written by one author can be found in one section of the principal component space, while those written by another author occupy a different place in the plot. Even texts by the three Bronte sisters can be clearly distinguished, despite the similarity of genre and their upbringing. The words chosen for the analysis are the most common words used in the texts to be analysed. Care needs to be taken when there are not equal amounts of text from each author, as weighted averages of words must be used to avoid biasing the result. Content words, the names of major characters etc, must of course be removed from such a list, and Burrows reports markedly increased accuracy when words are disambiguated for part of speech. The principal components analysis allows the texts to be plotted, as well as permitting the examination of the relative importance of the words used, so that the investigator can determine, for example, which words are most important to which author. In addition, a figure for the percentage of the original variation can be obtained, an indicator of how much of the information present in the original data has been preserved in the dimension-reducing process. Further research can then be carried out into the behaviour of words that are found to be influential in the analysis. As this procedure works with purely lexical data, and there are many concordancing packages available to provide the user with word counts, Burrows’ technique has been widely used. Binongo (1994) finds that genre differences override authorial ones in his investigation of the Filipino writer Joaquin. Authorial differences are found, but on lower dimensions than those corresponding
29. Statistical models in stylistics and forensic linguistics
to genre. Holmes/Forsyth (1995) include this technique in their investigation of the Federalist Papers. Holmes/Forsyth (1995) correctly assign the “disputed” papers to Madison using principal components analysis of marker words found by Mosteller and Wallace, as well as by an analysis using the fortynine most frequent words in the texts. In their study of syntactic data, Baayen/ van Halteren/Tweedie (1996), like Binongo, find that genre overrides authorial differences K critical essays by an author are more similar to other critical essays than they are to crime fiction written by the same author. Baayen, van Halteren and Tweedie find that the analysis of the most frequent syntactic constructions is more accurate than that of lexical data, and that the texts are correctly assigned. Tweedie/Holmes/Corns (1998) apply Burrows’ method to Latin texts, here the attribution of the De Doctrina Christiana, which has been attributed to John Milton. They find that the method can correctly distinguish between control texts and those by Milton and they conclude that the diverse nature of samples from the De Doctrina Christiana may indicate that the text is of a heterogeneous nature; Milton may have been revising a manuscript that he obtained from another scholar. Forsyth/Holmes/Tse (1999) also apply this method to Latin text, they examine the authorship of the Consolatio unearthed in the fifteenth century and attributed to Cicero. Rather than Cicero, Forsyth, Holmes and Tse find that the style is more similar to that of the text’s discoverer, Sigonio. Finally, Gurney/Gurney (1998) analyse function lemmas in the Scriptores Historiae Augustae. They find a remarkable consistency of word-use within each of the six authors purported to have written the texts, and a degree of separability between the authors. All six authors, however, are more similar to each other than to the control texts by Suetonius, which may indicate that there is an overriding author who has forged the entire work.
4.
Measures of vocabulary richness
A time-honoured problem in the domain of quantitative linguistics is the evaluation of the lexical richness of texts (cf. art. No. 27). An obvious measure of lexical richness is the number of different words that appear in a text (V). Unfortunately, a text’s vocabulary
389 size depends on its length (N). Ever since Yule (1944)’s seminal study, a central question has been how to measure lexical richness by means of a statistic that does not depend on text length. Tweedie/Baayen (1998) review fifteen different measures of lexical richness, that are claimed to be independent of text length. Although these measures have gained some acceptance as length-invariant statistics, a number of researchers (Weitzman 1971; Orlov 1983; Thoiron 1986; Baayen 1989) have expressed doubts about the length invariance of at least some of them. Holmes (1992) was one of the first researchers to bring together a selection of measures of vocabulary richness. Holmes investigates the authorship of the Book of Mormon using principal components analysis and cluster analysis of five measures of vocabulary richness (Sichel 1975; Sichel 1986; Guiraud 1954; Yule 1944). He concludes that there is no evidence of multiple authorship within the Book of Mormon, and that the style is consistent with the “prophetic voice” of Joseph Smith. Holmes (1991) uses the same methods to investigate the “prophetic voice” of another author, here the English prophetess Joanna Southcott. He shows that the analysis of measures of vocabulary richness is sensitive enough to discriminate between texts within and between genres. These same measures, with one addition (Brunet 1978), are used by Holmes/Forsyth (1995) in their investigation of the Federalist Papers. Principal components analysis and cluster analysis are again used, along with a discriminant analysis which correctly assigns the disputed Federalist Papers to Madison. Other works making use of measures of lexical richness include Ménard (1983) and Cossette (1994). Tweedie/Baayen (1998) carry out a comprehensive review of the measures of vocabulary richness, looking at a variety of fiction texts. They examine the behaviour of each measure at twenty equally-spaced points through the texts. Initially, to examine the theoretical behaviour of the measures under the assumption that words occur randomly in text, Tweedie and Baayen permute the texts by randomising the word order and then examine the average behaviour in 5000 such permutations. Only two of the measures considered, those proposed by Yule (1944) and Simpson (1949) appear to be
390
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
constant across text length, the others show systematic variation with text length. Next, the effect of ordered text is considered by comparing the confidence intervals obtained in the permutation method with the observed values from the texts. In almost all cases, the observed values fall outside the 95 % confidence interval obtained by the permutation methods. None of the measures are constant in the observed text. Tweedie and Baayen then go on to look at how the measures behave in different texts. They plot the measures against text length on the same graph, finding that in many cases, texts by the same author are close together. However, this is not always the case, illustrating that authors can apparently change their lexical richness, casting doubt on the use of these measures in authorship attribution. The apparent lack of relationship between Yule’s measure and lexical richness described by Ménard and Cossette is also considered. Unlike most of the other measures of lexical richness which tend to consider rare words, those proposed by Yule and Simpson can be considered as measuring the repeat rate of vocabulary. They are influenced most by the frequent words in the spectrum. Tweedie and Baayen use cluster analysis to examine the relationship between the different measures, identifying two main families of measures. Most of the measures fall into a family measuring richness, i. e. the least frequent words, while Yule’s and Simpson’s measures are outside this. Tweedie and Baayen present plots of one family against the other for their texts. As in the plots against text length, texts from the same author generally cluster in the same section of the plot, but this is not guaranteed. Tweedie and Baayen conclude that, despite the large number of measures available, none are truly constant with respect to text length. In addition, there are only two facets of vocabulary structure being measured: richness and repeat rate. They advise caution in the application of the measures, and the use of other measures of style to complement these.
5.
Time series analysis
Time series (cf. Chatfield 1975), often found in biological or environmental statistics, can be described simply as data ordered in time,
for example daily temperature measurements or water levels in a lake. Despite the vagaries of the weather, it is likely that the temperature measured on any given day is closer to the temperature of the day before than the temperature measured a month before. Thus a time series data point is related to previous data points, while in most other cases, data points are treated as though they are independent and thus unrelated. It is generally accepted that data from textual sources are not independent, for example, words used in one sentence may affect the author’s choice of words in the next (Baayen 1996). Despite this, few studies take the temporal structure of a text into account; just as time can be measured in days or months, so we can consider the progression through a text as “time”. Sporadic and isolated applications of time series methods have been made, cf. for example Azar/Kedem (1979) and Bratley/Ross (1981), while Oppenheim (1988), Schils/de Haan (1993) and Roberts (1996) all independently consider time series of sentence lengths. Work by Pawłowski may go some way to addressing the scattered nature of the application of time series methods. Pawłowski (1998) considers the case of Romain Gary, and the texts written under the name Emile Ajar, later discovered to be the work of Gary. Pawłowski uses ARIMA modelling (Box/ Jenkins 1976) to examine sentence length, word entropy and the distance between function words. This last measure is found to be random, as might have been assumed a priori, while the other measures follow particular models. Pawłowski finds that word entropy follows a moving average model, while sentence lengths follow an ARMA(1,1) process. In her study, Oppenheim also found ARMA(1,1) models to fit sentence length processes. Pawłowski (1997; 1999) examines time series of metre in spoken Polish. All of the samples, structured nursery rhymes to literary prose, reveal a rhythmic component of decreasing intensity. Pawłowski (1999) illustrates how important features of the text structure can be missed when the time series nature of the text is not taken into account (cf. art. 51). A related form of analysis is that of change-point analysis. Here it is believed that there may be a change in the parameters describing the text, e. g. a change in mean sentence length, the rate of usage of a
391
29. Statistical models in stylistics and forensic linguistics
function word etc. Interest is in finding the number of change points and where they are most likely to have occurred. Examples of the use of this technique are Tweedie/Bank/ McIntyre (1998) and de Gooijer/Laan (2001). Tweedie, Bank and McIntyre look at changepoints in trends in publishing history, while de Gooijer and Laan examine elision frequency in Euripides’ Orestes.
6.
The Thisted-Efron tests
The Thisted-Efron tests are based on the comparison of the vocabulary distribution of relatively small pieces of text against a large fixed baseline corpus. The tests compare how usage of uncommon words, those which occur less than 100 times in the corpus, behaves in both texts as the words become rarer. They were originally developed for Shakespeare, the large baseline corpus being his works and the smaller text a disputed poem, scene or even an entire play, not included in the baseline corpus (Efron/ Thisted 1976). The statistical basis for these tests originally stems from work done by Fisher on estimating the number of unseen butterfly species and subsequent work by Good and Toulmin on estimating the number of species when the sample size is increased (Fisher/Corbett/Williams 1943; Good/Toulmin 1956). Here the analogy is that a species is a word type, and the known species are the word types used by Shakespeare in his works. These tests were not thought to be able to be evaluated, but the discovery, by Taylor, of a new poem possibly by Shakespeare provided an ideal opportunity to apply the tests (Taylor 1985). Thisted and Efron concluded that the new poem was consistent with the hypothesis of Shakespearean authorship and that the tests used provided a useful discriminator between Shakespearean and nonShakespearean text (Thisted/Efron 1987). Valenza (1991) describes a validation procedure where text with the appropriate vocabulary distribution is generated. From this simulated data, Valenza finds that the baseline corpus should have at least one hundred times as many words as the disputed text for effective discrimination to take place. Valenza goes on to examine texts by Shakespeare and Marlowe. Within the genre of drama, the tests correctly differentiate be-
tween early, middle and late plays by Shakespeare, and between plays by Marlowe and Shakespeare. Kossuth/Morrissey (1989) also illustrate the tests’ sensitivity to genre; histories and comedies giving different results. When poetry is considered, however, two of Shakespeare’s poems appear to be inconsistent with Shakespearean authorship. A problem encountered here is that of finding an appropriately-sized baseline corpus. Although the Thisted-Efron tests seem to be very effective discriminators between plays written by Shakespeare and others such as Marlowe, they appear to be sensitive to genre. It has already been mentioned that plays and poems by the same author do not appear consistent, this may be due to the highly structured nature of Elizabethan poetry or the context. This sensitivity puts in doubt the results of Thisted and Efron in deciding that the poem found by Taylor was by Shakespeare since the poem was compared against a corpus containing a variety of genres. Further work on validating and using the tests is necessary, but the Thisted-Efron tests would appear to be an important addition to the battery of tests available for determining authorship, especially where a short piece of text requires to be compared against a much larger corpus.
7.
The variability of measures
A comparatively new area that is being investigated is whether or not a text, or group of texts has been written by a single author, or by a group of authors. While in other situations it is the value of measures of style (e. g. measures of vocabulary richness, most common words, function words) which are important, in this case it is the variability found in these measures which is important. Applications of such a question include texts believed to be a palimpsest, where the observed text is a composite text perhaps taken from different sources, or a group of texts where interest is in whether they are by a single, or multiple authors. An example of the latter case is the Scriptores Historiae Augustae (SHA). This biographical collection of Roman emperors covers a period from AD 117K285 and is attributed in the MSS. to six different authors. Dessau (1889; 1892), having studied the nomenclature and style of the works in the SHA, proposed the theory that it was written only by one author.
392
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Tse/Tweedie/Frischer (1998) use Levene’s test of equality of variances to examine the SHA in this light, using seven function words proposed by Meißner (1992). They find that the control authors (Suetonius, Livy, Caesar and Tacitus) have a low, and similar variability in their use of the function words, while the SHA has a significantly higher variability in the use of the same words. A simulated corpus with the same number of texts and authorial composition is also examined. Tse/Tweedie/Frischer find that this corpus is not significantly different from the SHA but is again significantly more variable than the control text authors. They conclude that the SHA was written by more than one author, contrasting with Dessau, but confirming much of the quantitative investigations of the SHA, cf. Frischer/ Guthrie/Tse et.al. (1996) or Gurney/Gurney (1998) for a review. An example of a palimpsest is the De Doctrina Christiana attributed to John Milton. A multivariate investigation by Tweedie/ Holmes/Corns(1998) concluded that the text is heterogeneous and the text is currently being investigated from this angle.
8.
Techniques from artificial intelligence
In the tradition of techniques from different disciplines being applied to authorship attribution, in this section I shall review two techniques with their origins in artificial intelligence: neural networks and genetic algorithms. Neural networks provide a technique for pattern recognition that is currently undergoing much active research and application. They appear to act as remarkably good classifiers in topics as diverse as process management and stock market forecasting. Stylometry can be regarded as a problem of pattern recognition. However, in most cases of disputed authorship the discriminating pattern is unknown, and possibly difficult to recognise. The initial work in stylometrics was presented in two papers by Robert Matthews and Thomas Merriam (Matthews/Merriam 1993; Merriam/Matthews 1994). They give a background to neural networks and the construction and training processes. Matthews and Merriam’s interest in 1993 was in discriminating between works by Shakespeare
and Fletcher, in particular plays that have been associated with both authors: The Double Falsehood; The London Prodigal; Henry VIII and The Two Noble Kinsmen. In their second paper, Merriam/Matthews (1994) extend their work to consider the work of Marlowe in relation to Shakespeare. Both papers are excellent methodological introductions to the field and should be required reading for anyone interested in pursuing research in this area. The Federalist Papers are the subject of an investigation by Tweedie/Singh/Holmes (1996). They return to the work of Mosteller/Wallace (1964) and choose eleven function words from the set of 35 used by Mosteller and Wallace as input variables. The words chosen had been found by Mosteller and Wallace to be good at discriminating Hamilton and Madison. The reason for this return to their work was to investigate the efficacy of a neural network on a problem that had already been investigated, in order to compare the results. Tweedie, Singh and Holmes find that they come to the same conclusions as Mosteller and Wallace, with fewer function words. Waugh/Adams/Tweedie (2000) have a different motivation from the articles mentioned above as they attempt to test a cascade-correlation network. They look at the difference between Romantic and Renaissance plays. Their input variables are the occurrences of the 100 most common words, a technique first used with principal components analysis by Burrows (1987). All of the samples are correctly assigned. The problem does not appear to tax this type of neural network. A Probabilistic Neural Network (PNN) is used by Martindale/McKenzie (1995) in their comparison of lexical statistics, content analysis and function word analysis of the Federalist Papers. The technique is statistically equivalent to nearest neighbour discriminant analysis that Mosteller and Wallace recommend but did not use in their study of the Federalist Papers. While for lexical statistics used, the PNN produces results no better than chance, it performs better than traditional discriminant analysis when presented with the data for the content and function words analyses. A further type of neural network was introduce by Lowe/Matthews (1995), that of the Radial Basis Function, or RBF, network. Lowe and Matthews use this to investigate
393
29. Statistical models in stylistics and forensic linguistics
the authorship of three plays attributed to Shakespeare and Fletcher. Their results are consistent with recent scholarly opinion. In a similar way to that of neural networks, genetic algorithms view authorship attribution as a pattern recognition problem. Rather than using a connectionist approach, however, genetic algorithms “learn” by generating a large number of syntactically valid, but possibly semantically meaningless rules. The results from discriminating texts using these rules are compared and the better-performing half retained. These rules are then “bred”, that is crossed with other rules to produce new rules, which are then tested, and so the process continues. Holmes/Forsyth (1995) use a rule-based approach in their work on the Federalist Papers. Despite their belief that the prospects for the application of machine learning methods in stylometry look good, no researchers have yet followed Holmes and Forsyth down the genetic algorithm road. Perhaps this is due to a dearth of software and interested expertise, but there is surely scope for further investigation in this area.
9.
Syntax-based methods
All of the techniques considered so far have been concerned with the attributes of the lexical data present in the text; words alone have been considered, without any account being taken of the way in which they are combined. Recent advances in automatic parsing and the availability of tagged corpora have made the analysis of an author’s syntax viable. Baayen/van Halteren/Tweedie (1996) compare the performance of traditional authorship-attribution techniques when presented with the lexical vocabulary and when presented the author’s syntactic vocabulary. Baayen, van Halteren and Tweedie consider twenty samples from two texts in the TOSCA corpus. Van Halteren provided the data to Baayen and Tweedie in the form of fourteen samples of known authorship, seven from each author, and six test samples. The data was analysed in three different ways, using both the lexical and syntactic vocabulary. The first technique to be considered is that of vocabulary-richness measures. Five of these measures, believed to be robust
with respect to sample size, were calculated for each of the samples and then analysed using principal components analysis. This analysis fails to separate the known-authorship samples properly and it mis-classifies some of the test samples. When applied to the syntactic rewrite data the classification success rate is increased, but one of the known samples is apparently mis-classified. The next technique examined is that of the principal components analysis of the rates of the most common words. In the first analysis the raw words are used, without making any use of the syntactic information. The results are surprisingly good, only one of the test samples is of ambiguous authorship. The next step was to make use of the syntactic information available and to disambiguate homographs; thus a connective and is distinguished from a conjunctive and. This produced a clearer result; the test samples are assigned to the correct author and the two authors’ texts are clearly disparate. When applied to the syntactic data, the samples can also be clearly distinguished and the test samples are assigned to the correct authors. In addition, an analysis of syntactic creativity was carried out by considering the relative rate of syntactic hapax legomena, the number of syntactic structures occurring once, in each text sample. This was found to be very successful at discriminating the authors and all of the text samples were correctly classified. Baayen, van Halteren and Tweedie conclude that the more syntactically-aware methods, those making use of the syntactic, rather than the lexical vocabulary, give better classificatory accuracy. They believe that the analysis of function words taps into this aspect at a basic level. After noting the improved performance of the syntactic vocabulary, Baayen, van Halteren and Tweedie note that the application of such techniques would require the existence of many more syntactically annotated corpora. The production of such corpora generally requires a large time investment as automatic parsers are yet to be perfected. This drawback may restrict the use of syntactic information in authorship attribution studies.
10. The Qsum controversy The techniques detailed above appear to be successful in their application to stylometry whereas a method proposed in 1990, despite
394
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
widespread acceptance in courts of law, was found to be unsatisfactory. Cumulative sum charts or “cusum” charts are primarily used in industrial processes and quality control monitoring, but have also found application in authorship attribution studies. Bee (1971) first proposed using cusum charts of verb frequencies as a test of authorship for biblical texts. Michaelson/ Morton/Wake (1978) employed cusum charts of sentence lengths to characterise Greek writers and, more recently, Andrew Morton has proposed an authorship test which uses a variant of the cusum charts, denoted by Morton as a QSUM chart, of various word classes. Three internally published reports (Morton/Michaelson 1990; Farringdon/Morton 1990; Morton 1991) and a book (Farringdon, 1996) provide detailed accounts of the approach to interpreting QSUM charts in the context of authorship attribution. In the early 1990s Morton’s QSUM technique was used by defence lawyers seeking to cast doubt over confessional statements allegedly made by their clients. Examples include the appeal in London of Tommy McCrossen in July 1991 and the pardon for Nicky Kelly from the Irish Government in April 1992. In the McCrossen case, QSUM evidence which cast doubt over the authenticity of the defendant’s confession played a vital role in persuading the appeal judges that he had been wrongly convicted. In most of the cases in which QSUM charts were used in the courts, they have been said to reveal that material had been inserted into the statement that was not in the verbal style of the appellant and that the findings supported the case that the confessions were modified by police officers to make them more clearly incriminating of the defendant. Serious doubts were later raised about the validity of Morton’s QSUM as a forensic technique and these doubts have been aired both on television (BBC’s Tomorrow’s World and Channel 4’s Street-legal) and in the press (Campbell 1992; Matthews 1993a). Popular journals such as New Scientist also added publicity to what became known as the “QSUM controversy” (Matthews, 1993b). Whereas proponents of the QSUM test put forward “proof by example”, offering up dozens of examples in which they claim the method demonstrates evidence of multiple authorship, several papers were published criticising the technique (Canter 1992; Hil-
ton/Holmes 1993; Hardcastle 1993; de Haan/ Schils 1993; Sanford/Aked/Moxey et al. 1994; Holmes/Tweedie 1995). Critics of QSUM were particularly concerned over the ease with which it was accepted by courts and the deeper question about how juries and the judiciary can be expected to assess scientific evidence. In the United States, the judicial system has dealt with new scientific techniques by subjecting them to the “Frye Test”; this permits only testimony based on “generally accepted” scientific techniques to be put before a jury. In an attempt to evaluate the QSUM technique various statistical techniques have been used, from Spearman’s ς to the analysis of variance. Not one of these papers gives any support to the technique. It is clear that the QSUM method should not be seen as a valid test of authorship.
11. Conclusions Quantitative linguistics has benefited from techniques from other disciplines; statistics and computer science in particular. However, the most complicated and accurate technique cannot aid the practitioner whose data is flawed. Many authorship attribution problems are doomed by the lack of sufficient and appropriate test and control data from potential authors. Rudman (1997) describes many of the common errors made in published studies. In addition, differences in statistics describing text may not necessarily indicate a change of authorship, rather a change in text style or genre may be present. Quantitative methods can only do so much; traditional scholarship must complete the authorship attribution puzzle.
12. Literature (selected) Azar, M./Kedem, B. (1979), Some Time Series in the Phonetics of Biblical Hebrew. In: Association for Literary and Linguistic Computing Bulletin 7 (2), 111K129. Baayen, R. H. (1989), A corpus-based approach to morphological productivity. Statistical Analysis and Psycholinguistic Interpretation. Ph.D. thesis, Free University, Amsterdam. Baayen, R. H. (1996), The effect of lexical specialisation on the growth curve of the vocabulary. In: Computational Linguistics 22, 455K480. Baayen, R. H./van Halteren, H./Tweedie, F. J. (1996), Outside the Cave of Shadows. Using syntactic annotation to enhance authorship attribu-
29. Statistical models in stylistics and forensic linguistics
395
tion. In: Literary and Linguistic Computing 11, 121K131.
Dessau, H. (1892), Über die SHA. In: Hermes 27, 561K605.
Bee, R. E. (1971), Statistical methods in the study of the Masoretic Text of the Old Testament. In: Journal of the Royal Statistical Society Series A 134 (4), 611K622.
Efron, B./Thisted; R. (1976), Estimating the number of unseen species; How many words did Shakespeare know?. In: Biometrika 63, 435K437. Farringdon, J. M. (1996), Analysing for Authorship. Cardiff: University of Wales Press. Farringdon, M. G./Morton, A. Q. (1990), Fielding and the Federalis. Technical Report CSC 90/R6, University of Glasgow.
Binongo, J. N. G. (1994), Joaquin’s “Joaquinesqerie”, “Joaquinesqerie’s” Joaquin: A statistical study of a Filipino writer’s style. In: Literary and Linguistic Computing 9 (4), 267K279. Box, G./Jenkins, G. (1976), Time Series Analysis: Forecasting and control. San Francisco: HoldenDay. Bratley, P./Ross, D. (1981), Syllabic spectra. In: Association for Literary and Linguistic Computing Journal 2 (2), 41K50. Brunet, E. (1978), Vocabulaire de Jean Giraudoux: Structure et Evolution. Gene`ve: Slatkine. Burrows, J. F. (1987), Word patterns and stay shapes: the statistical analysis of narrative style. In: Literary and Linguistic Computing 2 (2), 61K70. Burrows, J. F. (1989), An Ocean where Each Kind ...„: Statistical Analysis and some major determinants of literary style. In: Computers and the Humanities 23, 4K5; 309K321. Burrows, J. F. (1992), Not Unless You Ask Nicely: The Interpretative Nexus between Analysis and Information. In: Literary and Linguistic Computing 7 (2), 91K109. Campbell, D. (1992), Writing’s on the wall. In: The Guardian, October 7, 25. Canter, D. (1992), An Evaluation of the “Cusum” stylistic analysis of confessions. In: Expert Evidence 1 (3), 93K99. Chatfield, C. (1975), The Analysis of Time Series: an Introduction. London: Chapman and Hall. Chatfield, C./Collins, A. J. (1980), Introduction to Multivariate Analysis. London: Chapman and Hall. Cossette, A. (1994), La Richesse Lexicale et sa Mesure, No. 53 in Travaux de Linguistique Quantitative. Geneva/Paris: Slatkine-Champion. Damerau, F. J. (1975), The use of Function Word Frequencies as Indicators of Style. In: Computers and the Humanities 9, 271K280. De Gooijer, J. G./Laan, N. M. (2001), Changepoint analysis: Elision in Euripides “Orestes”. In: Computers and the Humanities 35, 167K191. De Haan, P./Schils, E. (1993), The Qsum Plot Exposed. In: Proceedings of the 14th ICAME Conference. De Morgan, S. E. (1887), Memoir of Augustus de Morgan by his wife Sophia Elizabeth de Morgan with selections from his letters. London: Longmans, Green, and Co. Dessau, H. (1889), Überzeit und Persönlichkeit der SHA. In: Hermes 24, 337K392.
Fisher, R./Corbett, A./Williams, C. (1943), The relation between the number of species and the number of individuals in a random sample of an animal population. In: Journal of Animal Ecology 12, 42K58. Forsyth, R. S./Holmes, D. I./Tse, E. K. (1999), Cicero, Sigonio and Burrows: Investigating the authenticity of the Consolatio. In: Literary and Linguistic Computing, 14 (3), 375K400. Frischer, B. D. (1991), Shifting Paradigms: New Approaches to Horace’s Ars Poetica. American Philological Association. Frischer, B. D./Guthrie, D./Tse, E./Tweedie, F. J. (1996), Sentence length and word-type at Sentence beginning and end: Reliable Authorship Discriminators for Latin prose? New Studies on the Authorship of the Historia Augusta. In: Research in Humanities Computing, Vol. 5. Oxford: University Press, 110K142. Good, I. J./Toulmin, G. H. (1956), The number of new species, and the increase in population coverage when a sample is increased. In: Biometrika 43, 45K63. Guiraud, H. (1954), Les Caracte`res Statistiques du Vocabulaire. Paris: Presses Universitaires de France. Gurney, P. J./Gurney, L. W. (1998), Authorship Attribution of the Scriptores Historiae Augusta. In: Literary and Linguistic Computing 13 (3), 119K 131. Hardcastle, R. A. (1993), Forensic Linguistics: an assessment of the CUSUM method for the determination of authorship. In: Journal of the Forensic Science Society 33 (2), 95K106. Hilton, M. L./Holmes, D. I. (1993), An Assessment of Cumulative Sum charts for authorship attribution. In: Literary and Linguistic Computing 8 (2), 73K80. Holmes, D. I. (1991), Vocabulary Richness and the Prophetic Voice. In: Literary and Linguistic Computing 6 (4), 259K268. Holmes, D. I. (1992), A Stylometric Analysis of Mormon Scripture and Related Texts. In: Journal of the Royal Statistical Society Series A 155 (1), 91K120. Holmes, D. I. (1994), Authorship Attribution. In: Computers and the Humanities 28 (2), 87K106. Holmes, D. I./Forsyth, R. S. (1995), The Federalist Revisited: New Directions in Authorship Attribu-
396
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
tion. In: Literary and Linguistic Computing 10 (2), 111K127. Holmes, D. I./Tweedie, F. J. (1995), Forensic Linguistics: A Review of the Cusum controversy. In: Revue Informatique et Statistique dans les Sciences Humaines, 19K47. Kossuth, K./Morrissey, P. (1989), The Shakespeare authorship controversy: Testing the Thisted-Efron method. In: Proceedings of the Toronto ICCH/ ALLC conference. Lowe, D./Matthews, R. (1995), A Stylometric analysis by Radial Basis Functions. In: Computers and the Humanities 29, 449K61. Martindale, C./McKenzie, D. (1995), On the Utility of Content Analysis in Author Attribution: The Federalist. In: Computers and the Humanities 29, 259K270. Matthews, R. (1993a), Harsh words for verbal fingerprint. In: Sunday Telegraph. Matthews, R. (1993b), Linguistics on trial. In: New Scientist (1887), 12K13. Matthews, R./Merriam, T. (1993), Neural Computation in Stylometry I: An Application to the Works of Shakespeare and Fletcher. In: Literary and Linguistic Computing 8 (4), 203K209. McColly, W. B. (1987, Style and Structure in the Middle English poem Cleanness. Computers and the Humanities 21, 169K176. McColly, W. B./Weier, D. (1983), Literary Attribution and Likelihood Ratio Tests K the Case of the Middle English Pearl-poems. In: Computers and the Humanities 17, 65K75. Meißner, B. (1992), Sum enim unus ex curiosis. Computerstudien zum Stil der Scriptores Historia Augusta. In: RCCM 34, 47K79. Ménard, N. (1983), Mesure de la Richesse Lexicale. Théorie et vérifications expérimentales. Etudes stylométriques et sociolinguistiques, No. 14 in Travaux de Linguistique Quantitative. Geneva/Paris: Slatkine-Champion. Mendenhall, T. C. (1887), The characteristic curves of composition. In: Science 11, 237K249. Mendenhall, T. C. (1901), A mechanical solution of a literary problem. In: Popular Science Monthly 60 (7), 97K105. Merriam, T./Matthews, R. (1994), Neural Computation in Stylometry II: An Application to the Works of Shakespeare and Marlowe. In: Literary and Linguistic Computing 9 (1), 1K6. Michaelson, S./Morton, A. Q./Wake, W. C. (1978), Sentence length in Homer and hexameter verse. In: Association for Literary and Linguistic Computing Bulletin 6 (3), 254K267. Morton, A. Q. (1978), Literary Detection. Bath: Bowker. Morton, A. Q. (1991), Proper Words in Proper Places. Technical Report 91/R18, University of Glasgow, Computing Science Department.
Morton, A .Q./Michaelson, S. (1990), The Qsum Plot. Technical Report CSR-3K90, University of Edinburgh. Mosteller, F./Wallace, D. L. (1964), Applied Bayesian and Classical Inference: The Case of the Federalist Papers. Reading et.al.: Addison-Wesley. Oppenheim, R. (1988), The Mathematical Analysis of Style: a correlation-based approach. In: Computers and the Humanities 22, 241K252. Orlov, Y. K. (1983), Ein Modell der Häufigkeitsstruktur des Vokabulars. In: Studies on Zipf’s Law. (eds. H. Guiter/M.V. Arapov). Bochum: Brockmeyer, 154K233. Pawłowski, A. (1997), Time Series Analysis in Linguistics: Application of the ARIMA Method to Cases of Spoken Polish. In: Journal of Quantitative Linguistics 4 (1K3), 203K221. Pawłowski, A. (ed.), Séries temporelle en linguistique. Avec application à l’attribution de textes: Romain Gary et Emile Ajar. Travaux de Linguistique Quantitative, No. 62. Paris: Honoré Champion Editeur, 1998. Pawłowski, A. (1999), Language in the Line vs Language in the Mass: On the efficiency of sequential modelling in the analysis of rhythm. In: Journal of Quantitative Linguistics 6 (1), 70K77. Phelan, W. S. (1976), The study of Chaucer’s vocabulary. In: Computers and the Humanities 12, 61K69. Roberts, A. (1996), Rhythm in prose and the serial correlation of sentence lengths: A Joyce Cary case study. In: Literary and Linguistic Computing 11 (1), 33K39. Rudman, J. (1997), The State of Authorship Attribution studies: Some problems and solutions. In: Computers and the Humanities 31 (4), 351K365. Sanford, A. J./Aked, J. F./Moxey, L. M./Mullin, J. (1994), A critical examination of assumptions underlying the cusum technique of forensic linguistics. In: Forensic Linguistics 1 (2), 151K167. Schils, E./de Haan, P. (1993), Characteristics of Sentence Length in Running Text. In: Literary and Linguistic Computing 8 (1), 20K26. Sichel, H. S. (1975), On a Distribution Law for Word Frequencies. In: Journal of the American Statistical Association 70, 542K547. Sichel, H. S. (1986), Word Frequency Distributions and Type-token Characteristics. In: The Mathematical Scientist 11, 45K72. Simpson, E. H. (1949), Measurement of Diversity. In: Nature 163, 168. Taylor, G. (1985), Shakespeare’s new poem: A Scholar’s clues and conclusions. In: New York Times Book review, 11K14. Thisted, R. A./Efron, B. (1987), Did Shakespeare write a newly Discovered poem? In: Biometrika 74, 445K55.
30. Word frequency distributions Thoiron, P. (1986), Diversity Index and Entropy as measures of lexical richness. In: Computers and the Humanities 20, 197K202. Tse, E. K./Tweedie, F. J./Frischer, B. D. (1998), Unravelling the purple thread: Function word variability and the Scriptores Historiae Augustae. In: Literary and Linguistic Computing 13 (3). Tweedie, F. J./Baayen, R. H. (1998), ’How Variable May a Constant Be? Measure of Lexical Richness in Perspective. In: Computers and the Humanities 32, 323K352. Tweedie, F. J./Bank, D./McIntyre, B. (1998), Modelling Publishing History, 1475K1640: Change Points in the STC. In: ALLC/ACH ’98 conference abstracts. Debrecen, 167K169. Tweedie, F. J./Holmes, D. I./Corns, T. N. (1998), The Provenance of De Doctrina Christiana, attributed to John Milton: A Statistical Investigation. In: Literary and Linguistic Computing 13 (2), 77K 87.
397 Tweedie, F. J./Singh, S./Holmes, D. I. (1996), Neural Network Applications in Stylometry: The Federalist Papers. In: Computers and the Humanities 30, 1K10. Valenza, R. J. (1991), Are the Thisted-Efron Authorship Tests Valid?. In: Computers and the Humanities 25 (1), 27K46. Waugh, S./Adams, A./Tweedie, F. J. (2000), Computational stylistics using artificial neural networks. In: Literary and Linguistic Computing 15 (2), 187K197. Weitzman, M. (1971), How useful is the logarithmic type-token ratio? In: Journal of Linguistics 7, 237K243. Yule, G. U. (1944), The Statistical Study of Literary Vocabulary. Cambridge: University Press.
Fiona J. Tweedie, Edinburgh (United Kingdom)
30. Word frequency distributions 1. 2. 3. 4. 5.
Introduction The urn model LNRE models Traditional approaches to word frequency distributions Literature (a selection)
1.
Introduction
Words differ with respect to how often they are used in speech or writing. Words such as eat and hand are common, while words such as scythe and supersensoriness are rare. A characteristic property of words as they are used in every-day language is that there are relatively few words with high frequencies of use, and large numbers of words with very low frequencies of use. Not only does one tend to find many rare words in a given sample of textual materials, when the sample is increased, large numbers of new rare words are also observed. This holds for small samples just as well as for large samples of tens of millions of words. This implies that there are great numbers of low-probability words, many of which will not be seen in actual textual samples. Word frequency distributions, in other words, are highly skewed, asymmetrical distributions. This property causes considerable problems for quantitative, word-based compari-
Fig. 30.1: Mean word frequency as a function of the sample size in word tokens for AIW.
sons of texts. For instance, in quantitative stylistic studies, the average word frequency in one text cannot be simply pitted against the average word frequency in another text using, e. g., a t-test. The t-test presupposes that the two means summarize normally distributed data, but word frequency data are not normally distributed. The t-test builds on the assumption that for increasing sample sizes, the observed means converge to the population means. But when dealing with word frequency distributions, the
398
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
means do not converge at all. Instead, the mean increases as the sample size is increased, as illustrated for Lewis Carroll’s „Alice’s Adventures in Wonderland“ (henceforth Aiw) in Figure 30.1. The horizontal axis displays the sample size, measured in terms of word occurrences or tokens, and counting inflectional variants such as rabbit and rabbits as two different words or word types.
2.
S
E [V (m, N)] Z ∑
iZ1
()
N NKm πm i (1 K πi) m
S
E [V (N)] Z ∑ (1 K (1 K πi)N) ,
(1)
iZ1
which, using the Poisson approximation to the binomial distribution, can be rewritten in the form
The urn model
The urn model provides a convenient framework for coming to grips with the statistical properties of word frequency distributions. When we use the urn model, we allow ourselves to assume that words are used randomly and independently in texts, as if they were marbles with different colors sampled from an urn. We return to the issue of how legitimate these simplifying assumptions are for word use in actual texts in section 3. Let N denote the sample size, the number of word tokens in a given sample. Furthermore, let V (N) denote the number of different word types observed in a sample of N tokens, and let V (m, N) denote the number of different word types that occur with frequency m in a sample of size N. We refer to {V (m, N), m Z 1, 2, ...} as the frequency spectrum. The frequency spectrum provides a complete summary of a word frequency distribution. From it, we derive N Z Sm mV (m, N) and V (N) Z Sm V (m, N), as well as the sample mean word frequency, N / V (N). The frequency spectrum is defined with respect to a given sample size N. Changing the sample size affects the shape of the frequency spectrum. This is illustrated in Figure 30.2, which plots word frequency m on the horizontal axis and the number of types with frequency m, V (m, N), on the vertical axis, both for the complete text (dotted line) and the first half of the text (solid line). What we need, then, are theoretical expressions for the frequency spectrum for arbitrary sample size, both smaller and larger than the actual sample size. On the assumption that the frequency of a word ωi is binomially (N, πi)-distributed, the following expressions for the spectrum elements and the vocabulary size can be obtained:
Fig. 30.2: The frequency spectrum of AIW at the full text size (dashed line) and half the full text size (solid line). The horizontal axis plots word frequency m, the vertical axis the number of types V (m, N) with frequency m. S
E [V (m, N)] Z ∑
iZ1
(Nπi)m m!
eKNπi ,
S
E [V (N)] Z ∑ (1 K eKNπi) ,
(2)
iZ1
with S the number of different word types in the population. The problem with these expressions is that we do not know the probabilities πi. To solve this problem, two different strategies have been pursued. The first strategy is to condition on a given sample with sample size No, and to work backwards to smaller sample sizes (henceforth interpolation) and forwards to larger sample sizes (henceforth extrapolation) from there. In this approach, we assume that the number of times that word ωi occurs in a smaller sample of N tokens (N ! N0) is binomially distributed with parameters f (i, N0) (the frequency of ωi in the full sample) and N / No (the probability that a word token is allotted to the first N of the No words in the sample). This approach leads to the following expressions for the frequency spectrum and the vocabulary size:
399
30. Word frequency distributions
E [VN0 (m , N)] Z
() N
∑ V (k, N0) kRm
m
(K1)kKm
N0
(
N K N0 N0
() ) k m
kKm
,
E [VN0 (N)] Z V (N0)
()
m
N
C ∑ (K1)mK1
N0
mZ1
V (m , N0).
(3)
When we replace V (k, No) and V (m, N0) by their respective expectations, we obtain expressions that also hold for N O N0. In practice, this approach works only for interpolation to smaller sample sizes because when N O 2 N0, the alternating sums in (3) diverge rapidly (Good 1953, Good/Toulmin 1956, Efron/Thisted 1976). The second approach to solving the problem of the unknown word probabilities πi in (2) is to enrich the urn model with assumptions about the probability distribution of the word probabilities. Let G (π) denote the structural type distribution, the number of types in the population with probability greater than or equal to π:
For most word frequency distributions, P is non-negligible, indicating that the vocabulary size is still growing. In fact, P (N) is formally identical to the joint probability of the unseen word types, the word types present in the population but not in the sample. Generally, the large numbers of rare unseen words cause the sample relative frequencies of words ωi to slightly overestimate their population probabilities πi. The sample relative frequencies sum up to unity, and do not leave probability mass for the unseen types. An estimate that takes the non-negligible probability of the unseen types into account is due to Good (1953). Instead of estimating πi for word ωi with frequency m by m / N, πi is estimated by m* / N, with m* Z (m C 1)
The jumps ∆G (πj) Z G (πj) K G (πjC1), πj ! πjC1 represent the numbers of words in the population with probability πj. Because G (π) is a (non-increasing) step function with jumps at points (π1, π2, ... , κ), with κ the number of distinct probabilities, we can reformulate the expressions for the spectrum and the vocabulary size in Stieltjes integral form: S
E [V (N)] Z ∑ (1 K eKNπi) iZ1 κ
Z ∑ (1 K eKNπj) ∆G (πj) jZ1 N
Z
∫ (1 K e
(5)
) dG (π)
KNπ
0
N
E [V (m, N)] Z
∫
(Nπ)m
0
m!
eKNπdG (π).
(6)
Differentiation of E [V (N)] with respect to N leads to the growth rate P (N) of the vocabulary size: d P (N) Z E [V (N)] dN d N Z (1 K eKNπ) dG (π) (7) dN 0
∫
E[V (1, N)] Z N
.
CL Z 1 K
(4)
i
E [V (m , N)]
.
(8)
Informally, one can gauge the extent to which the sample relative frequencies are off the mark by calculating the coefficient of loss CL,
S
∑ I[π Rπ]. iZ1
G (π) Z
E [V (m C 1,N)]
Ê [V (N)] V (N)
,
(9)
with Ê [V (N)] Z ∑V (m, N) (1 K eKm) ,
(10)
m
i. e., the expected vocabulary size that would be obtained if the sample relative frequencies m / N were used as probability estimates (Chitashvili/Baayen 1993). From texts as small as AIW to large text corpora with hundreds of millions of words, CL is easily as large as 0.20, indicating that using the sample relative frequencies leads to underestimation of the observed vocabulary size by 20 %. Distributions with large numbers of very low-frequency words, so-called Large Number of Rare Events (LNRE) distributions (see Khmaladze, 1987, for formal definitions), require specific assumptions about the probability distribution of the word probabilities, for instance, about the form of the structural distribution G (π), in order to obtain workable expressions for the spectrum elements and the vocabulary size.
3.
LNRE models
There are three basic LNRE models for word frequency distributions coming from homogeneous populations. Mixture models
400
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
are required when the data has two or more sources. Adjusted LNRE models take into account that words do not occur at random in texts. They provide a means for correcting the simplifying assumptions made by adopting the urn model. 3.1. Simple LNRE models There are three different simple LNRE models available, the lognormal model, the generalized inverse Gauss-Poisson model (henceforth GIGP), and the Zipfian family of LNRE models. According to the lognormal model (Carroll 1967), the structural type distribution has the form G (π) Z
N
∫
1
1
σ O2π π x2
1
e
K
2σ
2
[log(x)Kµ]2
1
1
dx
2
is the density of a (µ, σ) lognormally distributed random variable. Combining (11) with (2) and writing Z Z eKµ, we obtain the following expressions for the spectrum and the vocabulary size: 1 Z
σO2π
∫ x m! (xN) 2
E [V (m, N)] Z
(
1
[
1
2
(13)
0
The second lnre model, the generalized inverse Gauss-Poisson model, henceforth GIGP, developed by Sichel (1986), has as structural type distribution
N
∫ π
2 Z Kγ (b) b KγC1 (b) Kγ (bO1 C N / Z) (1 C N / Z)γ/2Kγ (b)
Kγ (b)
]
(2 / b)γ Z
bc KγC1 (b) 2 Kγ (b) b2
(x Z)γK1 eKxZK4xZ dx ,
(14)
]
.
(16)
E [V (m, Z)] E [V (Z)]
(log (1 C x))γK1xα
∫ (1 C x)
mC1
S Z dG (π) Z e2 σ Kµ.
[
1K
N
The number of types in the population for the lognormal model is
2
KmCγ (bO1 C N / Z) ,
The third LNRE model is in fact a family of models related to Zipf’s law (Orlov, 1983; Khmaladze/Chitashvili 1989). In this case, there is no explicit expression for G (π). Instead, for a unique sample size Z, a parametric expression is formulated for the ratio
2
∫
G (π) Z
)
m
2 ZO1CN/Z
eKxNK2σ2 [log(xZ)] dx
(12) E [V (N)] Z 1 1 N 1 2 Z (1 K eKxN) eK2σ2 [log(xZ)] dx. 2 σO2π 0 x
N
b KγC1 (b) (1 C N / Z)γ/2
bN
0
∫
2Z
A (m, Z, α, β, γ) Z
E [V (m , N)] Z
(15)
Expressions for the spectrum and the vocabulary size are again obtained by combining (14) with (2) and solving the integrals:
(11)
e K2σ2 [log (x)Kµ] ,
m
.
bc KγC1 (b)
E [V (N)] Z
1
N
Kγ (b)
2
SZ
m!
Note that the integrand of G (π), multiplied by x, σ O2π x
with Kγ (b) denoting the modified Bessel function of the second kind of order γ and argument b. The population number of different types in a GIGP distribution is
Z
0
N
∫
(1 C x)β
(log (1 C x))γK1xαK1 (1 C x) βC1
0
dx .
(17)
dx
For α Z β Z γ Z 1, (17) reduces to A (m, Z, 1, 1, 1) Z
1 m (m C 1)
,
(18)
one of the forms of Zipf’s law. A more general but still computationally tractable version of Zipf’s law is the Yule-Simon model, for which γ Z 1 and ß O 0: A (m, Z, 1, β, 1) Z β Z (m C β K 1) (m C β)
.
(19)
Because the shape of the spectrum changes as the sample is increased, the ratio A (m, Z, ...) is an accurate description of the data only for the specific sample size Z. As the sample size moves away from Z either to
401
30. Word frequency distributions
smaller or to larger sample sizes, the goodness of fit will decrease. Thus, Z can be viewed as the pivotal sample size at which a form of Zipf’s law is realized in its simplest form. As it is unlikely that actual samples will contain the pivotal number of Z word tokens, we need a means for extending the model so that it becomes applicable to arbitrary sample sizes. This can be achieved by using the general interpolation and extrapolation result (3). Since E [V (m, Z)] Z E [V (Z)] A (m, Z, α, β, γ), we can plug the expression for A (m, Z, ...) into (3), equating Z with N0:
()
k E [V (m, N)] Z ∑ E [V (k, Z)] m kRm
()( ) N
m
1K
Z
Z
N
m
1K
Z
Z
N
() k m
kKm
.
Z
For the Yule-Simon model, the expressions for the spectrum and the vocabulary size can be simplified to E [V (m, N)] Z E [V (Z)] β N
∫ (N / Z C x)
x
mC1
0
E [V (N)] Z E[V (Z)] β N
N/N
()
m
N Z
β
(1 C x)
dx,
[
Z E [V (Z)] β K
NN Z
∫ (N / Z C x) (1 C x) 1
0
1
1
β K 1 (1 C x) βK1
S z E [V (Z)]
β βK1
Z
1
β
while for β Y 1, the population number of types approaches infinity. For 0 ! ß ! 1, we also have that
[
]
(1 C x)1Kβ 1Kβ
N
Z N. 0
Evert (2004) developed an LNRE model for the Zipf-Mandelbrot law that is computationally very attractive compared to the Yule-Simon LNRE model. For all LNRE models, the covariance of two spectrum elements is COV [V (m, N), V (k, N)] Z Z I[mZk] E [V (m, N)] 1 mCk E [V (m C k, 2 N)], K mCk m 2
( )
Z β log ((Z / N) max (m))
,
(22)
the variance of the vocabulary size is given by
0
Here, E [V (Z)], the vocabulary at the pivotal sample size Z, can be either be estimated by
{
,
0
(23)
and the covariance of V (N) and V (m, N) equals
dx.
R (m, k, r) Z
N
,
VAR [V (N)] Z VAR [S K V (0, N)] Z E [V (2 N)] K E [V (N)],
N
∫ (N / Z C x) (1 C x)
E [V (Z)] Z
]
β
we have that for ß O1,
Sz
()( ) N
S Z lim E [V (Z)] β
kKm
∑ E [V (Z)]α (m, Z, α, β, γ)
kRm
in the population depends on the value of ß and Z. The larger Z, the larger S will be. Turning to ß, as
COV [V (m, N), V (N)] Z
1 2m
E [V (m, 2 N)].
The covariance matrix, R (m, k, r),
VAR [V (N)] COV [V (N), V (k, N)]
if m Z k Z 0 if m Z 0; k Z 1, 2, ., r
COV [V (m, N), V (N)]
if m Z1, 2, ., r; k Z 0
(25)
COV [V (m, N), V (k, N)] if m, k Z 1, 2, ., r
(21)
or it can be viewed as the third parameter of the model. The number of different types
can be used to gauge the goodness of fit of a model to the data. If the vector o of observed values {V (N), V (m, N), m Z 1 ..., r} is N (µ, R)-distributed, with µ the vector of corresponding expectations, then, given a
dx
402
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
model with a free parameters, and defining e Z o K µ, X 2 Z e T R (m, k, r)K1 e,
(26)
2 -distributed. X(rC1Ka)
Note that the often is applied standard chi-squared test, with X2 Z
h
(V (m, N) K E [V (m, N)])2
mZ1
E [V (m, N)]
∑
(V (h C, N) K E [V (h C, N)])2 C
E [V (h C, N)]
,
(27)
h
with V (h C, N) Z V K ∑ V (m, N), is not mZ1
applicable, as the spectrum elements and the vocabulary size have very different variances. There are no closed-form expressions for the estimation of the parameters of LNRE models. For the GIGP with γ fixed at K0.5 a-priori, maximum-likelihood estimators are available. For the full GIGP with γ free, maximum likelihood methods have been combined with iterative approximation methods (Stein/Zucchini/Juritz 1987, Heller 1997). Alternatively, downhill simplex minimization (Nelder/Mead 1965) has been found to be a simple and reliable means for parameter estimation as well, especially so for the Yule-Simon models, for which no maximum likelihood estimators are available. A useful cost function that is computationally less demanding than (26) is the mean squared error using the first h spectrum elements: MSE (h) Z 1 Z ({V (N) K E [V (N)]}2 hC2 h
C ∑ {V (m, N) K E [V (m, N)]}2 mZ1
C {V (h, N) K E[V (h C, N)]}2).
(28)
3.2. LNRE Mixture models Not all word frequency distributions can be captured by one of the three LNRE models summarized above K a single distribution may not be enough to deal with the observed data. In such cases, mixture distributions are called for. We consider the case of a mixture of two component distributions. E [V (m, N)] Z E1 [V (m, p N)] C E2 [V (m, (1 K p) N)].
tribution. Let the first distribution, henceforth the base distribution, have parameters Z1, a1, and b1, and let the second distribution, henceforth the complement distribution, have parameters Z2, a2, and b2. Assuming that pN tokens have been sampled from the first distribution, and that (1 K p) N tokens come from the second distribution, we have for the expectation of V(m, N) that E [V (m, N)] Z Z E [V (m, pN) K {Z1, a1, b1} C V (m, (1 K p) N) K {Z2, a2, b2}] Z1 Z pE V (m, N) , a1, b1 C (1 K p) p Z2 , a2, b2 , E V (m, N) (30) 1Kp
[ [
}]
}]
as it can be shown that for any LNRE model, E [V (m, p N) K {Z, ...}] Z
[
|{ }]
Z p E V (m, N)
Z , ... p
,
(31)
which implies that the expected spectrum is linear in p with respect to N and Z. The expectation of the vocabulary size is E [V (N)] Z Z E [V (pN) K {Z1, a1, b1} C V ((1 K p) N) K {Z2, a2, b2}] Z1 , a1, b1 C (1 K p) Z pE V (N) p Z2 , a2, b2 . (32) E V (N) 1Kp
[ |{ [ |{
}]
}]
Variances and covariances of the mixture model can be expressed as the sums of variances and covariances of the components. All these expressions generalize to mixtures of more than two component distributions. The population number of types in a mixture with L components, each with a population number of types Si, equals lim E [V (N)] Z N/N
L
Z lim
∑ E [V (pi N) K {Zi, ...}]
N/N iZ1 L
Z
lim E ∑ pi N/N iZ1
Z
∑ Si. iZ1
(29)
In (29), p is the mixing parameter, the proportion of the data coming from the first dis-
|{ |{
[ |{ }] V (N)
Zi , ... pi
L
(33)
30. Word frequency distributions
403
Fig. 30.3: The first fifteen spectrum elements (top panels) and spectrum elements m Z 16, 17, ..., 100 (bottom panels) of the frequency distribution of the Dutch suffix -heid (‘-ness’) with a simple GIGP fit (left panels) and a lognormal-GlGP mixture fit (right panels)
It can be shown that (33) holds *for all three kinds of LNRE component distributions. Figure 30.3 illustrates the advantages of a mixture model analysis for the word frequency distribution of the Dutch suffix -heid, which, like -ness in English, is used to create abstract nouns from adjectives (e. g., overbelastheid, ‘overtaxedness’). The left panels show the best fit that can be obtained with the simple GIGP model (Z Z 99.7229, b Z 0.0184, γ Z K0.5099, X 2(13) Z 221.87, p ! 0.0000). The spectrum elements 2, 3, and 4 are overestimated, while for m Z 30, ..., 60 we observe underestimation. By mixing a lognormal distribution and a GIGP distribution, with the lognormal model accounting for 96 % of the tokens, we obtain a much improved fit. The solid lines in the right panels shows that the overestimation error for small m and the underestimation bias for large m are eliminated. The dotted lines represent the GIGP mixture component, the dashed lines represent the lognormal component. Note that the lognormal component accounts mainly for the higher-
frequency words, while the low-frequency words are primarily captured by the GIGP component. The two components probably represent two different kinds of words in -heid, formations for terms (the LOGNORMAL component) and formations with a discourse anaphoric function only (the GIGP component) (Baayen/Neijt 1997). 3.3. Adjusted LNRE models Figure 30.4 illustrates a phenomenon typically observed for word frequency distributions of coherent texts. Even though the spectrum for the full sample may have been fitted with reasonable accuracy, the interpolated values of the vocabulary size (upper line) and the spectrum elements (the lower three lines represent E [V (m, N)] for m Z 1, 2, 3) often overestimate the empirical values (represented by dots). This overestimation bias is due to the randomness assumption being violated. Words do not occur randomly and independently in texts. Instead of being uniformly distributed
404
VI. Gebiete und Phänomene: Text / Fields and phenomena: text K
(V (N) K Epart [V (N)])2
kZ1
K
MSE Z ∑
Fig. 30.4: Overestimation for interpolated vocabulary size and spectrum for AIW using the Yule-Simon LNRE model.
through the text, words occur in clusters due to local topical cohesion. When the underdispersed words are removed from the text, the overestimation bias disappears. The linguistic level at which the overestimation bias arises can be traced to that of the discourse. Randomization of the words in their sentences without changing the order of the sentences does not affect the overestimation bias, while leaving the sentences unchanged while permuting the order of the sentences eliminates the overestimation bias. There are two ways in which the effects of non-randomness in word use can be incorporated in the LNRE framework. One possibility is to partition the vocabulary into specialized, underdispersed words on the one hand, and into non-specialized, uniformly distributed words on the other hand (Hubert/Labbe 1988). Let p denote the proportion of specialized words, and assume that the specialized word types occur with a uniform distribution in the text. For partition-adjusted LNRE models, the expected vocabulary size and spectrum elements can be expressed as Epart [V (N)] Z p
N N0
N
ELNRE [V (m, N0)]
N0 C (1 K p) ELNRE [V (m, N)].
E [V (N)] Z Z
(
Z (N) max (m)
Z (N)
N log (N / Z (N)).
C (1 K p) ELNRE [V (N)], Epart [V (m, N)] Z p
The main disadvantage of partition-based adjustment is that it is often not the case that specialized word types are uniformly distributed in the text. When p is estimated for progressively larger text chunks, one tends to find that p varies systematically with N, becoming either larger or smaller. Not surprisingly, for texts in which specialized word types occur in clusters, extrapolation results may be somewhat less accurate. Nevertheless, both interpolation and extrapolation accuracy can be increased substantially by partition-based adjustment (Baayen/Tweedie 1998a), as illustrated for AIW in Figure 30.5. Even though the fit of the GIGP model to the spectrum of the first half of AIW is excellent (X 2(13) Z 15.31, p Z 0.2885), E [V (N)] and E [V(1, N)] are overestimated when interpolating and underestimated when extrapolating (dotted lines). By means of partition adjustment with p Z 0.17, we can largely eliminate this interpolation overestimation bias. However, due to the non-random way in which the vocabulary develops in the second half of the novel, extrapolation leads to a small overestimation for the vocabulary size and to a large overestimation for the number of hapax legomena. The second way in which we can adjust for the non-random development of vocabulary structure through the text is to adjust the parameters of the lnre models themselves (Baayen/Tweedie 1998b). The two models that lend themselves to this approach are the YULE-SlMON model with ß fixed at unity a priori, and the GIGP model with γ fixed at K0.5 a priori. In the case of the Yule-Simon with ß Z 1, the expected vocabulary size is estimated by
log
ELNRE [V (N0)]
(34)
The partition parameter p can be estimated by minimization of the mean squared error
(35)
)
N N K Z (N) (36)
By fitting the model to a sequence of ink creasing sample sizes (Nk Z N, k Z 1, K 2, ..., K) we can gauge the extent to which the single parameter of this model, Z, has to be adjusted for non-randomness in word
405
30. Word frequency distributions
use. This is shown for AIW in the left panel of Figure 30.6. The development of Z as a function of N can be captured reasonably well by a power function Z (N) Z 625.45 N 0.2883. By using this power function as a link function, we obtain a parameteradjusted model for which Eparam [V (N)] Z Z log
(
a1 N a2C1 max (m) N 1
1 K a1 N a2K1
)
a 1 N a2
log
( ) N1Ka2 a1
.
(37)
model has improved considerably compared to that of the partition-adjusted model illustrated in Figure 30.5. Importantly, the extrapolation accuracy for Eparam [V (N)] is better than for E [V (N)], and Eparam [V (1, N)] is right on target as opposed to E [V (1, N)]. The parameter Z of the GIGP model can likewise be adjusted once γ is set to K0.5 a priori, in which case b can be expressed analytically as a function of Z. Finally note that although parameter-based adjustment primarily adapts LNRE models for non-randomness in word use, it may simultaneously also compensate for systematic estimation error due to a lack of goodness of fit of the model.
4.
Traditional approaches to word frequency distributions
Traditionally, word frequency distributions have been analyzed in two ways: by means of summary statistics, and by means of simple curve fitting.
Fig. 30.5: Interpolation and extrapolation accuracy from N Z 13176 for AIW using the GIGP model (Z Z 53.1627, b Z 0.0265, 7 Z K0.6158, without partition adjustment (dotted line) and with partition adjustment (solid line, p Z 0.17).
As shown in the right panel of Figure 30.6, the extrapolation accuracy of this adjusted
4.1. Summary measures A great many proposals have been put forward for summary measures characterizing word frequency distributions by means of point statistics that are supposedly invariable with respect to N. The survey of (Tweedie/Baaven 1998; Hoover 2003) shows that these constants fall. Most lexical constants measure aspects of vocabulary richness. None is truly independent of N. For instance, Guiraud’s R (Guiraud 1954), RZ
V (N) ON
,
(40)
Fig. 30.6: The developmental profile for Z as a function of N with a power fit (left panel), and the parameter-adjusted Yule-Simon model with ß Z 1 interpolating and extrapolating from the first half of AIW.
406
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
Fig. 30.7: Fitted values and residual plot for Herdan’s C for AIW (left panel) and R (N) Z E [(N)] / ON as a function of N for the Yule-Simon model with ß Z 1 and Z Z 13451.34.
typically reveals the curvature exemplified in the right panel of Figure 30.7. According to R, the vocabulary size would be proportional to the square root of the text length, V (N) Z RON, a gross simplification. Herdan’s C (Herdan 1960), CZ
log V (N) log N
,
(41)
is based on the observation that the growth curve of the vocabulary tends to resemble a straight line in the double logarithmic plane, but a plot of residuals against fitted values (the left panel of Figure 30.7) shows that the vocabulary size is not a simple power function of N. Monte Carlo simulations show that the non-constancy of measures such as R and C remains even after elimination of the effects of non-randomness in word use.
(Zipf 1935, 1949) which was enriched by (Mandelbrot 1953) with a second free parameter to account for the downward curvature observable for the highest ranks: f (z) Z
C (z C b)a
V (m, N) Z ∑ I [f (i, N) R m] K ∑ I [f (i, N) R mC1] i
() [ m C
f (z) Z
C za
,
(42)
(43)
Given a distribution characterized by (43), the corresponding frequency spectrum can be obtained by considering two consecutive ranks z1 and z2 such that f (z1) Z m C 1 and f (z2) Z m, m O 0. Moreover, let z1 and z2 be the ranks with the highest values for which the frequencies m C 1 and m are observed, respectively. Under these assumptions,
Z 4.2. Power modeis Power models (cf. art. no. 70) have played an important role in characterizing word frequency distributions. When words are ranked according to decreasing frequency, the frequencies f (z) of words ωi with rank z can be plotted against z in the double logarithmic plane, as shown for aiw in the left panel of Figure 30.8. The result is a curve approaching a straight line. A straight line is predicted by Zipf s law,
.
Z CKa
i
a
KBK
C
a
CB
1
1
m
( ) mC1
K Ka
(m C 1)Ka
]
.
(44)
Equation (17) can be reduced to the same from by choosing α Z β Z 1 and γZ1 / α. Since the shape of the rank-frequency distribution changes with N, the parameters of the Zipf and Zipf-Mandelbrot rank models are not sample-size invariant characteristic constants. Instead, they describe the frequency distribution for one particular sample size only. The power model has also been applied to the frequency spectrum itself. When the
407
30. Word frequency distributions
Fig. 30.8: The rank-frequency distribution (upper left) and the frequency spectrum (upper right) for AIW plotted in the double-logarithmic plane. The lower left panel shows a modified power fit to the first 15 spectrum elements of AIW, the lower right panel shows the smoothed frequency spectrum in the double logarithmic plane with the same mode-fied power fit.
spectrum is plotted in the double logarithmic plane, a pattern again resembling a straight line emerges, as shown in the right panel of Figure 30.8 for aiw. For the higher frequencies m, a discretization problem occurs: frequencies are integer-valued even though word probabilities are real-valued. This problem can be avoided by using smoothing (Church/Gale 1991):
Vr (m, N) Z
{
V (1, N) if m Z 1 2V(m, N) if 1! m (45) mfKmp !max (m), 2V(m, N) if m Z max (m), 2mKmp
with mp and mf the frequencies immediately preceding and following m for which the inequality holds that V (m, N) O 0. As show in the bottom right panel of Figure 30.8, the smoothed spectrum is scattered around a fairly straight line. However, especially the lowest frequencies m Z 1, 2, ... tend to have slightly lower values than predicted by a
power model. This divergence can be captured by modifying the power model with a convergence factor (Naranan/Balasubrahmanyan 1998): Vs (m, N) Z
CeKµ / m mγ
,
(46)
The bottom left panel shows the fit of this model to the first 15 spectrum elements of aiw, and the solid line in the bottom right panel shows that the model also captures the complete spectrum quite well. Power models have received considerable attention in the literature because various rationales can be formulated for the exponential form using information theory (Mandelbrot 1953, Naranan/Balasubrahmanyan 1998) or Markov models and stochastic process theory (Miller 1957, Mandelbrot 1962, Simon 1955). The Markovian rationales have the advantage of relating word frequency to other correlated variables such as word length (more frequent words are shorter), lexical density (higher-frequency
408
VI. Gebiete und Phänomene: Text / Fields and phenomena: text
words are found in more densely populated areas of similarity space), and number of meanings. The Markovian approach, however, underestimates the extent to which existing words are re-used in actual language. This observation has led to the formulation of a hybrid model combining Simon’s stochastic birth and death process with a Markovian generator of new words (Baayen 1991). A synergetic account of the correlational system in which word frequency is embedded is (Köhler 1986). The main weakness of theories that posit (modified) power models for word frequency distributions is the failure to take into account in a principled way the dependence of the parameters on the sample size. Although (Naranan/Balasubrahmanyan 1998, 37) claim that their modified power model is invariant with respect to the sample size, this claim cannot be maintained upon closer examination (Baayen 2001). For smaller and larger sample sizes, the parameters require systematic adjustment for accurate fits to be obtained. The development of an lnre extension for modified power models awaits further research.
5.
Literature (a selection)
Baayen, R. Harald (1991), A stochastic process for word frequency distributions. In: Proceedings of the 29th annual meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Berkeley, 271K278. Baayen, R. Harald (2001), Word Frequency Distributions. Dordrecht: Kluwer Academic Publishers. Baayen, R. Harald/Neijt, Anneke (1997), Productivity in context: a case study of a Dutch suffix. In: Linguistics 35, 565K587. Baayen, R. Harald/Tweedie, Fiona J. (1998a), Enhancing LNRE models with partition-based adjustment. In: Proceedings of JADT 1998, Universite Nice Sophia Antipolis, Nice, 29K37. Baayen, R. Harald/Tweedie, FionaJ. (1998b), Sample-size invariance of LNRE model parameters: problems and opportunities. In: Journal of Quantitative Linguistics 5, 145K154. Carroll, John B. (1967), On sampling from a lognormal model of word frequency distribution. In: Computational Analysis of Present-Day American English, (eds. H. Kucera/W. N. Francis). Providence: Brown University Press, 406K424. Chitashvili, Revas J./Baayen, R. Harald (1993), Word frequency distributions. In: Quantitative Text Analysis, (eds. G. Altmann/L. Hfebicek). Trier: Wissenschaftlicher Verlag Trier, 54K135.
Chitashvili, Revas J./Khmaladze, E. V. (1989), Statistical analysis of large number of rare events and related problems. In: Transactions of the Tbilisi Mathematical Institute 92, 196K245. Church, Kenneth/Gale, William (1991), A comparison of the enhanced Good-Turing and deleted estimation methods for estimating probabilities of English bigrams. In: Computer Speech and Language 5, 19K54. Efron, Brad/Thisted, Ronald A. (1976), Estimating the number of unseen species: How many words did Shakespeare know? In: Biometrika 63, 435K447. Evert, Stefan (2004), A simple LNRE model for random character sequences. In: Le poids des hots, (eds. Gérald Purnelle/Cédrick Fairon/Anne Dister). Louvain la Neuve: Presses Universitaire de Louvain; 411K422. Good, I. J. (1953), The population frequencies of species and the estimation of population parameters. In: Biometrika 40, 237K264. Good, I. J./Toulmin, G. H. (1956), The number of new species and the increase in population coverage, when a sample is increased. In: Biometrika 43, 45K63. Guiraud, H. (1954), Les Caracteres Statistiques du Vocabulaire. Paris: Presses Universitäres de France. Heller, G. Z. (1997), Estimation of the number of classes. In: South African Statistical Journal 31, 65K90. Herdan, G. (1960), Type-Token Mathematics. The Hague: Mouton. Hoover, David (2003), Another perspective on vocabulary richness. In: Computers and the Humanities 37, 151K178. Hubert, Pierre/Labbe, Dominique (1988), A model of vocabulary partition. In: Literary and Linguistic Computing 3, 223K225. Khmaladze, Estate V. (1987), The statistical analysis of large number of rare events. In: Technical Report Report MS-R8804, Dept. of Mathematical Statistics, CWI. Amsterdam: Center for Mathematics and Computer Science. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum, Brockmeyer. Mandelbrot, Benoit (1953), An information theory of the statistical structure of language. In: Communication theory, (ed. W. E. Jackson). New York: Academic Press, 503K512. Mandelbrot, Benoit (1962), On the theory of word frequencies and on related markovian models of discourse. In: Structure of Language and its Mathematical Aspects, (ed. R. Jakobson). Providence, Phode Island: American Mathmatical Society, 190K219. Miller, George A. (1957), Some effects of intermittent silence. In: The American Journal of Psychology 52, 311K314.
30. Word frequency distributions Naranan, S. and Balasubrahmanyan, V. (1998), Models for power law relations in linguistics and information science. In: Journal of Quantitative Linguistics 5, 35K61. Nelder, J. A. and Mead, R. (1965), A simplex method for function minimization. In: Computer Journal 7, 308K313. Orlov, Juri K. (1983), Dynamik der Häufigkeitsstrukturen. In: Studies on Zipf’s Law. (eds. H. Guiter/M. V. Arapov). Bochum: Brockmeyer, 116K153. Sichel, H. S. (1986), Word frequency distributions and type-token characteristics. In: Mathematical Scientist 11,45K72. Simon, Hesert A. (1955), On a class of skew distribution functions. In: Biometrika 42,435K440. Stein, G. Z./Zucchini, W./Juritz, J. (1987), Parameter estimation for the Sichel distribution and its
409 multivariate extension. In: Journal of the American Statistical Association 82, 938K944. Tweedie, Fiona J./Baayen, R. Harald (1998), How variable may a constant be? Measures of lexical richness in perspective. In: Computers and the Humanities 32, 323K352. Yule, G. U. (1944), The Statistical Study of Literary Vocabulary. Cambridge: Cambridge University Press. Zipf, George K. (1935), The Psycho-Biology of Language. Boston: Houghton Mifflin. Zipf, George K. (1949), Human Behavior and the Principle of the Least Effort. An Introduction to Human Ecology. New York: Hafner.
R. Harald Baayen, Nijmegen (The Netherlands)
VII. Gebiete und Phänomene: Semantik und Pragmatik / Fields and phenomena: semantics and pragmatics 31. Catastrophe theoretical models in semantics 1. 2.
6.
Theoretical background Lexical semantics of verbs based on catastrophe theory The semantics of nouns, nominal compounds and noun phrases The dynamical nature of quasi-logical relations in phrases and sentences Predication and syntax based on catastrophe theory Literature (a selection)
1.
Theoretical background
3. 4. 5.
A catastrophe is a type of instability in a simple dynamic system whose unfolding (Z evolution) is structurally stable. Examples of commonly experienced catastrophes are sudden changes in a real system, e. g. switches between two states in a buckling plate or the breakdown of stability as in a bridge which collapses. These physical models show the direction for more abstract models as in the case of language (cf. Wildgen 1990). 1.1. Order phenomena in the ecology of man In the ecological niche of man different types of order vs. disorder can appear. (1) Real systems are in equilibrium. It is the best scenario for the purpose of scientific modelling. Unfortunately, systems in perfect equilibrium are rare (the planetary system, for example, which is one of the archetypes of human model making). (2) Real systems are in transient equilibrium (far from thermodynamic equilibrium). All living systems in equilibrium are at this or a higher level of dynamic organization. (3) Real systems are often locally ordered but globally chaotic, i. e. minimal perturbations of the system may grow stronger instead of being absorbed. A prototypical example of a system in equilibrium and of transitions between different phases in a state-space defined by several equilibria is given by a physical system with one or few components. The American physi-
cist Josiah Willard Gibbs (1839K1903) formulated a basic law of thermodynamic equilibrium for such systems (in 1878) which is called the phase rule of thermodynamics. If we consider a physical or chemical system, a phase is a domain of homogeneity in the system which can be distinguished from other domains. In a more general way every natural system can have such phases or states not altered by small changes in parameters. The phase is a locus of macroscopic stability. A physical system (any system) consists of a number of components which are assumed to be independent of each other. Finally, there are a number of parameters which govern the behaviour of the system, e. g. temperature and pressure. These parameters are macroscopic forces. Thus temperature is a macroscopic measure relative to the motion of the atoms and molecules. Gibbs’ law, which is called the phase rule, is a very simple equation: First rule (Gibbs’ phase rule): P C F Z C C 2.
(1)
P Z number of phases; C Z number of components, F Z degree of freedom; i. e. the number of macroscopic parameters, which may be changed in the phase. The system is simultaneously near all phases, if F Z 0; this means that in a system with one component (C Z 1) the maximal number of coexisting phases is: P C 0 Z 1 C 2 or P Z3. With two components (C Z 2) the maximal number of phases is P Z 4. This type of law is independent of the specific organization of the systems at the microscopic level and it is therefore the type of law needed in semantics, where microscopic behaviour (e. g. at the level of the neurones) is not known. 1.2. Transitions between equilibrium phases and semantic schemata The analysis of sensory inputs (I shall primarily consider vision here, but similar methods can be applied to audition) consists of serioparallel mappings from a basically three-dimensional input which enables a
411
31. Catastrophe theoretical models in semantics
very precise control of activity in space and time. The basic problem in the transition between perception K cognition K motor control is the proper mapping from one internal representation to the other. The mapping must conserve basic topological and dynamic characteristics and can forget metrical details, variations of a type of object or event. Therefore, the problem of a structurally stable mapping lies at the heart of every theory of representation and of semantics. The crucial result in this field is the theorem of Whitney. Whitney’s theorem (for mappings from plane to plane) says that locally (in the environment of a point) we can only find three types of points (all other types become identical to these if perturbed):
assumptions concerning the behaviour in the neighbourhood of the catastrophic jump. For this purpose two basic conventions are introduced, which mirror the behaviour of very rigid, conservative systems (delay convention) as opposed to very nervous systems (Maxwell convention). In the present context it is important to note the basic difference between static stability and process stability. (a) Static stability and the unstable points in its neighbourhood. The prototypical (local) systems are the potential functions: V Z x2
(2)
(one can add more quadratic terms and constants), and the dual of this function:
(a) regular points (Morse-points); they do not qualitatively change under perturbation; we may say that they have a static identity (of self-regulation), (b) fold-points (a frontier line between a stable and an unstable domain appears), (c) cusp-points (two stable attractors are in conflict and one of them may appear or disappear).
V Z K x2;
(3)
it is the prototype of an unstable singularity. Figure 31.1. shows the two dynamical systems and as analogues two physical systems (pendulums with damping). V
Thom and Mather’s classification expands this list; Table 31.1. shows the name of the singularity, the germ in mathematical terms, the number of internal or state variables (the corank) and the number of external or behaviour variables in the unfolding of the singularity (the codimension); the type refers to a general classification of the Weyl groups Ak, Dk and Ek (cf. Arnold 1972). This list follows from the classification theorem, if only simple singularities (in the sense of Arnold’s definition) with up to codimension 4 are considered. The cusp and butterfly catastrophes are central for most of the applications. In order to specify the dynamic behaviour in one of these models, it is necessary to make further
pendulum
V x
x pendulum attractor
repellor
Fig. 31.1: Basic dynamical systems
(b) Process stability. Most dynamical systems are not structurally stable, they degenerate under small perturbations. Nevertheless, they can, under specific conditions, have a stable evolution called unfolding. These special cases can be called highly ordered instabilities or catastrophes. The measure of de-
Table 31.1: The list of elementary catastrophes Name fold cusp swallow tail butterfly hyperbolic umbilic elliptic umbilic parabolic umbilic
Germ 3
x x4 x5 x6 x2y Cy3 x2y K y3 x2y C y4
Corank
Codimension
Type
1 1 1 1 2 2 2
1 2 3 4 3 3 4
A2 A3 A4 A5 DC4 DK4 D5
412
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
generacy is given by the minimum number of unfolding parameters, it is called the codimension. Figure 31.2. shows the conflict lines for three (compact) unfoldings of the Ak-family called the cusp (A3), the butterfly (A5) and the star (A7). Every regime Ri has, locally, the form of a stable attractor (V Z x2), the lines are transitions or conflict lines. simple frontier
R1
R2
triple point
quartic point
R2
R2
R1
R3
R1
R3 R4
cusp
butterfly
star
Fig. 31.2: Configurations of conflict
2.
Lexical semantics of verbs based on catastrophe theory
2.1. Basic propositional schemata and semantic roles The basic idea in Thom’s semiotic writings was to link Tesnie`re’s hypothesis of the dynamical nature of verb valencies and the classification theorem of catastrophe theory. Tesnie`re considered the maximal valence of
verbs to be three (with a fourth actant in the causative construction). This corresponds with Gibbs’ law and the maximal number of attractors in the family of cuspoı¨des Ak (A2, A3, A4, A5). The number of attractors is k smaller than C 1; for k Z 5, it is smaller 2 5 than C 1 ! 4; i. e. O 3, and it corresponds 2 to the number of phases in Gibbs’ law (P C 0 Z 1 C 2). In the case of corank Z 2, which corresponds to Gibbs’ number of components C, we get the maximal set of coexistent phases (attractors in catastrophe theory): P C 0 Z 2 C 2; P Z 4. It can be shown (cf. Wildgen 1985, 204K218) that the compactified elliptic umbilic (DK4) has four attractors and that the schema of transfer can be derived from it. The basic morphologies furnished by elementary catastrophe theory (cf. table 31.1.) can be interpreted as a universal set of perceived or enacted situational schemata, which are exploited by human languages as minimal scenarios for utterances. A further mathematical notion must be informally introduced: the linear path in an elementary unfolding (this aspect has been elaborated in Wildgen (1982) and in more detail in Wildgen (1985)). If we consider linear paths in an unfolding, i. e. in the phase spaces sketched in Figure 31.2., we can clas-
Fig. 31.3: The derivation of archetypal diagrams from the “cusp”
413
31. Catastrophe theoretical models in semantics
sify types of processes. In this article only the most basic types will be used. In Figure 31.3. the schemata called emission, capture and (bimodal) change are derived from the catastrophe set (set of extrema) of the cusp. (The diagrammatic simplification eliminates the lines of (unstable) maxima, the circles symbolize the bifurcation points (type ‘fold’: V Z x3)). The basic scenarios are processes in the cusp (A3), in the butterfly (A5) and in the elliptic umbilic (DK4). On this basis René Thom formulated his conjecture (after 1968; cf. the (English) chapters 10 to 13 in Thom 1983):
Thom’s conjecture Given a dynamic situation the analysis of structural stability cuts out pieces of the continuous process: a. b.
in the neighbourhood of singularities (catastrophes), these segments have a maximum complexity of 3 (with one component) or 4 (with two components).
If we consider Thom’s conjecture and the list of process schemata derived from elementary catastrophes, we come to the following assumptions: (1) A finite (small) list of formal process scenarios is derived by considering states, continuous processes, and transitions/changes along linear paths in elementary catastrophes. (2) The static stable points, lines and surfaces are interpreted cognitively as mental attractors and linguistically as nominal entities, specifically nominal roles in minimal sentences. The stable process types of events are interpreted cognitively as mental scenarios and linguistically as predicative centres of minimal sentences. (3) The control space of the dynamic model is interpreted in an ordered but multiple manner as: temporal control, spatial control, control of an agent system (cf. Wildgen 1994, chapter 5 for further detail). In the next section I consider the embodiment of these and the internal schemata in perception and motor-control (integrating ideas from synergetic and ecological psychology; cf. Haken 1996 and Kelso 1997).
2.2. The lexicon of verbs The lexicon of verbs with its valence patterns and selectional restrictions is in many languages a very systematically organized field, and the starting point of every model of the sentence is the main verb of the sentence. If the basic problem of verb valence, i. e. of the gestalt patterns represented by verbs is solved, then the question of the meaning of sentences can in principle also be solved. A proper starting point is the description of the perceiving-acting cycle at a macroscopic level. This macroscopic cycle is on the one hand slaved by the basic laws of biomechanics, on the other hand controlled by higher cognitive activities such as semantic categorization (recently similar aspects of cognition and language have beeen treated in a volume edited by Port/van Gelder (1995)). 2.2.1. Process semantics of the verbs of bodily motion If we consider simple movements with one or two limbs and look for analogies in physical mechanics, we find the elastic pendulum and the double pendulum. The peripheral mechanism of a muscular system controlling the movement of the limb may be compared to a damped oscillator of the kind given by the elastic pendulum. This means the higher (e. g. cerebral) controls only specify this peripheral system and do not govern it in detail. The dynamical system of the human leg is comparable to a double pendulum (strongly damped and with restricted domains of freedom). double pendulum
movement of a human leg
Fig. 31.4: The motion of a double pendulum and of a human leg
If a person performs a locomotion which is composed of a number of limb motions two levels can be distinguished: (a) The rhythm of the composed movements, which is a code for the categorical perception of moving agents. (b) The overall Gestalt of the movement. In the case of a simple locomotion the
414
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
coarse topology of locomotion has three phases: A Loss of position of rest, beginning of motion B Steady motion C Gain of a new position of rest, end of locomotion. The steady motion in phase B is the basic schema, which underlies the semantics of simple verbs of locomotion like go, run, or drive. These have been traditionally characterized as durative. Instabilities of a simple type can be added to the basic schema using different types of information: (a) Intrinsic information contained in the background schema of communication; it divides the space into the field of the speaker and the listener, with a boundary between them. The continuous locomotion can enter the field of the speaker or leave it. The prototypical realizations of this schema are:
2.2.2. Process semantics of the verbs of action by one agent In the prototypical situation there is one who acts on an entity which has a lesser degree of agency such as: matter, solid objects, living beings dominated by the agent. We can distinguish three major aspects: (a) The configurational aspect. This aspect only concerns the spatio-temporal relationship, the topologico-dynamic connectivity in the scene. (b) The energetic aspect. Here the forces controlling the process, the irreversible path of an effect by an agent, are considered. (c) The intentional aspect. The direction of the energy of an agent towards some global goal is experienced by the (human) agent as an intention which either reaches or fails to reach its goal. In our framework, intentionality is a subjective interpretation of the energetic aspect.
C comes (towards the speaker) C goes (away) (away from the speaker)
One can distinguish two main groups of verbs at this level of control (cf. Ballmer/ Brennenstuhl 1986):
(b) Extrinsic information given in the utterance or by the context of the utterance, as in:
(a) The creation, the destruction and the regeneration of entities
John enters (the house) John leaves (the house) In both cases the underlying topological schema contains an instability of the type derived from the fold-catastrophe (A3). The position of rest is reached if the boundary of the given zone is crossed. The process of locomotion of a body may involve an implicit or explicit boundary and an orientation of the process relative to this boundary; this defines a goal and introduces a kind of intentionality. The path towards the goal can be complicated by the introduction of intermediate forces. We find two fundamental types of intermediate forces in linguistic scenarios: (1) Instrumental mediators. They modify the mode and the reach of our locomotion (compare: by foot, car, plane etc.). (2) Causation. Causation is a mediation which includes the control of other agents or of natural processes. The cognitive schemata that have been classified here are not only relevant for the lexicon of verbs, they also form the cognitive basis for causative constructions.
This first group clearly mirrors the fundamental schemata of emission and capture derived in catastrophe theoretic semantics from the cusp (AC3) (see Wildgen 1982, 42K45 and 1985, 118K136). The verbal frames can take one or two nominal roles, as the following examples show: The incorporation of features pertaining to the created/observed object into the verb is Alan tells a story Charles eats the soup M1 M2 M1 M2 Doris sews (a dress) Fritz reads (texts) M1 M1 a very general procedure. A converse strategy chooses a semantically poor verb such as make and combines it with a noun specifying the product. The subtype called regeneration by Ballmer/Brennenstuhl (1986) suggests a space of qualities (qualia). The objects involved appear in different qualitative phases. In many cases the quality space has two (or in rarer cases three) stable phases. The symmetry between the two modes is normally broken and one pole is marked. The process called regeneration is given by a
415
31. Catastrophe theoretical models in semantics
path in a control space with two conflicting states. The general model for this situation is the unfolding of the singularity called cusp (V Z x4 C ux2 C vx). This is illustrated by the analysis of some typical verbs:
The asymmetry between agent and nonagent becomes more pronounced in this group of verbs and the energetic/intentional aspect is in the foreground. The mechanical analogues are:
(a) to distort, to bend scale: straight / twisted, crooked (b) to clean scale: dirty / clean, neat If we assume a linear space with two poles we can describe the process contained in the two verbs above in the way shown in Figure 31.5. The curved surface above describes the states of stability and instability (the attractors and the repellors of the system). Only the stable states (on the main surface) can be observed and denominated. The process makes a catastrophic jump from one partial surface to another (e. g. from dirty to clean). The contours of the different surfaces are projected beneath on a plane called the bifurcation plane. These surfaces and curves can be calculated; the corresponding equations are: 4x3 C 2ux C v Z 0: The set (4) of critical points in the cusp (Z first partial derivative of V Z x4 C ux2 C vx to x: dV/dx Z V#Z 0) K27 v2 C 8u3 Z 0: The bifurcation set of the cusp
(5)
(obtained by the elimination of x in the equations V Z 0 and V#Z 0)
dirty
sur fac eo f st ab le s tat es
catastrophic jump le unstasb state
clean bifurcation plane
Fig. 31.5: A catastrophe model of regeneration and deterioration
(b) The effect of an agent on the state of entities in its environment.
(a) Punctual transfer between two pendulums A and B. A gives its impulse to B. (b) The two pendulums are dynamically coupled; the coupling can be either rigid or elastic. If A and B are rigid bodies, then (a) stands for a chain of causes and (b) for a system of coupled causes. The following sentences exemplify processes of type (a) and (b); many types of complex propulsion use a series of mechanical couplings whereby an initial force giver can cause the final locomotion. (a) punctual transfer The player kicks the ball The man pushes the chair The girl throws the ball (b) rhythmic coupling The sexton tolls the bell The man pushes the rocking chair The transfer of energy / intentional direction from the agent to the object can be either isolated (as in kick), repeated (as in toll) or continuous (as in throw). In a similar way the object can change its shape and even its qualities. Thus if we introduce a quality space we obtain a very rich field of actions on objects which can be labelled and organized in the verbal lexicon. 2.2.3. Process semantics of the verbs referring to the interaction of agents The level of interaction between human agents cannot be strictly separated from the level of movement or manipulation of objects. Expanding these domains results in a higher level of organization with specific controls on the co-ordination of several agents. What calls for explanation is the almost unlikely stability and constancy of patterns of interaction in a domain which has so many degrees of freedom. An initial clue as to the basis for such patterns can be found in animal behaviour, where specific paths exist for the contact behaviour. They can be lines of contact (be-
416
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
tween the tip of the mouth and the body of the partner) or lines followed in the bodily orientation of one animal (the direction of its head and its eyes). These lines stabilize in very specific regions and select a very small sub-field of the body surface. The lines and central points in the relative movement of two agents play a similar role to the bodyjoints in the basic schema of motion. Different types of social contacts make use of different joints: K the eyes of the mother are an attractor for the baby and are essential for the first contacts with the mother (humans attract humans specifically by the white parts of the eyeball and the movements of the eyes); K the bodily contact zone (at short distance) using the lips (compare the suckling activity of the baby); in the same way the breast of the mother is an attractor for the baby; K the contact at a certain distance using the hands (grasping, petting); K the contact of exchange (using the hands, controlled by the limbs and the eyes); K the communicative contact (using the mouth and the ears as instruments). The co-ordination of the interactive processes exploits these kinematic and energetic sources and elaborates them. One specific process in this field will be more closely analyzed: the process of giving (receiving/ exchanging). (a) The configurational structure of giving The basic schema or prototype of giving can be configurationally described by a configuration of basins, where each basin represents the specific positions of sender, receiver and object. At the beginning and at the end of the series one observes two basins (i. e. attractors in catastrophe theory), in the middle of the series a third attractor appears, grows and finally disappears. This rough schema may be computationally specified using algorithms of contour detection and diffusion in vision research. If the two agents are considered as centers of a diffusive process, one may discover a singularity of the saddle type in the process. If temporal deformations of contour diffusion are considered, bifurcating events can be discovered and categorized (cf. for further details Petitot 1995, 270 pp.). The intermediate, symmetric scene is the most unstable one. Both agents concentrate
their control on one target, and their control must be co-ordinated in order to secure the smooth exchange. Thus, if A releases his control before B takes the object, or if A holds the object tight, although B seizes it, the character of the process is dramatically changed and degenerates to A loses, drops the object or A and B compete for the object C. Thus the unstable state of exchange is the junction of the process, the point of maximum co-ordination of the controls. In Figure 31.6. I distinguish five major phases separated by the catastrophic schemata called emission, capture and transfer (transition) between have 1 and have 2. The phases can be further subdivided by the dominant perspective (M1 or M2). The line of transfer separates have and have not for M1 and M2. M2 TRANSFER HAVE 1 EMISSION CAPTURE HAVE 2
M1
Fig. 31.6: The phases of the transfer schema
(b) The energetic (intentional) structure of giving In relation to the basic intentions of the participants in the transfer scenario the schema of giving is in disequilibrium as agent A finishes poorer, agent B richer. A symmetric configuration is found in the schema of mutual exchange, which corresponds to a closed loop in the underlying control-space of the catastrophe called butterfly (AC5). In the first phase the patient gets object 1 and wins, thus creating an asymmetry of possession; in the second phase the former agent gets object 2 and wins. The general figure represents two basic movements of a simple game and is constitutive for social exchange (including commerce and financial transactions).
3.
The semantics of nouns, nominal compounds and noun phrases
3.1. Basic dynamic structures in the semantics of nominals The lexical semantics of nouns (and adjectives) starts from a semantic space with a
417
31. Catastrophe theoretical models in semantics
number of dimensions and a topology on these dimensions. Thus, a centre (attractor) and a periphery (tending towards this centre) can be defined for every space. The centre is called prototype, the periphery has a radial structure. We can distinguish three scenarios of variance: (a) The variance is extremely damped, and motion goes almost immediately to the centre; this corresponds to a categorical behaviour: the prototype of the gradient field of A2 (V Z x2). (b) The fluctuations have some strength and it takes some time until the centre is reached. (c) The motion is chaotic, it almost fills the field which is surrounded by a line of saddles. The fluctuations in the second domain can be called micro semantic; they are probably the basic phenomenon for a brain model of word semantics. The fluctuations in the first domain are either immediately damped and therefore unobservable or they are stronger than the damping of the attractor and produce ambiguities and meaning changes (cf. Wildgen 1995). Two basic types of dynamic clustering can be observed: (1) Clustering by similarity. The similarity can be measured if we relate the different dimensions to an underlying low dimensional space on which they have different weights (2) Clustering due to spatial relatedness (in a general sense including social and imagined spaces). The parts of an organic whole are strongly interrelated as specific topological and functional relations hold. Clusters of type (1) can be called analogical (or metaphorical) and clusters of type (2) metonymical. Many lexical ambiguities can be analysed on the background of a simple semantic space (one, two or maximally three dimensions) in which non-linear shifts are observed. These semantic spaces are often linked to our perception of the ambient space or to an emotional space and typically give birth to the lexical fields so cherished by structural linguistics. Many syntactic ambiguities operate on a semantic space defined by role configurations (cf. Wildgen 1994, chapter 4 and 1995).
3.2. Chaotic attractors in nominal composition and in the semantic organization of noun phrases A first dynamic model of nominal composition based on catastrophe theory was proposed in Wildgen (1987). In my book of 1994 “Process, Image, and Meaning” I proposed a more specific cognitive interpretation of chaotic attractors and their control in nominal composition (Wildgen 1994, 115K117). Some of these ideas will be taken up in this section. A major fact in noun C noun compounds is the deletion of underlying predicates or relational schemata. But the situation is more complicated; if we consider the two lists of examples below (cf. Levi 1978, 52), we can, for every compound, imagine a sentence or a noun phrase which is a paraphrase of the compound and in which a predicate (a verb, a preposition) appears: Table 31.2: Different underlying relations in similar compounds (Levi 1978) tree tree tree tree
nursery house spraying branches
FOR IN OF ON
bedclothes bedpan bedpost bedsore bedroom
FOR IN OF TO AROUND
A concrete empirical test would immediately show that for every compound different predicates (verbs, prepositions) may be recovered. The recoverability, and even the existence of recoverable predicates is a methodological construct. In reality a huge indeterminacy, vaguely limited by selections inherent in the nominal constituents, is given. The first constituent in the nominal compound, N1, allows for a certain class of verbs (such that N1 is the subject, object, indirect object or adverbial complement to the verb), and N2 also has such a class of possible predicates. Thus, the morphological construction N1 C N2 can activate a huge number of possible predicates. The search for one stable reading could be described as a chaotic orbit in the space of possible predicates (e. g. verbs). If these are arranged on a plane, the orbit of the search attractor goes through almost all points of the plane. In a neurolinguistic context we could say that the brain has simultaneously access to almost all of the possible predicates, it is in a state of predicate alert. Freeman (1995) argues that the olfactory bulb is in such a state just before the recognition of a smell.
418
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
On the other hand, there are very basic types of predicates which have a high probability of selection due to the structural stability of the process which they conceptualize. These are called semantic archetypes in Wildgen (1982 and 1985). These highly ordered and stable types of predicates can function as chaos controllers, they allow the very fast selection of one or several recoverable predicates and reduce the initial indeterminacy of a noun C noun compound. The above mentioned compounds are lexicalized, i. e. one or few specific meaning have been fixed in the history of the compound; its compositionality is frozen. In nonce compounds the context of use and pragmatic principles disambiguate the readings left by the reduction of the chaotic field of alternative readings. 3.3. Some dynamic gestalt features of noun phrases The above mentioned processes are not limited to nominal composition, but possessives show a similar indeterminacy. Example: The President’s table. (a) the table the President owns, (b) the table at which the President dines, (c) many other interpretations which link table and President. Another domain of similar indeterminacy are the so-called non-predicate noun phrases. The following list of examples is taken from Levi (1978, 3). the the the the
rural policeman, logical fallacy, electrical engineer, solar generator.
4.
Many logicians felt that material implication (defined syntactically by the use of logical equivalence or semantically with the aid of truth-tables) was very far from the natural interpretation of if-then, especially in the context of natural sciences and theories related to causality. I shall, therefore, relate the notion of implication to the notion of bifurcation in dynamical systems. The background for a theoretical treatment of dynamic consequences and alternative evolutions is a model of the macroevolution of dynamical systems. An appropriate model for such macroevolutions is Prigogine’s theory of evolutions far from thermodynamic equilibrium (cf. Nicolis/Prigogine 1989). 4.1. A thermodynamic model of consequence (substantial implication) The basic schema of consequence in time is given by the appearance of new solutions in a system of equations which describe the evolution of a system in time (cf. Nicolis/Prigogine 1989, 93K98). Figure 31.7. shows the bifurcation diagram of new solutions. The first scholar who applied catastrophe theory to the description of modality was Per Aage Brandt (1992). In his book Morphologies of Meaning he analyzes possibility as a “bifurcation (of possible worlds)” (cf. Brandt, 1995: 203 f.) In the diagram of possible evolutions the members of the set: {1, 2, 3, 4, 5, 6, 7, 8} are possible states of the system at a fixed time tk in the evolution. One may say that the set of alternatives (disjunctive solutions) is
These noun phrases cannot be considered as paraphrases of simple sentences like: the policeman is rural, the engineer is electrical, etc. If the head noun changes, the interpretation of the deleted predicate changes too: K musical clock Z clock that produces music K musical criticism Z criticism of music / referring to music K musical talent Z talent in the domain of music From these short remarks it follows that the semanticist has to explain both the basic indeterminacy of these constructions and the very fast reduction to one reading in specific utterance situations.
The dynamical nature of quasilogical relations in phrases and sentences
C1
(1)
C2
(2) (3)
B1
(4)
A C3
(5)
C4
(6) (7)
B2
(8)
parameter of evolution
tk
Fig. 31.7: Bifurcation diagram of a dynamical system
31. Catastrophe theoretical models in semantics
identical to this set (or a part of it) as long as the factual evolution is not known or not considered explicitly. In the real evolution of the system stochastic fluctuations decide which alternative is actually chosen by the system (although several choices may coexist by differentiation of the system into subsystems under specific conditions). If all choices are made (without parallel evolutions), we get the situation shown in Figure 31.8. C1 B1
(2)
elimination of the branches B2, C2, (1) A parameter of evolution
Fig. 31.8: Evolution with choice of branches
4.2. Choice and information in sentences At the final stage of the evolution only one state of the system (2) exists and it is the result of bifurcations with choice at the points A, B1 and C1. The story of the system may be described by the series of choices at these points and the result of the process is the conjunction of these choices: A and B1 and C1. If the process chooses the path to B1 at bifurcation A, then it restricts all further evolutions to the sub-set B1 and thus it creates information (in the classical sense of information theory). The (substantial) implication is thus the relation of the state of the system before the bifurcation to the state after bifurcation. In a sentence like: If he comes I will leave, the possible actions of the speaker are: staying or leaving. As soon as the premise is fulfilled (he comes) only one alternative is left: I leave. If the premise is not fulfilled, no information is gained. One can derive not only graphs of causation but also graphs of successive qualitative change, of authorship in action and interaction, of motivation in perceptual and mental action. In a similar way other linguistic phenomena modelled in logical semantics ask for a less static treatment which uncovers underlying forces and causal relationships.
5.
Predication and syntax based on catastrophe theory
Although dynamic principles govern the organization of the lexicon, this domain is
419 rather static when compared to syntax. It can be described as a field or as a multiplicity of possible choices which fit together. In the act of predicating and of uttering a sentence, this field structure is exploited, used in a concrete act (involving real bodies, minds, situations). Thus the transition from lexical units to sentences is a dramatic one. This transition has four aspects: (1) The speaker of a sentence makes a specific choice in a lexical field; the remaining field, especially that surrounding the chosen item, constitutes an important background for the utterance and may be used in understanding it. (2) The tension between static vs. dynamic entities in the lexicon is the germ of predication. The utterance of the sentence is driven by the instability of the basic configuration and its restabilization. It is therefore comparable to the motion schema described above. (3) The basic choices made in the first predicative step are elaborated, still exploiting the lexicon (specific selection rules, lexical incorporations, etc.) but also making use of the context (anaphora, cataphora). Further specifications are added using additional devices (adjectival and adverbial constructions, relative clauses, prepositional phrases, etc.). (4) Some parts of the sentence (especially the main nominal roles) may be further specified (by the use of proper names, definite descriptions, demonstratives, deictic pronouns and by modality indicators). I shall deal only with the dynamically central aspect (2) and try to develop a new concept of predication. Two basic types exist: (a) Strong coupling in predication. The predicate, e. g. the finite, main verb has a central position by which it organizes the coupling of valence-bound noun phrases (cf. also Wildgen 2002). (b) Weak coupling in predication. The subject is linked by only a semantically weak element, or none at all, to something which itself has a predicative character (but is not verbal, rather nominal or adjectival). The predicative centre is said to be split into one (semantically) weak and one strong centre. The coupling is done by the weak centre.
420
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
5.1. Strong coupling in predication If the verb is really the organizing centre of the sentence, this corresponds roughly to the picture of basic syntax given by dependency or valence models. However, this type is neither the only one, nor does it expand to cover the whole sentence structure, e. g. to phrasal syntax. In this sense the dependency models are overgeneralizations. Here is an example of how the strong predication of the verb constitutes a sentence frame (cf. 2.2.3).
In the first case the copula construction (or a copula-less predicative construction) is the natural outcome. In the second case adverbial modifiers, verb prefixes or constructions with auxiliaries may represent the underlying dynamism. The examples (i) to (vi) below follow a hierarchy of processual stability. If we compare the examples, we observe that in (i) the copula still has a dynamic character, it describes the stable or metasta-
ble position of the ball; the basket is a gravitational attractor and the ball is at rest in this attractor. This dynamic character gets looser and more abstract in the examples (ii) to (vi). In (ii) a space form (the sky) selects a domain of the colour space as possible colours of the sky restrict the meaningful fillers in the second predication colour of the sky: blue, blue with clouds, grey, dark, (rarer) red. The restrictive power of the first predication on the second one is even more prominent in example (iii), where the measure-adjective “big” can only be specified knowing some prototypical size of dogs. The first predication sets the conditions for the second one. In example (iv) the copula links two nominal entities with different specificity; the first is a proper name (Mary), the second is descriptive (teacher). This difference has as a consequence that some of the features of Mary restrict the domain of teacher (e. g. to female teachers). In spite of its semantic lightness the copula can still be used to indicate grammatical person, member and aspect. In some languages these grammatical markers are also added to the non-verbal predicates (e. g. to the adjective). The use of the copula with a possessive construction in (vi) can be related to the phase of stable possession in the transfer-archetype. Spanish has two verbs which translate into the English be and German sein: ser and estar. It is interesting that in many translations of Spanish sentences into German and English, changes in the Spanish copula are expressed by changing the adjective in German and English sentences. It seems that if the first predication (with the choice between ser and estar) is more differentiated, then the second (with the adjective) can be less differentiated; the effect is the same. A coupled predication thus creates a domain of semantic variability. The second major type of coupled predication distinguishes between one basic
(i) (ii) (iii) (iv) (v) (vi)
in the basket blue big (a) teacher by Shakespeare mine
Example: Eve gives Adam the apple ---- K KK KK K ----- -------M1 dyn. M2 M3 centre When considering the production process, the typological rules of sentence ordering valid for a specific language must firstly be determined. The specific grammatical terminology (subject, object, etc.) can be defined at this level. 5.2. Weak coupling in predication The prototypical example of weak coupled predication is the use of the copula (e. g. be in English); it has been the historical starting point of all traditional models of predication. The general characteristics of weak coupled predication are: (a) The underlying process referred to is dynamically weak (static or without change/transition). (b) The type of process has a compound nature, the second (coupled) predication adds some aspect of the process.
The ball is The sky is The dog is Mary is This book is This book is
first first first first first first
predication predication predication predication predication predication
second second second second second second
predication predication predication predication predication predication
421
31. Catastrophe theoretical models in semantics
Spanish
German
English
el nino es bueno el nino esta bueno Pablo es listo Pablo esta listo
das Kind ist brav das Kind ist gesund Paul ist schlau Paul ist bereit
the child is nice the child is healthy Paul is clever Paul is ready
predication and the addition of an aspect, a specification of the manner (cf. (b) above). Talmy (1991) distinguishes between framing verb and supporting verb in: English: I blew out the candle Spanish: Apagué la vela de soplido/soplándola (I extinguished the candle with a blow/ blowing it) In English the manner of the process is given by the verb stem blow, in Spanish it is given by an adverbial with a blow (de soplido). The type of process is coded in English by the adverb out and in Spanish by the verb apagué. In the borderline cases of predication the verb is almost empty (this is the case in languages with zero copula) or it is so differentiated (as in strong predication) that all other parts of the sentence can be left unspecified (the listener may fill them in on the basis of his knowledge of the context). The concept of a central predicative verb must therefore be replaced by the concept of a scale of predication; strong and weak predication are the two major attractors on this scale. 5.3. Syntactic constituency and stable dynamic schemata My starting point is the notion of construction by Fillmore and Kay (1987). If the notion of an attractor and an attracting field is introduced in order to reorganize these proposals, then the result is a nested hierarchy of attractors (centripetal fields). Thus the predicate as a whole is an attractor in the bistable configuration of the subject-predicate construction. The available information is either drawn towards the first attractor [subject] or towards the second attractor [predicate]. The second can be further analyzed as a field with local (minor) attractors, the predicator and its complement, where the complement has a certain multiplicity (no complement, one or two complements in Fillmore’s analysis). Below this level all
constituents are controlled by the dynamics of the determiner-head construction and all the remaining and resulting sub-constructions are controlled by modifier-head constructions. If a more radical separation is made between external syntax (functionally related to discourse laws) and internal syntax (functionally related to cognitive laws) fewer basic constructional types result. The first type contains two subtypes of constructions: A) The subject K complementary part of the sentence K construction (for sentences) B) The determiner K head K construction (for noun phrases) These constructions create specific asymmetries in the sentence and in the noun phrase (they are linked to pragmatic motivations like topicality). A second type of construction is accumulative insofar as a plurality of information is bound together by co-ordination. C) The modifier-head construction. D) The conjunction construction. Both provide the means for the clustering of information under a purely organizational head (conjunction construction) or a semantically specified head (modification construction). The dynamic schemata of A, B and C together with the gestalt-like valence patterns (analyzed in section 2) form a system of basic constituent structures (in an abstract sense). A more elaborate version would have to consider the functional space in which the forces which drive these bifurcations can be labelled and empirically assessed. The basic bifurcations are very frequently of the bipolar type (cf. the catastrophe called cusp). The richness of stable processscenarios is only unfolded in the case of valences, which therefore constitutes an island of dynamic complexity and stability in the sentence. This analysis is able to catch the
422
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
basic heterogeneity in syntactic structures. We presume that the force fields which cause/enable the separations mentioned above are different for valences on the one hand (their foundation is a psychophysical one) and for the bifurcations A, B and C. In the case of the bifurcation determiner (nominal) head we presume that two basic functions show up: the deictic, demonstrative, topicalizing function in the determiner, and the descriptive, classifying, and evaluative function in the nominal head and its further bifurcations (cf. the head-modifier construction). Together these mechanisms constitute the stable backbone of all complex utterances. In Wildgen (2004) basic principles of dynamic semantics define ontical transitions in the evolution of human language.
6.
Literature (a selection)
Altmann, Gabriel/Koch, Walter A. (eds.), Systems. New Paradigms for the Human Sciences. Berlin: Walter de Gruyter, 1988. Arnold, Vladimir I. (1972), Normal Functions Near Degenerate Critical Points, the Weyl Groups of Ak, Dk and Ek and Lagrangian Singularities. In: Functional Analysis and its Applications 6, 254K 272. Ballmer, Thomas T./Brennenstuhl, Waltraud (1986), Deutsche Verben. Eine sprachanalytische Untersuchung des Deutschen Wortschatzes. Tübingen: Narr. Ballmer Thomas T./Wildgen, Wolfgang (eds.), Process Linguistics. Exploring the Processual Aspects of Language and Language Use, and the Methods of their Description. Tübingen: Niemeyer, 1987. Brandt, Per Aage (1992), La Charpente modale du sens. Aarhus: Aarhus University Press. Brandt, Per Aage (1995), Morphologies of Meaning. Aarhus: Aarhus University Press. Fillmore, Charles J./Kay, Paul (1987), Construction Grammar Lectures. Stanford: LSA Summer Institute. Freeman, W. J. (1995), The Creation of Perceptual Meanings in Cortex through Chaotic Itinerancy and Sequential State Transitions Induced by Sensory Stimuli. In: Kruse/Stadler 1995, 421K437. Gilmore, Robert (1982), Catastrophe Theory for Scientists and Engineers. New York: Wiley. Haken, Hermann (1996), Principles of Brain Functioning. A Synergetic Approach to Brain Activity, Behavior and Cognition. Berlin: Springer. Haken, Hermann/Stadler, Michael (eds.) (1990), Synergetics of Cognition. Proceedings of the Inter-
national Symposium at Schloß Elmau. Berlin: Springer. Kelso, J. A. Scott (1997), Dynamic Patterns. The Self-Organization of Brain and Behavior. Bradford Book: Cambridge (Mass.). Kruse, Peter/Stadler, Michael (eds.) (1995), Ambiguity in Mind and Nature. Multistable Cognitive Phenomena. Springer: Berlin. Levi, Judith N. (1978), The Syntax and Semantics of Complex Nominals. New York: Academic Press. Nicolis, Grégoire/Prigogine, Ilya (1989). Exploring Complexity: An Introduction. New York: Freeman. Petitot, Jean (1992), Physique du Sens. De la théorie des singularités aux structures sémio-narratives. Paris: Editions du CNRS. Petitot, Jean (1995), Morphodynamics and Attractor Syntax: Constituency in Visual Perception and Cognitive Grammar, In: Port/van Gelder 1995, 227K281. Port, Robert F./van Gelder, Timothy (eds.), Mind as Motion. Explorations in the Dynamics of Cognition. Cambridge (Mass.), Bradford M.I.T. Press, 1995. Talmy, Leonard (1991), Path to Realization: a Typology of Event Conflation. Buffalo: Center for Cognitive Science (Paper). Thom, René (1977), Stabilité structurelle et morphogéne`se (2nd edition), Paris: Interéditions (English translation of the first edition, 1975: Structural Stability and Morphogenesis. New York: Benjamin). Thom, René (1983), Mathematical Models of Morphogenesis. Chichester: Horwood. Wildgen, Wolfgang (1982), Catastrophe Theoretic Semantics. An Application and Elaboration of René Thom’s Theory. Amsterdam: Benjamins. Wildgen, Wolfgang (1985), Archetypensemantik. Grundlagen einer dynamischen Semantik auf der Basis der Katastrophentheorie. Tübingen: Narr. Wildgen, Wolfgang (1987), Dynamic Aspects of Nominal Composition. In: Ballmer/Wildgen 1987, 128K162. Wildgen, Wolfgang (1990), Basic Principles of Self-Organization in Language. In: Haken/Stadler 1990, 415K426. Wildgen, Wolfgang (1994), Process, Image, and Meaning. A Realistic Model of the Meaning of Sentences and Narrative Texts. Amsterdam: Benjamins. Wildgen, Wolfgang (1995), Ambiguity in Linguistic Meaning in Relation to Perceptual Multistability. In: Kruse/Stadler 1995, 221K240. Wildgen, Wolfgang (1998), Chaos, Fractals and Dissipative Structure in Language. In: Altmann/ Koch 1998, 596K620.
32. Denotative Textanalyse Wildgen, Wolfgang (1999), De la grammaire au discours. Une approche morphodynamique. Bern: Peter Lang. Wildgen, Wolfgang, Wolfgang (2000), The History and Future of Field Semantics. From Giordano Bruno to Dynamic Semantics. In: Meaning and Cognition. A Multidisciplinary Approach. (Ed. Liliana, Albertazzi). Amsterdam: Benjamins, 203K 226.
423 Wildgen, Wolfgang (2002), Dynamical Models of Predication. In: Sprachtypologie und Universalienforschung (STUF) 55 (4), 403K420. Wildgen, Wolfgang (2004) The Evolution of Human language. Scenarios, Principles and Cultural Dynamics. Amsterdam, Benjamins.
Wolfgang Wildgen, Bremen (Germany)
32. Denotative Textanalyse 1. 2. 3.
8.
Der methodische Ansatz Grundlagen und semantische Fundierung Denotation und Hrebs K Die Etablierung diskurssemantischer Einheiten Textmaße und Referenz Koinzidenz und Kohäsion Diskursiver Plan und Makrostruktur Textlinguistischer Nutzen K Ausblick, Desiderate Literatur (in Auswahl)
1.
Der methodische Ansatz
4. 5. 6. 7.
Die Bezeichnung Denotative Textanalyse (im Weiteren als DT abgekürzt) ist relativ neu. Sie geht zurück auf Ziegler/Altmann (2002), die fundamentale textlinguistische Begriffe wie Kohäsion, Kohärenz, Thema, Thematische Progression, Diskurs, Makrostruktur usw. quantifizieren und damit textlinguistische Analyseverfahren operationalisieren. Mit der DT wird darüber hinaus ein Prozedere der linguistischen Textstrukturanalyse präsentiert, dessen Erkenntnisinteresse nicht mehr ontologisch, sondern vorwiegend psychologisch orientiert ist und das versucht, Ordnungsmuster in Texten zu ermitteln, von denen anzunehmen ist, dass sie sich in einem kognitiven Differenzierungswissen der Sprachbenutzer manifestieren. Mit Korzybski (1973) und anderen (vgl. Rapoport 1972; Köller 1988; Ziegler 2001c) wendet sich das Verfahren dabei ausdrücklich gegen eine elementalistische Sprachauffassung, die die Differenzierungslinien der Sprache oder gar linguistischer Konstrukte, für die der Realität hält, d. h. gegen eine Vorstellung, die davon ausgeht, dass Sprache, oder etwa die eine Sprache beschreibende Grammatik (oder die einen Text beschreibende Textgrammatik), wohl abgegrenzte ontische Einheiten vermitteln könnte.
Allgemeiner Gegenstandsbereich der Textlinguistik sind Texte natürlicher Sprachen. Aufgabe der Textlinguistik ist nicht nur die Analyse und Beschreibung der Eigenschaften und Regularitäten der möglichen Texte in allen Sprachen zu allen Zeiten, sondern auch die Etablierung von Gesetzen und Theorien und letztendlich die Einbettung in den umfassenden Rahmen allgemeinerer Disziplinen, wie etwa der Systemtheorie, Synergetik, Chaosforschung u. a. (vgl. Hřebíček/Altmann 1993b). In diesem Sinne erscheint die Textlinguistik nicht nur als Teil der Allgemeinen und Vergleichenden Sprachwissenschaften, sondern als Teil einer unifizierenden Wissenschaft, die nach Überprüfung ihrer Prinzipien in allen Bereichen der Realität trachtet. Trotz zahlreicher Ansätze ist es aber der Textlinguistik bisher nicht gelungen, die Fragen, die zu einer Klärung ihrer fundamentalen Kategorien führen könnten, zu beantworten und sich somit als eigenständige Disziplin vollständig zu behaupten. Gerade die Frage, was denn eigentlich ein Text ist, und damit verbunden die Frage, welche Faktoren für eine Textkonstituierung gegeben sein müssen, wird im Rahmen der textlinguistischen Forschung äußerst heterogen beantwortet (vgl. Heinemann/Viehweger 1991). Grundsätzlich versucht die DT mittels eines eigenen integrativen Ansatzes, die zentralen Aspekte textlinguistischer Forschung in ihren Darstellungen zu berücksichtigen und erste Antworten auf bisher ungeklärte Fragen der gegenwärtigen Textlinguistik zu geben. Das integrative Moment des Verfahrens ist somit wesentlich in dem Versuch begründet, sowohl qualitative als auch quantitative Aspekte einer textlinguistischen Forschung zu berücksichtigen.
424
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Besonders die Vielfalt der begriffsbildenden Ansätze im Rahmen der textlinguistischen Forschung machen für die weiteren Ausführungen an dieser Stelle zunächst eine kurze Erörterung des Textbegriffes, der dem Verfahren der DT zugrunde liegt, notwendig. Wissenschaftstheoretisch konstruktivistisch geleitet, erkennt die DT den Text als menschliches Konstrukt, das sich unabhängig von seiner Existenz aspektgeladen ontologisch konstituiert. Grundsätzlich greift die DT aber auch einen für die Textlinguistik üblichen Textbegriff auf, wenn sie den Text als kohärente Folge textualer Einheiten und Elemente und als in seinem Wesen unabhängig von den Erscheinungsweisen der Sprache, d. h. unabhängig von der schriftlichen oder mündlichen Realisierung, auffasst. Der Text wird als eine Folge kohärenter Elemente bestimmt. Die textualen Elemente sind durch bestimmte Vertextungsmittel miteinander verknüpft und bilden auf diese Weise ein konstituiertes Miteinander sprachlicher Einheiten, das als Text wahrgenommen werden kann. Wo derartige Textbezüge entdeckt werden können, wird Kohäsion vermutet; die Mittel, die zur Verknüpfung der Elemente eingesetzt werden, sind somit Kohäsionsmittel. Dabei referieren die verknüpften sprachlichen Einheiten aufeinander und der Text konstituiert sich durch eine gemeinsame Koreferenz von Oberflächenkonstituenten. In ihren Verknüpfungen präsentieren sich die Textkonstituenten als eine semantische und pragmatische Menge, d. h. eine wie auch immer strukturierte Gesamtheit, und stellen im konkreten Text eine relativ abgeschlossene linguistische Einheit dar. Eine zentrale Eigenschaft dieser Gesamtheit der miteinander verknüpften textualen Merkmale ist, dass sie ein Thema bildet. Dabei ist der konkrete Text auch immer eine kommunikative Einheit, die im Kommunikationsprozess eine bestimmte Funktion erfüllt, und kann insofern als das sprachliche Korrelat eines Kommunikationsaktes bestimmt werden (vgl. Agricola 1969; Isenberg 1971; Grosse 1976; Viehweger 1977; Rosengren 1980; Heinemann/Vieweger 1991; Ziegler 2001a). In Anlehnung an Ziegler/Altmann (2002) sind 8 zentrale Aspekte als Indizien für die Textualität einer sprachlichen Äußerung anzunehmen:
(1) Strukturiertheit (der Text als Konstrukt von Elementen) (2) Kohärenz oder Kompaktheit (der Text als kohärente Folge von Elementen) (3) Thematik (der Text als thematische Einheit) (4) Kommunikativität (der Text als Einheit mit kommunikativer Funktion) (5) Repetitivität der Elemente (Text als Konstrukt von Mustern) (6) Hierarchie der Ebenen (Text als hierarchische Konstruktion) (7) Selbstorganisation und Selbstregulation (Text als Resultat der Kreation und Restriktion) (8) Multidimensionalität der Verteilungen der Elemente (Text als Konstrukt von Verteilungen von Elementen). Die Merkmale bedingen sich teilweise gegenseitig, so dass davon auszugehen ist, dass die genannten Kriterien in Kombination vorliegen müssen. Textualität kann also angenommen werden, wenn eine sprachliche Äußerung alle vorgenannten Aspekte erfüllt. Die Komplexität des Textes ist offensichtlich. Ausgehend von diesen allgemeinen methodischen Ansätzen ist die DT um eine abstrakte Darstellung sowie die Untersuchung der denotativen und assoziativen, d. h. konnotativen Textstruktur bemüht. Wesentlich für dieses Anliegen ist eine Etablierung semantisch-denotativer Einheiten als sprachliche und mithin textuelle Entitäten, ohne die eine sinnvolle Analyse nicht denkbar ist. Basierend auf der konstruktivistischen Annahme, dass auch bewährte linguistische Einheiten (z. B. Phonem, Morphem, Wort, Phrase, Satz usw.) keineswegs etwas Gegebenes sind, werden im Rahmen der DT bisher unbekannte semantische Einheiten als sprachliche Entitäten etabliert. Eine sprachliche Entität wird dabei als eine Einheit charakterisiert, die (a) sich operational von ihrer Umgebung relativ einfach separieren lässt, (b) zumindest eine vage Identität hat, (c) in mindestens einem Regelkreis eingebunden ist und (d) die Bedürfnisse der Sprecher erfüllt (vgl. Altmann 1996). Da es sich bei den zu etablierenden Einheiten um semantische handelt, scheint ein Blick in die semantische Fundierung des Analyseverfahrens angebracht.
32. Denotative Textanalyse
2.
Grundlagen und semantische Fundierung
Grundlegende Annahme der DT ist, dass die semantische Einteilung der Realität in allen Sprachen unterschiedlich ist, trotzdem aber beobachtet werden kann, dass sich aus der chaotischen Hjelmslev’schen Substanz in jeder Sprache bestimmte semantische Muster bilden, deren Verhalten stochastische Regularitäten aufweist. Die Muster selbst sind unscharf, was z. B. beim Übersetzen von einer Sprache in eine andere auffällt. Eine absolute Synonymie ist für Wörter verschiedener Sprachen wohl kaum anzunehmen. Realität wird also sprachlich durchaus unterschiedlich konstruiert, dennoch liegen diesen Konstruktionen in allen Sprachen konzeptuelle Muster zugrunde. Diese konzeptuellen Muster, die auch als Begriffe bezeichnet werden können, sind Attraktoren, d. h. Intervalle im semantischen Raum. Der semantische Raum ist aber in Einzelsprachen und Idiolekten unterschiedlich ausbalanciert. In Wörterbüchern ist sozusagen das Zentrum (die Zentren) eines Attraktors verzeichnet, im Text hingegen geht es darum, mit Hilfe des Kontextes einen Punkt in dem semantischen Intervall anzusteuern. Dies ist das eigentliche Ziel der Kommunikation, nämlich die private (idiolektale) Gestaltung des semantischen Raumes dem anderen Gesprächspartner mitzuteilen. Denn gerade diese Gestaltung ist es, die der andere nicht kennt und die daher für ihn etwas Neues darstellt. Wären die semantischen Attraktoren Punkte und keine chaotischen Intervalle, dann wüssten wir alle genau dasselbe, und Kommunikation wäre überflüssig. Semantische Attraktoren sind behaftet mit Variabilität, aber gleichzeitig stabil genug, um Kontinuität zu bewahren. Diese Kontinuität wird durch Selbstregulation in der Sprachgemeinschaft in Form eines Fließgleichgewichts aufrechterhalten. Die Versuche in der Linguistik, die Semantik des Textes bzw. eine zugrunde liegende semantische Struktur zu ermitteln, sind vielfältig. Die DT greift im Wesentlichen auf zwei Konzeptionen zurück, die fundamental für das Verfahren sind. Zum einen auf den von Viehweger (1976; 1978) vorgestellten Ansatz der nominativen Ketten und zum anderen auf die von Hřebíček (1992; 1993a; 1993b; 1995; 1996; 1997a; 1997b; 1998a; 1998b; 2000) in verschiedenen Arbei-
425 ten entwickelte Konzeption der Supra-SatzKonstrukte. Während Viehweger sich eher aus textlinguistischer Perspektive dem Problem nähert, sind Hřebíčeks Arbeiten primär quantitativ-linguistisch basiert. Als nominative Ketten bezeichnet Viehweger diejenigen Elemente im Text, „[.] die sich auf ein und denselben Gegenstand der Wirklichkeit beziehen“ (Viehweger 1978, 160), wobei er Referenzidentität und semantische Äquivalenz als wesentliche Voraussetzung für den Aufbau nominativer Ketten im Text erachtet. Den nominativen Ketten entspricht dabei eine Isotopiekette mit denotativer Bedeutung, d. h. eine Kette semantischer Relationen (vgl. Greimas 1966/1971; Kallmeyer 1974; Viehweger 1976; Viehweger 1978; Heinemann/Viehweger 1991). Während Viehweger (1976) allerdings semantische Äquivalenzrelationen zwischen Elementen des Textes K und damit letztendlich seine nominativen Ketten K auf Gemeinsamkeiten in der semantischen Merkmalstruktur, d. h. auf Übereinstimmungen „[.] in den allgemeineren semantischen Merkmalen der hierarchisch organisierten Merkmalstrukturen eines Lexems [.]“ (Viehweger 1976, 200) zurückführt, fundamentiert die DT die Relationen zwischen Entitäten des Textes ausschließlich auf denotativer Grundlage. Der Prager Linguist Luděk Hřebíček legte mit der Etablierung seiner semantischen Supra-Satz-Konstrukte die Grundlagen der Texttheorie, verstanden als ein System von hypothetischen Aussagen, die theoretisch begründet (Z abgeleitet), empirisch hinreichend überprüft und für den Gegenstandsbereich allgemein sind und deren Form und Verhalten Gesetzen folgt. Diese Supra-Satz-Konstrukte sind nicht (unbedingt) kompakt, bilden aber eine eigene Textebene und werden durch Referenzen zwischen Sätzen kreiert. Aufbauend auf diesen Vorarbeiten operationalisiert die DT konzeptuelle Systeme von Entitäten, die die gleiche Denotation haben und im Weiteren als DenotationsHrebs oder als Wort-Hrebs bezeichnet werden. Mit der Hinwendung zu den denotativen Einheiten des Textes beschreitet die DT grundsätzlich keinen neuen Wege, sondern steht ganz in der Tradition linguistischen Denkens. Bereits bei Hjelmslev wird Sprache im Rahmen seines glossematischen An-
426
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
satzes in erster Linie als Denotationssystem verstanden, also im Sinne der Bühler’schen Darstellungsfunktion des sprachlichen Zeichens (vgl. Bühler 1934/1982; Hjelmslev 1943/1974; Coseriu 1994).
3.
Denotation und Hrebs K Die Etablierung diskurssemantischer Einheiten
Zwischen den Entitäten eines Textes sowie zwischen den Entitäten eines Textes und verschiedenen außersprachlichen Faktoren bestehen zahlreiche Relationen. Nur einige von ihnen wurden bisher von der Linguistik begrifflich erfasst und untersucht. Die bekanntesten sind phonetische, morphologische, lexikalische, grammatische, pragmatische und schließlich semantische Relationen. Die semantischen Relationen begegnen im Lexikon durch Konzepte wie Synonymie, Polysemie, Hyponymie u. ä. Im Text haben diese Beziehungen aber eine ganz andere Beschaffenheit. Hier gruppieren sich Entitäten (wie Phrasen, Clauses, Sätze, Verse, Strophen, Absätze usw.), die aufeinander referieren. Gerade dieser Referenzbezug ist für die DT von zentraler Bedeutung, insofern er denotative textinterne Beziehungen widerspiegelt. Aufgrund des Referenz-Charakters der denotativen Relationen wird angenommen, dass diese Denotationsklassen bilden (auf welche alle Wörter eines Textes verteilt werden können), die dieselbe Entität in der (inneren oder äußeren) Realität bezeichnen, ungeachtet der Frage, ob Rekurrenz, Substitution oder andere Formen der lexikalischen Wiederaufnahme vorliegen. Die denotativen und daher semantischen Klassen werden im Rahmen der DT als Hrebs bezeichnet. Sämtliche Wörter, die einem Hreb zugeordnet werden können, bilden eine Denotationsklasse, d. h. eine spezielle Art linguistischer Einheit, deren Status weder grammatisch noch phonetisch, sondern rein semantisch-denotativ ist. Bezüglich der Zuordnung der Wörter eines Textes zu den jeweiligen Hrebs sind in Ziegler/Altmann (2002) und an anderer Stelle in Ziegler/Altmann (2001) sowie Ziegler/Best/Altmann (2001) eine Reihe vorläufiger und tentativer Regeln aufgestellt worden. Sie sind keineswegs allgemeingültig, sondern zunächst für das Deutsche vorgeschlagen worden und gelten somit lediglich als eine Art erster Leitfaden.
(1) Alle Einheiten des Textes (Morpheme, Wörter, Komposita usw.), die das gleiche denotieren, gehören zum gleichen Hreb. Unabhängige Pronomina oder Personalendungen können offensichtlich zu mehreren Hrebs gehören. Im Satz Er hat gerufen gibt es zwei Hrebs, nämlich er bestehend aus {er, 3. Pers. Sg.}, wobei die 3. Pers. Sg. durch die Endung -t in hat gegeben ist, und rufen bestehend aus {hat gerufen}. (2) Analytisch ausgedrückte Verbformen gehören zu einem Hreb, z. B. {hat gerufen, wird rufen, ist gerufen worden, usw.}; ebenso diskontinuierliche Verbformen {sich vorsehen, sieht sich vor, ...}. (3) Komposita sollen nicht in Bestandteile zerlegt werden. Beim analytischen Ausdruck können ganze Phrasen als eine Einheit betrachtet werden, z. B. chemin de fer oder the King of England. (4) Synonyma können nach Bedarf K falls sie sehr eng sind, z. B. {gehen, laufen, schreiten, ...} K in einem Hreb zusammengefasst werden, jedoch hängt dies vom Kontext ab. (5) Artikel können mit dem Nomen zusammengefasst werden, z. B. {das Haus, ein Haus}, d. h. Artikel bilden keinen autonomen Hreb. Ähnlich verhalten sich einige Pronomina wie {jenes Haus, das Haus}. In manchen Sprachen schreibt man den Artikel mit dem Nomen zusammen. Falls nötig, soll aber die definite und indefinite Form des Nomens unterschieden werden. (6) Negation beim Verb bildet keinen selbständigen Hreb, sie gehört zum Verb. In einigen Sprachen wird sie mit dem Verb zusammen ausgedrückt. (7) Einige Präpositionen und Konjunktionen sowie evtl. Adverbien können nach Bedarf K falls sie dasselbe denotieren K zusammengefasst werden, z. B. {mit, und, zusammen, ...}. (8) Polysemie kann große Probleme bereiten, die im Zweifelsfall ad hoc gelöst werden müssen. Ob z. B. Wurzel (vom Baum, vom Zahn, von einer Zahl, des Übels, usw.) immer dasselbe denotiert, ist zu bezweifeln; auch das Verb sein bedeutet nicht immer nur ,existieren‘. Hier hängt alles davon ab, wie detailliert die Analyse durchgeführt werden soll.
427
32. Denotative Textanalyse
(9) Elliptische Ausdrücke sollen vervollständigt werden, z. B. ich wär enthält beim Verb die 1. Pers. Sg. auch wenn sie nicht explizit ausgedrückt wurde. (10) Bezieht sich eine Entität auf mehrere Denotate, so muss sie gleichzeitig zu mehreren Hrebs gehören, z. B. in der Äußerung Frauen, Männer und Kinder singen bezieht sich die Endung der 2. Pers. Pl. in singen auf alle drei Nomina und muss in den entsprechenden Hrebs aufgeführt werden. (11) Bei Bedenken bezüglich der Zugehörigkeit einer Entität ist sparsam zu verfahren und sind daher eher wenige als viele Hrebs zu bilden. Im Folgenden soll die denotative Analyse eines Textes anhand des Sonetts „Aus der Ferne“ von Theodor Körner (1912) demonstriert werden. Die Zahlen über den Wörtern zeigen die Position einer denotierenden Einheit im Text an. Mit einem Bruchstrich zwischen Positionen über dem Wort wird die Anwesenheit zweier Hrebs im Wort signalisiert; die Klammer, die zwei Wörter verbindet, zeigt, dass sie nur einen Hreb bilden. So findet man in Position 4/5 im ist Elemente zweier Hrebs, nämlich von sein (,esse‘) und die Markierung der 3. Pers. Sg., die in Kongruenz zum Hreb Zeit steht; ist als Ganzes ist aber Teil des Hrebs ist verschwunden. 1
2
3
4/5
6
Auf schnellem Fittich ist die Zeit verschwunden.
7
8
9
10/11
Unwiederbringlich! Nur Erinnrung lebt,
12
13
14
15
16/17
Ein schöner Traum, von Nebelduft umwebt,
18
19
20
Ein heiliges Vermächtnis jener Stunden.
21 22
23 24
25
26
27
Heil mir, daß ich der Tage Glück empfunden,
28
29
30
31 32
33
34
35/36
Daß kühn mein Herz zu stolzen Höhen strebt!
37 38 39/40 , Dein Bild ist s,
41 42
43
44
45/46
das so freundlich mich umschwebt.
Ach! wär
47 48/49 ,
50 51 52 53/54 55 56 , ich frei und wär ich nicht gebunden!
57 58/59
60 61
62
63
Du strahlst mir in des Aufgangs Rosengluten;
64 65/66 67 68
69
70
Ich sehe dich im Sternensaal der Nacht;
71
72/73
74
75
76
Dich spiegeln mir des Teiches Silberfluten,
77
78/79 80
81
82
83
Dich zaubert mir des Frühlings reiche Pracht;
84
85/86
87 88
89
90
Sanft murmelt s mir im klaren Wasserfall,
91
92
93
94/95
Und deinen Namen ruft
96 der Widerhall.
Werden nun die Hrebs mit den jeweiligen Positionsangaben aufgestellt, so erhält man die Resultate, die in Abbildung 32.1 zu sehen sind. Die einzelnen Hrebs werden nummeriert (fettgedruckte Zahlen), wobei sich in einer Klammer immer alle Entitäten befinden, die zum selben Hreb (Denotat) gehören. Die Hrebs sind nach ihrem Umfang aufgeführt, der in der rechten Spalte angegeben ist. Mit „_“ wird angedeutet, dass nur das sich hinter dem „_“ befindende Teil des Wortes zum Hreb gehört, z. B. (Herz, streb_t) besteht aus Herz und der 3. Pers. Sg., die mit dem Suffix -t als grammatisches Morphem ausgedrückt wird. Für den hier darzustellenden Ansatz ist wesentlich, dass eine Etablierung der Hrebs als sprachliche Einheiten es erlaubt, einen Text hinsichtlich seiner denotativen Struktur, seiner Musterbildungen auf denotativer und mithin semantischer Grundlage, zu untersuchen. Es ist dabei anzunehmen, dass Muster dieser Art mathematisch erfasst werden können.
428
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
1. (mir 22, ich 24, mein 30, mich 44, wär’_ 49, ich 50, wär’_ 54, ich 55, mir 60, ich 64, seh_e 66, mir 74, mir 80, mir 87)
14
2. (dein 37, du 57, strahl_st 59, dich 67, 71, 77, deinen 92)
7
3. (Bild 38, ist’s 40, das 41, umschweb_t 46)
4
4. (ist’s 39, wär’ 48, 53), 5. (in 61, im 68, 88)
3
6. (is_t 5, die Zeit 6), 7. (Erinnrung 9, leb_t 11), 8. (ein Traum 12, umweb_t 17), 9. (daß 23, 28), 10. (Herz 31, streb_t 36), 11. (und 52, 91), 12. (spiegel_n 73, Silberfluten 76), 13. (zauber_t 79, Pracht 83), 14. (ruf_t 95, der Widerhall 96)
2
15. (auf 1), 16. (schnellem 2), 17. (Fittich 3), 18. (ist verschwunden 4), 19. (unwiederbringlich 7), 20. (nur 8), 21. (lebt 10), 22. (schöner 13), 23. (von 14), 24. (Nebelduft 15), 25. (umwebt 16), 26. (ein Vermächtnis 18), 27. (heiliges 19), 28. (jener Stunden 20), 29. (heil 21), 30. (der Tage 25), 31. (Glück 26), 32. (empfunden 27), 33. (kühn 29), 34. (zu 32), 35. (stolzen 33), 36. (Höhen 34), 37. (strebt 35), 38. (so 42), 39. (freundlich 43), 40. (umschwebt 45), 41. (ach 47), 42. (frei 51), 43. (nicht gebunden 56), 44. (strahlst 58), 45. (des Aufgangs 62), 46. (Rosengluten 63), 47. (sehe 65), 48. (Sternensaal 69), 49. (der Nacht 70), 50. (spiegeln 72), 51. (des Teiches 75), 52. (zaubert 78), 53. (des Frühlings 81), 54. (reiche 82), 55. (sanft 84), 56. (murmelt’s 85), 57. (murmelt’s 86), 58. (klaren 89), 59. (Wasserfall 90), 60. (Namen 93), 61. (ruft 94)
1
61 Hrebs in 96 Positionen Abb. 32.1: Hrebs aus Körners Sonett „Aus der Ferne“
Der Nutzen der Methode für eine textlinguistische Analyse wird an dieser Stelle besonders evident, da die Parameter der Gesetze eventuell für Texte, Autoren, Genres, Kommunikationsformen, historische Epochen usw. charakteristisch sein können, d. h. sich in einem kleinen Intervall bewegen (vgl. Abb. 32.1). Es können folgende Arten von Hrebs differenziert werden: (i) Ein Daten-Hreb, dargestellt durch ein Verzeichnis der Wörter im Hreb mit zugeordneten Positionszahlen. Bei Berufung darauf wird ein derartiger Hreb in runden Klammern (.) präsentiert (vgl. Abb. 32.1). (ii) Ein Listen-Hreb, welcher alle Wörter des Daten-Hrebs ohne die zugeordneten Positionszahlen enthält. Er wird in eckigen Klammern [.] präsentiert. (iii) Ein Mengen-Hreb, in dem sich nur die Lemmata des Listen-Hrebs befinden. Er wird mit geschweiften Klammern {.} symbolisiert. Auch ein geordneter Mengen-Hreb, in dem die Elemente nach einem Prinzip geordnet sind, z. B. alphabetisch oder nach Gewicht des Wortes gegeben durch seine Häufigkeit, oder nach Länge, usw. kann präsentiert werden. Der Mengenhreb Nr. 1 besteht nur aus drei Elementen {ich, mein, 1. Pers. Sg.-Morphem}, d. h. er enthält alle unterschiedlichen Lexeme und die ent-
sprechende(n) grammatische(n) Kategorie(n). (iv) Ein geordneter Positions-Hreb, der nur die Positionszahlen aus dem DatenHreb enthält. Er wird durch spitze Klammern C.D symbolisiert. Bereits auf dieser Grundlage ist die DT in der Lage, zwischen dem Kern eines Textes und seiner Peripherie zu differenzieren. Den Kern des Textes bilden diejenigen Hrebs, deren Mengen-Hrebs {.} mindestens zwei unterschiedliche unabhängige Lexeme enthalten. Für die Zugehörigkeit zum Kern des Textes ist also nicht die Häufigkeit der Elemente eines Listen-Hrebs, sondern der Umfang des Mengen-Hrebs, d. h. die Zahl unterschiedlicher Entitäten im Hreb, entscheidend. Da zum Kern des Textes alle Hrebs gerechnet werden, deren Mengen-Hreb-Umfang K {Hi} K R 2 ist, kann die Summe dieser Zahlen als K Kern K Z
∑
i 2 Kern
K {Hi} K
(1)
bezeichnet werden. Alle Hrebs, die nicht zum Kern gehören, werden als Peripherie des Textes charakterisiert. Im obigen Text finden wir folgende Kern-Hrebs Ich Z {ich, mein, 1. Pers. Sg.-Morphem} (Nr. 1)
429
32. Denotative Textanalyse
Du Z {du, dein, 2. Pers. Sg.-Morphem} (Nr. 2) Bild Z {Bild, das, 3. Pers. Sg.-Morphem} (Nr. 3) Alle diese Hrebs haben die Mächtigkeit K {Hreb} K Z 3, so dass die Mächtigkeit des Kerns K Kern K Z 9 ist. Die geschweifte Klammer deutet an, dass es sich um MengenHrebs handelt.
4.
Textmaße und Referenz
Auf der Basis der Eigenschaften der Hrebs lassen sich für eine Textanalyse einige Textmaße ermitteln. Auf Grund der Operationalität der Verfahren sind die Ergebnisse intersubjektiv gültig und können fruchtbare Erkenntnisse erbringen. Kontrastive Untersuchungen verschiedener Textsorten, sprachlicher Zeitstufen, regional variierender Texte usw. scheinen somit in der Lage verbindlichere Auskünfte bezüglich der Bedingungen und Möglichkeiten eines sprachlichen Wandels sowie dessen inhärenten Faktoren zu geben. Insbesondere im Hinblick auf eine noch zu leistende distinktive Textsortenklassifikation wären hier durch weitere Untersuchungen vielversprechende Ansätze zu erwarten (vgl. Ziegler 2001a; Ziegler 2001b). Einige der über die DT zu ermittelnden Textmaße sollen im Weiteren dargestellt werden. 4.1. Topikalität und Konzentriertheit Bezeichnet man mit K {Hi} K den Umfang des Mengen-Hrebs i, dann ergibt sich für die Topikalität eines Kern-Hrebs das Maß T (Hrebi) Z
K {Hi} K
∑
i2Kern
K {Hi} K
Z
K {Hi} K K Kern K
(2)
d. h. der Umfang des Mengen-Hrebs Hi , für den K {Hi} K R 2 gilt, dividiert durch die Summe der Umfänge aller Kern-Hrebs. In dem vorliegenden Beispieltext ist die Topikalität aller drei Kern-Hrebs gleich, nämlich 3 / 9 Z 0.33 Demgegenüber drückt das Maß TK Z
K Kern K n
(3)
die Konzentriertheit des Kerns aus und besteht aus der Summe der Umfänge der Mengen-Hrebs im Kern, dividiert durch die Zahl n aller Hrebs im Text.
Im obigen Fall, wo K Kern K Z 9 ist und im Text insgesamt n Z 61 Hrebs gezählt wurden, ergibt sich die Topikalität des Sonetts als 9 / 61 Z 0.1475, was im Vergleich mit anderen Texten (vgl. Ziegler/Altmann 2002) verhältnismäßig niedrig ist, jedoch den niedrigen Grad der Konzentriertheit des Kerns in der Poesie bestätigt. Die Stichprobenverteilung dieses Indexes ist noch nicht bekannt, so dass Vergleiche zunächst nur optisch durchgeführt werden können. Die Konzentriertheit des Gesamttextes wird mit Hilfe der Wiederholungsrate der Listen-Hrebs, die dem Herfindahl’schen Konzentrationsmaß entspricht n
R Z ∑ p2i ,
(4)
iZ1
gemessen. Bezeichnet man n
L Z ∑ K {Hi} K iZ1
wobei pi die relative Häufigkeit des Hrebs, d. h. der Umfang des Listen-Hrebs dividiert durch L, das in den meisten Fällen (aber nicht unbedingt, falls z. B. ein Textelement gleichzeitig zu mehreren Hrebs gehört) die Textlänge darstellt, also pi Z K (Hi) K / L. Für empirische Zwecke ist (4) als RZ
1
n
∑ K Hi K L2 iZ1
(5)
zu schreiben, wobei n die Zahl der Hrebs im Text ist. Wird für die Berechnung von (5) direkt Abb. 32.1 benutzt, die eigentlich eine Rangverteilung darstellt, resultiert R Z [142 C 72 C 42 C 2 (32) C9 (22) C 47 (12)] / 96 Z 0.0393. Je größer R, desto größer ist die Konzentriertheit des Textes. Wie man sieht, ist der Text bezüglich seiner Denotationen nicht besonders konzentriert (im „Erlkönig“ von Goethe ist R Z 0.0473; vgl. Ziegler/Altmann 2002). Darüber hinaus ist festzustellen, dass eine Berechnung von R aus der Häufigkeitsverteilung der Hrebs nicht die Konzentriertheit, sondern K im Gegenteil K seine Diffusität darstellen würde. Um Vergleiche zu gewährleisten, wird dieser Index üblicherweise relativiert, z. B. nach McIntosh (1967) als Rrel Z
1 K OR 1 K 1 / On
.
(6)
430
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Für den obigen Text resultierte dann Rrel Z
1 K O0.0393
Z 0.92.
1 K 1 / On
Natürlich ist es möglich, notwendig und wünschenswert, auch andere Maße zu verwenden. Für R oder Rrel kann ein Test für den Unterschied zweier Texte erstellt und somit das Textmaß der Konzentriertheit eines Textes mit anderen Texten kontrastiert werden. Bei einem solchen Test kann das Kriterium uZ
Rrel, 1 K Rrel, 2 OVar (Rrel, 1) C Var (Rrel, 2)
n Z LR (On K 1)2
(∑ i
)
p3i K R2
(8)
4.2. Diffusität Im Rahmen der DT wird angenommen, dass ein Hreb als desto dichter betrachtet werden kann, je näher seine Elemente im Text beieinander stehen. Sind die Elemente weit voneinander entfernt, gilt er als diffus. Je diffuser ein Hreb, desto weniger wird er als Hreb wahrgenommen, allerdings hängt seine Wahrnehmung nicht nur davon ab. Ein Maß der Diffusität lässt sich aus dem PositionsHreb aufstellen. Wenn mit sup CHpD die obere Schranke des Hrebs, d. h. die größte Positionszahl im Hreb, und mit inf CHpD die untere Schranke, d. h. die kleinste Zahl im Hreb, bezeichnet werden kann, dann ist DH Z
KHK
so dass sup CichD Z 87, inf CichD Z 22, K ich K Z 14 und (8) ergibt Dich Z
(vgl. Altmann/Lehfeldt 1980, 160). Es ist davon auszugehen, dass mit der Analyse der thematischen Hrebs hinsichtlich Topikalität, Konzentriertheit des Kerns und schließlich Konzentriertheit des gesamten Textes Verfahren zur Verfügung gestellt werden, die den Anforderungen der Textlinguistik an Operationalisierbarkeit genügen und es erlauben, Texte bezüglich thematischer Kriterien zu charakterisieren und zu vergleichen und damit letztendlich der Forderung nach einer distinktiven Textsortendifferenzierung K zumindest im Hinblick auf das Textthema K ein bedeutendes Stück näher kommen.
sup CHpD K inf CHpD
ich Z C22, 24, 30, 44, 49, 50, 54, 55, 60, 64, 74, 80, 87D,
(7)
aufgestellt werden, wo u w N (0, 1). Die Varianz Var (Rrel) ergibt sich als Var (Rrel) Z
zu definieren, was den Unterschied zwischen der letzten und der ersten Position des Hreb-Elements im Text, dividiert durch den Umfang des (Listen-)Hrebs beschreibt. Auch wenn DH alleine nicht erlaubt, Hrebs voneinander direkt zu trennen, ist es indirekt hilfreich bei der Identifikation topikaler Hrebs. Der Positionshreb von ich (Hreb Nr. 1) ist
(9)
87 K 22 14
Z 4.64.
Diffusität weist ein Hreb nur dann auf, wenn sein Umfang mindestens 2 ist. Für den Beispieltext resultiert daher ich du Bild sein in Zeit Erinnerung
4.64 7.86 2.00 4.67 9.00 0.50 1.00
Traum 2.50 daß 2.50 Herz 2.50 und 19.50 Silberfluten 1.50 Pracht 2.00 Widerhall 0.50
Aus den Di kann die Gesamtdiffusität des Textes als Durchschnitt der Einzeldiffusitäten ¯ Text Z D
1
K
∑ Di , K iK1
(10)
berechnet werden, wobei K die Zahl der be¯ ein Durchrücksichtigten Hrebs ist. Da D schnitt ist, kann der Unterschied der Textdiffusität als die Differenz zweier Durchschnitte getestet werden. Für den obigen Text ergibt dies ¯ Aus der Ferne Z (4.64 C 7.86 C ... D C 0.50) / 14 Z 4.33. Eine weiteres Verfahren, das sich an DH anschließt ist folgendes: Die Positions-Hrebs derjenigen Hrebs, deren DH O 0 ist, können bezüglich der Distanzen zwischen den benachbarten Positionen berechnet werden. Die Distanz zwischen zwei benachbarten Positionen pi und pi C 1 ergibt sich als die Zahl der dazwischenliegenden Hrebs, so dass ein Vektor der Distanzen DH Z Cd1, d2, ..., dkD
(11)
resultiert, in dem es K H KK1 Elemente gibt, d. h. um eins weniger als im Positions-Hreb.
431
32. Denotative Textanalyse
Für den obigen Positionsvektor von ich ergibt sich d1 Z p2 K p1 K 1 Z 24 K 22 K 1 Z 1 d2 Z p3 K p2 K 1 Z 30 K 24 K 1 Z 5 usw., so dass schließlich Dich Z C1, 5, 13, 4, 0, 3, 0, 4, 3, 1, 7, 5, 6D resultiert. Die Diffusität eines Hrebs kann dann z. B. als der Durchschnitt aller di berechnet werden, d. h. als ¯H Z D
1
K H KK 1
K H K K1
iZ1
∑
di .
(12)
Für das obige Beispiel bedeutet dies ¯ ich Z D
1
(1 C 5 C 13 C ... C 5 C 6) 13 Z 4.00
oder als die Streuung der di σH Z
[
1
K H KK1
∑ K H K K 1 iZ1
]
1/2
¯ H)2 (di K D
,
(13)
was für den obigen Fall σich Z
{
1 13
[(1 K 4)2 C (5 K 4)2 C (13 K 4)2
}
C ... C (5K4)2 C (6 K 4)2] ergibt.
1/2
Z 3.37
4.3. Textkompaktheit Ein Text ist desto kompakter, je weniger Hrebs K relativ zu seiner Länge K es in ihm gibt. Es ist anzunehmen, dass in kompakten Texten eine Konzentration auf den Kern erfolgt und Irrelevantes vermieden wird. Daher ist z. B. zu vermuten, dass es in wissenschaftlichen Texten relativ wenigere Hrebs gibt, als dies in poetischen Texten der Fall ist. Wenn alle Wörter eines Textes separate Hrebs bilden, kann die Zahl der Hrebs n theoretisch minimal 1 und maximal L sein, wobei diese Extreme nur in sehr kurzen Texten erreicht werden können. Die exakte Verteilung von n ist noch nicht bekannt. Um ein relatives Maß der Textkompaktheit zu bilden, führt die DT daher KZ
1Kn/L 1K1/L
(14)
an, das desto größer wird, je kompakter der Text ist (d. h. je wenigere Hrebs es in ihm gibt). Dieser Index liegt im Intervall C0, 1D
und kann, zumindest optisch, zum Vergleich der Texte herangezogen werden. Für den obigen Text resultiert KZ
1 K 61 / 96 1 K 1 / 96
Z 0.37.
Der Text ist nicht besonders kompakt, was möglicherweise eine Eigenschaft von Sonetten (des Genres/der Textsorte) ist. In Goethes „Erlkönig“ ist K Z 0.58 (vgl. Ziegler/ Altmann 2002). Insofern die ermittelten Eigenschaften der Hrebs sowohl Relationen der Elemente des einzelnen Hrebs als auch Relationen aller Hrebs des Textes wiedergeben, kann davon ausgegangen werden, dass hier zentrale Referenzmaße des Textes berechnet worden sind. Der Vorteil der Referenzmaße liegt dabei sicherlich vor allem in der Tatsache, dass nunmehr Referenz in Texten K zumindest hinsichtlich der ermittelten Eigenschaften K unabhängig von den Charakteristika des konkreten Textes definiert werden kann und damit ein Vergleich zwischen Texten auch bezüglich semantischer Kriterien ermöglicht wird. Auch in diesem Zusammenhang ist der Nutzen der DT insbesondere für eine Texttypologie evident. Die Frage, inwieweit textexterne Merkmale mit den ermittelten textinternen Eigenschaften korrespondieren oder ob möglicherweise Kontingenzen einzelner Variablen auf ein determinatives Verhalten der textuellen Eigenschaften schließen lassen, d. h. signifikant korrelieren, lässt die DT bisher allerdings unbeantwortet. 4.4. Thema-Rhema Gliederung K Thematische Progression Ein wesentlicher Bestandteil einer DT ist die Untersuchung der Thema-Rhema Strukturen eines Textes. Ziegler/Altmann (2002) weisen explizit darauf hin, dass der textlinguistische Nutzwert einer Thema-RhemaAnalyse, die gleichzeitig eine Analyse der Rekurrenzphänomene eines Textes ist, in der Tatsache zu sehen ist, dass nunmehr die Struktur des Referenzbezuges in einem Text, d. h. die thematische Progression auf denotativer Grundlage, erfasst, dargestellt und schließlich messbar gemacht werden kann. Dabei ist der Versuch über ThemaRhema Relationen die thematische Struktur eines Textes zu erfassen in der Textlinguistik seit langer Zeit populär (vgl. Sgall/Hajičová/ Benešová 1973; Petöfi 1974; van Dijk 1977;
432
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
de Beaugrande 1980; Heinemann/Viehweger 1991). Aufbauend auf den Arbeiten der Prager Schule (vgl. Mathesius 1929; Firbas 1964; Beneš 1967) und wesentlich auf Daneš (1970; 1976), der die eigentliche thematische Struktur eines Textes in der Verkettung und Konnexität der Themen und deren systemhaften Beziehungen zu einzelnen Textabschnitten, zum Textganzen sowie zur Situation erkennt und den Komplex thematischer Relationen im Text als thematische Progression bezeichnet, widmet sich auch die DT ausführlich der thematischen Struktur des Textes. Ziegler/Altmann (2002) machen deutlich, dass das Relationsgerüst der thematischen Struktur dabei wesentlich semantisch fundamentiert ist und nehmen mit Daneš (1976) an, dass semantische Beziehungen (also auch denotative Relationen) nur zwischen solchen Äußerungen im Text feststellbar sind, die gleichzeitig durch eine thematische Beziehung verknüpft sind. Sie unyZ
S Z W
Zahl aller Silben in Hrebs vom Umfang K H K Zahl aller Wörter in Hrebs des Umfangs K H K
ternehmen den Versuch, die thematische Progression auf denotativer Grundlage zu erfassen, indem die zugrunde liegende rhematische Struktur des Textes ermittelt wird. Um die rhematische Schichtung eines Textes und damit die Thema-Rhema-Gliederung eines Textes eindeutig zu ermitteln, schlagen sie eine Anwendung des Menzerath’schen Gesetzes vor, das bekanntermaßen nach der Formel y Z AxKb
nicht homogen, sondern vielschichtig. Da es sich aber bei den Hrebs um sprachliche Entitäten handelt, nimmt die DT an, dass das Menzerath’sche Gesetz auch hier anzuwenden ist, allerdings mit jeweils unterschiedlichen Parametern je Schicht, d. h. das Menzerath’sche Gesetz gilt schichtweise. Die Frage ist nur, wie diese Schichten zu etablieren sind. Die Argumentation kann auch umgekehrt werden, so dass zu erwarten ist, dass die Schichten nach der Berechnung der Daten sichtbar werden und ihre Anwesenheit durch das Menzerath’sche Gesetz bestätigt wird. Je länger der Text, desto stärker müssen die Schichten sichtbar werden. Ziegler/Altmann (2002) verdeutlichen die Anwendung des Menzerath’schen Gesetzes zur Ermittlung der rhematischen Schichten am Beispiel der Silbenlänge der ListenHrebs im Verhältnis zur Anzahl der Wörter der Listen-Hrebs, wobei sich die durchschnittliche Silbenlänge eines Listen-Hrebs mit Umfang K H K ergibt als
(15)
läuft (x Z Konstruktgröße, y Z Komponentengröße) und zur Beschreibung der Beziehung zwischen Konstrukt- und Komponentenlänge aufgestellt wurde und für sämtliche sprachlichen Entitäten durchgehend gilt (vgl. Altmann/Schwibbe 1989; Hřebíček 1995; Hřebíček 1997b). In jedem Fall gilt aber die Bedingung, dass die Daten homogen sein müssen (vgl. Altmann 1992), was bei formalen Entitäten (Silbe, Wort u. a.) leicht zu bewerkstelligen ist. Da bei den Wort-Hrebs aber offensichtlich mehrere Schichten zu erkennen sind: Kern-Hrebs, Hrebs, die sie miteinander verbinden, Hrebs, die in rhematischen Beziehung zu Kern-Hrebs stehen, Hrebs, die Attribute der rhematischen Hrebs sind, usw. erscheint das ganze Feld
(16)
Die Berechnung von (15), d. h. dem Menzerath’schen Gesetz, kann nur für Schichten durchgeführt werden, die mindestens drei Messpunkte enthalten. Die theoretischen Werte, die Kurve und der Determinationskoeffizient sind bei der jeweiligen Schicht angegeben. Genau diese Erscheinung bezeichnet die DT als rhematische Schichtung des Textes. Für die Berechnung wird folgendermaßen verfahren: In der Klasse der Hrebs, die nur ein Element (K H K Z 1) haben, hier Nr. 15K61, zählt man die Zahl aller Silben und dividiert sie durch die Zahl der Hrebs, hier 101 / 47 Z 2.15. In der Klasse mit K H K Z 2 hat man 21 Silben und 18 Elemente (in 9 Hrebs), d. h. 21 / 18 Z 1.17, usw. Auf diese Weise erhält man folgende Zahlen (vgl. Abb. 32.2). Umfang des Hrebs K H K
Durchschnittliche silbische Länge y
Y*
1 2 3 4 7 14
101/47 Z 2.15 21/18 Z 1.17 6/6 Z 1.00 2/4 Z 0.50 7/7 Z 1.00 11/14 Z 0.79
2.16 1.19 0.84 0.65
Abb. 32.2: Menzerath’sche Schichten im Text
433
32. Denotative Textanalyse
Eine Menzerath’sche Schicht umfasst eine Folge von Werten mit monotoner Abnahme, in Abb. 32.2 von K H K Z 1 bis K H K Z 4. Der Bruch nach K H K Z 4 signalisiert eine neue Schicht. Der obige Text hat nur 2 Schichten. Für jede Schicht berechnet man die Parameter von (15) separat (man kann sie jedoch erst dann berechnen, wenn die Schicht mindestens 3 Werte enthält). Für die Schicht mit den ersten 4 Werten resultiert a Z 2.1587, b Z 0.8637 und D Z 0.96. Zu bemerken ist, dass der „Erlkönig“ von Goethe auch zwei Schichten hat, in der ersten sind die Parameter a Z 1.5388, b Z 0.2084 (vgl. Ziegler/Altmann 2002). Ziegler/Altmann (2002) weisen allerdings darauf hin, dass sich diese real ergebende Schichtung des Textes aufgrund eines Gesetzes, das sich auf die Formen (hier Längen) auswirkt, natürlich nur als eine erste Approximation an die rhematische Schichtung des Textes betrachtet werden kann. Es ist jedoch eine exakte Methode, die auf der Zusammensetzung der Listen-Hrebs basiert und daher denotativ orientiert ist. Gerade im Zusammenhang mit der Untersuchung der thematischen Struktur wird die Nähe der DT zu einer Diskursanalyse, bzw. Diskurssemantik offenbar, wenn Ziegler und Altmann (2002) darauf verweisen, dass eine Untersuchung der thematischen Struktur nicht nur eine Analyse der jeweiligen textinternen Elemente darstellt, sondern vielmehr in der Lage ist, z. B. Kontextualität und Situationsabhängigkeit eines Textes zu reflektieren. Nicht allein ein textuell eingeführter Informationsstand ist für die thematische Struktur relevant, sondern auch solche Wissensbestände, die lediglich mit den durch den Text eingeführten Referenzobjekten (Denotaten) kognitiv in Verbindung gebracht werden können. Es wird dabei angenommen, dass Sprecher/Schreiber und Hörer/Leser ein gemeinsames Vorwissen haben und die Kommunikation dem Ziel dient, in diesem Wissensbestand Veränderungen hervorzurufen (vgl. Sgall/Hajičová/Benešová 1973). Daher ist es notwendig, Punkte in den Wissensbeständen anzusteuern, an denen sich eine solche Veränderung vollziehen kann, bzw. die in der Lage sind, eine solche Wissensveränderung auszulösen. Auch van Dijk (1977) sieht die Hauptfunktion des Themas (topic) darin, aus dem Wissensbeständen eine Informationseinheit auszuwählen oder in den Vordergrund zu rücken, so dass die Thema-Rhema-Analyse
(Topic-Comment-Analyse) im Grunde als ein Resultat der Bedingungen einer effektiven Informationsübermittlung und -verarbeitung (information processing) angesehen werden kann (vgl. Kallmeyer 1974). Die Thema-Rhema-Analyse der Hrebs, die sozusagen unterschiedliche Punkte in einem Intervall gemeinsamen Wissens auf Grundlage der denotativen Verbundenheit versammeln, scheint geeignet, sprachlich vermittelte Informationsprozesse K und eben auch textexterne Informationsprozesse K zu entdecken. Dabei kann der textexterne Informationsprozess je nach situativer Einbindung, d. h. nach Kontext, durchaus unterschiedlich ausfallen. Es wird deutlich, dass K obwohl die DT in erster Linie ein textinternes Analyseverfahren darstellt K dennoch Rückschlüsse auf textexterne Faktoren möglich und sogar notwendig sind. 4.5. Das Type-Token-Verhältnis Einen ganz anderen Versuch den Informationsfluss im Rahmen der DT zu ermitteln, stellt die Integration der Analyse des TypeToken-Verhältnisses des Textes dar. Die Überprüfung des Type-Token-Verhältnisses (vgl. Art. 27), d. h. der Regularität der Zunahme neuer Hrebs in Verlauf des Textes ist gleichzeitig ein zweiter Test zur Überprüfung, ob Wort-Hrebs fruchtbare Einheiten sind. Dem Vorschlag von Herdan (1966, 76) folgend wird im Rahmen der DT die einfachste Form einer Kurvenanpassung mit nur einem Parameter gewählt, nämlich y Z x b.
(17)
Der Text wird aufgrund der Abb. 32.1 als eine Folge von Hrebs dargestellt, die mit ihren Rangzahlen symbolisiert werden (1K 61). Man erhält dann für den Beispieltext 15, 16, 17, 18, 6, 6 19, 20, 7, 21, 7 8, 22, 23, 24, 25, 8 26, 27, 28 29, 1, 9, 1, 30, 31, 32 9, 33, 1, 10, 34, 35, 36, 37, 10 2, 3, 4, 3, 3, 38, 39, 1, 40, 3 41, 4, 1, 1, 42, 11, 4, 1, 1, 43 2, 44, 2, 1, 5, 45, 46 1, 47, 1, 2, 5, 48, 49 2, 50, 12, 1, 51, 12 2, 52, 13, 1, 53, 54, 13 55, 56, 57, 1, 5, 58, 59 11, 2, 60, 61, 14, 14
434
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics x
y
y*
x
y
y*
x
y
y*
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
1 2 3 4 5 5 6 7 8 9 9 10 11 12 13 14 14 15 16 17 18 19 20 20 21 22 23 23 24 24 25 26
1.00 1.87 2.71 3.51 4.30 5.07 5.83 6.58 7.32 8.05 8.78 9.50 10.21 10.92 11.62 12.32 13.01 13.71 14.40 15.08 15.77 16.44 17.12 17.79 18.46 19.13 19.80 20.46 21.12 21.78 22.43 23.09
33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
27 28 29 29 30 31 32 32 32 33 34 34 35 35 36 36 36 36 37 38 38 38 38 39 39 40 49 40 41 42 43 43
23.74 24.39 25.04 25.69 26.33 26.98 27.62 28.26 28.90 29.54 30.17 30.81 31.44 32.08 32.71 33.34 33.96 34.59 35.22 35.84 36.47 37.09 37.71 38.33 38.95 39.57 40.19 40.80 41.42 42.03 42.65 43.26
65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
44 44 44 44 45 46 46 47 48 48 49 49 49 50 51 51 52 53 53 54 55 56 56 56 57 58 58 58 59 60 61 61
43.87 44.48 45.09 45.70 46.31 46.92 47.52 48.13 48.74 49.34 49.94 50.55 51.15 51.75 52.35 52.95 53.55 54.15 54.75 55.34 55.94 56.53 57.13 57.72 58.32 58.91 59.50 60.10 60.69 61.28 61.87 62.46
Abb. 32.3: Das Hreb-TTR für Körners Gedicht
Zählt man nun die Zahl den neuen HrebTypes mit steigender Zahl der Hreb-Tokens (Positionen), so erhält man Resultate in den ersten zwei Spalten der Abb. 32.3. Die Anpassung von (17) ergibt die Werte in der dritten Spalte, die sich aus der geschätzten Kurve y Z x 0.9058 ergaben (D Z 0.9857). Der Anstieg der Kurve, d. h. der Informationsfluss, ist etwas stärker als im „Erlkönig“, der in Position x Z 96 erst 48 neue Types hat und für den Parameter b Z 0.854 (vgl. Ziegler/Altmann 2002). Bekanntlich hängt Parameter b stark von der Textlänge ab, daher sollten komparative Urteile nur nach Durchführung eines Tests abgegeben werden (vgl. Abb. 32.3). 4.6. Verteilung der Hrebgrößen Wie oben dargestellt nimmt die DT an, dass die Wortlängen in den Hrebs dem Menzerath’schen Gesetz gehorchen. Aus dieser Annahme kann geschlossen werden, dass die Verteilung der Hrebgrößen entweder
nach Hřebíčeks Argumentation der ZipfAlekseev-Verteilung (Hřebíček 1997b, 41 ff.), oder nach Schwarz (1995) der Waring-Verteilung folgt. Die Waring-Verteilung in 1-verschobener Form hat die Formel Px Z
n(xK1)
b
b C n (b C n C 1)(x K 1)
,
x Z 1, 2, ... (18) (x)
wobei k Z k (kC1) ... (kCxK1) bedeutet. Die modifizierte Zipf-Alekseev-Verteilung, die die stark schwankende Peripherie je nach Textart in Betracht zieht, behandelt die Klasse x Z 1 gesondert, so dass
{
α
xZ1 K (a C b ln x)
Px Z (1 K α) x
T
, x Z 2, 3, ..., n (19)
n
mit T Z ∑ jK jZ2
(a C b ln j)
resultiert.
435
32. Denotative Textanalyse
Die Zipf-Alekseev-Verteilung ist rechts gestutzt, was auch der empirischen Tatsache K besonders in kurzen Texten K eher gerecht wird als der unendliche Definitionsbereich der Waring-Verteilung. Die iterative Anpassung dieser Verteilungen an die Daten in Abbildung 32.1 ergibt x
fx
Waring
Zipf-Alekseev
1 2 3 4 5 6 7 8 9 10 11 12 13 14
47 9 2 1 0 0 1 0 0 0 0 0 0 1
47.00 7.63 2.69 1.27 0.70 0.43 0.28 0.20 0.14 0.11 0.08 0.07 0.05 0.35
47.00 8.44 2.75 1.19 0.61 0.35 0.21 0.14 0.10 0.07 0.05 0.04 0.03 0.02
b Z 1.8632, n Z 0.5550 FG Z 3, X 2 Z 0.5992 P (X 2) Z 0.8966
die folgenden Resultate (vgl. Abb. 32.4). Wie zu sehen ist, verhalten sich Hrebs genauso, wie Wörter. Eine andere Darstellungsart die im Rahmen der DT gewählt wird, ist die Ranghäufigkeitsverteilung, in welcher die Hrebs nach abnehmenden Umfang rangiert werden. Hier wird die Zipf-Mandelbrot-Verteilung verwendet, nämlich Px Z
(b C x)K a , x Z 1, 2, ..., n, T n
T Z ∑ (b C j)K a.
(20)
jZ1
Die iterative Anpassung dieser Verteilung ergibt die Resultate in Abbildung 32.5. Auch hier ist das Ergebnis zufriedenstellend. Aufgrund dieser Verteilungen ziehen Ziegler/Altmann (2002) folgende Schlüsse: (a) Je steiler die Häufigkeitsverteilung, desto stärker ist die Peripherie entwickelt; der Text zeichnet sich durch Ornamentalität aus: Es gibt zu viele Listen-Hrebs mit nur einem Element, was gleichzeitig auch ein Zeichen des Vokabularreichtums ist. Das Maß des Vokabularreichtums ist daher als R Z f1 / H zu definieren.
a Z 2.4101, b Z 0.1982 n Z 14, α Z 0.7705 C Z 0.0060
Abb. 32.4: Anpassung der Waring- und der ZipfAlekseev-Verteilung an die Hreb-Verteilung
x
fx
NPx
x
fx
NPx
x
fx
NPx
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
14 7 4 3 3 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1
8.65 6.30 5.04 4.25 3.70 3.29 2.97 2.71 2.50 2.33 2.18 2.05 1.94 1.84 1.75 1.67 1.60 1.54 1.48 1.43 1.38
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1.33 1.29 1.25 1.21 1.18 1.15 1.12 1.09 1.06 1.04 1.01 0.99 0.97 0.95 0.93 0.91 0.89 0.88 0.86 0.85 0.83
43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.82 0.80 0.79 0.78 0.76 0.75 0.74 0.73 0.72 0.71 0.79 0.69 0.68 0.67 0.66 0.65 0.65 0.64 0.63
a Z 0,7528, b Z 0,9102, n Z 61, FG Z 42, X 2 Z 9,4542 P (X 2) z 1,0000 Abb. 32.5: Anpassung der Zipf-Mandelbrot-Verteilung an die Daten
436
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
(b) Je steiler die Ranghäufigkeitsverteilung, desto markanter tritt der Kern in Vordergrund. Besteht der Kern aus mehreren Hrebs, so wird der Exzess immer kleiner.
5.
Koinzidenz und Kohäsion
Unter Koinzidenz versteht die DT einen definierten Berührungspunkt zwischen zwei Hrebs. Grundsätzlich korrespondiert der Begriff der Koinzidenz dabei mit dem textlinguistisch geprägten Begriff der Kohäsion, ist demgegenüber aber statistisch bestimmt. Die Koinzidenz verweist auf kohäsiv verbundene Elemente eines Textes und ist in ihrer Gesamtheit (alle Koinzidenzen des Textes) als Maß der Kohäsion eines Textes unter den jeweiligen Untersuchungsaspekten zu verstehen. Obwohl zahlreiche Koinzidenzen definiert werden können, lassen sich grundsätzlich quasi-deterministische Koinzidenzen K die häufig im Falle grammatischer Kohäsion (z. B. Kongruenz) vorliegen K von stochastischen Koinzidenzen, in denen nur mit Wahrscheinlichkeiten gearbeitet werden kann (z. B. semantische Folgen), unterscheiden. Im Folgenden wird exemplarisch das im Rahmen der DT entwickelte Modell für die positionale Koinzidenz des Textes, d. h. für die positionale Kohäsion des Textes, dargestellt. In Ziegler/Altmann (2002) ist darüber hinaus auch noch ein Modell für die phonetische Koinzidenz angeführt. Zwei Hrebs werden als koinzident betrachtet, wenn sich zeigen lässt, dass ihre Elemente in einem (syntaktischen, semantischen, rhythmischen usw.) Rahmen signifikant oft zusammen vorkommen. Als syntaktisch-semantischer Rahmen kann der Satz, als rhythmischer der Vers oder die Strophe angenommen werden. Es genügt jedoch nicht, wenn sie im vorbestimmten Rahmen zusammen vorkommen, jedoch rein zufällig. Die Signifikanz der Kookkurrenz muss dabei in jedem Falle nachgewiesen werden. Sie gilt als hinreichende Bedingung für jegliche Art der Koinzidenz, ohne sie weiter spezifizieren zu müssen. In Erweiterung des Ansatzes von Agricola (1977), der davon ausgeht, dass der Text aus „[.] einer endlichen, geordneten Menge von semantisch integrierten Textemen [.]“ (Agricola 1977, 14) besteht, glaubt die DT, dass diese Texteme nicht nur Sätze, oder satzwertige Einheiten sein kön-
nen (vgl. Rosengren 1980, 279), sondern vielmehr grundsätzlich textuelle Einheiten, die in der Lage sind, semantisch zu referieren. Insofern ist anzunehmen, dass auch die Hrebs eines Textes Texteme repräsentieren. Wird unter dem Textinhalt die Gesamtheit der Textembedeutungen und ihrer Verbindungen verstanden, scheint somit besonders über eine Untersuchung der positionalen Koinzidenz der Hrebs eines Textes ein Aufschluss bezüglich des denotativen sowie konnotativen Textinhaltes möglich. In der DT wird die positionale Koinzidenz mit Hilfe der hypergeometrischen Wahrscheinlichkeit ermittelt. Die Wahrscheinlichkeit, dass zwei Hrebs gemeinsam in xc oder mehr Rahmen (Sätzen oder Versen) gemeinsam vorkommen, ergibt sich als P (X R xc) Z min (M, n)
∑
Z
xZ5
( )( ) () M x
NKM nKx
(21)
N n
wo M bzw. n die Zahl der Rahmen, in denen Hreb i bzw. j vorkommen, und N die Zahl aller Rahmen im Text bedeuten. Die Variable x läuft dabei nur bis zu der kleineren der Zahlen M, n, d. h. bis min (M, n). Verdeutlicht werden soll das Vorgenannte an einem Beispiel: In den obigen Daten finden wir Hreb Nr. 1 in M Z 9 Zeilen, Hreb Nr. 2 in n Z 6 Zeilen, und zusammen kommen sie in xc Z 5 Zeilen vor, wie man sich im Text leicht überzeugen kann. Die Anzahl der Verse ist N Z 14. Wir fragen, wie groß die Wahrscheinlichkeit ist, dass sie unter diesen Bedingungen in xc Z 5 oder mehr Zeilen zusammen vorkommen. Es ergibt sich
( )( ) ∑ ()
min (6,9)
P (X R 5) Z
9
14 K 9
x
6Kx
14
xZ5
6
( )( ) ( )( ) () 9
14 K 9
5
6K5
9
14 K 9
6
6K6
C
Z
14 6
437
32. Denotative Textanalyse
( )( ) ( )( ) () 9
5
5
1
9
5
6
0
C
Z
16 6
125 (5) C 84 (1) Z 3003
Z 0.2378.
So erhält man z. B. für Hreb Nr. 11 folgende Resultate: Mit Hreb Nr.
P
1 2 4 14 41 42 43 60 61
0.8901 0.6923 0.2747 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429
Bei dieser Rechnung ist entscheidend, in wie vielen Zeilen der Hreb vorkommt (nicht wie oft). Um nun einen Graphen aufzustellen, können folgende Strategien gewählt werden: (a) Eine Ebene α ist zu wählen, und zwei Hrebs, bei denen P (X R x) % α ist, sind durch eine Kante zu verbinden. Diesen Graphen bezeichnen wir als α-Graphen. Die Erfahrung zeigt, dass es bei diesen Graphen nicht nur mehrere Komponenten gibt (s. u.), sondern oft auch viele isolierte Ecken (Hrebs). Je kleiner α, desto weniger Koinzidenzen werden beobachtet. Die Ebene α ist sozusagen eine konventionell gewählte Signifikanzebene, die sich von den in der Statistik benutzten Ebenen beliebig unterscheiden kann. Der entstehende Graph ist ein ungewichteter (crisp) Graph, weil eine Koinzidenz zweier Hrebs entweder gegeben (P % α) oder nicht gegeben (P O α) ist. Je länger ein Text, desto kleiner werden im Allgemeinen die Wahrscheinlichkeiten der reellen Koinzidenzen. Wählt man für das obige Sonett α Z 0.2, so resultiert der Graph in Abbildung 32.6.
(b) Eine Ebene β ist so wählen, dass kein Hreb isoliert ist, sondern jeder mit mindestens einem anderen Hreb adjazent ist. Eine Alternative dieses Verfahrens ist die Entscheidung, bei jedem Hreb nur die stärkste Assoziation (kleinstes P) zu anderen Hreb zu berücksichtigen. Die Kanten in einem solchen Graphen sind unterschiedlich gewichtet. Die stärkste Koinzidenz eines Hrebs muss nicht symmetrisch sein; z. B. ist die stärkste Koinzidenz von Nr. 2 Nr. 1, aber die stärkste Koinzidenz von Nr. 1 ist Nr. 5. Man kann also diesen Graphen als gewichteten (fuzzy) orientierten Graphen darstellen. Ein derartiger Graph für den obigen Text ist in Abbildung 32.7 dargestellt. In diesem Graphen haben alle gerichteten Kanten einer Clique das gleiche angegebene Gewicht. (c) Eine Ebene γ ist so zu wählen, dass alle Hrebs einen einzigen Graphen bilden, d. h. es gibt nur eine einzige Komponente. Als Grundlage ist sowohl der αals auch der β-Graph anzunehmen, und die einzelnen Komponenten mit der stärksten Koinzidenz der Komponentenelemente werden verbunden. So ist z. B. zu erkennen, dass die Komponente {12, 50, 51} am stärksten mit Hreb Nr. 2 verbunden ist (γ Z 0.429). Man stellt außerdem fest, dass die Komponente {6, 15, 16, 17, 18} keine anderen Koinzidenzen hat und isoliert bleibt K es sei denn, man lässt Koinzidenzen mit γ Z 1 zu, was nicht ratsam ist. Bei längeren Texten wäre diese Strategie allerdings durchaus akzeptabel, weil sie zusammenhängende Graphen produziert.
6.
Diskursiver Plan und Makrostruktur
Indem die DT aus Koinzidenzen Graphen erstellt, integriert sie gleichzeitig die Graphentheorie in das textlinguistische Verfahren. Unter Rückgriff auf van Dijk (1980) wird dabei angenommen, dass der Graph eines Textes der semantisch-thematischen Textbasis entspricht, d. h. den diskursiven Plan des Textes unter denotativen Gesichtspunkten repräsentiert. Van Dijk definiert den Text in erster Linie als eine gesteuerte Oberflächenstruktur, die durch eine seman-
438
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
K1 1
K2
K3
2
5
K5
K4 12
50
26
51
K7 48 49
27
44
45
28
K8
47
K6
46
K9
K10
7
19
13
52
21
20
54
53
6 18
15
17
K11
K12
16
K13
8
56
30
60
25
57
59
22
24
58
31
29
23
32 9
37
10
K14 3
38
40
39
36
33
35
34
4
41
43 42
11
61
14
60
Abb. 32.6: Der α-Graph, α Z 0.2
tische Tiefenstruktur motiviert ist (vgl. van Dijk 1980, 123). Betrachtet man den Graphen daher als Visualisierung der semantisch-denotativen Struktur eines Textes, kann geschlossen werden, dass er der van Dijk’schen abstrakt-logischen Tiefenstruktur, die den gesamten Text semantisch (de-
notativ) paraphrasiert und textthematisch bestimmt ist, entspricht. Die durch den Graphen dargestellten Relationen werden daher als die denotative Makrostruktur des Textes bezeichnet. Die derart ermittelte Makrostruktur des Textes spiegelt gleichzeitig die Viehwe-
439
32. Denotative Textanalyse
0.071 12
26
50
28
0.071
6
29
30
32
31
7
19
13
52
21
20
54
53
27
51
0.071
18
0.07 1
8
15
17
0.07 1
0.071
0.071
25
16
22
24
23
0.07 1
0.071
0.071 60
42 0.143
14
11
0.143
61
41
38
40
39
2
10
36
3 0.143
43
0.07 1 37
4
0.143
0.238 1
33
0.228 35
34
5 0.214 0.071
0.14 3 44
9
0.21 4
0.214 0.071
45
47
55
0.071
48 59
0.14 3
46
56
49 58
0.07 1 29
30
32
31
57
Abb. 32.7: Der β-Graph des Textes
ger’schen nominativen Ketten und deren Verbindungen untereinander und damit die Isotopie des Textes sowie die von Agricola (1977) postulierten durch Isotopieketten
verbundenen Texteme wider. Gerade der Graph eines Textes erscheint somit als der Schlüssel der DT, insofern er die Kohärenz des Textes visualisiert.
440
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
6.1. Eckengrad K Konnotative Konzentration und phraseologischer Status Bestimmte Aspekte der Graphentheorie erlauben im Rahmen der DT darüber hinaus, die Textkohärenz nicht nur visuell darzustellen, sondern auch mit Maßen zu charakterisieren. Ein Graph besteht aus Ecken (Knoten) und aus Kanten, die die Ecken miteinander verbinden. Zwei Ecken sind adjazent, wenn sie mit einer Kante verbunden sind, eine Ecke inzidiert mit einer Kante. Eine Ecke, die mit keiner Kante inzidiert, wird als isoliert bezeichnet. Die Zahl der Ecken K E K Z n heißt Ordnung des Graphen, die Zahl der Kanten K K K Z m Größe des Graphen. Die Zahl der Kanten, die mit einer Ecke v inzidieren, ist der Eckengrad d (v). Wie in Abb. 32.6 zu sehen ist, hat Hreb Nr. 1 d (v1) Z 0, Hreb Nr. 26 d (v26) Z 2, Hreb Nr. 56 d (v56) Z 4, usw. Die DT nimmt an, dass der Eckengrad eines Hrebs auf die Assoziativität des Hrebs verweist. Während ein Hreb also selbst denotativ definiert ist, drückt seine Verbindung zu anderen Hrebs seine potentielle Konnotativität und/oder seinen phraseologischen Status aus. Diese können lokal sein, d. h. nur auf den gegebenen Text beschränkt, oder sie deuten an, dass es eine Tendenz gibt, dass mit dem Hreb komplexere Begriffe oder Phrasen gebildet werden können. Die Konnotativität ist üblicherweise gering, wenn der Mengen-Hreb umfangreich ist, d. h. wenn es im Mengen-Hreb viele unterschiedliche Formen gibt. Ausgehend vom Eckengrad ergibt sich daher aus Abbildung 32.6 eine Klassifikation der Hrebs nach ihrer Assoziativität wie in Abbildung 32.8 dargestellt wird. Da bei der Gradrechnung jede Kante zweimal gezählt wird, ist der Grad des gan-
Grad 0 2 3 4 6 7 10
zen Graphen d (G) Z 2 m, d. h. er entspricht der doppelten Zahl aller Kanten. Die Klassifikation der Hrebs nach Graden ist somit eine assoziative (konnotative, phraseologische) Differenzierung. Hrebs mit gleichem Grad haben semantisch nichts Gemeinsames, der Grad zeigt lediglich ihre konnotative Ausprägung. In Anlehnung an Viehwegers Definition der nominativen Ketten folgen Ziegler/Altmann (2002) der Annahme, dass den nominativen Ketten eine Isotopiekette mit denotativer Bedeutung entspricht (Viehweger 1978). Diese Isotopiekette wird dabei durch die im vorangegangenen etablierten Hrebs fundamentiert. Bereits Lujewa (1987) geht aber davon aus, dass eine konnotative Textpotenz auf der Ebene der nominativen Ketten überprüft werden kann, wenn sie die konnotative Textpotenz als eine textuelle Implikation, die nicht subjektive Interpretation, sondern vielmehr textbedingte Erscheinung ist und zwangsläufig zur Bildung eines Subtextes führt, definiert. Über die Untersuchung der Hrebs, als denotative Entitäten des Textes, nach ihren Graden, schließt sich die DT dieser Meinung an und ermittelt analog zu der postulierten konnotativen Textpotenz die konnotative Konzentration des Textes (vgl. Lujewa 1987, 127 f.). Es wird angenommen, dass auch eine konnotative Wirkung wesentlich textuell verankert ist, so dass hier die Schnittstelle der Textanalyse evident wird, die auf das Anschaulichste verdeutlicht, dass eine semantisch-denotative Betrachtung auch immer im konkreten Zusammenhang mit einer Pragmatik des Textes zu sehen ist. Natürlich wird darauf hingewiesen, dass der konnotative Status eines Hrebs erst durch den Leser/Hörer aktualisiert werden muss, damit er seine Wirkung entfalten kann. Da diese Aktualisierungen wieder im Rahmen eines semantischen Intervalls vollzogen werden, erscheint
Hrebs
Anzahl
1, 2, 5 12, 50, 51, 26, 27, 28, 44, 45, 46, 47, 48, 49 7, 9, 20, 21, 13, 52, 53, 54, 14, 60, 61 3,6, 15, 16, 17, 18, 56, 57, 58, 59, 60, 8, 22, 23, 24, 25, 29, 30, 31, 32, 38, 39, 40, 41, 42, 43 10, 33, 34, 35, 36, 37, 11 4 9
3 12 11 26
Abb. 32.8: Hrebs klassifiziert nach Assoziativität (Grad)
7 1 1
441
32. Denotative Textanalyse
es selbstverständlich, dass ein und derselbe Text ganz unterschiedlich rezipiert und interpretiert werden kann, d. h. unterschiedliche Subtexte produzieren kann. Die Klassifikation der Hrebs nach ihren Graden bietet also die Möglichkeit, Texte hinsichtlich ihrer potentiellen Subtexte zu differenzieren und somit Variabilität sowie Grenzen der Variabilität der Sinnerschließung eines Textes zu unterscheiden, da diese durch die Ermittlung der textinternen konnotativen Konzentration bestimmbar werden (vgl. Lerchner 1984). Mit der textinternen konnotativen Textkonzentration werden also „[.] aussage- bzw. sinnkonstituierende Funktionsmerkmale, die durch den Bezug der Zeichen [Hrebs] aufeinander und auf die Ganzheit der Textgestalt [.] emotional-assoziative Bewusstseinsprozesse auslösen“ (Lerchner 1984, 44) bezeichnet. Der Text wird durch den relativen Gesamtgrad des Graphen, drel (G), charakterisiert, der so berechnet wird, dass die Zahl der Kanten, m, durch die maximale Zahl der Kanten dividiert wird. Wenn jede der n Ecken mit jeder der restlichen n K 1 Ecken adjazent wäre, so ergäben sich insgesamt n (n K 1) / 2 Kanten, so dass drel (G) Z
2m
(22)
n (n K 1)
resultieren würde. Das Maß (22) kann also als ein Maß der konnotativen Konzentration betrachtet werden. Im Falle des Graphen in Abb. 32.6, der n Z 61 Ecken und m Z 110 Kanten hat, ergibt sich drel (Aus der Ferne) Z
2 (110) 61 (60)
Z 0.06.
Da die Zahl, drel, genauso zu behandeln ist, wie jede andere relative Zahl, kann getestet werden, ob zwei Texte einen signifikant unterschiedlichen Grad haben. Vergleichende Textuntersuchungen werden also auf Grundlage der DT möglich. Theoretisch ist davon auszugehen, dass die Verteilung der Eckengrade probabilistisch geregelt wird, d. h. nicht alle Eckengrade kommen gleich oft vor, und wenn die Ebene der Koinzidenz adäquat festgelegt worden ist, ergeben die Eckengrade eine gute Verteilung. Da allerdings bisher zu wenig Texte untersucht worden sind, lässt sich hier keine verbindliche Aussage treffen, sondern auch die DT stellt diesbezüglich zunächst nur vorläufige Überlegungen an.
6.2. Zusammenhang Ein weiteres Maß, das im Rahmen der DT graphentheoretisch ermittelt wird, ist das relative Zusammenhangsmaß. Eine ununterbrochene Folge von Kanten, die zwei Ecken vi und vj verbindet, wobei keine Kante und keine Ecke sich wiederholen, heißt Weg. Existiert ein Weg zwischen vi und vj, dann bezeichnet man sie als zusammenhängend. Teilgraphen, in denen es zwischen allen Ecken einen Weg gibt, heißen (Zusammenhangs-)Komponenten. Je größer die Zahl der Komponenten (κ), desto schwächer der Zusammenhang. Auch hier wird zur Charakterisierung ein relatives Maß verwendet. Ein Graph kann höchstens so viele Komponenten haben, wie es Ecken (n) gibt; mindestens gibt es aber immer eine Komponente, so dass das relative Zusammenhangsmaß κrel (G) als κrel (G) Z
nKκ
(23)
nK1
definiert wird. Dieses Maß wird 0, wenn es keinen Zusammenhang gibt, denn dann ist κ Z n, und es ist 1 wenn κ Z 1, d. h. wenn es nur eine Komponente gibt und der ganze Graph zusammenhängend ist. Der Graph in Abbildung 32.6 hat n Z 61 und κ Z 14 Komponenten, daher ergibt sich κrel (Aus der Ferne) Z
61 K 14 60
Z 0.78.
Ein anderes Charakteristikum ist die sogenannte zyklomatische Zahl des Graphen, definiert als µ Z m K n C κ,
(24)
d. h. (die Zahl der Kanten K die Zahl der Ecken C die Zahl der Komponenten). Auch diese Zahl wird relativiert. Es lässt sich zeigen, dass ein relatives Maß im Intervall C0, 1D sich dann als µrel Z Z
2µ (nK1) (nK2) 2 (m K n C κ)
(25)
(n K 1) (n K 2)
ergibt. Für den Graphen in Abb. 32.6 resultiert mit m Z 110, n Z 61, κ Z 14 µrel Z
2 (110 K 61 C 14) 60 (59)
Z 0.04.
6.3. Entfernungen Unter der Entfernung d (vi , vj) zwischen zwei Ecken vi und vj wird die Länge des kür-
442
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
zesten Weges zwischen ihnen bezeichnet, d. h. die kleinste Anzahl der Kanten, über die man von vi zu vj gelangen kann. Die Entfernung zwischen Hrebs Nr. 12 und Nr. 50 in Abb. 32.6 ist d (v12 , v50) Z 1, oder d (v3 , v60) Z 4, d (v38 , v11) Z 3, d (v1 , v3) N, usw. Die Entfernungen kann man nur in Zusammenhangskomponenten messen, denn gibt es zwischen zwei Ecken vi und vj keinen Weg, so ist die Entfernung unendlich. Die Exzentrizität einer Ecke e (v) wird als die maximale Entfernung dieser Ecke zu allen anderen Ecken im Graphen definiert, d. h. e (v) Z max d (x, v),
(26)
x 2 E (G)
wobei E (G) die Menge aller Ecken im Graphen ist. Man kann die Exzentrizität nur innerhalb einer Komponente messen. So ist z. B. in Abb. 32.6 e (60) Z 4, e (4) Z 3, e (9) Z 1, e (31) Z 2, usw. Die maximale Exzentrizität (maximale Entfernung) im Graph ist gleichzeitig der Diameter dm (G) des Graphen, d. h. dm (G) Z max e (v).
z (G) Z
v 2 E (G)
(28)
d¯ (G) Z
n
∑
n (n K 1) vi, vj 2 E (G)
d (vi , vj),
(29)
d (vi , vj)
und bildet den relativen Zentralitätsindex, der im Intervall C0, 1D liegt, als Z (G) Z
zmax(G)Kz(G) zmax (G)Kzmin (G)
.
(30)
Offensichtlich ist zmin (G) Z n (n K 1), und es lässt sich zeigen (vgl. Ziegler/Altmann 2002), dass Zmax (G) Z
n (n C 1) (n K 1) 3
,
so dass Z (G) Z
v 2 E (G)
Es ist die kleinste Entfernung unter den maximalen für jede Ecke. In Abb. 32.6 ist in K1KK12 der Diameter identisch mit dem Radius; in K13 ist der Radius gleich 1 und in K14 ist r (K14) Z 2. Die Menge der Ecken mit der kleinsten Exzentrizität, d. h. der Ecken, für die e (v) Z r (G) gilt, bildet das Zentrum des Graphen. In K1KK12 bilden alle Ecken das Zentrum der jeweiligen Komponente, in K13 ist es Hreb Nr. 9, in K14 ist es {41, 42, 43}. Die Menge der Ecken, die die kleinste Summe der Entfernungen haben, wird als Median des Graphen bezeichnet. Auch die mittlere Entfernung im Graphen (vgl. Volkmann 1996, 20)
∑
vi, vj 2 E (G)
(27)
Der Diameter erfasst sozusagen die Größe des Ausschnitts der Realität, d. h. die Denotationsbreite. In Abb. 32.6 haben K1KK12 den Diameter 1, K13 hat dm (K13) Z 2 und dm (K14) Z 4. Der Radius des Graphen r (G) wird definiert als die kleinste Exzentrizität im Graphen, d. h. r (G) Z min e (v).
die auch als zentraler Index bezeichnet wird (vgl. Busacker/Saaty 1968, 256), findet Berücksichtigung. Er ergibt sich aus der Summe aller Entfernungen, dividiert durch die Anzahl der Eckenpaare im Graphen (bzw. in den Komponenten). Die mittlere Entfernung gibt Auskunft über die assoziative Stärke der Komponente. Für die Charakterisierung des gesamten Textes ist dabei der Durchschnitt aller Komponenten zu berücksichtigen. Da sich die Zentralität mit wachsendem Text nicht gleichmäßig entwickelt oder eventuell sogar gleich bleibt, wird ein Index gebildet, der die Summe der Entfernungen sowohl mit ihrem Minimum als auch ihrem Maximum vergleicht. Die Summe aller beobachteten Entfernungen im Graphen erscheint daher als
(n C 1) n (n K 1) K 3 z (G) n (n K 1) (n K 2) für n O 2.
, (31)
Hier ist n die Zahl der Ecken in der entsprechenden Komponente. Um Z (G) für einzelne Komponenten zu berechnen, muss erst die Summe der Entfernungen z (G) berechnet werden: Für Für Für Für Für
K1KK3 ist z (G) Z 6, n Z 3 K8KK9 ist z (G) Z 12, n Z 4 K10KK12 ist z (G) Z 20, n Z 5 K13 ist z (G) Z 158, n Z 11 K14 ist z (G) Z 266, n Z 12
Die Gleichung bei Komponenten, in denen jede Ecke mit jeder anderen verbunden ist, ist z (G) Z n (nK1); bei K13 und K14 muss entweder per Hand oder mit einem entsprechenden Graphenprogramm gerechnet werden. Für K14 ergibt sich
443
32. Denotative Textanalyse
z (K 14) Z
13 (12) 11 K 3 (266) 12 (11) 10
Z 0.9655.
Die relativen Zentralitätsindizes für das Sonett von Körner sind daher (ab n O 2) KI
n
z (G)
Z (G)
1K3 4K7 8K9 10K12 13 14
1 3 4 5 11 12
0 6 12 20 158 266
nicht definiert 1 1 1 0.8545 0.9655
Abb. 32.9: Relative Zentralitätsindizes für das Sonett von Körner.
Die DT versucht sich mittels der vorgenommenen Berechnungen schließlich verschiedenen sprachlichen Phänomenen in unterschiedlichen Textsorten zu nähern, etwa der Tatsache, dass in Briefen bestimmte formelhafte Wendungen ohne direkten inhaltlichen Bezug, aber aufgrund bestimmter Textmustervorgaben oder zur intertextuellen Verknüpfung in den Text aufgenommen werden. Man kann sich die Frage stellen, ob die Komponenten eines Textes so gebildet werden, dass ihre Größe und ihr Diameter (Radius) Zufallsvariablen bilden. Es ist nämlich gut vorstellbar, dass sich die Assoziation zwischen Wörtern (welcher Art auch immer) nicht unendlich dehnen lässt, sondern irgendwo abbricht und sich eine neue Denotationskomponente bildet. Denotation ist nicht mit Lexikalisierung gleichzusetzen. Das, was in einer Sprache nicht lexikalisiert wird, muss mit Phrasen, Clausen, Sätzen ausgedrückt werden. Im Deutschen gibt es Wörter für Begriffe, z. B. wie ,gefrorenes Wasser‘ Z Eis, ,Wasser, gefroren, in Form von Flocken‘ Z Schnee, ,Wasser in gasartiger Form‘ Z Dampf, aber es gibt kein Wort für ,trockener Ast‘. Ein Begriff denotiert eine reelle Begebenheit (nicht nur einen Gegenstand), aber seine Versprachlichung muss nicht unbedingt mit einem einzigen Wort geschehen. Diese Rolle übernimmt der Text oder seine Teile (vgl. Köhler/Altmann 1993). Vor diesem Hintergrund betrachtet die DT die Hrebs als die kleinsten Denotationseinheiten, die sich im Text zu komplexeren Entitäten zusammenschließen, und zwar in jedem Text zu anderen, da sie teilweise die konnotative Welt des Autors, teilweise die nicht-lexikalisierte Begriffswelt der Sprach-
gemeinschaft ausdrücken. Diese Entitäten können graphentheoretisch als Zusammenhangskomponenten erfasst werden. Die Komponenten werden umso größer, je länger (gemessen in Anzahl von Sätzen oder Versen usw.) der Text ist, und es ist deutlich, dass hier eine Regularität vorliegt. 6.4. Schnittmengen und Blöcke Komponenten sind zusammenhängende Teilgraphen. Schnittecken oder Schnittkanten sind solche Ecken bzw. Kanten, nach deren Beseitigung der Graph in Komponenten zerfällt. Eine Schnittecke nennt man Artikulationspunkt, eine Schnittkante bezeichnet man als Brücke. Ein zusammenhängender Graph ohne Schnittecken heißt Block. Ein Block enthält selbst keine Schnittmengen. Im folgenden Graphen gibt es nur eine Schnittecke, nämlich v:
v
w
nach deren Beseitigung der Graph in zwei Komponenten zerfällt
w
Daher gibt es hier zwei Blöcke, die die Ecke v gemeinsam haben:
v
v
w
Die einzige Schnittkante im ersten Graphen ist (v, w). Die Bedeutung dieser Begriffe für die Textanalyse interpretieren Ziegler/Altmann (2002) etwa folgendermaßen: Der Graph der Hreb-Adjazenzen besteht aus Komponenten. Je zusammenhängender der Text, desto weniger Komponenten gibt es. Die
444
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Schnittecken halten den Text sozusagen zusammen, weil sie verschiedene Denotationsteile des Textes verbinden. Zwei Blöcke können nur eine Schnittecke gemeinsam haben, nämlich diejenige, die sich zu zwei unterschiedlichen Hreb-Gruppen assoziativ verhält. Somit ermöglicht die Integration der Graphentheorie in die DT ein hypothetisches Auffinden nichtrealisierter Lexikalisierungen von Begriffen in einer Sprache. Die Blöcke zeigen etwas von der Assoziationswelt des Autors (Sprecher/Schreiber), bzw. von der Gemeinschaft, zumindest im Augenblick der Schöpfung. Dies ist auch der Ursprung der Phrasenbildung, die in Form signifikanter Koinzidenz (im statistischen Sinne) in Gang gesetzt wird. Die Graphentheorie kann helfen, Kandidaten der Phrasenbildung in der weiteren Entwicklung der Sprache zu suchen, ihre aktuelle Stärke zu messen. In Abb. 32.6 findet man nur drei Schnittecken, nämlich die Nummern. 4, 9 und 11. Man sieht, dass es Hilfswörter sind (sein, dass, und), die Assoziationsblöcke miteinander verbinden. Im β-Graphen (vgl. Abb. 32.7) ist zu erkennen, dass sie zu den Blöcken eine schwächere Verbindung haben (d. h. β ist größer) als die Elemente des Blocks untereinander. Im β-Graphen kommen dazu noch Nr. 1 und Nr. 5, wobei es sich bei Nr. 5 auch um ein Verbindungswort (in) handelt, während Nr. 1 einer der Kernhrebs ist. Eine genaue Erforschung der Sachverhalte bleibt auch in diesem Falle Aufgabe zukünftiger Untersuchungen. 6.5. Cliquen Als Clique bezeichnet man einen maximal verbundenen Graphen, d. h. eine Menge von Ecken, die alle miteinander adjazent sind. Zwischen jedem Paar von Ecken gibt es eine Kante. Eine Clique bedeutet maximale Verbundenheit. Es macht Sinn, von einer Clique schon bei zwei Ecken zu sprechen, d. h. bei Gebilden wie sie in der nächsten Kolumne dargestellt sind. In Abb. 32.6 bilden K4KK12 Cliquen. Bei K13 und K14 muss man Entscheidungen treffen (s. u.). Gebilde dieser Art entstehen oft auch durch eine grammatische Verbindung, jedoch erzeugen solche Verbindungen stärkere Assoziationen als andere Komponenten oder Blöcke (die nicht Cliquen sein müssen). Cliquen bedeuten die Stellen der
stärksten Assoziation im Text! Ein Graph lässt sich vollständig in Cliquen zerlegen. Dabei darf eine Ecke nur zu einer Clique gehören. Die minimale Zahl der Cliquen, in die man einen Graphen zerlegen kann, wird als θ (G) bezeichnet. Für unsere Zwecke ist es empfehlenswert, eine Zerlegung linguistisch voranzutreiben, jedoch muss man zuerst viel Erfahrung mit dieser Analyse sammeln, um Kriterien aufstellen zu können. Man könnte zu diesem Zweck auch die Stärke der Koinzidenz verwenden K die man mit Hilfe der hypergeometrischen Verteilung berechnet hat K und erst dann entscheiden, jedoch kommt man zu keiner Entscheidung, wenn alle Koinzidenzen gleich gewichtig sind. Man kann tentativ folgende Regeln aufstellen: (a) Die kleinste Clique besteht aus 2 Hrebs, d. h. isolierte Hrebs werden nicht berücksichtigt, weil sie linguistisch irrelevant sind. (b) Eine Ecke (Hreb) soll in einem Graphen nur zu einer Clique gehören. (c) Man fängt die Zerlegung an einer beliebigen Stelle im Graphen an und bildet die Cliquen so, dass sie maximal sind. In dem Falle, dass eine Alternative aus zwei gleichwertigen gewählt werden muss, entscheidet man K falls möglich K linguistisch. Man kann offensichtlich auch eine andere Einteilung in Cliquen bekommen, je nachdem, welches Ziel verfolgt wird: die Erkennung der lokalen Welt des Textes oder globale Sprachzustände und die Begriffswelt der Sprecher. Die letztere kann allerdings erst nach durchgeführter Analyse zahlreicher Texte rekonstruiert werden. Es darf nicht vergessen werden, dass Blöcke und
445
32. Denotative Textanalyse
Cliquen nicht notwendigerweise feste Verbindungen sind, sondern viele einfach ad hoc im Text entstehen ohne sich jemals zu wiederholen. Während in Abb. 32.6 die Zuordnung von Nr. 4, 9 und 11 zu einer Clique noch eine Entscheidungsfrage ist, erleichtert Abb. 32.7 (β-Graph) die Zuordnung: Eine Clique ist hier ein vollständig verbundener Graph, in dem alle Kanten das gleiche Gewicht haben. Ob dieses Kriterium auch in längeren Texten standhält, wird sich durch weitere Forschung zeigen. eventuell wird der Cliquenzusammenhalt aber auch durch globale Maße charakterisiert werden müssen.
7.
Textlinguistischer Nutzen K Ausblick, Desiderate
Indem die DT Hrebs als sprachliche/textuelle Einheiten etabliert, ist es dem Verfahren gelungen, diskurssemantische Einheiten in Texten durch ein operationales Verfahren, das Intersubjektivität, Validität und Vergleichbarkeit der Ergebnisse garantiert, zu ermitteln. Trotz der Bezeichnung DT erscheint die Methode vielmehr als ein Verfahren der Textstrukturanalyse, das weitaus mehr Einblicke in die Gestaltung des Textes erlaubt, als einen flüchtigen Blick auf seine denotative Struktur. Durch eine Berücksichtigung textexterner Merkmale können auch Rückschlüsse auf Kommunikationssituation und Funktion der Texte gezogen werden. Es ist anzunehmen, dass sich gerade die pragmatische Verwendungsweise eines Textes auch in seinen zentralen semantischen Eigenschaften widerspiegelt, die über eine Untersuchung der Hrebs eines Textes evident werden. Natürlich steht die Frage nach den konkreten Kommunikationsbedingungen und Besonderheiten der jeweiligen Texte unter Berücksichtigung der pragmatischen textexternen Aspekte auch immer im Zentrum einer textlinguistischen Betrachtung. Texte als sprachliches Korrelat eines konkreten Kommunikationsaktes erscheinen stets eingebettet in einen Kommunikationsprozess, der wiederum Teil einer sozialen Interaktion ist, d. h. immer auch Bezug und Einfluss auf reale Handlungen, Gedanken und Verhaltensweisen nimmt, weswegen davon auszugehen ist, dass der konkrete Text sich auch in seinen Referenzmaßen an diesen konkreten Kommunikationsbedingungen orientiert
(vgl. Kern 1969; Glinz 1971; Schmidt 1972; Rosengren 1980). Die DT ist somit zu einem nicht unwesentlichen Teil auch pragmatisch orientiert. Da durch die Integration der Graphentheorie in die Textanalyse auch der phraseologische Status der Hrebs bestimmbar wird, sind darüber hinaus auch verschiedene Schlussfolgerungen für die Phraseologie und Parömologie denkbar. So kann ermittelt werden, welche Hrebs generell einer potentiellen Phrasenbildung offen stehen, d. h. welche Phrasen geeignet scheinen einen Phraseologismus zu bilden. Ziegler/Altmann (2002) verweisen ausdrücklich darauf, dass damit langfristig K natürlich nach zahlreichen weiteren Untersuchungen an unterschiedlichen Textsorten K prädikative Aussagen hinsichtlich der phraseologischen Substanz eventuell einer Sprache, sicherlich aber hinsichtlich der phraseologischen Substanz der Texte bestimmter Textsorten einer Sprache, denkbar wären. Bezüglich eines sich kontinuierlich vollziehenden Sprachwandels wäre die Linguistik damit in der Lage, eine rein deskriptive Betrachtung sprachlicher Phänomene aufzugeben und von einer eher statisch orientierten Sprachanalyse zu einer die dynamischen Aspekte des Sprachprozesses berücksichtigenden Methode zu gelangen.
8.
Literatur (in Auswahl)
Agricola, Erhard (1969), Semantische Relationen im Text und im System. Halle: Niemeyer. Agricola, Erhard (1977), Text K Textaktanten K Informationskern. In: F. Daneš/D. Viehweger (Hrsg.): Probleme der Textgrammatik II. (Z Studia grammatica XVIII). Berlin: Akademie Verlag, 11K32. Altmann, Gabriel (1992), Das Problem der Datenhomogenität. Glottometrika 13, 287K298. Altmann, Gabriel (1996), The nature of linguistic units. The Journal of Quantitative Linguistics 3, 1K17. Altmann, Gabriel/Lehfeldt, Werner (1980), Einführung in die quantitative Phonologie. Bochum: Brockmeyer. Altmann, Gabriel/Schwibbe, Michael (1989), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms. Beneš, Eduard (1967), Die funktionale Satzperspektive (Thema-Rhema-Gliederung) im Deutschen. In: Deutsch als Fremdsprache 1, 23 ff. Bühler, Karl (1934/1982), Sprachtheorie. Jena. Ungek. Neudr. d. Ausg. (1982). Stuttgart: Fischer.
446
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Busacker, Robert G./Saaty, Thomas L. (1968), Endliche Graphen und Netzwerke. München: Oldenbourg. Coseriu, Eugenio (1994), Textlinguistik. Eine Einführung. 3., überarb. u. erw. Aufl. Hrsg. u. bearb. v. J. Albrecht. Tübingen/Basel: Francke. Daneš, František (1970), Zur linguistischen Analyse der Textstruktur. In: Folia Linguistica 4, 72K78. Daneš, František (1976), Zur semantischen und thematischen Struktur des Kommunikationsakts. In: Probleme der Textgrammatik I. (Z Studia grammatica XI) (Hrsg. F. Daneš/D. Viehweger). Berlin: Akademie Verlag, 29K40. de Beaugrande, Robert (1980), Text, Discourse and Process: Towards a Multidisciplinary Science of Texts. London: Longman. Firbas, Jan (1964), On definig the theme in functional sentence analysis. In: Travaux Linguistique de Prague 1, 267K280. Glinz, Hans (1971), Soziologisches im Kernbereich der Linguistik: Skizze einer Texttheorie. In: Sprache und Gesellschaft: Beiträge zur soziolinguistischen Beschreibung der deutschen Gegenwartssprache. Jahrbuch 1970 des Instituts für deutsche Sprache in Mannheim. (Z Sprache der Gegenwart 13). Düsseldorf: Pädag. Verlag Schwann, 80K88. Greimas, Algirdas Julien (1966/1971), Sémantique structurale. Paris; Übers. a. d. Franz. (1971): Strukturale Semantik: methodologische Untersuchungen. Braunschweig: Viehweg. Grosse, Ernst U. (1976), Text und Kommunikation. Eine linguistische Einführung in die Funktionen der Texte. Stuttgart u. a.: Kohlhammer. Heinemann, Wolfgang/Viehweger, Dieter (1991), Textlinguistik. Eine Einführung. (Z RGL 115). Tübingen: Niemeyer. Herdan, Gustav (1966), The advanced theory of language as choice and chance. Berlin: Springer. Hjelmslev, Louis (1943/1974), Omkring sprogteorien grundlaeggelse. Kopenhagen. Dt. Prolegomena zu einer Sprachtheorie. Übers. v. R. Keller/ U. Scharf/G. Stötzel. (Z Linguistische Reihe 9). München: Hueber. Hřebíček, Luděk (1992), Text in communication: supra-sentence structures. Bochum: Brockmeyer. Hřebíček, Luděk (1993a), Text as a construct of aggregations. In: Contributions to quantitative linguistics. (Hrsg. R. Köhler/B. B. Rieger). Dordrecht: Kluwer, 33K39 Hřebíček, Luděk (1993b), Text as a strategic process. In: Hřebíček/Altmann 1993a, 136K150. Hřebíček, Luděk (1995), Text levels. Language constructs, constituents and the Menzerath-Altmann law. Trier: WVT. Hřebíček, Luděk (1996), Word frequency and word location in texts. In: Archiv orientální 3, 339K347.
Hřebíček, Luděk (1997a), Persistence and other aspects of sentence-length series. In: Journal of Quantitative Linguistics 4, 103K109. Hřebíček, Luděk (1997b), Lectures on text theory. Prague: Oriental Institute. Hřebíček, Luděk (1998a), Hurst’s indicators and text. In: Systems. New Paradigms for the Human Sciences. (Hrsg. G. Altmann/W.A. Koch). Berlin: de Gruyter, 572K588. Hřebíček, Luděk (1998b), Language fractals and measurement in texts. In: Archiv Orientální 66, 233K242. Hřebíček, Luděk (2000), Variation in sequences. Contributions to general text theory. Prague: Oriental Institute. Hřebíček, Luděk/Altmann, Gabriel (Hrsg.), Quantitative text analysis. Bochum: Brockmeyer, 1993a. Hřebíček, Luděk/Altmann, Gabriel (1993b), Prospects of text linguistics. In: Hřebíček/Altmann 1993a, 1K28. Isenberg, Horst (1971), Überlegungen zur Texttheorie. In: Literaturwissenschaft und Linguistik. (Hrsg. J. Ihwe). Bd. 1. (Z Ars poetica: Texte; 8). Frankfurt a. M.: Athenäum, 155K172. Kallmeyer, Werner (Hrsg.) (1974), Lektürekolleg zur Textlinguistik. 2 Bde. Bd. 1: Einführung. Bd. 2: Reader. Frankfurt a. M.: Athenäum-Fischer-Taschenbuch-Verlag. Kern, Peter (1969), Bemerkungen zum Problem der Textklassifikation. In: Forschungsberichte des Instituts für deutsche Sprache Bd. 3, 3K23. Köhler, Reinhard/Altmann, Gabriel (1993), Begriffsdynamik und Lexikonstruktur. In: Theorie und Praxis des Lexikons. (Hrsg. F. Beckmann/G. Heyer). Berlin: de Gruyter, 173K190. Köller, Wilhelm (1988), Philosophie der Grammatik. Vom Sinn grammatischen Wissens. Stuttgart: Metzler. Körner, T. (1912), Aus der Ferne. In: T. Körner: Werke. Bd. 2. (Hrsg. H. Spiero). Leipzig: o. A., 166. Korzybski, Alfred (1973), Science and sanity. An introduction to non-aristotelian systems and general semantics. 4. ed., 5. print. Lakeville, Conn.: International Non-Aristotelian Library Publ. Co. Lerchner, G. (1984), Konnotative Textpotenz. In: Beiträge zur Erforschung der deutschen Sprache, Bd. 4. Leipzig: VEB Bilbliographisches Institut, 39. Lujewa, N. (1987), Zur Erschließung der konnotativen Textpotenz auf der Ebene der nominativen Ketten. In: Beiträge zur Erforschung der deutschen Sprache, Bd. 7. Leipzig: VEB Bibliographisches Institut, 117K126. Mathesius, Vilem (1929), Zur Satzperspektive im modernen Englisch. In: Archiv für das Studium der neueren Sprachen und Literaturen 155, 202K 210.
33. Lexical networks McIntosh, Robert P. (1967), An index of diversity and the relation of certain concepts to diversity. In: Ecology 48, 392K404. Petőfi, János S. (1974), ,Modalität‘ und ,TopicComment‘ in einer logisch-fundierten Textgrammatik. In: Topic, comment, contextual boundness and focus. (Hrsg. Ö. Dahl). Hamburg: Buske, 95K 140. Rapoport, Anatol (1972), Bedeutungslehre. Eine semantische Kritik. Darmstadt: Verl. Darmstädter Blätter. Rosengren, Inger (1980), Texttheorie. In: Lexikon der Germanistischen Linguistik. (Hrsg. H. P. Althaus/H. Henne/H. E. Wiegand). Studienausgabe. 2., vollst. neu bearb. u. erw. Aufl. Tübingen: Niemeyer, 275K286. Schmidt, Siegfried J. (1972), Text als Forschungsobjekt der Texttheorie. In: DU 24, H. 4, 7K28. Schwarz, C. (1995), The distribution of aggregates in texts. In: ZET K Zeitschrift für empirische Textforschung 2, 62K66. Sgall, Petr/Hajičová, Eva/Benešova, Eva (1973), Topic, Focus and Generative Semantics. Kronberg/ Ts.: Scriptor. van Dijk, Teun A. (1977), Connectives in Text Grammar and Text Logic. In: Grammars and Descriptions. (Hrsg. T. A. van Dijk/J.S. Petöfi). Berlin/ New York: De Gruyter, 11K63. van Dijk, Teun A. (1980), Textwissenschaft. Eine interdisziplinäre Einführung. Tübingen: Deutscher Taschenbuch Verlag. Viehweger, Dieter (1976), Semantische Merkmale und Textstruktur. In: Probleme der Textgrammatik I. (Z Studia grammatica XI) (Hrsg. F. Daneš/D. Viehweger). Berlin: Akademie Verlag, 195K206. Viehweger, Dieter (1977), Zur semantischen Struktur des Textes. In: Probleme der Textgrammatik II. (Z Studia grammatica XVIII). (Hrsg. F. Daneš/D. Viehweger). Berlin: Akademie Verlag, 103K117.
447 Viehweger, Dieter (1978), Struktur und Funktion nominativer Ketten im Text. In: Kontexte der Grammatiktheorie (Z Studia Grammatica XVII). (Hrsg. W. Motsch). Berlin: Akademie Verlag, 149K168. Volkmann, Lutz (1996), Fundamente der Graphentheorie. Wien/New York: Springer. Ziegler, Arne (2001a), Makrostrukturelle Merkmale frühneuhochdeutscher Kanzleisprache. Ein taxonomischer Ansatz zur Differenzierung städtischer Kommunikationspraxis im Spätmittelalter und der frühen Neuzeit. In: Deutsche Kanzleisprachen im europäischen Kontext. Beiträge zu einem internationalen Symposium an der Universität Regensburg, 5. bis 7. Oktober 1999. (Z Beiträge zur Kanzleisprachenforschung 1). (Hrsg. A. Greule). Wien: Edition Praesens. Ziegler, Arne (2001b), Zu einer quantitativen korpusbasierten Textanalyse. Möglichkeiten der Klassifikation frühneuhochdeutscher Textsorten. In: Jahrbuch für Internationale Germanistik. Frankfurt a. M. u. a.: Peter Lang, 53K59. Ziegler, Arne (2001c), Schreiber K Text K Leser. Denotative Textkonstituierung und diskurssemantische Gestalt in frühneuhochdeutschen Texten. In: Aspekte der Textgestaltung. Referate der internationalen germanistischen Konferenz Ostrava 15.K16. Februar 2001. (Hrsg. L. Vankova/P. Zajícová). Ostrava, 197K210. Ziegler, Arne/Altmann, Gabriel (2001), Text stratification. In: Journal of Quantitative Linguistics, 275K292. Ziegler, Arne/Altmann, Gabriel (2002), Denotative Textanalyse. Ein textlinguistisches Arbeitsbuch. Wien: Edition Praesens. Ziegler, Arne/Best, Karl-Heinz/Altmann, Gabriel (2001), A contribution to text spectra. In: Glottometrics 1, 96K107.
Arne Ziegler, Münster (Deutschland)
33. Lexical networks 1. 2. 3. 4.
Definition chains Psychological definition chains Lexical networks Literature (a selection)
1.
Definition chains
A new problem in quantitative linguistics is posed by the so-called definition chains (DC), i.e. hierarchical structures of terms in the lexical system. These structures have been observed to have a characteristic regu-
larity that has been called K after its discoverer K the first Martin’s law. Martin used the French Gougenheim dictionary to sample 1723 nouns; taking into account only their primary meanings, he searched their definitions to find their respective genera proxima and repeated this operation until the most general terms. The elements obtained during each subsequent step made a chain of hyperonyms (superordinate terms) e. g. pistolet K arme K instrument K outil K objet Kchose (Martin 1974).
448
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
The same method was used to sample 1000 nouns from the MSJP dictionary of Polish (1968) and to establish 1000 analogous DCs, e.g. mediator / pośrednik / ktoś (Sambor 1997c, 120). Hammerl used the German HWB dictionary (1984) to arrive at 1000 German DCs for 1000 lexemes K equivalents of the Polish lexemes (the principles of elaborating Polish and German DCs are presented in the papers by Sambor (1986) and by Hammerl (1991a; 1991b)). The hierarchic structure of DCs is presented in Table 33.1. In Hammerl’s approach, a DC comprises the source lexeme (Ausgangslexem) in its single, concrete meaning and a chain of subsequent hyperonyms (Oberbegriffe) as bilateral and unequivocal signs. Altmann and Kind (1983) reformulated Martin’s DC in such a way that the terms re-occurring at various levels were counted, the re-occurrences at the same level being taken into account just once (jemand and Lebewesen in Table 33.1, respectively). If variable x represents the term level (Begriffsebene) (Hammerl 1991a), the number of non-recurrent terms for the x level is determined by the difference yx K yx C 1, where yx is the number of terms occurring at level x. The relation between the number of yx and the x term level is presented in the study Hammerl/Sambor 1991, 63 (Table 33.2).
1.1. First Martin’s law The first model of relationship between variables x and y was presented in the work Altmann/Kind (1983). For Martin’s data, with parameters y1 Z 1723, a Z 0,1, this model takes the form of: yx Z y1 x! a xK1
(1)
The F test showed high compatibility of model (1) with the data (F1,4 Z 385,48; P Z 0,00004). Its generalisation was given by Hammerl as: yxC1 Z
c (x C 1)a
yb
(2)
Tests performed on Polish and French DCs proved Hammerl’s model to be highly suitable (e. g. the value for French non-recurrent DCs was F2,3 Z 34,51; P Z 0,0005) (Hammerl 1987). 1.2. Second Martin’s law Further research on DCs led to a new classification of terms. This involved grouping the terms into sets in keeping with the declining degree of their generality (scope). In this way the distributions of Polish and German DCs were presented (Tab. 33.3) (Hammerl/ Sambor 1993, 71). The data quoted in Table 33.3 present both empirical distributions of the yz number of terms that have yzK1 su-
Table 33.1: Structure of definition chains (HWB 1984) level of generality x
definition chains
1 2 3 4 5
Neffe Sohn Person Mensch Lebewesen
Käfer Insekt Gliederfüssler Tier Lebewesen
Leutnant Offizier Angehöriger jemand
Komiker Künstler jemand
Table 33.2: Dependency between the number of notions (yx) and the level of generality (x) in Polish and German definition chains level of German generality x recurrent terms yx
non-recurrent terms yx
recurrent terms yx
non-recurrent terms yx
1 2 3 4 5 6 7 8 9 10
488 323 111 41 17 5 4 2 1 1
1000 618 271 110 44 16 9 3 1 K
382 347 161 66 28 7 6 2 1 K
1000 512 183 72 31 14 9 5 3 2
Polish
449
33. Lexical networks Table 33.3: Number of notions yz at the level of generality z for Polish and German (2nd Martin’s law) level of generality z
Polish yz
German yz
1 2 3 4 5 6 7 8 9 10
259 438 440 291 142 84 34 6 1 K
273 406 368 218 120 67 24 14 4 1
Total:
1692
1495
perordinate terms (the z variable is the level of generality here, while yz is a set of terms at the same generality level). Hammerl proposes a model of these distributions that consists of a negative binomial distribution of shift r Z 1: xCkK2
pk qxK1 x (where x Z 0, 1, 2 ...) Px Z
(3)
The χ2-test showed a significant compatibility of both empirical models with model (3) (Hammerl/Sambor 1993, 146) (Tab. 33.4). Unfortunately we are unable to provide a linguistic interpretation of its parameters.
2.
Psychological definition chains
Another interesting question is presented by psychological DCs obtained from survey respondents. The survey was performed on a group of about 500 students of Warsaw University who constructed DCs for three respective sets of Polish names of plants, animals and artefacts (each set included 100 terms). The experiment was described by Sambor (1997b), and its results in the works of Zagrodzka, Wereszczyńska and Szczekocka-Augustyn, included in the collection by Sambor (1997a, 27 ff.). The DCs constructed in this way showed different and much diversified structures in the speakers’ mind.
3.
Lexical networks
3.1. The notion of lexical network (LN) Further work on DCs took into account the meanings of polysemantic lexemes. The HWB dictionary was a source of a sample of 100 nouns, including some polysemantic ones. The latter were assigned a separate DC for each meaning. This led to the discovery of a hierarchical structure of hyperonyms of a polysemantic lexeme that was called a lexical network (LN). The result was a set of 100 German LNs, which were identical with the respective DCs of monosemous lexemes. A model example was the LN for the source
Table 33.4: Martin’s law K empirical and theoretical distribution according to the function (3) and data used in χ2-test for Polish and German level of generality x 1 2 3 4 5 6 7 8 9 10 Total:
Polish emp. yx
German theor. yx*
(yxKyx*) yx*
2
emp. yx
theor. yx*
259 438 440 291 142 84 31 6 1 K
248,67 453,81 435,65 292,60 154,34 68,08 26,10 8,93 3,82 K
0,4291 0,5508 0,0434 0,0001 0,9866 3,7228 0,9199 0,9614 2,0818 K
273 406 368 218 120 67 24 14 4 1
277,56 411,88 353,01 228,79 124,38 59,82 26,27 10,75 4,16 2,37
1692
1692,00
9,6959
1495
1495,00
k Z 19,21; p Z 0,905 χ2emp Z 9,6959; υ Z 6 χ20.05(6) Z 12,592
k Z 6,446; p Z 0,7698 χ2emp Z 4,30; υ Z 7 χ20.05(7) Z 14,067
450
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
jemand
ktos´ ´ posrednik
Angehöriger
mediator
Offizier
Fig. 33.4: LN (mediator)
Leutnant
´ sposob
cos´
technika
odbitka
Fig. 33.1: LN (Leutnant)
1.
System
Teil
Lebewesen
Stoff
Organismus
Flüssigkeit
fototypia
2.
Fig. 33.5: LN (fotopia)
´ twor organizm
Pflanze
Getränk
Korbblüter
Wermutwein
. istota zywa czlowiek
2.
1.
3.
Fig. 33.6: LN (albinos)
System
concepts
Lebewesen
408999509906
Gesamtheit
Organismus Tier
Pflanze 2.
Fig. 33.3: LN (Schädling)
´ roslina
albinos
Fig. 33.2: LN (Wermut)
Schädling
2.
1.
Wermut
1.
zwierze˛
lexeme
System Lebewesen
Mensch
Tier
Organismus Pflanze
Fig. 33.7: NN (Lebewesen)
lexeme Schädling (Fig. 33.3) K it has two branches corresponding to its meanings of Pflanze and Tier, with further hyperonyms (Hammerl 1989b). The quantitative structure of LN is determined by three factors:
451
33. Lexical networks
SYSTEM1
SYSTEM1
SYSTEM1
SYSTEM1
Lebewesen1
Lebewesen1
Lebewesen1
Lebewesen1
Organismus1
Mensch1
Tier1
Organismus1
Mensch1
Tier1
Pflanze1
Kind1
Bestie1
Pflanze1
Kind1
Bestie1
Bedecktsamer1
Bastard2
Bedecktsamer1
Bastard2
Agave1
Agave1 Fig. 33.8: NNs (System)
Lebewesen Mensch Ochse2
Jugend1
(sloppy, abusive)
Pinscher2
Gesindel
(sloppy, emotive)
(emotive)
Kind
Kamel2 (colloq., abusive)
Person Sohn
Junge1 I
Neffe Bengel1
Knirps1
Mädchen
Frau
Junge2 I
(colloq.)
Käfer2
Maschine1
Bengel2
(colloq., jocular)
(colloq.)
(emotive)
Fig. 33.9: NN (Mensch)
total number of terms (excl. the source lexeme), number of end lexemes, and number of branches. Thus the LN of the Schädling lexeme includes a total of six terms, one end term and two branches (Hammerl 1989b). In relation to their shapes, LNs can be classified into three groups: LNs equivalent to a single DC, divergent LNs, and convergent LNs. Examples of Polish and German
LNs are included in the Appendix (Fig. 33.1K33.6). It is also worth mentioning that there exists a draft version of software to construct LNs (Hammerl/Rogalińska 1991). 3.2. Modelling of empirical distributions of LN quantitative characteristics For the 100 German LNs, three empirical distributions were obtained in relation to
452
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics Lebewesen Tier Schädling1
(das) Junge II Gliederfüssler
Wirbeltier
Vogel
Säugetier
Hühnervogel
Sperlingsvogel
Spinnentier Insekt Skorpion
Fledermaus
Käfer
Rapsglanzkäfer
Unpaarhufer
Zwergfledermaus
Maikäfer
Raubtier Paarhufer
Birkhuhn1
Rabenvogel
Steinkauz
Hund
Hermelin1 I
Nashorn
Singvogel
Kauz
Huhn
Marder
Wiederkäuer
Pferd
Eule
Elster Spaniel1
Pointer1
Pinscher1 Rennpferd
Rind Kamel1 Hirsch
Antilope
Ochse1
Reh
Gazelle
Rehbock1
Fig. 33.10: NN (Tier)
Lebewesen Organismus Mikroorganismus Bakterie
Korbblüter
Alge
Pflanze
Schädling2
Wermut1
Samenpflanze Strauch Gewächs
Veilchen Nelke1
Flechte Pilz Moos Kraut
Bedecktsamer
Zierstrauch Busch
Baum Liliengewächs
Flieder1 Jasmin Laubbaum
Nadelbaum
Lilie Lärche
Birke
Eiche
Fichte Tannenbaum
Fig. 33.11: NN (Planze)
the given LN quantitative characteristics. These were described by means of a negative binomial distribution with a shift (Ham-
merl 1989b) (examples of German LN structures can be found in the paper Sambor/ Hammerl 1997).
453
33. Lexical networks
twór organizm ´ roslina
istota . zywa
dziwolag ˛ 1
albinos2 albinos3
czlowiek
albinos1
zwierze˛
uczony
przodek1 kulas1
groszek4
ptak szesnastolatka2
drzewo arenga1
bezkre˛ gowiec
papuga1
krego˛ wiec
drzewko historyk pracobrzek ˛ 2 kobieta wnik praw´ piersciejesion bezta1 choinka1 nica nik lencie1 drewno pragmatyk1 dziewczyna robotnik pijawka2 amazonka1,2 twardzica2 pragmatyk2 jesion2 szesnastolatka1 wlókniarz2
plaz ropucha1
Fig. 33.12: LN (Organizm) (SJP 1978)
being3.2
being3.2
man1.2
man1.2
person2
person1 lawyer
ghost advocate Fig. 33.13: NN (advocate)
spirit3 being3.2
force9
3. 2.
1.
demon man1.2
Fig. 33.15: NN (demon)
creature1
person1
animal
1.1
1.2
climber Fig. 33.14: NN (climber1.1)
plant1 3.
3.3. Notional networks (NNs) Lexical networks deal with the upward-oriented hierarchy of terms, but there may also be a downward-oriented hierarchy if we start from a quite general term like system. In the HWB dictionary this is the end element of three DCs of the following lex-
454
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
With the Polish SJP dictionary (1978), the hierarchy of names of animate objects with the hyponyms of człowiek, roślina, zwierzę is synthetically covered by NN (organizm), which also includes numerous scientific terms (Fig. 33.12). This proves that the terms in the hitherto existing lexicography are defined through the terminology of the relevant sciences. A semantic analysis of end terms found in a set of 500 NN based on COBUILD English dictionary (1987) was performed by Januszkiewicz (1997) (Fig. 33.13K33.15). For instance, the sub-set of NNs with the hyperonym being3.2 as Man was analysed. Assuming being3.2 to be the source lexeme, three respective NNs were constructed for the names of relationships of kin, occupations and nationalities (the latter is presented as NN (being3.2) (a) in Fig. 33.16). The hierarchical structure of hyponyms of branches of all the three networks with the source lexeme of being3.2 is presented in NN (being3.2) (b) (Fig. 33.17). This graph allows reconstruction of branches of the three constituent NNs, to find the end terms referring to nationality, kinship, and occupation. On the basis of the HWB and SJP dictionaries (1992), a comparison was performed to include Polish and German kin-
being 3.2 man1.2
man v woman
member1
person1
Arab1 Bengali1
East German 2
Nigerian 2
Fig. 33.16: NN (being3.2) (a)
emes: Agave1, Bastard2 and Bestie1. If we take this as the springboard for constructing a downward-oriented hierarchy, we will arrive at four NNs (System1), one of which will be complex (Fig. 33.8). Figure 33.7 proves that in HWB the hyponyms of Mensch and Tier have a higher position than Pflanze. Within NNs (Mensch) many end terms are nicknames and/or emotive terms (Fig. 33.9). At the same time NN (Tier) and NN (Pflanze) show a strictly scientific classification of terminology in HWB (Fig. 33.10 and 33.11).
being 3.2 man1.2 one of (people)1 man1.1 ex-serviceman
town-crier
male1.1
businessman1
husband
sportsman1 father old man2 character9
baron1
old man1 villain2 role2.2 leaderspart9 ship
trade3
boxer1
heavyweight1
yeoman
side2.3
audience1.3 woman1 well-off (the) homeless (the) audience1.2 field17.1 wife careermember1 consort woman Arab baron2
senator regular9.2.
miss1.3 miss1.2 miss1.1
cow bunny girl1.3 girl
subject9 person
lawyer barrister Bar10 (the+)
advocate
ghost spirit3 demon1
Fig. 33.17: NN (being3.2) (b)
worker labour
ruler autocrat
official ambassador
case5.1 case5.2 blabbermouth autocrat2 subject2 offender2 Bengali1 celebrant child1.1 child1.2 climber1 compere1 consultant2 counterpart disciplinarian domestic draw28 East German2 educator entertainer fountain 4 giant1 Indian1.1 instigator1 journalist kind6 life4.1 mine2.2 broker Nigerian2 novice2 occupier philosopher prodigy1 rower runner-up underdog worthy3 discoverer leftist litterlout mystic1 preacher1 copywriter personality2
455
33. Lexical networks Mensch Person
Frau
Mann
Vater
Ehefrau
Schwager
Schwiegervater
Großvater
Mutter
Ehemann
Großmutter
Schwiegersohn
Urgroßvater
Schwiegermutter
Onkel Urgroßmutter
Stiefvater
Schwiegertochter
Schwägerin Tante
Stiefmutter
Fig. 33.18: NN (Person)
Mensch (der) Verwandter (die) Verwandte
Person Stiefbruder Halbbruder
Stiefschwester Halbschwester
Bruder
Schwester
Nachkomme Onkel2
Tochter
Sohn Stiefsohn
Urenkel
Urenkelin
Schwager1
Tante1
Schwägerin1
Fig. 33.20: NN ((der) Verwandter/(die) Verwandte)
Stieftochter Nichte
Neffe
Fig. 33.19: NN (Nachkomme)
czlowiek
krewny kuzyn
. ˛ mezczyzna
kobieta . ˛ maz
ojciec1 dziadek1 (MSJP: dziad)
rodzic
wuj1
macocha
babka1
ciotka1
ojczym szwagier2
tesc ´´
pradziadek (MSJP: pradziad)
Fig. 33.21: NN (człowiek)
˛´ ziec
. zona
matka1
´ tesciowa prababka
synowa stryjenka wujenka
szwagierka2 (MSJP: missing)
456
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics czlowiek dziecko wnuczka
wnuk1 córka
syn
siostra1
brat1 pasierb wuj1
prawnuk stryj
siostrzeniec szwagier1
bratanek
ciotka1
pasierbica
szwagierka1 siostrzenica (MSJP: missing) prawnuczka (MSJP: missing) bratanica
Fig. 33.22: NN (dziecko)
Table 33.5. Hierarchical taxonomy of 40 lexemes, based on similarity measure sII (complete-linkage method) Cluster
Cluster criterion sII
(Säugetier, Pinscher) Z C1 (Gliederfüßler, Huhn, Tier) Z C2 (C1, C2) Z C3 (Kind, Knirps) Z C4 (C4, Neffe, Mensch2) Z C5 (C3, C5) Z C6
0,93 0,82 0,70 0,87 0,72 0,45
(Wasser, Niederschlag) Z C7 (Likör, Wermut) Z C8 (C7, C8) Z C9 (Schmer, C9) Z C10
0,82 0,75 0,48 0,19
(Mineral, Quarz) Z C11 (C11, Substanz) Z C12
0,65 0,26
(Sessel, Lehnstuhl) Z C13 (Gestein, Tapete) Z C14 (Tasche, Behälter) Z C15 (C15, Waschbecken) Z C16 (C13, Theke) Z C17 (Teller, Gegenstand) Z C18 (C14, C18, Kette) Z C19 (C16, C17, C19, Hut) Z C20
0,91 0,83 0,82 0,75 0,75 0,65 0,53 0,48
(Maschine, Fahrzeug, Verkehrsmittel) Z C21
0,48
ship terms. Within HWB, this area is covered by the NNs of (Person), (Nachkomme), (Verwandter) and (Verwandte). Their structure shows significant incompatibility of descriptions of this semantic area (Fig. 33.18K33.20): the hyponyms of Sohn and Tochter as well as Bruder and Schwester occur pairwise in two separate NNs, together with quite strange hyperonyms of Nach-
komme for the former pair and der Verwandter (or die Verwandte) for the latter one. The approach to kin relationships applied in SJP (1992) is more synthetic and logical, since the names of full-blood, partblood and in-law kinships are covered by two separate networks of the source lexeme człowiek (Fig. 33.21K33.22) (Sambor 1997c; Sambor/Hammerl 1997). 3.4. Measures of semantic affinity of LNs To examine the degree of semantic affinity of LNs, Hammerl suggested three indices (s1, s2, s3, where 0 % si % 1). The s2 index was used to construct hierarchical classification of 40 LNs coming from HWB, which was then presented in a tabular form (Hammerl 1991c) (Tab. 33.5). The spanning-tree presentation of LN was included in the Polish translation of that text (Sambor/Hammerl 1997, 231) (Fig. 33.23).
4.
Literature (a selection)
Altmann, Gabriel/Kind, Bernd (1983), Ein semantisches Gesetz. In: Glottometrika 5 (Hrsg. R. Köhler/J. Boy). Bochum: Brockmeyer, 1K13. Hammerl, Rolf (1987), Untersuchungen zur mathematischen Beschreibung des Martingesetzes der Abstraktionsebene. In: Glottometrika 8 (Hrsg. I. Fickermann.) Bochum: Brockmeyer, 113K129. Hammerl, Rolf (1989a), Neue Perspektiven der sprachlichen Synergetik: Begriffsstrukturen K kognitive Gesetze. In: Glottometrika 10 (Hrsg. R. Hammerl). Bochum: Brockmeyer, 129K140. Hammerl, Rolf (1989b), Untersuchung struktureller Eigenschaften von Begriffsnetzen. In: Glottometrika 10 (Hrsg. R. Hammerl). Bochum: Brockmeyer, 141K154.
33. Lexical networks
457
Fig. 33.23: Hierarchical taxonomy of 40 German lexical networks with regard to their semantic proximity (sII O 0,1).
Hammerl, Rolf (1991a), Definition von Definitionsfolgen und Lexemnetzen. In: Sambor/Hammerl 1991, 2K12. Hammerl, Rolf (1991b), Methodologische und methodische Probleme der Erstellung von Definitionsfolgen und Lexemnetzen. In: Sambor/Hammerl 1991, 13K37. Hammerl, Rolf (1991c), Messung der Stärke von semantischen Relationen zwischen Lexemen. In: Sambor/Hammerl 1991, 75K96. Hammerl, Rolf/Rogalińska, Alicja (1991), Erstellung und Analyse von Definitionsfolgen und Lexemnetzen mit dem PC-Programm NETZE. In: Sambor/Hammerl 1991, 157K173. Hammerl, Rolf/Sambor, Jadwiga (1993), O statystycznych prawach językowych [On statistical laws of language]. Warszawa: Polskie Towarzystwo Semiotyczne. Januszkiewicz, Natalia A. (1997), Angielskie gniazda leksykalne. Wybrane zagadnienia analizy semantycznej pojęć końcowych [English lexical networks. Selected problems of semantic analysis of end terms]. In: Sambor 1997, 175K213. Martin, Robert (1974), Syntaxe de la définition lexicographique: étude quantitative des definissants dans le Dictionnaire fondamental de la langue française. In: Statistique et linguistique. (Eds. J. David/R. Martin). Paris: Klincksieck.
Sambor, Jadwiga (1986), O budowie tzw. ciągów definicyjnych (na materiale definicji leksykalnych) [On constructing the so-called definition chains (based on lexical definitions)]. In: Biuletyn Polskiego Towarzystwa Językoznawczego 40, 151K 165. Sambor, Jadwiga (Ed.), Z zagadnień kwantytatywnej semantyki kognitywnej [Some problems of quantitative cognitive semantics]. Warszawa: Polskie Towarzystwo Semiotyczne, 1997a. Sambor, Jadwiga (1997b), Ciągi definicyjne słownikowe a psychologiczne. Zarys eksperymentu. [Lexical and emotive definition chains. An outline of an experiment.]. In: Sambor 1997a, 27K31. Sambor, Jadwiga (1997c), Gniazda leksykalne i pojęciowe w dwóch słownikach języka polskiego [Lexical and terminological networks in two dictionaries of Polish]. In: Sambor 1997a, 109K145. Sambor, Jadwiga/Hammerl, Rolf (Eds.), Definitionsfolgen und Lexemnetze I. Lüdenscheid: RAM Verlag, 1991. Sambor, Jadwiga/Hammerl, Rolf (1997), Gniazda leksykalne i pojęciowe w słowniku języka niemieckiego (na materiale ‘Handwörterbuch der deutschen Gegenwartssprache’) [Lexical and terminological networks in a dictionary of German language (on the basis of ‘Handwörterbuch der deutschen Gegenwartssprache’)]. In: Sambor 1997a, 147K173.
458
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Dictionaries used
rupka, Stanisław/Auderska, Halina/Łempicka, Zofia (Eds.), Warszawa: PWN.
COBUILD (1987), Collins COBUILD English Language Dictionary. Sinclair, J. (Ed.). London: Collins ELT. HWB (1984), Handwörterbuch der deutschen Gegenwartssprache in zwei Bänden. Berlin: Akademie-Verlag. MSJP (1968), Mały słownik języka polskiego [Compact dictionary of Polish language]. Sko-
SJP (1978K1981), Słownik języka polskiego t. 1K 3 [Dictionary of Polish language v. 1K3]. Szymczak, Mieczysław (Ed.). Warszawa: PWN. SJP (1992), Słownik języka polskiego t. 1K3 [Dictionary of Polish language v. 1K3]. Szymczak, Mieczysław (Ed.). Warszawa: PWN.
Jadwiga Sambor, Warsaw (Poland)
34. Polysemie 1. 2.
8. 9.
Der Begriff der Polysemie Abgrenzung der Bedeutungen des polysemen Wortes Durchschnittliche Anzahl der Wortbedeutungen Polysemie und Wortlänge Die Verteilung der polysemen Wörter im Text Die Verteilung der polysemen Wörter im Lexikon Semantischer Umfang des Wortes und seine Zugehörigkeit zu einer semantischen Subklasse Wortpolysemie und Stil Literatur (in Auswahl)
1.
Der Begriff der Polysemie
3. 4. 5. 6. 7.
1.1. Definition der Polysemie Unter Polysemie versteht man die Tatsache, dass eine sprachliche Form mehrere Bedeutungen besitzt. Mit dem Terminus lexikalische Polysemie bezeichnet man im Regelfall die Eigenschaft des Wortes, mehr als eine Bedeutung zu haben. Diese Eigenschaft kann potentieller Natur sein, und deshalb ist man berechtigt, von der Polysemie als von der Fähigkeit des Wortes, mehrere Bedeutungen zu besitzen, zu sprechen. Die Polysemie gehört zu den wichtigsten Spracherscheinungen und hat einen universellen Charakter, d. h. sie ist allen natürlichen Sprachen eigen. Es herrscht die Auffassung, dass die Existenz der Polysemie in der Divergenz zwischen begrenzter Wortzahl und Unendlichkeit von Gegenständen und Erscheinungen der objektiven Realität begründet sei (vgl. Kronasser 1952, 192). Nicht selten aber bekommt ein Wort eine neue (metaphorische) Bedeutung als Folge davon, dass es für die Bezeichnung eines Gegen-
standes verwendet wird, der schon einen allgemeingültigen Namen hat (Streifen statt Film). Das bedeutet, dass die Entstehung von Mehrdeutigkeit nicht nur durch das Prinzip der geringsten Anstrengung (principle of least effort) bedingt ist, sondern auch durch andere Faktoren, die mit der Erfüllung sowohl nominativer als auch emotionell-expressiver Funktion durch die Sprache verbunden sind. 1.2. Die semantische Ganzheit des mehrdeutigen Wortes Das wichtigste Merkmal der eigentlichen Polysemie im Gegensatz zur Homonymie ist das Vorhandensein einer Verbindung zwischen den einzelnen Bedeutungen des Wortes (Weinreich 1963, 142). Diese Besonderheit des mehrdeutigen Wortes kann als dessen semantische Ganzheit bezeichnet werden. Wie psycholinguistische Experimente zeigen, macht sich die Beziehung zwischen den Bedeutungen des Wortes für die Sprachträger bemerkbar und lässt sich messen. An der ukrainischen Sprache wurde der Grad der Verbindbarkeit zwischen den Bedeutungen des polysemen Wortes von Muravycka und Levickij (Muravycka 1975, 59 ff.; Levickij 1985, 4 ff.) erforscht, an der deutschen Sprache von Kapatruk (1980, 75 ff.), an der englischen Sprache von Lehrer (1974, 33 ff.). Diese Experimente zeigen, dass der Übergang von der Polysemie zur Homonymie gradueller Art ist. Mit Hilfe empirisch gefundener Schwellenwerte kann man Unterschiede zwischen den Verwendungsweisen des Wortes (Variationen ein und derselben Bedeutung), den unterschiedlichen Bedeu-
459
34. Polysemie
tungen ein und desselben Wortes (Polysemie) und zwischen verschiedenen Wörtern (Homonymie) finden. 1.3. Die semantische Struktur des polysemen Wortes Das oben in 1.2. behandelte Problem der semantischen Ganzheit des polysemen Wortes ist nicht vom Problem der Wechselbeziehungen dieser Bedeutungen in der semantischen Struktur des Wortes zu trennen. Die meisten Semasiologen sind der Auffassung, dass die Bedeutungen des polysemen Wortes sich miteinander durch hierarchische Zusammenhänge verbinden und sich in Haupt- und Nebenbedeutungen, direkte und übertragene, gliedern ließen (vgl. Paul 1920, 81; Vinogradov 1953, 3 ff.; Schmidt 1965, 25K27; Schierholz 1991, 209; Olšanskij/Skiba 1987, 29). Nichtsdestoweniger gibt es in der Semasiologie einen anderen Standpunkt: die Bedeutungen des polysemen Wortes seien völlig gleichwertig (Zveginzev 1957, 222). Es gibt Versuche, diese beiden einander entgegengesetzten Gesichtspunkte mit Hilfe psycholinguistischer Experimente zu begründen: einerseits Schneider (1988, 117K 118), wo Resultate der Experimente von J. Suchecki, J. Macnamara betrachtet werden, andererseits Schippan (1987, 170), wo Ergebnisse der von uns durchgeführten Versuche angeführt werden. Schließlich kann man einer vorsichtigeren, von V. Schneider vorgeschlagenen Interpretation zustimmen: „Die verschiedenen Sememe können aufgrund unterschiedlicher Häufigkeit bzw. psycholinguistischer Auffälligkeit durchaus in unterschiedlichem Ausmaß „wichtig“ bzw. „prominent“ sein (vgl. Schneider 1988, 119).
2.
Abgrenzung der Bedeutungen des polysemen Wortes
Die als einzelne Bedeutungen des Wortes definierten Entitäten haben in Wirklichkeit keine scharfen Grenzen und stehen in Überschneidungsbeziehungen. Deshalb ist die Suche nach objektiven (von der Intuition des Forschers unabhängigen) Verfahren zur Abgrenzung von Bedeutungen des polysemen Wortes ein zentrales und bis jetzt noch nicht gelöstes Problem der Lexikographie und der Semasiologie. Die Verfahren zur Abgrenzung von Bedeutungen des Wortes lassen sich in einige Hauptgruppen (kontextuelle, psycholinguis-
tische, strukturelle u. a.) zusammenfassen. Die kontextuellen Verfahren bestehen aus einem Satz von bestimmten Regeln, die vom Lexikographen bei der Abgrenzung und Beschreibung der Bedeutungen intuitiv verwendet werden. Diese Regeln gründen sich auf die Analyse und Gruppierung von typischen Kontexten, in denen ein bestimmtes Wort vorkommt. Die mit Hilfe der kontextuellen Analyse bestimmte Zahl der verschiedenen Bedeutungen des Wortes hängt hauptsächlich davon ab, wie sich die vereinfachten typischen kontextuellen Mikrostrukturen gruppieren, in denen das zu analysierende Wort auftritt, und wie viele solche Gruppen vom Forscher vorgesehen werden. So verbinden sich z. B. die kontextuellen Partner des Adjektivs stark K Mauer, Zwirn, Ast, Tuch, Strick, Frau, Dame K im Wörterbuch von Agricola (1962) in eine Gruppe, mit welcher stark die Bedeutung „dick“ realisiert; im Wörterbuch Rachmanov (1956, 856) gliedert sich die genannte Gruppe in zwei Untergruppen: Zwirn, Tuch, Mauer, Zweig und Mann, Frau. In Kombination mit der ersten wird die Bedeutung „dick, fest“ und in Kombination mit der zweiten eine andere Bedeutung, nämlich „dick, beleibt“ angenommen. Unabhängig davon, welche Disambiguierungsverfahren sich in der Zukunft für die automatische Textanalyse als effektiver erweisen werden, werden heutzutage bei allen quantitativen Forschungen die Angaben von Definitionswörterbüchern (seltener Thesauri) herangezogen, in denen die Bedeutungsabgrenzung, wie oben gesagt, auf Kontextanalysen beruht. Es ist verständlich, dass es für die Gewinnung präziserer und objektiverer Daten zur Polysemie zweckmäßig und notwendig ist, möglichst viele Wörterbücher zu verwenden (vgl. Schierholz 1991, 194K 195).
3.
Durchschnittliche Anzahl der Wortbedeutungen
Dieser Wert hängt, wie eine Reihe von Forschungen zeigt, vor allem vom Grad der Sprachanalytizität und von der morphologischen Klasse des Wortes (Wortart) ab. So wurde z. B. von Polikarpov (1987, 142; 1990, 79) festgestellt, dass einem höherem Grad von Sprachanalytizität eine größere Wortpolysemie entspricht. Außerdem kann man beträchtliche Divergenzen in der Bedeutungs-
460
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
zahl bei verschiedenen Wortarten beobachten. Im Ungarischen ist (nach den Angaben des Definitionswörterbuches des Ungarischen) die Durchschnittszahl der Bedeutungen bei den Verben (X Z 2,3) höher als bei den Adjektiven (X Z 1,9); bei den Substantiven ist X Z 1,6; im Englischen ist (nach den Angaben des Thesaurus von Roget) der Mittelwert bei den Verben X Z 3,5, bei den Adjektiven X Z 2,5, bei den Substantiven X Z 2,1; im Deutschen (Simplicia im Duden-Universalwörterbuch) beträgt X Z 2,09 für die Verben, X Z 2,08 für die Substantive, X Z 2,3 für die Adjektive (nach den Angaben von Drebet und S. V. Kijko). Der Mittelwert der Bedeutungen des Substantivs beträgt nach den Angaben von Schierholz (1991, 78) 2,49 (im Gegensatz zu den Experimenten von Drebet und S. V. Kijko wurden im Duden-Universalwörterbuch alle Substantive ohne Bezug auf ihre morphologische Struktur berücksichtigt). Die für das Deutsche gewonnenen Mittelwerte der Polysemie (Drebet 1996, 55 ff.; Levickij/Kijko/Spolnicka 1996, 132 ff.) ermöglichen Präzisierungen der früheren Schlussfolgerungen (vgl. oben) auf der Grundlage des Ungarischen (Papp 1967, 57K58), Estnischen (Tuldava 1979, 107 ff.), Englischen (Višnjakova 1976, 168 ff.) und Russischen (Krylov/Jakubovskaja 1977, 1K6). Merkmalwörter (Verb und Adjektiv) scheinen im Durchschnitt polysemer zu sein als die Gegenstandswörter (Substantiv). Außerdem ist ein Zusammenhang mit der Kategorie der Abstraktheit/Konkretheit (Polikarpov/Kurlov 1994, 63) festgestellt worden. In amorphen Sprachen, wo Unterschiede zwischen den Wortarten fehlen, lassen sich einige spezifische Besonderheiten bei der Verteilung der Bedeutungszahl beobachten. Nach den Angaben von Obuchova (1986, 120K121) schwankt die Durchschnittszahl der Bedeutungen von Hieroglyphen (anhand der drei Wörterbücher) zwischen 1,72 und 1,12 (das scheint im Widerspruch zu Polikarpovs Hypothese über eine höhere Polysemie des Wortes in den analytischen Sprachen zu stehen), aber die Zahl der Bedeutungen in den tonischen Silben erreicht durchschnittlich 12K14, was mit der Hypothese von Polikarpov gut übereinstimmt. Die Anteile der polysemen Lexeme (nicht der Verwendungsweisen des Wortes) im Wörterbuch bzw. im Text stimmen nicht überein. Polikarpov (1987, 136) hat gezeigt, dass je nach Sprachtyp und Textsorte der Anteil der polysemen Wörter im Text 80 % bis 99 % beträgt.
Schließlich ist noch ein auf die Datengewinnung zur Durchschnittsgröße der Polysemie wirkender Faktor zu erwähnen: der Typ des Wörterbuches. Am Russischen wurde gezeigt, dass man in umfangmäßig größeren Wörterbüchern einen höheren Anteil polysemer Wörter beobachten kann (Polikarpov/Krjukova 1989, 115).
4.
Polysemie und Wortlänge
Die Länge des Wortes ist ein Parameter, der sich in der Zahl der das Wort bildenden Buchstaben, Laute, Phoneme, Silben oder Morpheme messen lässt. Die Verteilung der Wortlänge hängt von mehreren Faktoren ab, in erster Linie aber von Sprach- und Texttyp (Tuldava 1987, 111K117). Die Wortlängen im Wörterbuch unterscheiden sich wesentlich von denen im Text; im Englischen z. B. beträgt die durchschnittliche Wortformenlänge im Text 4,74 Buchstaben und im Wörterbuch 8,13 (Kučera/Francis 1967, 365K 366). Der Wortlängenforschung wurde zwar in verschiedenen Sprachen eine große Zahl von Arbeiten gewidmet, aber die Wechselbeziehungen zwischen dem semantischen Umfang (der Zahl der Bedeutungen) und der Wortlänge sind bisher nur sehr ungenügend untersucht worden (Altmann/Beöthy/ Best 1982; Fickermann/Markner-Jäger/Rothe 1984; Rothe 1983; Sambor 1984). Von Altmann/Beőthy/Best (1982, 537) wurde eine Hypothese über die Verringerung der Menge der Bedeutungen des Wortes bei wachsender Wortlänge aufgestellt. An umfangreichem Material aus dem Deutschen, Ungarischen und Slowakischen kamen die Autoren zu dem Schluss, dass das Menzerathsche Gesetz (je größer das Ganze, desto kleiner die Teile, vgl. Art. 47) nicht nur auf der Ebene der formalen Strukturen Gültigkeit besitzt, sondern auch auf der semantischen Ebene. Im allgemeinen kann die Wechselbeziehung zwischen der Länge des Wortes und dessen semantischem Umfang folgendermaßen formuliert werden: „Die Abhängigkeit der Polylexie von der Länge ist um so stärker, je mehr eine Sprache von morphologischen gegenüber syntaktischen Mitteln zur Bedeutungsspezifikation Gebrauch macht. Diese typologische Eigenschaft einer Sprache soll Synthetizität heißen [...]“ (Köhler 1986, 60K61). Die Veränderungsrate der Polylexie ist umgekehrt proportional zur Länge.
461
34. Polysemie
Diese von Köhler formulierte Gesetzmäßigkeit wurde in den Arbeiten von Drebet und S. V. Kijko bestätigt: Die Durchschnittszahl der Bedeutungen bei den einfachen deutschen Verben ist X Z 1,4, bei den abgeleiteten 1,2, bei den zusammengesetzten 1,06; der Mittelwert bei den einfachen Adjektiven beträgt X Z 3,02, bei den abgeleiteten 2,22, bei den zusammengesetzten 2,12 (Drebet/Levicky/Cherubim 1996, 30; Levickij/Kijko/Spolnicka 1996, 135). Der Mittelwert bei den Stammwörtern des Russischen schwankt von 1,25 bis 1,3 (Andreevskaja 1990, 10), wobei dieser Wert für alle Wörter des Russischen nach den Angaben von Polikarpov 1,7 beträgt (Polikarpov 1987, 136). Da die Länge des Wortes mit dessen Häufigkeit korreliert und die Zahl der Bedeutungen mit der Länge, ist es verständlich, dass alle drei Parameter miteinander eng verbunden sind.
5.
Die Verteilung der polysemen Wörter im Text
Ganz logisch wäre es anzunehmen, dass die Gebrauchshäufigkeit des Wortes im Text in direktem Zusammenhang mit der Zahl seiner Bedeutungen steht. Aber in Wirklichkeit hat der behandelte Zusammenhang, wie Tuldava (1987, 137) zeigt, einen komplizierteren Charakter, denn in der Hierarchie der semantischen Struktur des Wortes (vgl. 1.3.) wird eine Hauptbedeutung unterschieden, deren Frequenz von der Gebrauchshäufigkeit der Nebenbedeutungen stark abweicht. Mit anderen Worten, das paradigmatische Gewicht der verschiedenen Bedeutungen des polysemen Wortes ist unterschiedlich. Zweitens variiert der Aktualitätsgrad eines Denotats in verschiedenen Texten, und folglich ist auch die Frequenz der dieses Denotat ausdrückenden Bedeutung unterschiedlich. Schließlich wirkt auf die Frequenz der Verwendung eines Wortes im Text eine Menge zufälliger Faktoren ein, welche mit den kommunikativen Bedürfnissen des Sprechenden und den Bedingungen der Sprachfunktion verbunden sind. Tuldava (1987, 138K139) hat festgestellt, dass die zum ersten Mal von G. K. Zipf untersuchte Korrelation zwischen der Zahl von Bedeutungen m und ihrer Frequenz F in der Formel m Z αF γ
(1)
auszudrücken ist, wobei α und γ Parameter sind. Wie empirische Daten aus einigen Sprachen zeigen, nähert sich der Parameter α der Zahl 1; γ beträgt nach den Angaben von Zipf (1945) und Guiraud (1954) 1/2 und nach den Angaben von Andrukovicˇ und Korol’ov (1977, 7) 1/3. Offensichtlich variiert γ je nach dem Umfang des Wörterbuches und nach dem Sprachtyp (Tuldava 1987, 139). Einer detaillierten Analyse dieses Problems sind auch die Arbeiten von Arapov (1987), Gindin (1982) und anderen Autoren gewidmet. Wie von Andrukovicˇ und Korol’ov und später auch von Tuldava bemerkt wurde, „beobachtet man in der Zone der Hochfrequenzen eine Hemmung der Zunahme der Bedeutungszahl“ (Tuldava 1987, 138). Diese Gesetzmäßigkeit wird von anderen Autoren (Levickij/Drebet/Kijko 1999, 184) bestätigt. Das Verhältnis zwischen dem semantischen Umfang des Wortes und dessen Gebrauch in festen Wortverbindungen (Phraseologismen) als in einer Art Textfragment wird durch ebenmäßige Größen geprägt. Moskovicˇ (1969, 46) hat anhand der Untersuchung der adjektivischen Farbbezeichnungen in verschiedenen Sprachen festgestellt, dass es zwischen der Zahl der Wortbedeutungen und der Zahl der Phraseologismen, zu deren Bestand das Wort gehört, eine positive Korrelation gibt (der Rangkorrelationskoeffizient schwankt in verschiedenen Untersuchungen von C 0,84 bis C 0,99). Ähnliche Ergebnisse (r Z C 0,7) wurden von S. V. Kijko und J. J. Kijko für deutsche Verben gewonnen (Kijko/Kijko 1996a, 37).
6.
Die Verteilung der polysemen Wörter im Lexikon
Am Material einiger Sprachen hat Tuldava gezeigt, dass die Wechselbeziehungen zwischen der Zahl der Wortbedeutungen und der Zahl der Wörter in der jeweiligen Polysemieklasse im Wörterbuch mit der Formel: P (m) Z aeKbm
c
(2)
ausgedrückt werden können, wobei m die Zahl der Bedeutungen, P(m) die Zahl der Wörter mit m Bedeutungen, a, b und c Parameter und e die Basis des natürlichen Logarithmus sind. Da der Parameter c z 0,5 ist, geht Formel (2) in die Formel: P (m) Z aeKbOm
(3)
462
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
über (Tuldava 1987, 136). Im Idealfall reduziert sich die Wahrscheinlichkeit, dass das Wort m Bedeutungen hat, zu einer geometrischen Progression mit dem Nenner 0,5. Diese Schlussfolgerung lässt die folgenden natürlichen Zonen (Stufen) der Polysemie unterscheiden: Nullstufe (eine Bedeutung), 2K4 Bedeutungen, 5K9 Bedeutungen, 10K 16 Bedeutungen usw. (vgl. Tuldava 1987, 135K136). Das Material des Deutschen (Drebet; S. V. Kijko; Levickij) zeigt, dass im allgemeinen die Verteilung der polysemen nicht abgeleiteten Verben, Substantive und Adjektive im Duden-Universalwörterbuch gemischter Natur ist. In der Zone der Hochfrequenzen beobachtet man eine geometrische Progression, und die Verteilung der relativ kleinen Schicht von niedrigfrequenter Lexik auf hoher Polysemitätsstufe wird durch das Poisson-Gesetz geregelt. Die Rangverteilungen der polysemen Wörter in Wörterbüchern des Englischen und Russischen sind von Malov (1988) untersucht worden.
7.
Semantischer Umfang des Wortes und dessen Zugehörigkeit zu einer semantischen Subklasse
Der Zusammenhang zwischen der Zahl der Wortbedeutungen und der Zugehörigkeit des Wortes zu einer bestimmten semantischen Subklasse ist bisher erst äußerst unzureichend untersucht worden. Anhand des Duden-Universalwörterbuches wurde von Levickij, Drebet, S. V. Kijko der Zusammenhang zwischen der Zahl der Bedeutungen bei einfachen Verben, Substantiven, Adjektiven und deren Zugehörigkeit zu einer der semantischen Subklassen untersucht. Mit Hilfe nichtformaler Verfahren wurden vorläufig 22 Subklassen von Verben, 23 Subklassen von Substantiven und 17 Subklassen von Adjektiven gewonnen. Die Ergebnisse der quantitativen Analyse (es wurden der χ2-Test und der Kontingenzkoeffizient verwendet) haben gezeigt, dass die Polysemiestufe in verschiedenen semantischen Subklassen durch wesentliche Schwankungen gekennzeichnet ist. So liegen diese Werte bei Verben zwischen 6,5 und 1,74, bei Substantiven zwischen 2,57 und 1,35, bei Adjektiven zwischen 3,8 und 1,33. Die niedrigste Polysemiestufe im Bereich der Substantive haben die Subklassen [Speisen und Ge-
tränke], [Charakterzüge des Menschen], [Tierwelt], [Naturerscheinungen], [Organisationen und Institutionen] usw., das heißt, die Subklassen mit konkreter Bedeutung. Trotzdem wurden keine wesentlichen Unterschiede zwischen der Durchschnittszahl der Bedeutungen bei Substantiven mit konkreter und solchen mit abstrakter Bedeutung festgestellt. Diese Schlussfolgerungen stimmen mit den Resultaten der Korrelationsanalyse überein, welche von Schierholz anhand von demselben Duden-Universalwörterbuch entnommenen Substantiven durchgeführt wurde K die Koeffizienten erwiesen sich als ziemlich niedrig (vgl. Schierholz 1991, 112K115). Offensichtlich ist die von Polikarpov und anderen Forschern formulierte Gesetzmäßigkeit (je höher die Abstraktheitsstufe ist, desto mehr Bedeutungen hat das Wort) nur bei einer Gegenüberstellung verschiedener grammatischer Wortklassen gültig. Es ist auch zu berücksichtigen, dass sich die Kategorie „Abstraktheit der Bedeutung“ einer formalen Definition nur schwer unterordnen lässt, und deshalb sind die Ergebnisse quantitativer Analysen dieser Kategorie notorisch nicht eindeutig.
8.
Wortpolysemie und Stil
Mit der Untersuchung dieses Zusammenhangs beschäftigt sich ein beschränkter Kreis von Wissenschaftlern. Polikarpov/Kurlov (1994, 62 ff.) haben die Lexik des Russischen anhand des vierbändigen Definitionswörterbuches untersucht. Und zwar haben die Autoren die Verteilung von markierter und nicht markierter Lexik (entsprechend den Markierungen des Wörterbuches) erforscht. Es wurden insgesamt vier stilistische Klassen unterschieden: umgangssprachliche, fachsprachliche, veraltete und regionale Lexik. Die von den Autoren festgestellte allgemeine Gesetzmäßigkeit besteht darin, dass die Polysemiestufe dem Markierungsgrad umgekehrt proportional ist (Polikarpov/Kurlov 1994, 68), d. h. am stärksten markiert erwiesen sich die Wörter mit einer geringen Zahl von Bedeutungen. Nach den Wortarten verteilt sich der Markierungsgrad folgendermaßen: das Verb (42,29 % von der Gesamtzahl der untersuchten Verblexeme), das Substantiv (32,22 %), weiter folgen die Adverbien und Adjektive (Polikarpov/Kurlov 1994, 71).
34. Polysemie
Drebet, S. V. Kijko und J. J. Kijko haben am Material des Deutschen den Zusammenhang zwischen der Polysemiestufe und der Zugehörigkeit des Wortes zu einer der stilistischen Subklassen erforscht. Mit Hilfe des χ2-Tests und des Kontingenzkoeffizienten wurden statistisch signifikante Zusammenhänge zwischen Polysemiezonen und stilistischen Subklassen festgestellt. So sind die Substantive mit der Bedeutungszahl 1K3 am engsten mit der stilistischen Subklasse [Dialekt] (bei Polikarpov/Kurlov 1994 regionale Lexik) verbunden und die Adjektive mit derselben Zahl der Bedeutungen 1K3 am engsten mit der Subklasse [emotionalexpressive Lexik]. Verben mit einer Bedeutung sind vorwiegend entweder durch die Markierungen [derb, fam., salopp usw.] (niedriger Stil) oder durch die Markierungen [gehoben, dichter., Fachw.] (gehobener Stil) gekennzeichnet (vgl. Drebet 1996, 55K60; Kijko/Kijko 1996b, 60K64).
9.
Literatur (in Auswahl)
Agricola, Erhard (1962), Wörter und Wendungen. Wörterbuch zum deutschen Sprachgebrauch. (Hrsg. E. Agricola unter Mitwirkung von H. Görner und R. Küfner). Leipzig: VEB Bibliographisches Institut, 598. Altmann, Gabriel/Beőthy, E./Best, Karl-Heinz (1982), Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 35 (5), 537K543. Andreevskaja, A. V. (1990), Kvantitativnoe issledovanie polisemii kornevych slov russkogo jazyka XIKXX vekov. In: Ucˇenye Zapiski Tartuskogo Universiteta 912, 3K11. Andrukovicˇ, P. F./Korol’ov, E. I. (1977), O statisticˇeskich i leksikogrammaticˇeskich svojstvach slov. In: Naucˇno-technicˇeskaja informacija, ser. 2 (2), 1K9. Arapov, Michail V. (1987); Upotrebitel’nost’ i mnogoznačnost’ slova. In: Učenye Zapiski Tartuskogo Universiteta 774. Tartu, 15K28. Drebet, V. V. (1996), Stilistische Kennzeichen der polysemen Substantive in der deutschen Gegenwartssprache. In: Naukovy Visnyk Černiveckoho Universytetu 2, 55K60. Drebet, V. V./Levickij, V. V./Cherubim, D. (1996), Morphologische Faktoren bei der Polysemie der deutschen Adjektive. In: Naukovy Visnyk Černiveckoho Universytetu 1, 29K32. Fickermann, Ingeborg/Markner-Jäger, B./Rothe, Ursula (1984), Wortlänge und Bedeutungskomplexität. In: Glottometrika 6. (Hrsg. Joachim Boy/
463 Reinhard Köhler). Bochum: Brockmeyer, 115K 126. Gindin, S. I. (1982), Častota slova i jego značimost’ v sisteme jazyka. In: Lingvostatistika i vyčislitelnaja lingvistika 8. Tartu, 22K53. Guiraud, Pierre (1954), Les caractèrs statistique du vocabulaire. Paris: Press universitaires. Kapatruk, M. D. (1980), Metody vyvčennja osnovnoho značennja slova. In: Movoznavstvo 5, 75K 77. Kijko, S. V./Kijko, J. J. (1996a), Kvantytatyvne doslidžennja polisemii dijesliv sučasnoji nimec’koji movy. In: Naukovy Visnyk Černiveckoho Universytetu 1, 32K38. Kijko, J. J./Kijko, S. V. (1996b), Polysemie der Verben und ihre stilistische Markierung. In: Naukovy Visnyk Černiveckoho Universytetu 2, 60K64. Köhler, Reinhard (1986), Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Kronasser, Heinz (1952), Handbuch der Semasiologie. Kurze Einführung in die Geschichte, Problematik und Terminologie der Bedeutungslehre. Heidelberg: Carl Winter Universitätsverlag. Krylov, Jurij Konstantinovič/Jakubovskaja, M. D. (1977), Statističeskij analiz polisemii kak jazykovoj universalii i problema semantičeskogo toždestva slova. In: Naučno-techničeskaja informacija, ser. 2, (3), 1K6. Kučera, Henry/Francis, W. Nelson (Hrsg.), Computational analysis of present-day American English. Providence, R. J.: Brown University Press, 1967. Lehrer, Adrienne (1974), Homonymy and polysemy: measuring similarity of meaning. In: Language Sciences 32, 33K39. Levickij, Viktor V. (1985), Opyt ėksperimental’nogo razgraničenija leksičeskoj polisemii i omonimii. In: Psicholingvističeskie issledovanija. Leksika. Fonetika. Kalinin: Kalininskij Universitet, 4K14. Levickij, Viktor V./Drebet, V. V./Kijko S. V. (1999), Some Quantitative Characteristics of Polysemy of Verbs, Nouns and Adjectives in the German Language. In: Journal of Quantitative Linguistics 6 (2), 1972K1987. Levickij, Viktor V./Kijko, J. J./Spolnicka, S. V. (1996), Quantitative analysis of verb polysemy in modern German. In: Journal of Quantitative Linguistics 3 (2), 132K135. Malov, A. V. (1988), Rangovye polisemičeskie raspredelenija leksiki tolkovych slovarej russkogo i anglijskogo jazykov. In: Učenye Zapiski Tartuskogo Universiteta 827, 111K115. Moskovič, V. A. (1969), Statistika i semantika. Moskva: Nauka. Muravycka, M. P. (1975), Psycholinhvistyčnyj analiz leksyčnoji omonimiji. In: Movoznavstvo 3, 59K 67.
464
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Obuchova, N. V. (1986), O specifike raspredelenija mnogoznačnosti leksičeskich jedinic v kitajskom jazyke. In: Učenye Zapiski Tartuskogo Universiteta 745, 119K128. Olšanskij, J. G./Skiba, V. P. (1987), Leksičeskaja polisemija v sisteme jazyka i tekste. Kišynjov: Štiinca. Papp, F. O. (1967), O nekotorych količestvennych charakteristikach slovarnogo sostava jazyka. In: Slavia, vii, 51K58. Paul, Hermann (1920), Prinzipien der Sprachgeschichte (5. Aufl.). Halle (Saale): Niemeyer. Polikarpov, Anatolij A. (1987), Polisemija: sistemno-kvantitativnye aspekty. In: Učenye Zapiski Tartuskogo Universiteta 774, 135K154. Polikarpov, Anatolij A. (1990), Leksičeskaja polisemija v evolucionnom aspekte. In: Učenye Zapiski Tartuskogo Universiteta 974. Tartu, 77K86. Polikarpov, Anatolij A./Krjukova, O. S. (1989), O sistemnom sootnošenii kratkogo i srednego tolkovych slovarej russkogo jazyka. In: Učenye Zapiski Tartuskogo Universiteta 872, 111K125. Polikarpov, Anatolij A./Kurlov, V. J. (1994), Stilistika, semantika, grammatika: opyt analiza sistemnych vzaimosvjazej (po dannym tolkovogo slovarja). In: Voprosy jazykoznanija 1, 62K82. Rachmanov, J. V. (1956), Deutsch-russisches Wörterbuch. Moskau: Gos. Izdatel’stvo inostr. literatury. Rothe, Ursula (1983), Wortlänge und Bedeutungsmenge. Eine Untersuchung zum Menzerathschen Gesetz an drei romanischen Sprachen. In: Glottometrika 5. (Hrsg. R. Köhler/J. Boy). Bochum: Brockmeyer, 101K112. Sambor, Jadwiga (1984), Menzerath’s law and the polysemy of words. In: Glottometrika 6. (Hrsg. Joachim Boy/Reinhard Köhler). Bochum: Brockmeyer, 94K114.
Schierholz, Stefan J. (1991), Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive. Tübingen: Niemeyer. Schippan, Thea (1987), Lexikologie der deutschen Gegenwartssprache. Leipzig: Bibliographisches Institut. Schmidt, Wilhelm (1965), Lexikalische und aktuelle Bedeutung. Ein Beitrag zur Theorie der Wortbedeutung. Berlin: Akademie Verlag. Schneider, Edgar W. (1988), Variabilität, Polysemie und Unschärfe der Wortbedeutung. Bd. 1., Theoretische und methodische Grundlagen. Tübingen: Max Niemeyer Verlag. Tuldava, Juhan (1979), O nekotorych kvantitativno-sistemnych charakteristikach polisemii. In: Učenye Zapiski Tartuskogo Universiteta 502, 107K141. Tuldava, Juhan (1987), Problemy i metody kvantitativno-sistemnogo issledovanija leksiki. Tallinn: Valgus, 204K205. Vinogradov, V. V. (1953), Osnovnye tipy leksičeskich značenij slova. In: Voprosy jazykoynanija 5, 3K29. Višnjakova, S. M. (1976), Opyt statističeskogo issledovanija mnogoznačnosti slov anglijskogo jazyka. In: Vyčislitel’naja lingvistika. Moskva, 168K 178. Weinreich, Uriel (1963), On the semantic structure of language. In: Universals of language. (Hrsg. J. H. Greenberg). Cambridge (Mass.): MIT Press, 142K216. Zipf, George K. (1945), The Meaning-Frequency Relationship of Words. In: The Journal of General Psychology 33 (2), 251K256. Zveginzev, V. A. (1957), Semasiologija. Moskva: Moskovskij Universitet.
Victor Levickij, Černivci (Ukraine)
35. Lexikalische Kombinierbarkeit 1. 2.
7.
Begriff und Definition Typologie der lexikalischen Kombinierbarkeit Kombinierbarkeitsweite des Wortes Intensität der Kombinierbarkeit Selektivität der Kombinierbarkeit Syntagmatische und paradigmatische Beziehungen in der Lexik Literatur (in Auswahl)
1.
Begriff und Definition
3. 4. 5. 6.
Unter lexikalischer Kombinierbarkeit versteht man im weiten Sinne die Fähigkeit des
Wortes, eine Verbindung mit anderen Wörtern im Text einzugehen (vgl. Agricola 1975, 50; Schippan 1987, 206; Kotelova 1975, 81). Es ist Kookurrenz und Wortverbindung zu unterscheiden. Lexikalische Kombinierbarkeit setzt im Unterschied zu der Kookurrenz nicht nur eine engere Verbindung zwischen den Wörtern, sondern auch das Vorhandensein einer Beziehung zwischen ihnen voraus, wobei diese Beziehung von Leisi (1952, 71) als semantische Kongruenz bezeichnet wurde. Deswegen kann man annehmen, daß die lexikalische Kombinierbarkeit eine Ver-
465
35. Lexikalische Kombinierbarkeit
bindung von semantisch verträglichen Wörtern im Text ist. Die Verträglichkeit kann durch drei Faktoren bedingt werden: von der Denotatenverträglichkeit (bellen verträgt sich mit Hund, aber nicht mit Katze), von der Verträglichkeit der Kommunikationssituationen (edel C Antlitz sind miteinander verträglich, edel C Visage, Fratze sind nicht verträglich) und eigentlich von der Sprachverträglichkeit (vgl. die Verträglichkeit von dt. stark und kräftig mit den Wörtern Mensch, Tier, Tee, Kälte; oder die Verträglichkeit von engl. high und tall mit den Substantiven man, tree, house). Dementsprechend kann man denotative, pragmatische und lexikalische Verträglichkeit unterscheiden (vgl. Schippan 1987, 207K210). Die lexikalische Kombinierbarkeit unterscheidet sich von der Kookurrenz nicht nur durch das Kriterium der Komponentenverträglichkeit, sondern auch durch eine Wirkung der Strukturbeziehungen zwischen diesen lexikalischen Komponenten, von denen die eine als determinierte und die andere als determinierende auftritt. Für die Unterscheidung dieser zwei strukturell organisierten Komponenten ist eine große Anzahl von Bezeichnungen üblich: Kern, node, determinierte Einheit auf der einen Seite, und Schlüsselelement des kontextuellen Satzes, Kontextpartner, determinierende Einheit auf der anderen Seite. Je nach der Zielsetzung der Forschung können die lexikalischen Kombinationen sowohl vom Standpunkt des determinierten Wortes (welche Kollokate es verknüpfen kann) als auch vom Standpunkt des determinierenden Wortes (welche Kerne es determinieren kann) untersucht werden. Wenn es zwischen den Komponentenkombinationen genügend enge Beziehungen gibt (vgl. 4.), so kann das Auftreten einer der Komponenten (einer Kern- oder Nichtkernkomponente) das Auftreten einer anderen prognostizieren. So kann die Determinante cold in einem Text mit spezifischem Inhalt (Presse) den Kern war prognostizieren, und der Kern war kann die Determinante world prognostizieren (Kravec 1968, 216K218). Nach den Angaben von Kravec kommen jedem Kern im Durchschnitt 5,4 Kombinationen und jeder Determinante 4 Kombinationen zu.
2.
Typologie der lexikalischen Kombinierbarkeit
Die Typen variablen Kontextes untersuchend unterschied Amosova (1963, 34K41) zwischen dem syntaktischen und dem lexikalischen Kontext des Wortes. Lexikalischer Kontext kann eine gewisse ideographische Gruppe von Wörtern (Getränke, Lebewesen, Emotionen usw.) sein, oder er kann aus nicht auf irgendeine ideographische Gruppe zurückzuführenden Wörtern bestehen. Diesen von Amosova unterschiedenen Kontexten entsprechen in der modernen Lexikologie drei Kombinierbarkeitstypen: syntaktische, semantische und lexikalische (vgl. Apresjan 1974, 233). Unter syntaktischer Kombinierbarkeit versteht man die Fähigkeit des Wortes, in eine syntaktische Verbindung mit anderen Wörtern auf der Ebene der Wortklasse (morphologischer Klasse) zu treten, d. h. die Gesamtheit potenziell möglicher syntaktischer Verbindungen des Wortes (Kotelova 1975, 81). Unter semantischer Kombinierbarkeit versteht man die Fähigkeit des Wortes, mit anderen Wörtern auf der Ebene der Wortsubklasse zu kollokieren. Da formalisierte Verfahren zur Unterscheidung von Subklassen (Clustern) fehlen, lassen sich lexikalische Subklassen, mit denen sich das Wort kombinieren kann, durch nichtformale Verfahren unterscheiden, und deshalb können sie eine umfangsmäßig größere oder kleinere Wortgruppierung darstellen. In Einzelfällen kann eine solche Gruppierung einer Teilbedeutung eines polysemen Wortes entsprechen (z. B. die Wortgruppierung Ast, Zwirn, Dame, Tuch usw., welche die Bedeutung des Adjektivs stark diagnostiziert (vgl. Art. Nr. 34)). Unter lexikalischer Kombinierbarkeit versteht man (im engen Sinne) die Fähigkeit des Wortes, mit einem Einzelwort zu kollokieren. Somit kann sich eine semantisch realisierte Einheit verbinden: (a) mit der Wortklasse (syntaktische Kombinierbarkeit); (b) mit der Wortsubklasse (semantische Kombinierbarkeit); (c) mit einem Einzelwort (lexikalische Kombinierbarkeit).
3.
Kombinierbarkeitsweite des Wortes
Eine Wechselwirkung der drei in 1. behandelten Verträglichkeitstypen bedingt das
466
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Kombinierbarkeitspotential des Wortes. Dieses Potential wird manifest, indem verschiedene Wörter im Text mit einer unterschiedlichen Zahl von Partnern kollokieren. Die Zahl der Partner kann als Kombinierbarkeitsweite des Wortes bezeichnet und in Form absoluter Werte, der Ränge (vgl. McIntosh 1961, 329K331) oder K innerhalb eines gegebenen lexikalischen Teilsystems K in Form relativer Werte ausgedrückt werden. Die Zahl der Kontextpartner kann von 1 (das Wort kollokiert mit einem einzigen Wort) bis zu sehr hohen Werten schwanken (genaue Angaben für verschiedene Wortarten und verschiedene Sprachen fehlen). Es ist anzunehmen, daß Wörter mit weiterer Semantik (z. B. solche Wörter wie gut) oder mit einer größeren Bedeutungszahl eine größere Zahl von Partnern haben. Diese Hypothese wird indirekt in einer Reihe von Arbeiten bestätigt (vgl. Moskovicˇ 1969, 23K 46; Ginka 1983, 15; Bystrova 1978, 45; Vyšyvana 1996, 57; Lukencˇuk 1993, 10), aber gesonderte Untersuchungen der auf die Kombinierbarkeitsweite wirkenden Faktoren fehlen bisher.
4.
Intensität der Kombinierbarkeit
Der die lexikalische Kombinierbarkeit charakterisierende zweite wichtige Parameter ist der Grad des strukturell-semantischen Zusammenhangs der Kollokationskomponenten. Dieser Parameter kann als Intensität der Kombinierbarkeit bezeichnet werden. Man nimmt an, daß einer der ersten, die auf den unterschiedlichen Grad des Zusammenhangs zwischen den Kollokationskomponenten aufmerksam machte, Porzig war (Porzig 1934, 70 ff.). In der einen oder anderen Form wurde das Problem in Arbeiten von Leisi (1952, 190K192), Lyons (1977, 261K262), Palmer (1976, 134), Sinclair (1966, 418), Roos (1975, 16) und anderen Forschern behandelt. Eine wichtige Errungenschaft der modernen Lexikologie und Lexikographie ist die Auffassung, daß die Intensität der Kollokationen einen graduellen Charakter hat, und deshalb gibt es zwischen stabilem und variablem Kontext keine deutlich ausgeprägten Grenzen (der letzte Umstand bedeutet nicht, daß die Begriffe Phraseologie, stabiler Kontext usw. unnötig werden). So gliedert Agricola alle Wortverbindungen in drei
Gruppen: freie, lose und feste Wortverbindungen (Agricola 1982, 29K31). Feste Wortverbindungen, die dem Teil des Kollokationskontinuums zugehören, welcher üblicherweise als stabiler Kontext bezeichnet wird, lassen sich weiter gliedern (vgl. Arbeiten von Vinogradov 1947; 1953; Schmidt 1965; Šanskij 1963; Cˇernyšova 1970). Der Grad der Kombinierbarkeitsintensität kann mit Hilfe psycholinguistischer und kontextueller Verfahren untersucht werden. Dridse (1975, 149 ff.) untersuchte 50 feste Wortverbindungen des Russischen (in der Art von vnosit’ vklad (Beitrag leisten)) mit Hilfe eines assoziativen Verfahrens. Den Testpersonen wurde vorgeschlagen, die fehlende Komponente in Wortverbindungen in der Art von leisten ... zu nennen. Eine quantitative Analyse der Häufigkeit von WortAssoziationen, die von Testpersonen genannt wurden, „gestattet es, Schlüsse auf den Grad der Fixiertheit der lexikalischen Einheiten in den [...] Wortverbindungen zu ziehen“ (Dridse 1975, 157). Dieser Grad wird im Experiment von Dridse mit einem einfachen Verhältnis zwischen der Zahl der ein bestimmtes Wort erwähnenden Testpersonen und der Zahl aller Testpersonen gemessen (z. B. 28 von 50 nannten das Wort vklad (Beitrag) als eine Kollokationskomponente mit dem Verb vnosit’ (leisten)). In Experimenten von Kopylenko (1973, 33K 63) und Levickij (1975, 49 ff.) wurde die Stärke des Zusammenhangs zwischen den Komponenten potentieller oder reeller Wortverbindungen von Testpersonen mit Hilfe der Drei-Punkte-Skala gemessen. Obwohl man die einem bestimmten Typ phraseologischer Verbindungen entsprechenden Zahlenschwellen in Kopylenkos Experiment intuitiv feststellte, wurde im Prinzip gezeigt, daß sich die Stärke des Zusammenhangs lexikalischer Komponenten im Bestand der Phraseologismen quantitativ messen läßt. Untersuchungen am Ukrainischen (Levickij 1975, 54K57) bestätigten insbesondere ein reelles Vorhandensein denotativer, pragmatischer und struktureller (lexikalischer) Verträglichkeit. So können die das Bewertungssem [schlecht] enthaltenden Substantive chalupa und chalabuda (Bude, Hütte) mit dem Adjektiv čudovyj (wunderschön) nicht kollokieren (pragmatische Unverträglichkeit), das Wort jiža (das Essen) kollokiert nicht mit dem Wort mylolycyj (hübsch vom Gesicht) (denotative Unverträglichkeit), und
467
35. Lexikalische Kombinierbarkeit
das Adjektiv syl’nyj (stark, kräftig) kombiniert sich nicht mit dem Wort čaj (der Tee) (lexikalische Unverträglichkeit). Untersuchungen der Intensität mit Hilfe kontextueller Verfahren setzen die Verwendung von Angaben über die Häufigkeit von Kollokationen im Text voraus. In den einfachsten Fällen werden die Schlüsse über die Intensität der Kombinierbarkeit eines Wortes im Zusammenhang mit der Untersuchung seiner Kombinierbarkeitsweite gezogen. Für das Maß der Intensität dient ein die Wiederholbarkeit der Kontextpartner eines Wortes im Text ausdrückender absoluter oder relativer Wert. Das Lexem read in englischen Texten kollokiert z. B. mit book (6,1 % aller Wortverbindungen), Bible (3 %), novel (1,5 %) usw. (Miller 1971, 572 ff.). Aber die Vorkommenshäufigkeit zweier Wörter im Text kann selbst nicht als echtes Maß ihres semantischen oder syntaktischen Zusammenhangs dienen, denn das häufige Auftreten der Wortverbindung read C book kann entweder durch die hohe Frequenz von read oder durch die Häufigkeit der Verwendung von book bedingt sein. Es wäre deshalb zweckmäßiger, die theoretisch erwarteten Werte der Kookkurenz mit empirischen Werten zu vergleichen. Ein solches Verfahren wurde von Šajkevič (1963, 18) vorgeschlagen, der die Stärke des Zusammenhangs der Wörter im Text mit Hilfe eines Koeffizienten des Bedeutungszusammenhangs maß. Dieser Koeffizient wird auf Grund der Wahrscheinlichkeit des gemeinsamen Auftretens zweier Wörter in einem bestimmten Textabschnitt (z. B. in einer Gedichtzeile) errechnet. Abweichungen der empirischen Werte von den theoretisch möglichen sind mit Hilfe des χ 2-Tests und der Kontingenzkoeffizienten geeignet zu messen. Wie Tuldava (1988, 159) zeigte, ist bei Verwendung der Kontingenzkoeffizienten für die in verschiedenen Untersuchungen gewonnenen Verteilungen eine gewisse Korrektur (Normierung des Koeffizienten) erforderlich. Trotzdem zeigten erste Versuche der Verwendung von χ 2-Test und Kontingenzkoeffizienten bei der Bearbeitung von Daten aus kontextuellen Analysen die Effektivität dieser Verfahren für die Feststellung der Kombinierbarkeitsintensität. Derzeitig wird mit Hilfe der erwähnten Verfahren die Kombinierbarkeit der Adjektive mit den Bedeutungen stark und schwach
im Englischen und Deutschen, der Adjektive der Gruppe firm im Englischen, der Adjektive zur Bezeichnung der Bewertung im Englischen und Deutschen, der Adjektive zur Bezeichnung des Äußeren des Menschen im Englischen, der Adjektive zur Bezeichnung der Größe im Englischen, der Adverbien mit Verben und Adjektiven im Englischen und Deutschen, der Substantive mit der Bedeutung Arbeit im Deutschen, der Verben der Rede im Deutschen (Archeljuk 1998; Ahapij 1996; Bystrova 1978; Ginka 1983; Lukencˇuk 1993; Musurivska 1993; Pacholok 1989; Vyšyvana 1996; Levickij/Romanova 1997) untersucht. In diesen Untersuchungen wird die Kollokationsfrequenz in Form von Vierfeldertafeln, welche man mit Hilfe des Bernoullischen Koeffizienten Ф auswertet, dargestellt: ΦZ
ad K bc O(a C b) (c C d) (a C c) (b C d)
(1)
Die Signifikanz des Koeffizienten wird mit Hilfe des χ 2-Tests festgestellt (als signifikant gelten Koeffizienten bei χ 2 R 3,84; P Z 0,05). Als Muster vgl. Tabelle 35.1 und 35.2: Tab. 35.1: Verteilung der Kollokationsfrequenzen von strong C man man andere Substantive Strong andere Adjektive Insgesamt χ21
insgesamt
27 81
637 1674
664 1755
108
2311
2419
Z 0,34 Ф Z K0,01 nicht signifikant
Tab. 35.2: Verteilung der Kollokationsfrequenzen von stout C man man andere Substantive Stout andere Adjektive Insgesamt
insgesamt
18 90
50 2261
68 2351
108
2311
2419
χ 21 Z 79,44 Ф Z C0,18 P Z 0,001
Die Tabellen werden üblicherweise so zusammengestellt, daß die Angaben über die Frequenz der Kombination von A und B im Feld (a) stehen. Es versteht sich, daß man nur positive Koeffizienten Ф berücksichtigt. Die Auswertung der Beispieldaten zeigt offensichtlich, daß eine hohe Kookkurenzfre-
468
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
quenz zweier Wörter durchaus nicht von der Dichte ihres semantischen Zusammenhangs zeugt. So kollokiert strong in englischer Prosa meistens mit man, aber der Koeffizient Ф hat für dieses Paar keine statistische Signifikanz (der empirische Wert des Paares strong man übertrifft nicht den theoretischen Wert). Weniger frequente Wortverbindungen können sich dagegen als intensiver erweisen: stout C man (Ф Z 0,18), feeble C glow (0,2), firm C lip (0,15), firm C hand, slight C accent (0,11), strong C tee, strong C feeling (0,08) usw. (vgl. Bystrova 1978, 46). Wie aus den angeführten Beispielen zu sehen ist, nähern sich die aufgezählten Kollokationen nach ihrem Status oder ihrer Struktur denen, welche Agricola mit dem Terminus lose Wortverbindungen bezeichnet, in der britischen Kontextualismusschule habituelle Kollokationen genannt werden und Porzig als elementare Bedeutungsfelder definiert. Man kann vorschlagen, solche Kollokationen als stabile Wortverbindungen zu bezeichnen. Nicht selten stimmen stabile Wortverbindungen mit den in erklärenden Wörterbüchern angeführten typischen Kollokationen überein (z. B. die von Ginka (1983) festgestellten stabilen Wortverbindungen politische, leichte, schwere, harte C Arbeit stimmen mit den im Wörterbuch von Klappenbach/Steinitz (1978) angeführten überein). Ein Versuch der Abgrenzung des stabilen vom variablen Kontext mit Hilfe des Koeffizienten Ф wurde an der Universität Cˇernivcy (Levickij 1989, 50K53) vorgenommen. Es wurden Wortverbindungen untersucht, deren Bestand die Bezeichnungen der Körperteile von Menschen und Tieren (z. B. Kopf schütteln, Mund halten usw.) zugehören. Es wurde festgestellt, daß im Text Wortverbindungen auftreten, deren Komponenten miteinander durch einen statistisch signifikanten Zusammenhang (χ 2 O 3,84) verbunden sind, aber dabei im phraseologischen Wörterbuch des Deutschen (Binovicˇ/ Grišin 1975) nicht als phraseologische Einheiten (z. B. Ohren zuhalten) fixiert werden. Andererseits treten im Text Kollokationen auf, für die sich χ 2 als kleiner als 3,84 erwies (es gibt keinen statistisch signifikanten Zusammenhang zwischen den Kollokaten), aber welche im phraseologischen Wörterbuch als stabile Wortverbindungen (z. B. Mund halten) fixiert werden. Solche Anomalien sind entweder mit Mängeln der Wör-
terbücher oder mit Mängeln des verwendeten Verfahrens (vielleicht aus dem ungenügend großen Umfang der Stichprobe) zu erklären. Somit zeigt das angesammelte Material, dass sich der Übergang vom freien zum stabilen Kontext allmählich vollzieht und einen abgestuften Charakter besitzt. Kollokationsfähigkeiten des Wortes können mit Hilfe der quantitativen Verfahren, z. B. des Koeffizienten Ф, festgestellt werden, aber man beobachtet keine proportionale Zunahme zwischen den Werten des Koeffizienten Ф und einer intuitiv festgelegten Zusammenhangsstärke der Kollokate. Mit Hilfe der Kontingenzkoeffizienten oder mit Hilfe ähnlicher Koeffizienten, z. B. der Pearson-Korrelationskoeffizienten CZ
χ2
√n C χ
2
(2)
können nicht nur die Kombinationen der in kollokierenden Lexemen dargestellten lexisch-semantischen Merkmale, sondern auch die Kombinationen lexisch-semantischer und morphologisch-semantischer Merkmale untersucht werden. So hat z. B. Sil’nitskij die Korrelation zwischen den morphologischen Kategorien des Substantivs und des Verbs in den indoeuropäischen Sprachen untersucht; Cˇernyšenko hat Verbindungen zwischen den morphologischen Kategorien und bestimmten semantischen Subklassen des Substantivs im Deutschen festgestellt; Ivanjuk hat auf eine ähnliche Weise eine Abhängigkeit zwischen der Zeitform und der semantischen Subklasse des Verbs im Deutschen gefunden (vgl. Sil’nitskij 1998, 82; Ivanjuk/ Levickij 1990, 56 ff.; Levickij/Cˇernyšenko 1996, 35 ff.).
5.
Selektivität der Kombinierbarkeit
Mit Hilfe der in 4. dargelegten Methodik lassen sich nicht nur positive, sondern auch negative Zusammenhänge zwischen den Wortverbindungsgliedern feststellen, denn der Wert des Koeffizienten Ф variiert zwischen C1 und K1. Außer der vollen Kollokationsrestriktion (die Häufigkeit der Kookkurenz zweier Einheiten ist gleich 0) muß es eine Menge von Übergangsfällen geben, wenn sich die empirischen Werte der Kookkurenz zweier Lexeme als niedriger erweisen als theoretisch zu erwarten. Somit muß
469
35. Lexikalische Kombinierbarkeit
das Wort eine gewisse Eigenschaft besitzen, die mit einer Subklasse von Lexemen seine zunehmende Kombinierbarkeit und mit einer anderen seine abnehmende Kombinierbarkeit regelt. Diese Eigenschaft kann man mit dem Terminus Selektivität bezeichnen, der offensichtlich dank den Arbeiten von Chomsky seine Verbreitung fand. Die Selektivitätsstärke ist mit einem Mittelwert der absoluten Größen aller für ein bestimmtes Wort errechneten Koeffizienten Ф zu messen (es werden die Abweichungen der Kookkurenzhäufigkeit der Kollokate von theoretisch erwarteten Größen sowohl in Richtung der Zunahme, als auch in Richtung der Abnahme berücksichtigt). Z. B. ist der absolute Mittelwert Ф für strong (nach Untersuchungen von L. V. Bystrova 1978) gleich 0,12, für solid Z 0,14, für firm Z 0,24. Wie zahlreiche Studien zeigen, ist die Selektivitätsstärke nicht mit der Kookkurenzhäufigkeit zweier Wörter verbunden, obwohl wahrscheinlich Wörter mit einer weiten Kombinierbarkeit (wie strong) niedrigere Selektivität besitzen.
6.
Syntagmatische und paradigmatische Beziehungen in der Lexik
Wie in 2. gezeigt wurde, können als Kollokationspartner des Wortes nicht nur einzelne Wörter, sondern auch umfangsmäßig größere oder kleinere Wortsubklassen auftreten. Deshalb können sowohl die Weite als auch die Intensität und Selektivität der Kombinierbarkeit nicht nur im Modell Wort C Wort, sondern auch im Modell Wort C Subklasse untersucht werden. So stellte Archeljuk (1998, 48K49) bei der Untersuchung des Modells Wort C Subklasse fest, daß engl. tall selektiv nur mit den Substantiven zur Menschenbezeichnung (Ф Z 0,14) und mit den Substantiven zur Pflanzenbezeichnung (Ф Z 0,06) kollokiert. Somit können intuitive Vorstellungen von der Kombinierbarkeit tall durch genaue statistische Daten ergänzt werden. Im Notfall können semantisch realisierte Wörter auch in semantische Subklassen eingeteilt werden, was den Forscher die Kombinierbarkeit in Modellen Subklasse C Subklasse feststellen läßt (vgl. Semenjuk 1996, 53K54; Baskevicˇ 1994, 159; vgl. 4.). Da die lexikalische Kombinierbarkeit des Wortes einer der Faktoren ist, der die Bedeu-
tung des Wortes determiniert, wenn sie auch mit dem letzten nicht identisch ist, können Ähnlichkeiten und Verschiedenheiten der Kombinierbarkeit für die Messung der Stärke semantischen Ähnlichkeit des Wortes (vgl. Agricola 1975, 64), d. h. anders gesagt für die Feststellung ihrer paradigmatischen Beziehungen verwendet werden. Für die Messung dieses Zusammenhangs ist die Korrelationsanalyse am geeignetsten. Einer der ersten, die die Korrelationsanalyse für die Messung des Zusammenhangs zwischen den Wörtern verwendeten, war Suprun; ferner wurde diese Analysemethode in den Arbeiten von Moskovicˇ, Plotnikov und anderen Forschern verwendet (vgl. Suprun/Plotnikov/ Aladko 1969, 55; Moskovicˇ 1969, 26).
7.
Literatur (in Auswahl)
Agricola, Erhard (1975), Semantische Relationen im Text und im System. Halle: Max Niemeyer Verlag. Agricola, Erhard (1982), Wörter und Wendungen. Wörterbuch zum deutschen Sprachgebrauch. Leipzig: Bibliographisches Institut. Ahapij, A. P. (1996), Vyvčenja leksyčnoji spolučuvanosti za dopomohoju statystyčnych metodiv. In: Naukovy Visnyk Černiveckoho Universytetu 2, 44K48. Amosova, N. N. (1963), Osnovy anglijskoj frazeologii. Leningrad: Leningradskij Universitet. Apresjan, J. D. (1974), Leksičeskaja semantika. Sinonimičeskie sredstva jazyka. Moskva: Nauka. Archeljuk, V. V. (1998), Pro osoblyvosti leksykosemantyčnoji hrupy prykmetnykiv rozmiru v tvorach anglijskych i amerykanskych pys’mennykiv. In: Naukovy Visnyk Černiveckoho Universytetu 27, 43K57. Baskevič, Valentina (1994), Probleme der lexikalischen Kombinierbarkeit. In: Deutsch als Fremdsprache 3, 156K163. Binovic, Leonid E./Grišin, Nikolaj N. (1975), Deutsch-russisches phraseologisches Wörterbuch. Moskva: Russkij jazyk. Bystrova, L. V. (1978), Vyvčennja syntahmatyčnych zvjazkiv sliv za dopomohoju statystyčnych metodiv. In: Movoznavstvo 4, 44K48. Černyšova, I. I. (1970), Fraseologija sovremennogo nemeckogo jazyka. Moskva: Vysšaja škola. Dridse, T. M. (1975), Ein Assoziationsexperiment in einer konkreten soziologischen Untersuchung. In: Probleme der Psycholinguistik. (Hrsg. Christiane Schwarz). Berlin: Akademie-Verlag, 149K 151. Ginka, B. I. (1983), Leksiko-semantičeskaja gruppa suščestvitel’nych so značeniem „trud, rabota“ v so-
470
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
vremennom nemeckom jazyke. Avtoreferat kandidatskoj dissertacii. Odessa: Odesskij Universitet. Ivanjuk, V. J./Levickij, Viktor V. (1990), Izbiratel’nost’ sočetanija smyslov i vozmožnye sposoby jejo statističeskogo vyraženija. In: Učenye Zapiski Tartuskogo Universiteta 912, 55K61. Klappenbach, Ruth/Steinitz, Wolfgang (Hrsg.), Wörterbuch der deutschen Gegenwartssprache. Berlin: Deutscher Akademie-Verlag, 1978. Kopylenko, M. M. (1973), Sočetajemost’ leksem v russkom jazyke. Moskva: Prosvešcenie. Kotelova, N. Z. (1975), Značenie slova i jego sočetajemost’. Leningrad: Nauka. Kravec, L. G. (1968), Nekotorye količestvennye charakteristiki anglijskich imenych slovosočetanij. In: Statitika reči. Leningrad: Nauka, 211K221. Leisi, Ernst (1952), Der Wortinhalt. Seine Struktur im Deutschen und Englischen. Heidelberg: Omele & Meyer. Levickij, Viktor V. (1975), Eksperymentalne vyvčennja leksyčnoji synonimiji. In: Movoznavstvo 3, 49K58. Levickij, Viktor V. (1989), Statističeskoe izučenie leksičeskoj semantiki. Kijev: Minvuz. Levickij, Viktor V./Černyšenko, N. (1996), Kombinierbarkeit von lexikalischen und grammatischen Sinnen. In: Naukovy Visnyk Černiveckoho Universytetu 2, 34K44. Levickij, Viktor V./Romanova, T. A. (1997), Use of tenses of verbs in the English language: a statistical study. In: Journal of Quantitative Linguistics 4, 135K138. Lukenčuk, A. V. (1993), Prykmetnyki ocinky v sučasnij anglijskij movi. Avtoreferat kandydatskoji dysertaciji. Lviv: Lvivskyj universitet. Lyons, John (1977), Semantics. Cambridge: Cambridge University Press. McIntosh, Angus (1961), Patterns and ranges. In: Language 37, 325K337. Miller, George (1971), Empirical methods in the study of semantics. In: Semantics. An interdisciplinary reader in philosophy, linguistics and psychology. (Hrsg. D. Steinberg/A. Jakobovits). Cambridge: University Press, 569K585. Moskovič, V. A. (1969), Statistika i semantika. Moskva: Nauka. Musurivska, O. V. (1993), Prykmetnyky, objednani semantykoju firm u sučasnij anglijskij movi. Avtoreferat kandydats’koji dysertaciji. Odessa: Odesskyj Universitet.
Pacholok, H. M. (1989), Spolučuvanist’ pryslivnykiv z prykmetnykamy v sučasnij nimec’kij movi. In: Inozemna filolohija 93, 65K71. Palmer, Frank (1976), Semantics. Cambridge: University Press. Porzig, Walter (1934), Wesenhafte Bedeutungsbeziehungen. In: Beiträge zur Geschichte der deutschen Sprache und Literatur 58, 70K97. Roos, Eckhard (1975), Kollokationsmöglichkeiten der Verben des Sehvermögens im Deutschen und Englischen. Bern, Frankfurt/M.: Lang. Schippan, Thea (1987), Lexikologie der deutschen Gegenwartssprache. Leipzig: Bibliographisches Institut. Schmidt, Wilhelm (1965), Lexikalische und aktuelle Bedeutung. Ein Beitrag zur Theorie der Wortbedeutung. Berlin: Akademie-Verlag. Semenjuk, T. (1996), Spolučuvanist’ prykmetnykiv, ščo poznačajut’ zovnišnist’ ludyny v sučasnij anglijskij movi. In: Naukovy Visnyk Černiveckoho Universytetu 2, 51K55. Sil’nitskij, Georgij G. (1998), Correlational analysis of the Indo-European morphological system. In: Journal of Quantitative Linguistics 5 (1K2), 18K 95. Sinclair, John M. (1966), Beginning of Study of Lexis. In: Memory of J. R. Pirth. (Hrsg. C. E. Bazell et al.). London: Longmans, 410K430. Suprun, A. J./Plotnikov, B. A./Aladko, Ž. S. (1969), K distributivno-korrelacionnomu izučeniju leksičeskoj semantiki. In: Aktualnye problemy leksikologii. Novosibirsk. Šajkevič, A. Ja. (1963), Raspredelenie slov v tekste i vydelenie semantičeskich polej. In: Innostrannye jazyki v vysšej škole. Moskva: Rosvuzizdat, 14K26. Šanskij, N. M. (1963), Frazeologija sovremennogo russkogo jazyka. Moskva: Vysšaja Škola. Tuldava, Juhan (1988), Ob izmerenii svjazi kačestvennych priznakov v lingvistike (1): soprjažonnost’ alternativnych priznakov. In: Učenye Zapiski Tartuskokgo Universiteta 827, 146K162. Vinogradov, V. V. (1947), Ob osnovnych tipach frazeologičeskich jedinic v russkom jazyke. In: Šachmatov, A. A. 1864K1920. Sbornik statej i materialov. Moskva-Leningrad, 339K364. Vinogradov, V. V. (1953), Osnovnye tipy leksičeskich značenij slova. In: Voprosy jazykoynanija 5, 3K29. Vyšyvana, N. V. (1996), Vyvčennja leksyčnoji spolučuvanosti za dopomohoju dystrybutyvno-statystyčnoho analizu. In: Naukovy Visnyk Černiveckoho Universytetu 1, 54K64.
Victor Levickij, Černivci (Ukraine)
471
36. Quantitative methods of discourse analysis
36. Quantitative methods of discourse analysis 1. 2. 3. 4. 5. 6. 7. 8. 9.
Introduction Text-count methods Applications More elaborate statistical techniques Exhaustive accounts of alternations in individual languages Questionnaire studies Translation data Conclusion Literature (a selection)
1.
Introduction
Discourse analysis means many things to many people, but in its most general sense it can be taken to include those studies of language which both: (1) analyze language as it is used, whether written (novels, comic books, legal documents, personal letters, etc.) or spoken (conversations, speeches, personal narratives, etc.), and (2) analyze phenomena which are affected by factors extending over units larger than the word, e. g. word order alternations, voice alternations, choice of verbal form, intonation, the use of articles, demonstratives, pronouns, conjunctions, particles, etc., which are affected by information status (e. g. whether a referent has been mentioned before, in what context, how recently, whether its existence was previously unknown or could be inferred from the surrounding context, etc.), textual cohesion, function within a discourse (foreground, background, narrative), interactive factors, etc. What we can call discourse analysis today can be said to have developed through a variety of routes from a variety of disciplines. From within the field of linguistics, the oldest antecedent traditions are branches of Prague School functionalism and historical text analysis (particularly strong in Scandinavia), both of which had close connections to literary analysis. As American linguistics came to be increasingly influential after World War II, linguists began to be increasingly concerned with making linguistics into what they perceived as a science, based upon popular presentations of theoretical science in the field of philosophy; they therefore focused more attention upon syn-
tax, phonology, and semantics, and worked to sever the ties the field had had with historical linguistics and literary analysis. In the 1970s, however, many linguists came to reject this model of the field, for a variety of reasons (suspicion of the intuition-based approach to data-gathering, interest in a social agenda which traditional linguistics was not relevant to, recognition that many linguistic phenomena can only be explained by referring to units larger than the word, and other reasons), and out of this developed the modern field of discourse analysis, taking as its basis not only Prague School functionalism but also other research from outside of linguistics proper, e. g. philosophy of language (e. g. Grice, Austin, Searle), sociology (e. g. Goffman, Sacks, Schegloff), and even history (e. g. Foucault). Over the course of time, the thinking of these researchers was, so to speak, adapted for the use of modern linguists, sometimes with an eye to addressing problems of traditional linguistics and sometimes not. The fundamental problem in discourse analysis studies, for which they have been amply criticized by other linguists, is that, although discourse categories and discoursebased explanations can ultimately be of great value, they are characteristically stated in a way which is to say the least vague. At least since Chafe (1976), terms such as ‘topic’, ‘focus’, ‘old/given information’, ‘new information’, and others, have been bandied about and invoked so as to ‘explain’ various phenomena without a really clear and generally agreed upon understanding of what they are supposed to mean; all too often, an individual researcher means by them no more than the functional correspondent to a structurally-marked category in a particular language. The problem with this approach is that the abstract functional category is defined so vaguely that it is impossible to tell in an objective sense whether a particular instance is a member of the category, short of simply checking to see whether the structural category which the functional category has been invoked to ‘explain’ has in fact been realized in that particular instance. For instance, a linguist writing on Japanese may declare that the postposition wa is a ‘topic marker’ and then posit an abstract functional category ‘topic’ which is intended to
472
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
account for why wa is used in some cases but not others, defining the functional category ‘topic’ completely vaguely (e. g. ‘what the sentence is about’, ‘can be presupposed to be active in the consciousness of the addressee’, etc.), so that the only way to tell whether something is really a ‘topic’ is to check whether or not it is marked with wa, which is circular and which renders the functional category itself meaningless. Quantitative analysis provides an alternative approach to such problems. Here the linguist develops particular functionallybased text count methods which can be objectively applied to naturally-occurring data and used to characterize the situations in which certain constructions are used. This avoids vague and circular definitions and gives the investigation a firm empirical grounding. In this chapter, I will describe and exemplify such methods as they have been applied to discourse analysis. In principle, because discourse analysis focuses upon language as it is used, there is no ideological problem with using quantitative methods for discourse analysis parallel to the rejection of quantitative methods in, e. g. formal syntax. In practice, however, relatively few linguists interested in discourse analysis have done this. This is largely the result of the fact that linguists in general are likely to have little or no training in quantitative methods (other than phoneticians and language-acquisition researchers, because of their contact with experimental psychology, and sociolinguists of the school of Labov, because of their contact with sociology), whether because, in imitation of philosophers, they imagine that the genius of the researcher obviates the need to analyze data, let alone count them, or because, in imitation of modern cultural anthropologists, they reject on principle anything which smacks of science. Nevertheless, quantitative methods are seeping into discourse analysis, via contact with a variety of sources, most notably quantitative sociolinguistics, historical text analysis, and language typology (cf. art. 40); it cannot be said that the methods are generally very sophisticated, but it is a beginning. In the quantitative analysis of factors affecting the choice of one or another structural form, this choice is considered to be the dependent variable whose realization is controlled by the values determined by functionally-based text count methods, which are the independent variables. As an
example of such a text count method, we can consider temporal sequencing (introduced by Labov (1972) as the concept ‘narrative clause’ and referred to by Hopper (1979) as ‘foregrounding’). According to this criterion, a clause is temporally sequenced if it has past time reference and refers to the next event in a story line. Consider (1): (1) Oh, listen to this! I met this guy in the library yesterday. I was reading and he came up to me and asked me for a cigarette ... The clauses with the verbs came and asked here are temporally sequenced in the sense that they advance the previously established reference time. The clauses with met and was reading, on the other hand, are not temporally sequenced; the clause with met ‘jumps back’ in time from the present to the past and the clause with was reading sets the scene before things start happening. Temporal sequencing is a criterion which can be applied to naturally occurring data in any language to distinguish between those clauses which are temporally sequenced and those which are not, and this has been shown to correlate with particular structural categories in particular languages. For example, Givón (1977) relates temporal sequencing to the use of the Va-Consecutive verb form in Biblical Hebrew, Hopper (1979) relates it to the use of the di- form of the verb in Malay, and Schiffrin (1981) relates it to the use of the Historic Present in English (he comes up to me and asks me for a cigarette). In all of these cases, there is not a categorical relationship between temporal sequencing and the use of a particular construction in a particular language, but there is a statistically significant quantitative correlation. In this chapter, I will discuss various quantitative approaches to this sort of analysis. Section 2 discusses a number of fairly simple text-count methods, and section 3 presents some findings using these methods. Section 4 deals with multivariate statistical analysis and its applications. For all of these types of analysis, the purpose is to establish general statistical correlations between conceptual categories and structural realizations; on the other hand, section 5 considers an approach in which the goal is to account for every single choice about which construction to use in a given text. Section 6 discusses a study using data gathered through
36. Quantitative methods of discourse analysis
questionnaires rather than taken from naturally-occurring oral or written usage, while section 7 considers the use of translation data. This collection of quantitative analysis techniques is eclectic and intended to summarize for the reader the different ways discourse factors may be analyzed quantitatively; I will give some of my own thoughts on the strengths and weaknesses of each of these approaches, but I believe that all of them can be helpful in understanding discourse phenomena. It should be emphasized early and often that, in choosing which parameters to use in a study of discourse phenomena, the researcher must select parameters which are objectively applicable to naturally occurring data. It must be possible to determine the value of the independent variables (which parameters apply to a given token) independent of the value of the dependent variables (the linguistic form of a given token); it will not do, for example, to claim that the English passive is used when the patient is ‘in focus’ and then have no way to determine whether the patient is ‘in focus’ other than seeing whether the passive is used.
2.
Text-count methods
In this section, I will describe various textcount methods which have been developed to give an objective cross-linguistically applicable description of the discourse function of a given construction. The use of such text counts does not suggest that speakers themselves go through any calculations similar to what the linguist does, nor does it imply that a given text count score will predict with 100 % accuracy which construction will be used on each occasion. Rather, it is a purely descriptive tool to allow for systematic and objective cross-linguistic comparison. 2.1. Referential distance and topic persistence The most widely-used text counts, associated particularly with Talmy Givón and students of his, are called Referential Distance (RD) and Topic Persistence (TP). For each NP in a text, RD counts the last time the referent of the NP was referred to (including zero anaphora) in the preceding text, while TP counts how many times it is referred to in the following text. We can exemplify this with (2):
473 (2) Mary gave me a new tie. It was very nice. She had bought it the day before. She had been looking for a present for me, and it had been on sale. Consider She had bought it the day before; she here has an RD score of 2, as its referent, Mary, was last mentioned two clauses before, while it here has an RD score of 1. On the other hand, in She had been looking for a present for me, She has an RD score of 1, because Mary was referred to in the immediately preceding clause (as she). We can say that, in general, the lower the RD of a constituent, the more recently it has been mentioned, the more topical it is. TP has been calculated in two different ways. One of these (used in e. g. the studies in Givón (1983 a)) has been to count the number of consecutive following clauses a referent is mentioned in. For example, in (2), for Mary gave me a new tie, Mary would have a TP score of 0, as Mary is not referred to in the following clause; on the other hand, in She had bought it the day before, She would have a TP score of 1, because Mary is referred to in the following clause but not in the one after that. Another way of counting TP is to count the following 10 clauses and see how many of those 10 clauses contain a reference to the referent of the NP (Thompson 1989). We can say that, in general, the higher the TP of a constituent is, the more topical it is. RD and TP counts make it possible to give a functional profile of a given construction or NP type. For example, suppose we are trying to give a general characterization of the function of the active-passive alternation in English, e. g. Bill wrote that book vs. That book was written by Bill (following the practice in e. g. Givón (1994), I will here and in later discussion of voice alternations refer to Bill as the Agent (A) in both cases and to that book as the Patient (P) in both cases; ‘Agent’ and ‘Patient’ here are being used as syntactic labels and do not imply any particular semantic function). We go through a text, collecting all active transitive and passive constructions, and then count the average RDs for the Agents of actives (Bill in Bill wrote that book), the Agents of passives (Bill in That book was written by Bill), the Patients of actives (that book in Bill wrote that book), and the Patients of passives (That book in That book was written by Bill). We then calculate the mean and me-
474
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
dian RD and TP scores for active Agents, passive Agents, active Patients, and passive Patients, or list the populations in a table. By doing similar studies in a variety of languages, we can systematically compare the discourse functions of active and passive constructions in different languages. This approach has been useful in providing a typological perspective on functional alternations, clarifying the discourse motivations underlying these alternations, and also sharpening the tools for typological descriptions; I will discuss applications of it in section 3. 2.2. Givenness and familiarity A different approach to quantitative analysis of the informational status of NPs, more conceptual and less structural, is represented by work such as Prince (1981), Gundel/Hedberg/Zacharsky (1993), and Birner (1994). I will first discuss here Gundel/Hedberg/Zacharsky (1993), who divide NPs into 6 types depending upon their cognitive status, as shown in table 1: Type
English forms
in focus activated familiar uniquely identifiable referential type identifiable
it that, this, this N that N the N this N aN
Fig. 36.1: The Givenness Hierarchy
(There are two types of ‘this N’ usages, demonstrative (Gosh, this food is really great!, associated with ‘activated’) and ‘new this’ (I met this really interesting guy today, associated with ‘referential’)) If an NP has a given cognitive status, this implies that it also has the lower cognitive statuses; for example, an NP which is ‘familiar’ is necessarily also ‘uniquely identifiable’, ‘referential’, and ‘type identifiable’, but not necessarily ‘activated’ or ‘in focus’. The English forms listed here are those for which the matching cognitive status is a necessary and sufficient condition for its use, so that, e. g., if an NP is ‘uniquely identifiable’, this is a necessary and sufficient condition for using the N, but not for using that N. For ‘type identifiable’, ‘(t)he addressee is able to access a representation of the type of object described by the expression’ (Gundel/
Hedberg/Zacharsky 1993, 276), as in a dog in (3): (3) I couldn't sleep last night. A dog (next door) kept me awake. For ‘referential’, ‘(t)he speaker intends to refer to a particular object or objects. To understand such an expression, the addressee not only needs to access an appropriate type-representation, he must either retrieve an existing representation of the speaker’s intended referent or construct a new representation by the time the sentence has been processed’ (Gundel/Hedberg/Zacharsky 1993, 276), as in this dog in (4) (note that this usage is ‘new this’): (4) I couldn't sleep last night. This dog (next door) kept me awake. For ‘uniquely identifiable’, ‘(t)he addressee can identify the speaker’s intended referent on the basis of the nominal alone’ (Gundel/ Hedberg/Zacharsky 1993, 277), as in the dog in (5): (5) I couldn't sleep last night. The dog (next door) kept me awake. For ‘familiar’, ‘(t)he addressee is able to uniquely identify the intended referent because he already has a representation of it in memory (in long-term memory if it has not been recently mentioned or perceived, or in short-term memory if it has)’ (Gundel/ Hedberg/Zacharsky 1993, 278), as in that dog in (6): (6) I couldn't sleep last night. That dog (next door) kept me awake. For ‘activated’, ‘(t)he referent is represented in current short-term memory. Activated representations may have been retrieved from long-term memory, or they may arise from the immediate linguistic or extralinguistic context’ (Gundel/Hedberg/Zacharsky 1993, 278), as in that in (7): (7) I couldn’t sleep last night. That kept me awake. For ‘in focus’, ‘(t)he referent is not only in short-term memory, but is also at the current center of attention’ (Gundel/Hedberg/Zacharsky 1993, 279), as in it in (8): (8) My neighbor’s bull mastiff bit a girl on a bike. It’s the same dog that bit Mary Ben last summer.
36. Quantitative methods of discourse analysis
My own experience attempting to code NPs for these categories has been that there is often a problem with the distinctions associated with attention state, e. g. the distinction between ‘in focus’ and ‘activated’ and the distinction between ‘activated’ and ‘familiar’ (Gundel/Hedberg/Zacharsky 1993, 291). Too often I have found that the decision how to code a given naturally-occurring form turns out to coincide with preconceived ideas of which surface form ‘should’ be used and which form is in fact used in a given case. For example, if one has the idea that this is associated particularly with the status ‘activated’ rather than ‘in focus’ and one comes across a token of this for which it is not really clear whether to categorize it as ‘in focus’ or only ‘activated’ on the basis of the definitions of these categories, it somehow seems to wind up generally being coded as ‘activated’ but not ‘in focus’ on the basis of one rationalization or another. The problem is that it is very difficult in many cases to objectively say what the ‘current center of attention’ is, especially if it can be a concrete object, an abstract concept, or a proposition, but in order to determine whether an NP is ‘in focus’ or not, it is necessary to make an objective decision about exactly what is the center of attention and what is not at each point in time, and, as readers will be able to readily test for themselves, when one is forced to make such a decision, one tends to feel lost and to grasp at structural clues for being the ‘current center of attention’ such as pronominalization, independent of an objective cognitive basis for the decision, so that the whole process is circular. The distinction between ‘activated’ and only ‘familiar’, as Gundel/Hedberg/Zacharsky state it, is similarly not really clear; they say that things which are ‘activated’ are ‘represented in current short-term memory’ and ‘may have been retrieved from long-term memory, or they may arise from the immediate linguistic or extra-linguistic context’, while for something ‘familiar’ the addressee ‘already has a representation of it in memory (in long-term memory if it has not been recently mentioned or perceived, or in shortterm memory if it has)’ (Gundel/Hedberg/ Zacharsky 1993, 278). Given these definitions, I would be hard-pressed to explain why a given form is ‘familiar’ but not ‘activated’ on cognitive grounds (as opposed to simply checking which surface form is used).
475 This sort of problem happens too frequently to feel entirely comfortable about these categories as they have been stated. It cannot be resolved by having several coders and testing intersubjective agreement, because presumably all coders will feel the same urge to produce results confirming the theory; intersubjective agreement only works if what is being investigated is in fact subjective (e. g. what is beautiful or what tastes good), not for something ostensively objective like cognitive status. One approach to the problem would be to develop the categories and explain them to the coders but make sure that the coders know nothing about the theory of which cognitive category should be associated with which structural realizations. Even here there can be problems; if the coders are trained linguists they are likely to either know about theories relating cognitive status to structural realization or to consciously or unconsciously make up theories in the course of their coding, while if they are not trained linguists their coding may be generally unreliable. Another approach to the problem would be to define the categories more extensively and to allow for more subtypes so that it will be possible to apply strict and objective criteria rather than just relying on intersubjective agreement; in my opinion this would be the best solution, but no attempts have been made in this direction for this categorizational system. A similar, but not identical, system for classifying information status is given in Prince (1981). Prince makes a basic threeway distinction between ‘Evoked’, ‘Inferable’, and ‘New’ NPS. An Evoked NP refers to an entity which is already in the discourse model; Evoked NPs are ‘in focus’ or ‘activated’ according to Gundel/Hedberg/Zacharsky’s system, and Prince does not attempt to make a distinction parallel to the ‘in focus’/’activated’ distinction (which in any case appears problematic). For an Inferrable NP, ‘the speaker assumes the hearer can infer (the entity it refers to), via logical K or, more commonly, plausible K reasoning, from discourse entities already Evoked or from other Inferrables’ (Prince 1981, 236) (Gundel/Hedberg/Zacharsky note that Inferrable NPs are usually ‘uniquely identifiable’ but not ‘familiar’). New NPs are those which are first introduced into the discourse; in the Givenness Hierarchy, these are ‘re-
476
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
ferential’ or ‘type identifiable’ but not ‘uniquely identifiable’. Evoked NPs are divided into those which are (textually) Evoked (mentioned explicitly linguistically) and those which are Situationally Evoked, which have not been explicitly mentioned. Inferrable NPs have as a special subclass Containing Inferrables, ‘where what is inferenced off of is properly contained within the Inferrable NP itself’ (Prince 1981, 236). New NPs can be divided into those which are Unused and those which are Brand-new. Unused appears to correspond more or less to Gundel/Hedberg/Zacharsky’s category ‘familiar’ (but not ‘activated’). Brand-new can in turn be divided into two subtypes, Anchored and Unanchored; ‘A discourse entity is Anchored if the NP representing it is linked, by means of another NP, or ‘anchor’, properly contained in it, to some other discourse entity’ (Prince 1981, 236). (9)K(15) from Prince’s (25)K(27) (Prince 1981) exemplify these seven types: evoked (9) Susie went to visit her grandmother and the sweet lady was making Peking Duck. (evoked (by ‘her grandmother’)) (10) Lucky me just stepped in something. (situationally evoked) inferrable (11) I went to the post office and the stupid clerk couldn't find a stamp. (inferable; mention of the post office makes it possible to infer that there is a clerk) (12) Have you heard the incredible claim that the devil speaks English backwards? (containing inferrable; ‘the devil speaks English backwards’ makes it possible to infer a possible ‘incredible claim’ regarding this) new (13) Rotten Rizzo can’t have a third term. (unused; Rizzo was mayor of Philadelphia at the time Prince (1981) was written) (14) A rich guy I know bought a Cadillac. (brand-new anchored (with ‘I know’)) (15) I bought a beautiful dress. (brand-new unanchored) My own experience has been that Prince’s system works fairly well when applied to naturally-occurring texts, although some problems do arise. Prince (1981) gives exten-
sive exemplification of the application of her system, giving the full texts resulting in the data and tabulating the results (we will see this in figures 36.6 and 36.7), which is very helpful in terms of both how to code and in convincing readers that the system is in fact applicable to naturally-occurring data, although she does not make a systematic effort to develop consistent procedures for coding problematic cases. 2.3. Contrast The term ‘contrast’ has been used in a variety of ways by different linguists to refer to the discourse motivation for processes such as word order alternation (e. g., in Beans I hate, potatoes I like, the fronted elements can be said to be contrasted), intonation, and the use of certain particles such as Japanese wa and Korean nIn (Kuno 1973; Chafe 1976). However, these usages have been problematic because it is not clear what each linguist means by the term ‘contrast’, as this term has not been defined systematically and it has been used to attempt to account for the use of different constructions in different languages without any attempt to determine whether these constructions have a similar (let alone the same) function (Myhill/Xing 1996). Thus when one reads the term ‘contrast’ in the description of an unfamiliar language, one has no accurate idea, empirical or intuitive, what this refers to (and if one thinks one has an idea, one is very likely to be disillusioned and confused if one takes the trouble to learn more about the language). Because linguists are agreed that the concept of contrast is an important one but there is no agreement on what it refers to, it would be very helpful to have a definition of this term which can be applied to naturallyoccurring cross-linguistic data. Myhill/Xing (1996) attempt to do this. Following Ward (1985), they argue that two things which are contrasted must be part of a set, and they give a list of different types of sets; additionally, in a pair of contrastive constructions, the verbs must either have the same meaning or some type of opposite meaning, and these types are also listed (see Myhill/Xing (1996) for extensive discussion and exemplification of the application of these criteria to naturally-occurring data). Using these criteria, we can say which constructions in a given text are contrastive and which are not, and we can also distinguish between different types of contrastive constructions (e. g.
477
36. Quantitative methods of discourse analysis
where two pairs of NPs are contrasted, where one pair of NPs and the verbs are contrasted, where only one pair of NPs is contrasted, etc.); this means that it is possible to say that, for example, a certain construction in a certain language serves one type of contrastive function in some situations but another function in other situations, or that a particular type of contrastive function is marked with one or another construction in a particular language, so that we can directly compare the effect of different types of contrast in different languages. 2.4. Other types of text counts Linguists have proposed other types of text counts which can be useful in providing a profile of the discourse function of a construction. Forrest (1994) distinguishes between NPs which refer to major characters and those which do not; her study was of texts from Bella Coola, and for each text she designated one character as major and all the others as minor. She found this criterion particularly helpful in distinguishing between two different voice alternants, one of which had a major character as its Patient 2 % of the time and the other of which had a major character as its Patient 73 % of the time (Forrest 1994, 159, tables 5K6). A related, and more objective and universally applicable (though more time-consuming) type of measure is Topicality Quotient, described in Thompson (1989). To determine this, one counts the number of clauses a referent is referred to in an entire text, divides this by the number of total clauses in the text, and then assigns this score to every mention of this referent; for example, if a text is 100 clauses long and referent A is mentioned 40 times while referent B is mentioned 15 times, then every mention of A is assigned a value of .4 while every mention of B is assigned a value of .15. Other possible counts categorize referents according to their humanness, animacy, number, referentiality, function in previous clause, form (e. g. pronoun, unmodified noun, modified noun, common noun, proper noun, etc.), or, for that matter, anything else the linguist thinks is important which can be coded objectively.
3.
Applications
In this section, I will exemplify some of the text-count methods described in section 2 with data from various studies, discussing
syntactic role (3.1), NP type (3.2), word order (3.3), and voice systems (3.4). 3.1. Syntactic role Quantitative criteria for coding NPs types can be used to characterize prototypical discourse functions of particular syntactic roles. Figures 36.2K36.5 report such data using RD and TP counts and humanness:
Subject Accusative
N
RD
TP
Human%
718 305
6.14 13.02
2.13 0.67
75 36
Fig. 36.2: Amharic (Gasser 1983)
Subject Direct object Genitive Dative/benef. Locative
N
RD
TP
Human%
739 400 431 216 336
3.92 8.62 4.61 4.19 8.17
2.39 1.62 1.95 3.70 1.28
81 61 72 95 24
Fig. 36.3: Biblical Hebrew (Fox 1983)
Subject Accusative Dative Genitive Oblique
N
RD
TP
Human%
639 248 122 85 156
3.26 6.62 1.84 3.89 13.06
1.62 0.87 1.11 1.85 0.34
67 40 95 86 24
Fig. 36.4: Spanish (Bentivoglio 1983)
Subject Accusative Dative Genitive
N
RD
TP
Human%
797 181 26 79
3.43 7.25 5.04 2.20
1.65 0.91 2.12 1.76
90 52 100 95
Fig. 36.5: Chamorro (Cooreman 1983)
It can be seen from these data that subjects are consistently higher in average topicality scores than direct objects/accusatives, having a lower average RD, a higher average TP, and being more likely to be human. This supports Keenan’s (1976) claim than prototypical subjects are topical and is related to observations regarding the discourse function of passives, which are characteristically used to avoid active constructions which would have highly topical direct objects and less topical subjects (e. g. He stepped out into
478
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
the street and he was hit by a car, avoiding ... and a car hit him); findings on the effect of topicality on voice alternations will be discussed in section 3.4. Datives and genitives are also generally high in topicality, like subjects, while obliques and locatives are generally low, like direct objects. The effect of syntactic role is also shown by the data in figures 36.6 and 36.7, using the coding system of Prince (1981): Subjects (76)
Nonsubjects (43)
Evoked E E (S)
70 1
92.1 % 1.3 %
21 0
48.9 % 0.0 %
Total
71
93.4 %
21
48.8 %
Inferable I I (C)
5 0
6.6 % 0.0 %
12 1
27.9 % 2.3 %
Total
5
6.6 %
13
30.2 %
New U BN BN (A)
0 0 0
0.0 % 0.0 % 0.0 %
2 4 3
4.7 % 9.3 % 7.0 %
Total
0
0.0 %
9
20.9 %
Fig. 36.6: Prince’s categorization system applied to an oral text [1]
We see here again the tendency for subjects to refer to entities which are more topical/ given/old/Evoked; this tendency is, however, much clearer in the oral text than the written one (there being a large number of inferrable subjects in the written text). 3.2. NP type In their discussion of the Givenness Hierarchy which they propose, Gundel/Hedberg/ Zacharski (1993) present data which they In focus it HE this that this N that N the N this N aN
214
Totals
246
1 1 30
Activ. 1 1 15 17 11 10 95
150
Famil.
7 47
54
Subjects (12)
Nonsubjects (16)
Evoked E E (S)
5 1
41.7 % 8.3 %
2 0
12.5 % 0.0 %
Total
6
50.0 %
2
12.5 %
Inferable I I (C)
1 4
8.3 % 33.3 %
3 7
18.8 % 43.8 %
Total
5
41.7 %
10
62.5 %
New U BN BN (A)
1 0 0
8.3 % 0.0 % 0.0 %
4 0 0
25.0 % 0.0 % 0.0 %
Total
1
8.3 %
4
25.0 %
Fig. 36.7: Prince’s categorization system applied to a written text
gathered on NPs from spoken and written sources in a variety of languages showing how these categories are correlated with various NP types. Their data from English, Japanese, and Chinese are given in figures 36.8K36.10. Each NP was coded according to the highest status it had on the Givenness Hierarchy. As can be seen, in these data, pronouns are almost always ‘in focus’ and never lower than ‘activated’, demonstrative adjectives are never lower than ‘familiar’ (excluding of course new this), and articles are never lower than ‘uniquely identifiable’. Regarding indefinite articles, there is a general historical pattern of words meaning ‘one’ developing into markers of referential indefinite articles and then extending their usage to nonreferential indefinites (Givón 1978), commonly being phonologically reduced along the way, and we see that Chinese yi is Unique
Refer.
Type
Totals
1 41
55
215 1 15 18 12 17 280 1 96
42
55
655
108
108
Note: The second this N here refers to ‘new this’ (e. g. (4)) Fig. 36.8: English NP types and the Givenness Hierarchy
479
36. Quantitative methods of discourse analysis In focus 0 kare kore sore kono N sono N ano N N Totals
87 4 1
Activ.
Famil.
Unique
Refer.
Type
14
1 1 7 15 1 32
1 1 1 17
71
45
44
88 4 2 1 9 34 2 223
125
58
20
71
45
44
363
1 18
1
Totals
Approximate translations: kare ‘he’, kore ‘this’ (pro.), sore ‘that’ (pro.), kono ‘this’ (adj.), sono ‘that’ (adj.), ano ‘that’ (adj.) Fig. 36.9: Japanese NP types and the Givenness Hierarchy
In focus 0 tā (S.15) zhe` zhe` N ne`i N yi N N
25 40
Totals
Activ.
Famil.
Unique
Refer.
Type
Totals
1
12 1
2 26 7
1 2
12
17
14
49
17 2
2 10
26 40 2 39 10 19 104
90
53
17
49
19
12
240
Approximate translations: tā ‘s\he’, zhe` ‘this’ (pro. and adj.), ne`i ‘that’ (adj.), yi ‘a, one’ Fig. 36.10: Chinese NP types and the Givenness Hierarchy
less far advanced in this development, being largely restricted to ‘referential’ as opposed to ‘type identifiable’ (it is still phonologically the same as the word meaning ‘one’), while English a/n has developed farther, being commonly ‘type identifiable’ and having been phonologically reduced from ‘one’. It will be noted from the data in tables 36.8K36.10 that NPs commonly occur in usages which are higher in the Givenness Hierarchy than their minimum, e. g., the N is the most common usage for ‘activated’ and ‘familiar’ although its minimum is ‘uniquely identifiable’, and demonstrative adjectives are commonly ‘activated’ although their minimum is ‘familiar’. I believe that such cases can best be accounted for by reference to factors of a sort different from those considered by the Givenness Hierarchy (Gundel/Hedberg/Zacharski have a brief discussion of such cases at the end of their article in which they attempt to account for such usages according to Grice’s Maxim of Quantity; while this may account for the possibility of using constructions for functions higher on the Givenness Hierarchy than their minimums, it does not account for par-
ticular cases). For example, many of the cases where full NPs are used whose referents are ‘activated’ or ‘in focus’ may be accounted for by some principle related to the observation (Hinds 1977; Hofmann 1989) that paragraph boundaries tend to serve as a barrier to pronominalization; to demonstrate this empirically, it would be necessary to develop objectively codable categories associated with the sort of thematic breaks characteristic of paragraph boundaries. Regarding the use of demonstrative adjectives, Lakoff (1974) has noted that the referents of nouns accompanying demonstrative adjectives often have some special affective status. In a small study of the use of this in Trudeau (1984), I found that, out of 47 occurrences of this C N (excluding 11 tokens where the noun refers to a time, e. g. this week), 13 (28 %) express a clearly negative feeling towards the reference of the noun (e. g. (16)K(21)) while another 14 (30 %) express a clearly positive feeling (e. g. (22)K (28)): (16) You gonna let this punk push you around? (Trudeau 1984, 19)
480
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
(17) Let’s show this creep a little street justice (Trudeau 1984, 19) (18) I wouldn't be in this mess (Trudeau 1984, 22) (19) this bum and me barely know each other (Trudeau 1984, 49) (20) what’s this nonsense about? (Trudeau 1984, 53) (21) I couldn’t be sorrier about this whole business (Trudeau 1984, 56) (22) There are so many marvelous policies coming out of this administration (Trudeau 1984, 5) (23) it’s just a joy to serve this President. (Trudeau 1984, 5) (24) He’s very much in control of this wonderful administration (Trudeau 1984, 5) (25) ... a successful outcome to this historic experiment (Trudeau 1984, 37) (26) this course is really getting interesting (Trudeau 1984, 38) (27) Is this guy a genius? (Trudeau 1984, 69) (28) This singularity ceremony may be the most positive step ... (Trudeau 1984, 75) It seems clear that information status relating to givenness cannot explain such uses of this, which amount to over half of the tokens in the database I looked at. For the remaining tokens, on the other hand, it appears that some more detailed informational account along the lines of Gundel/Hedberg/ Zacharski’s framework will be appropriate. 3.3. Word order Studies from a variety of languages have found that preverbal arguments have on the average a higher RD than postverbal arguments (there does not seem to be any corresponding clear pattern relating TP and word order). Figures 36.11K36.14 show data in this regard from a variety of languages:
Subject N Subject RD Direct Object N Direct Object RD
postverbal
preverbal
86 1.81 14 4.21
114 5.49 46 7.78
Fig. 36.11: Ute (Givón 1983b)
Subject N Subject RD
postverbal
preverbal
357 6.52
112 10.64
Fig. 36.12: Biblical Hebrew (Fox 1983)
Subject N Subject RD
postverbal
preverbal
41 3.54
170 8.55
Fig. 36.13: Spanish (Bentivoglio 1983)
Subject N Subject RD
postverbal
preverbal
200 7.45
96 10.90
Fig. 36.14: Chamorro (Cooreman 1983)
These data have been taken from languages which are generally verb-initial (Biblical Hebrew and Chamorro), SVO (Spanish), and where the verb most often follows both the subject and the object (Ute) (see other studies in Givón (1983 a) showing a similar pattern; cf. art. No. 42)); thus there is reason to suppose this may be a universal pattern. At first this appears surprising, because an often-repeated theme of functional linguistics is that ‘old information precedes new information’ (Contreras 1978), whereas the data in figures 36.11K36.14 suggest the reverse, that arguments are more likely to precede the verb if their RD is higher, so that they represent newer information. However, it is possible to suggest a resolution to this apparent contradiction (although this is speculative and should be checked against more data). Claims that old information generally precede new information have been made on the basis of data from European languages which are generally SVO, using existential-presentative construction like On the roof stood a chimney, where the preverbal roof is old information and the postverbal chimney is new information. It is possible that the distinctive use of VS order in this existential-presentative construction is a characteristic of SVO languages in particular, that such constructions constitute the only basis for the general claim that ‘old information precedes new information’, and that if these constructions in these SVO languages are excluded, the reverse is generally true, that ‘new information precedes old information’, as suggested by the data in figures 36.11K36.14. Supporting this idea is the fact that in the data from the only SVO language here, Spanish, the researcher specifically excluded existential-presentative constructions from the counts; if these construction are included, the picture changes, as the postverbal subjects have a higher RD (11.99,
36. Quantitative methods of discourse analysis
N Z 141) than the preverbal ones (8.22, N Z180). Temporal sequencing (discussed in the introduction) also appears to play a role in word order alternations. Myhill (1992) argues that, in languages with a relatively high frequency of VS order, sequencing is particularly associated with VS word order, while SV order is associated with unsequenced clauses. This is shown by the data in figures 36.15K36.18 (see also data from Old English in Hopper (1979)):
N VS %
Overall
Sequenced
Unsequenced
899 80 %
244 92 %
655 76 %
Fig. 36.15: Word order in Tzotzil (Mayan) (Myhill 1984)
N VS %
Overall
Sequenced
Unsequenced
1099 65 %
546 80 %
553 49 %
Fig. 36.16: Word order in Early Biblical Hebrew (Genesis, Kings, Esther) (Givón 1977)
N VS %
Overall
Sequenced
Unsequenced
184 51 %
32 72 %
152 47 %
Fig. 36.17: Word order in Chorti (Mayan) (Myhill 1984)
N VS %
Overall
Sequenced
Unsequenced
2000 44 %
316 58 %
1984 41 %
Fig. 36.18: Word order in 17th century Spanish (Myhill 1984)
On the other hand, in languages with a lower frequency of VS order, this is not the case:
N VS %
Overall
Sequenced
Unsequenced
420 40 %
85 20 %
335 46 %
Fig. 36.19: Late Biblical Hebrew (Ecclesiastes, Song of Songs) (Givón 1977)
N VS %
Overall
Sequenced
Unsequenced
554 31 %
113 22 %
441 33 %
Fig. 36.20: Rumanian (Myhill 1984)
481 The Biblical Hebrew data here are particularly striking, in that they show that when the language changed to a lower frequency of VS order, the association between temporal sequencing and VS order disappeared. The concept of temporal sequencing therefore makes it possible to make a typological generalization regarding word order type. Myhill/Xing (1996) use the concept of contrast (as discussed in 2.3) to analyze word order alternations in Biblical Hebrew and Chinese. They distinguish between constructions which involve ‘verbal contrast’, where the verbs have contrasting meanings and at least one pair of NPs is in a set relationship (They will kill me and they will spare you (Gen. 12:12; kill vs. spare, me vs. you), ‘non-verbal contrast’, where the verbs are essentially identical in meaning and at least two pairs of nouns are in set relationships (and Joseph called the name of the elder (of his two sons) Manasseh ... and he called the name of the second Ephraim (Gen. 41:51K52; the name of the elder vs. the name of the second, Manasseh vs. Ephraim, called is used in both clauses), and ‘listing’, where only one pair of NPs differs in the two sentences (He brought back all the goods, and he also brought back his kinsman Lot and his goods (Gen. 14:16; only the objects differ in these two sentences). They show that in Hebrew, the second clause of such a pair is much more likely than the first to have OV order (46 % vs. 13 % (N Z 95, N Z 71)). It was found that, in the second clause in such pairs in Hebrew, verbal contrast constructions have 67 % OV order (N Z 24) and listing constructions have 63 % OV order (N Z 41), as opposed to constructions with no contrast or listing function, which had only 6 % OV order (N Z 1031); non-verbal contrast constructions patterned like non-contrastive/listing constructions, with only 7 % OV order (N Z 30). In Chinese, on the other hand, OV order was equally favored in the first and second clauses in such pairs; like Hebrew, OV was favored for verbal contrast but not for non-verbal contrast, but unlike Hebrew OV was not favored for listing; furthermore, in Chinese, only a particular type of OV construction was associated with contrast, one where both NPs were unmarked (the O was not preceded by ba) and the passive marker bei was not used. The effect of contrast and listing did not by any means account for all of the variation in the position of the object in the database, but it
482
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
did account for much of it. The quantitative methodology employed made it possible to make a systematic comparison of the effect of contrast and listing in these two languages and to see exactly how much variation these concepts could explain and how much they could not explain. 3.4. Voice systems Quantitative analysis has also been used to shed light on typological analysis of voice systems. Voice alternations in different languages have been characterized in various descriptive grammars in a variety of ways, in particular Active vs. Passive, Direct vs. Inverse, Ergative vs. Antipassive, and (for Philippine languages) Agent Focus vs. Goal Focus. However, such characterizations have traditionally been done on an ad-hoc and unsystematic basis, e. g., a descriptive linguist would look at a voice alternation in a given language and choose some name for it from the list of terms s/he had heard other linguists using (e. g., beginning in the late 1970’s the term ‘antipassive’ was for a few years very popular, so that there was some temptation to find something in one’s favorite language which one might call an ‘antipassive’). The result, as can be testified by anyone who has attempted to do a typological comparison of voice alternations based upon reference grammars, was chaos; for example, if a given reference grammar refers to a given construction as ‘passive’, then it can have any of a variety of structural and discourse properties K perhaps another linguist might call the same construction ‘ergative’, another might call it ‘inverse’, etc. Consider for example (29)K(31) from Tagalog: (29) Matalino ang lalaki. intelligent man ‘The man is intelligent’. (30) Bumasa ang lalaki ng diyaryo. read man newspaper ‘The man read a newspaper’. (31) Binasa ng lalaki ang diyaryo. read man newspaper ‘The man read the newspaper’. Case functions in Tagalog are marked by prepositions, here ang and ng. The question here is how to label these prepositions. One possibility is to say that ang marks subjects and ng marks direct objects and oblique
NPs. Then (30) would be an active construction, with lalaki as the subject and diyaryo as the direct object, while (31) would be a passive construction, with diyaryo as the subject and lalaki as the oblique Agent. Alternatively, we might say that ang is an absolutive case marker (marking intransitive subjects and direct objects), while ng is an ergative (transitive subject) and oblique case marker; then (30) would be an antipassive construction (grammatically intransitive), with lalaki as the intransitive subject marked with the absolutive preposition ang, and diyaryo (which is in this case an oblique rather than direct object) marked with the oblique preposition ng, while (31) would be an ergative construction, with lalaki as the transitive subject, marked with the ergative preposition ng, and diyaryo as the direct object, marked with the absolutive preposition ang. In fact, earlier studies of Philippine languages (Schachter/Otanes 1972) used yet another type of terminology, referring to ang as marking ‘focused’ constituents (which causes confusion of another type in terms of cross-linguistic comparison since the term ‘focus’ is usually used with some sort of entirely different meaning) and ng as marking certain non-focused constituents, so that (30) is an ‘Actor Focus’ construction while (31) is a ‘Goal Focus’ construction. Similar problems arise in many languages (Givón 1994). The result of all of this has been that grammars of different languages have used a bewildering variety of labels for different constructions and it is unclear how to compare these. In response to this problem, linguists interested in functional factors such as discourse role began to develop criteria for distinguishing these different types, using quantitative methods to objectively characterize discourse function (Givón 1994). The general criteria which have come out of these studies are: (a) The functionally unmarked type, which I will refer to by the general name Direct (including constructions which have been called ‘Active’ and ‘Ergative’), typically has an Agent which is somewhat more topical (e. g. lower RD, higher TP) than its Patient. (b) If a construction is particularly used when the Patient is very high in topicality, this construction is referred to as an Inverse. Such constructions can be used
483
36. Quantitative methods of discourse analysis
even when the Agent is relatively topical as well, in situations where the relatively high topicality of the Agent would prevent the use of a Passive. (c) If a construction is particularly used when the Agent is very low in topicality, this construction is referred to as a Passive. (d) If a construction is particularly used when the Patient is very low in topicality, this construction is referred to as an Antipassive. Let us now see more specifically how text counts can be used as diagnostics for categorization of this type; this is shown by the data in figures 36.21K36.24:
N % Agent RD Z 1 Agent TP O 2 Patient RD Z 1 Patient TP O 2
(a)
(b)
(c)
295 59 % 74 % 71 % 38 % 38 %
70 14 % 46 % 49 % 80 % 77 %
138 27 % 30 % 26 % 54 % 52 %
Fig. 36.21: Kutenai (Dryer 1994)
TP refers to the number of references in the following 10 clauses; only clauses with 3rd person Agents and Patients were considered
Agent RD Agent TP Non-agent RD Non-agent TP
(a)
(b)
(c)
2.22 5.45 2.91 3.76
4.99 3.90 1.51 6.83
K K 8.45 1.86
Fig. 36.22: Koyukon (Thompson 1994)
TP refers to the number of references in the following 10 clauses; only clauses with 3rd person Agents and Patients were considered
N % Agent RD Agent TP Patient RD Patient TP
(a)
(b)
(c)
114 66 2.87 2.63 5.25 2.64
51 30 3.18 3.06 13.86 0.41
7 4 K K 2.86 1.71
Fig. 36.23: Nez Perce (Rude 1988)
TP refers to the number of references in consecutive following clauses; only clauses with 3rd person Agents and Patients were considered; only finite verbs were included
N % Agent RD Agent TP Patient RD Patient TP
(a)
(b)
225 83.6 % 3.42 2.00 5.19 1.16
44 16.4 % 1.45 2.20 10.57 0.86
Fig. 36.24: Dyirbal (Cooreman 1988)
TP refers to the number of references in consecutive following clauses The labels (a), (b), and (c) each refer to a particular construction in these languages, and the data in these tables can be used in combination with the characterizations of the different voice types given above to label these constructions in a cross-linguistically comparable and consistent manner. For all of these languages, the (a) construction is Direct/Active (in some cases these are Ergative), having an Agent which is somewhat higher in topicality than its Patient (lower average RD, higher average TP, but the difference is not as great as would be characteristic of an Antipassive construction). The (c) constructions in Kutenai, Koyukon, and Nez Perce are associated with Agents which are particularly low in topicality; in Koyukon and Nez Perce, this Agent is not even mentioned, while in Kutenai it has the least likelihood of a low RD (1) or high TP score (O 2); we can therefore say that the (c) constructions in Kutenai, Koyukon, and Nez Perce are Passives. On the other hand, the (b) constructions in Kutenai and Koyukon are characterized by highly topical Patients (low RD, high TP), and, though the Agents in these constructions are less topical that those in the (a) constructions in these languages, they are considerably more topical than the Agents in the (c) (Passive) constructions. We can therefore say that the (b) constructions in Kutenai and Koyukon are Inverses. The (b) constructions in Nez Perce and Dyirbal have Patients which are extremely low in topicality (very high average RD, very low average TP), while their Agents are neither particularly high nor particularly low in topicality; these constructions are then Antipassives. It should be noted that the different constructions of each type, e. g. the different Inverse constructions, have somewhat different profiles, in terms of TP and RD scores and overall
484
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
frequencies, and this methodology also makes it possible to objectively characterize such differences.
4.
of SV or VS word order is taken as the dependent variable, which is affected by a variety of independent variables having to do with, e. g. information status, structural factors, etc. In a multivariate analysis, the effects of all of the independent variables upon the realization of the dependent variable are considered simultaneously. The advantage of such an analysis is that it corrects for skewing of the data: If values of two different independent variables are statistically correlated with both the dependent variable and with each other, it may be the case that only one of the independent variables actually affects the realization of the dependent variable, the apparent effect of the other being an illusion caused by skewing of the data; this cannot be determined by a simple correlational analysis but only by a multivariate analysis. The statistical program generally used for multivariate analysis in sociolinguistic studies has been some version of VARBRUL (Sankoff/Labov 1979; Rand/ Sankoff 1990); the use of a particular program is not crucial, but it is important to do some type of multivariate analysis, because simple correlations between individual factors and the use of one form or another are frequently misleading.
More elaborate statistical techniques
Most linguistics studies using quantitative analysis have used relatively simple statistical techniques, involving only percentages and averages, and not even statistical significance tests, which should be standard practice. Some, however, have used more sophisticated statistics, and I will discuss a few such studies in this section. 4.1. Multivariate analysis This sort of analysis has been used most in linguistics by sociolinguists (Sankoff/Labov 1979), where the occurrence of a surface form (e. g. the retention or omission of the final -d in a naturally-occurring pronunciation of the word send), known as the dependent variable, is shown to be affected by a variety of factors, such as the preceding and following phonological environment, stress, the social status of the speaker, etc. known as independent variables. The same methodology can also be applied to discourse studies, so that, for example, the use SV
VS
SV %
PROB
129 526 464
43 311 527
75 63 47
0.65 p ! .001 0.51 p ! .005 0.34
45 442 545 87
8 125 538 210
85 78 50 29
0.86 p ! .005 0.57 p ! .005 0.37 p ! .005 0.17
FG3 K Polarity Positive Negative
1.025 94
763 118
57 44
0.61 p ! .005 0.39
FG4 K Copulas Copula Other
126 993
92 789
58 56
0.60 p ! .005 0.40
60 1.059
101 780
37 58
0.47 NS 0.53
326 793
82 799
80 50
0.57 p ! .005 0.43
FG1 K Object Plural object Singular object No object FG2 K Subject [8] EstPronoun Definite Indefinite, def. C rest. rel.
FG5 K Presentative verbs Presentative verb Other FG6 K Subject length One-syllable subject Two C syllable subject
Fig. 36.25: Order of subject and verb in Spanish
36. Quantitative methods of discourse analysis
As an example of the output of a multivariate analysis, consider the data in figure 36.25; the independent variable here is subject-verb order as opposed to verb-subject order in the Spanish of Don Quijote (Myhill 1984). Here there are six different independent variables, known as factor groups (FG). The first column indicates the number of subjectverb constructions, the second the number of verb-subject constructions, and the third the subject-verb percentage. For example, when there is a plural object, there are 129 SV constructions and 43 VS constructions, for an SV% of 75 %. The fourth column, PROB (for ‘probability’) is the weight assigned the variable by the multivariate analysis, where values above .5 favor SV order and values below .5 disfavor SV order (i. e. favor VS order). The value in the fifth column indicates the p-value, the likelihood that the observed correlation could occur due to chance; p ! .005 means, for example, that the observed correlation would occur less than 5 times out of a thousand due to chance. Conventionally, a value lower than p ! .01 is taken as significant in the hard sciences while p ! .05 is the limit normally taken in the social sciences (I prefer to accept only p ! .01 and see no reason why the social sciences should be more lax in this regard). The p-values in figure 36.25 in each case refer to the difference between the row which the value is in and the row immediately below it; for example, for FG1, for the difference between ‘Plural object’ and ‘Singular object’ the value is p ! .001, while for the difference between ‘Singular object’ and ‘No object’ the value is p ! .005. It can be seen that a variety of factors have an effect upon the relative position of the subject and the verb in the database. In general, the PROB values reflect the relative percentages; for example, for FG1, the respective percentages are 75 %, 63 %, and 47 %, and the corresponding PROB values are .65, .51, and .34. However, there are some cases where the percentages and the PROB values show something different, and in these cases it is the PROB values, not the percentages, which show the true effect of the variable. For example, for FG4, the percentage of SV order for copulas and other verbs is very close (58 % vs. 56 %), and a simple test which evaluated the correlation between this factor and word order, without considering other factors, would show no
485 correlation (e. g. chi-square Z 0.34). However, this would be the wrong conclusion to draw; the multivariate analysis showed that this factor group actually has a fairly strong effect (PROB Z .60 vs. .40, p ! .005). The reason for this discrepancy between the simple percentages and the PROB values is that this factor group is correlated with FG1 K all of the copulas of course have no object. The data from FG1 show that, other things being equal, verbs with no object are considerably more likely to have postverbal subjects. Therefore, the fact that, in terms of raw percentages, copulas are more or less as high in SV percentage as non-copulas, even though copulas have no object, means that the effect of being a copula itself significantly favors SV order; this can be seen by comparing the SV% for copulas (58 %) with that for verbs with no object in general (47 %). Thus a statistical test upon the data from FG4 alone does not show the actual effect of this factor; it is necessary to use a multivariate analysis to consider the effect of other factors at the same time. We find the opposite situation for FG5, which considers the effect of ‘presentative verbs’, intransitive verbs used in constructions parallel to English constructions such as From behind the screen appeared an old man. A certain group of verbs was counted as ‘presentative’ in all of their usages, including llegar ‘to arrive’, salir ‘come out’, etc. (Myhill 1984, 318 f.). The data in figure 36.25 show that in terms of percentages, presentative verbs strongly disfavor SV order (37 % vs. 58 %), and a chi-square test for this factor group alone independent of the others would show it to be highly significant (chi-square Z 24.80, p ! .001). However, the multivariate analysis reported in figure 36.25 shows that there is actually no statistically significant effect of presentative verbs, so that again it is misleading to consider the effect of a single factor in isolation. The reason for the mismatch between the percentages and the PROB values in this case is that presentative verbs are all intransitive, and FG1 shows that intransitive verbs in general disfavor SV order; thus presentative verbs actually do not favor VS order more than other intransitive verbs (except copulas of course). Here, then, if we did not do a multivariate analysis, we would come to the incorrect conclusion, this time that presentative verbs independently favor VS order.
486
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Another case where multivariate analysis is helpful involves FG2 and FG6. There is considerable overlap between these groups, because a number of the pronouns are only one syllable long (yo ‘I’, tú ‘you’, and él ‘he’) and many of the one-syllable NPs are correspondingly pronouns. The categories ‘pronoun’ and ‘one-syllable subject’ both have high SV percentages, but from an analysis of percentages alone it is possible that only one of these two factors is really significant; perhaps only pronominal status has an effect and the high frequency of SV order for onesyllable subjects is due to the fact that many one-syllable NPs are pronouns, or, alternatively, perhaps only length has an effect and the high frequency of SV order for pronouns is due to the fact that many pronouns are one syllable long. However, the multivariate analysis shows that in fact both pronominal status and length in syllables have a significant effect. This is also suggested by the percentages, but multivariate analysis demonstrates this conclusively. As an example of how the use of multivariate analysis can be used to resolve theoretical disputes, we can consider a discussion of the phenomenon of clause-chaining, exemplified in (32) from the Ethiopian Semitic language Soddo (Leslau 1968, 49): (32) att amora matt’am-goy a crow came-when bali akako anat lalä on-Ali Akako top-of-head on yänäbbäri qəb ch’ulqəm-abäläm that-was-the butter he-snatched-M nässam bärräro. he-took-M he-flew-away ‘When a crow came, he snatched (M) the butter that was on Ali Akako’s head, and he took (M) it, and he flew away.’ Verbs in Soddo are distinguished between ‘main clause forms’ and ‘subordinate clause forms’. Sentences must end with main clause forms, while subordinate forms must be accompanied by either a subordinating conjunction or the suffix -m. I will refer to the subordinate form with just -m as the Mform. This form serves a clause-chaining function, structurally parallel to the (much rarer) clause-chaining use of the present participle in English (e. g. snatching the butter that was on Ali Akako’s head, taking it,
he flew away). In discussing clause-chaining, Givón (1987, 12) states: ‘We have taken for granted for too long that there must be a strong correlation between main-finite clause syntax and the foregrounding function in discourse. In the main, our older faith in this correlation hinged primarily on Indo-European facts of grammar, and relatively little on cross-linguistic studies of the matching of grammar with discourse ... In the area of grammatical studies, we have the major phenomenon of clause-chaining discourse, which seems to go against the grain of our earlier Euro-centric assumptions’. The concept of ‘foregrounding’ is introduced in Hopper (1979) and Hopper/ Thompson (1980). Foregrounding is conceptualized as a theoretical prototype consisting of a variety of components, including temporal sequencing, perfective aspect, subject representing old information, and other features (see Hopper/Thompson 1980). Foregrounded clauses constitute the backbone, central events of a narrative, while backgrounded clauses set the scene, explain and interpret the main events, etc. As Givón notes, the assumption of studies involving the concept of foregrounding has been that finite clauses should be associated with foregrounding function, but clause-chaining data such as the uses of the M-form in (32) appear to contradict this; the actions are temporally sequenced, perfective, and continue the same subject as the preceding clauses, and yet the clause-chaining M-form is used. Multivariate analysis shows, however, that, contra Givón, clause-chaining data such as (32) do not contradict the assumption that main clauses should be associated with foregrounded verb. Consider the data in figure 36.26. We see here that in terms of percentages, the M-form is indeed more frequent in clauses with foregrounding features K sequencing (25 % vs. 12 %), continuing the same subject as the preceding clause (18 % vs. 13 %), and perfective aspect (34 % vs. 13 %). Nevertheless, multivariate analysis, reported in the PROBs and p-values, shows that this correlation is an illusion: Sequencing and perfectivity actually have no significant effect upon the choice of whether or not to use the M-form, and continuing the same subject as the preceding clause actually disfavors the use of the M-form.
487
36. Quantitative methods of discourse analysis With preceding verb
M-form
N
%M
PROB
Sequenced Not sequenced
33 48
133 404
25 12
.54 NS .46
Same subject Different subject
34 47
188 349
18 13
.40 p ! .025 .60
Perfective Not perfective
21 60
61 476
34 13
.56 NS .44
Fig. 36.26: Factors affecting the usage of the M-form
Next clause
M-form
N
%M
PROB
Has same subject Has different subject Is sequenced Is not sequenced
75 6 48 33
176 361 131 406
43 2 37 8
.86 p ! .001 .14 .62 p ! .001 .38
Fig. 36.27: The M-form and sequencing
Why is there then the simple statistical correlation between these foregrounding features and the use of the M-form? The multivariate analysis shows that the factor most significant in causing the M-form to be used is the presence of foregrounding features in the following clause, as shown in figure 36.27. It is simply a fact of the organization of language usage that clauses with foregrounding features occur in bunches; texts are characteristically divided into descriptive passages with purely backgrounded clauses and action passages with large numbers of foregrounded clauses. Since the Mform is particularly used preceding strongly foregrounded clauses, and since clauses preceding foregrounded clauses are, through general organizational principles, statistically likely to have foregrounding features themselves, this means that these clauses with the M-form are, coincidentally, likely to have foregrounding features. But the multivariate analysis shows that the foregrounding features of the clause itself do not favor the use of the M-form; in fact, the continuation of the same subject from the preceding clause actually disfavors the use of the Mform. What this finding means for Givón’s statement above is that, for Soddo at least (and it seems not unlikely that the situation in similar in other languages making extensive use of clause-chaining), clause-chaining data are not inconsistent with the ‘Euro-centric’ assumption that foregrounding should
be associated with main-clause syntax. Rather, the perception that the presence of foregrounding features is specifically associated with clause-chaining and subordination is an illusion, but multivariate analysis is necessary to show that this is an illusion. 4.2. Multidimensional factor analysis This type of analysis has been used in a number of studies by Biber and Finegan (Biber 1986; Biber 1988; Biber/Finegan 1988; Biber/Finegan 1989a; Biber/Finegan 1989b; Finegan/Biber 1986) (Biber (1988) has the most complete discussion of the methodology used). Factor analysis is used to determine that specific sets of linguistically defined usages are particularly likely to cooccur in the same texts in a given database, while in other cases sets of usages are shown to be likely not to cooccur. Figure 36.28 summarizes the results of one such analysis (Biber/Finegan 1989a, 491). For example, the five positive features in factor A (nouns, word length, prepositions, type/token ratio, and attributive adjectives) were found by the factor analysis to be likely to correlate, so that texts with a high frequency of one of these were more likely to have another of them. Thus, e. g., the higher the frequency of nouns in a text, the higher the average word length, while the lower the frequency of nouns in a text, the lower the average word length; similarly, the higher the frequency of nouns, the higher the frequency of prepositions, and the higher the frequency of nouns, the higher the type-to-
488
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Fig. 36.28: Factor analysis of English texts
ken ratio (i. e. the higher the ratio of the number of different words used in a passage to the number of total words, counting repetitions, in the passage), and also the higher the average word length, the higher the frequency of prepositions, and so on. Similarly, the 23 negative features in factor A (private verbs, that-deletion, etc.) were also found to correlate with each other. On the other hand, the five positive features in factor A were found to have an inverse correlation with the 23 negative features for this factor, so that, for example, texts with a higher type/token ratio were likely to have fewer present-tense verbs and vice-versa. In the same way, the five positive features in factor B correlated with each other, the three negative features in factor B correlated with each other, the positive and negative features in factor B correlated inversely with each other, and the 6 positive features in factor C correlated with each other. Between the features in factors A, B, and C, no significant correlations were found. The greater the distance from zero, the greater the effect of a given feature; for example, among the posi-
tive features of factor A, ‘nouns’ has a value of .80 while ‘word length’ only has a value of .56, and this means that the tendency for texts with a high frequency of nouns to have high scores for the other positive features of factor A (word length, prepositions, type/token ratio, and attributive adjectives) and low scores for the 23 negative features of factor A was greater than the corresponding correlational tendencies for word length. Biber/Finegan (1989 a) discuss how each of these factors reflects a particular stylistic dimension. For example, regarding the positive features in factor A, they state that ‘High frequencies of all these features are associated with communicative situations that have an informational focus and provide ample opportunity for careful integration of information and precise lexical choice’ (Biber/Finegan 1989a, 490), while the negative features in factor A represent ‘affective, interactional, and generalized content’ (Biber/Finegan 1989a, 492), and they therefore refer to this stylistic dimension as ‘Informational’ (positive) vs ‘Involved’ (negative). Similarly, they use the la-
489
36. Quantitative methods of discourse analysis
bel ‘Elaborated vs. Situation-dependent reference’ for the stylistic dimension underlying factor B, and the label ‘Abstract vs. Nonabstract style’ for the stylistic dimension underlying factor C. In general, it can be said that the dimensions Informational, Elaborated, and Abstract are characteristic of literate style, while Involved, Situation-dependent, and Nonabstract are characteristic of oral style. These dimensions are then used to categorize the development of various English genres through time. For example, out of the three general genres, fiction, essays, and letters, letters are clearly the most oral; essays are clearly more literate than fiction in the 17th century, but since then the difference between these two genres has not been so great. 17th century texts in general are found to have a relatively oral style, with scores relatively more weighted towards the Involved, Situation-dependent, and Nonabstract styles; 18th and 19th century texts become more literate according to these dimensions, and Modern texts are again more oral. Regarding more specific genres (for which Biber/Finegan (1989a) only give Modern data), academic prose and professional letters score highest on the literate dimensions, while face-to-face conversations and (to a lesser extent) personal letters score highest on the oral dimensions; fiction also has a weak preference for the oral dimensions Situation-Dependent and Non-abstract (though no preference for either Involved or Informational). Broadcasts and spontaneous speeches are more of a mixture between oral and literate styles; both are Nonabstract, but broadcasts are Informational (literate) but (very strongly) Situation-dependent (oral), while spontaneous speeches are Involved (oral) but Elaborated (literate).
5.
Exhaustive accounts of alternations in individual languages
The methodologies described in previous sections have used quantitative methods to give characterizations of general trends in usage. Another approach is to attempt to explain in more detail in every individual case in a given text why one form is used rather than another. There have been a few quantitative studies of this type (e. g. Dryer 1994; Myhill 1995; Myhill 1996a, Myhill 1996b),
which is more appropriate for a single-language study than a broad typological analysis. I will discuss here Dryer’s (1994) analysis of the alternation between Direct and Inverse voice in Kutenai, which are illustrated in (33) and (34) respectively: (33) wu$kat-i pałkiy-s titqat’ see-indwoman-obv man ‘The man saw the woman’. (34) wu$kat-aps-i titqat’-s pałkiy-s see-inv-ind man-obv woman ‘The man saw the woman’. (or ‘The woman was seen by the man’.) (Data regarding these constructions have been reported in figure 36.21, in which the Direct is the (a) construction while the Inverse is the (b) construction). Every Kutenai sentence can have one or zero proximate NPs. In constructions translating as transitives or passives, such as (33) and (34), only one of the NPs can be proximate, while the other must be obviative, and the choice of which is proximate and which is obviative determines whether the direct or the inverse construction is used; if the Agent is proximate, as in (33), the Direct construction is used, while if the Patient is proximate, as in (34), the Inverse construction is used (it is also possible for both arguments to be obviative, in which case either the Direct or the Inverse construction in possible, although the Direct is much more common, occurring 20/21 times in Dryer’s sample). The Inverse construction here is in a very general sense similar to a passive construction in that it is associated with more topical Ps and less topical As than Direct constructions, although the Inverse is used much more often than, e. g., the English passive; Dryer’s sample had 70 Inverse constructions and 295 Direct constructions, so that 19 % of these were Inverses. Dryer (1994) shows that the best way to predict whether the Direct or Inverse construction is used in an individual case (and similarly to show which argument would be marked as proximate and which would be marked as obviative) is to consider the referent of the most recent proximate NP in the text preceding the clause in question; this is because ‘Kutenai texts can be divided up into consecutive sequences of sentences which share the same proximate participant, but where the proximate participant for each sequence of sentences is distinct from
490
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics Direct A-prox, P-prox A-non-prox, P-prox A-prox, P-non-prox A-non-prox, P-non-prox
5 100 % 16 20 % 225 99 % 49 94 %
Inverse
Total
0 0% 65 80 % 2 1% 3 6%
5 81 227 52
Fig. 36.29: Proximate vs. non-proximate in immediately preceding text
the proximate participant for the immediately adjacent sequences’ (Dryer 1994, 71). Data regarding this are shown in figure 36.29 (Dryer’s table 15). Here ‘prox’ and ‘non-prox’ refers to the status in the preceding clause, not the present clause. It should be noted that, e. g., ‘A-non-prox’ means that the referent of the A is not the most recent proximate entity referred to; it may be the case that the most recent mention of the referent of A was proximate, but in this case following this mention and before the current mention there must have been at least one clause in which this referent was not mentioned and another referent was marked as proximate (e. g. the last sentence in X-PROX was eating the food and Y-PROX came over and XPROX hid). ‘A-prox, P-prox’ can only occur in the rare situation where the referents of A and P were part of a proximate group before, something like They (Fox and Crow)PROX ate and then they (PROX) started to argue and then Fox-PROX hit Crow-OBV. Using the data in figure 36.29, Dryer suggests the following principle to account for the choice of Direct or Inverse construction in Kutenai: ‘If the P of a transitive clause was proximate in the immediately preceding discourse (but the A was not), then use an inverse clause, otherwise use a direct clause’. (Dryer 1994, 85)
This accounts for all 365 tokens in the database except the 16 direct A-non-prox, Pprox, the two A-prox, P-non-prox, and the three A-non-prox, P-non-prox; thus only 6 % of the usages are not accounted for. Concerning the first (and most numerous) type of exception, Dryer (1994) notes that: ‘the majority of (these) (10 out of 16) involve cases where the proximate A was not proximate in the immediately preceding text, but was proximate when last referred to in the text, often just a few clauses back. These cases thus often involve the resumption of a given participant as proximate, often one that is more important in the overall text than the participant that was proxi-
mate in the immediately preceding text and that is obviative in the clause in question’. (Dryer 1994, 87)
He exemplifies this with a passage translating as follows: (35) He (Z the man)-prox took after the girl-obv. The child (Z the girl)-prox was not yet fully grown. He-prox went after her-obv with the intention of having sex with her-obv. (Dryer 1994, 88) In the first and third clauses here, the man here is proximate and the girl is obviative, while in the second the man does not appear and the girl is proximate. Thus by the general principle above, in the third clause, since the girl is the P and the most recent proximate, the Inverse construction should be used with the girl as proximate and the man as obviative, but instead the Direct construction is used with the man as proximate and the girl as obviative. However, Dryer argues, the man actually remains as the central character throughout this passage, because he was established as more central than the girl in the first clause, in spite of the fact that the girl is proximate in the second clause. In effect, the clause meaning ‘the child was not yet fully grown’ is a parenthetical insert, not affecting the centrality of the man and the secondary status of the girl. Therefore, in the third clause, it is as though the most recent was the first clause, not the second, and so the man is again proximate and the direct construction is used. Dryer argues that a similar account can be given of the two tokens of Inverse A-prox, P-non-prox K the referent of the P had actually been the central character in the preceding discourse, there had been a parenthetical with the referent of the A as proximate, but then the P took over as proximate when this parenthetical ended (e. g. the last clause of Fox-prox walked over (Crow-prox was eating) Crowobv saw Fox-prox). In four of the remaining exceptional cases of Direct A-non-prox, P-prox, the A is higher
36. Quantitative methods of discourse analysis
than the P on the following animacy hierarchy: human O nonhuman animate O inanimate An example of such a case would be something like the last clause of The rock-prox was very beautiful, the man-prox picked itobv up, where the man is proximate even though the rock was proximate in the preceding clause, because the man is animate and the rock is inanimate. The same principle also accounts for two of the three exceptional tokens of Inverse A-non-prox, P-nonprox; here the Direct is the normal usage, but for these two cases the P is higher than the A on the animacy hierarchy and so the Inverse is used (e. g. the last clause of The girl-prox threw the rock-obv, it-obv hit the man-prox). This account leaves only three cases unaccounted for, two Direct A-non-prox, P-prox and one Inverse A-non-prox, P-non-prox. There is, however, another problem with Dryer’s account: Although he shows that for 18 of the exceptional 21 cases not accounted for by his general principle, either the ‘parenthical insert’ account or the ‘animacy hierachy’ account can be invoked, he does not show that these cannot overrule the general principle in other cases. For example, if the ‘parenthical insert’ principle explains the use of Direct constructions in 10 cases of A-nonprox, P-prox, what about those 65 tokens of A-non-prox, P-prox which are Inverse? How many of them fit the general structure of the ‘parenthetical inversion’ principle, with a structure parallel to (35) but using the Inverse rather than the Direct? In other words, how many constructions are there like He-prox took after the girl-obv, the girlprox was not yet fully grown, he-obv went after her-prox, similar to (35) but following the general principle (of continuing proximate references to the same character) in the last clause rather than treating the second clause like a parenthetical insert? The way Dryer has presented his account, if the Direct construction is used in the third clause, this is because the second clause is treated as a parenthetical insert, while if the Inverse construction is used in the third clause this is because the second clause is not treated as a parenthetical insert, but what principle decides whether the second clause is treated as a parenthetical insert or not? The data have not been accounted for
491 until this is investigated. The same goes for the 225 A-prox, P-non-prox Direct constructions K do any of them occur in a structure like the last clause of Fox-prox walked over, Crow-prox was eating, Crow-prox saw Foxobv? If so, why did the middle clause not count as a ‘parenthetical insert’ as it did for the two A-prox, P-non-prox Inverse constructions? Similarly for the animacy hierarchy K among the 65 A-non-prox, P-prox Inverse constructions, were there any in which the A was higher on the hierarchy than the P (e. g., The rock-prox was very beautiful, the man-obv picked it-prox up)? If so, why was the Direct construction not used here as for the four A-non-prox, P-prox Direct constructions which Dryer accounted for by appealing to this hierarchy? And among the 49 A-non-prox, P-non-prox Direct constructions, were there any in which the P was higher than the A on the animacy hierarchy (e. g., The girl-prox threw the rock-obv, itprox hit the man-obv)? All of these questions must be answered before the account can be considered complete. It is not enough to present a number of principles each favoring the choice of one or another form; there must also be a procedure for determining which principle to follow if there is a conflict between them. Regardless of these criticisms, it is clear that the sort of account Dryer gives here is much more complete in terms of accounting for every single usage in a given language than the more typologically-oriented methodologies such as counting RD and TP. At the same time, this sort of account does not provide such a good basis for cross-linguistic comparison, because it relies upon languagespecific categories (in this case ‘proximate’ and ‘obviative’). I have found in the course of my own investigations that there is typically a tradeoff in this regard; the more thorough an account is of a particularly phenomenon in a particular language, the less clear it is how to integrate it into a comparative framework, while on the other hand those quantitative methodologies which allow for the easiest and most systematic typological comparison typically give very vague and unsatisfying analyses of phenomena in individual languages and cannot explain in anything like a systematic manner why an individual construction is used in an individual case.
492
6.
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Questionnaire studies
The quantitative studies I have discussed thus far are based upon naturally-occurring data, but data may also be gathered through questionnaires. The advantage of using questionnaires is that the investigator can design the questions so as to be able get particular data which are rare in naturally-occurring usage; the disadvantage is that the circumstances of usage are artificial. I will discuss here one example of a quantitative functional study based upon questionnaire data, Dahl’s (1985) study of tense and aspect marking. Dahl’s questionnaire consisted of items like (36): (36) (A: I want to give your brother a book to read, but I don’t know which. Is there any of these books that he READ already?) B: Yes, he READ this book. 200 such items were distributed to native speakers of 64 different languages. The questionnaire was in English, and the respondents were asked to replace the word in capitals with a word or construction in their native language; the English word in capitals was always put in the bare nonfinite form so that the respondents would not be biased towards representing a particular form in English with a particular form in their own languages. Dahl began with a number of tense-aspect categories having names which have been used repeatedly in language descriptions, e. g. ‘perfect’, ‘perfective’, ‘pluperfect’, ‘progressive’, etc. I will exemplify his procedure using the category ‘perfect’. Dahl chose three constructions, the English have C past participle, the Swedish ha C supine, and the Finnish olla C supine constructions, which have all been referred to as ‘Perfects’ and which, through his personal knowledge, he knew to have relatively similar functions (note that I am adopting Comrie’s (1976) practice of using capitalized aspectual labels like ‘Perfect’ for language-specific categories and uncapitalized aspectual labels like ‘perfect’ for language-universal categories). Then, he saw which items in the questionnaire had responses using all three of these ‘Perfect’ constructions, and these were assumed (provisionally) to represent prototypical ‘Perfect’ meaning. He then saw which linguistic forms other languages used to represent
these provisionally prototypical ‘Perfect’ functions, and if a language used a particular construction a high proportion of the time for these items, it was then assumed to be a ‘Perfect’ construction. Using this list of different Perfect constructions in different languages (expanded from the original English/ Swedish/Finnish list), items were ranked according to the frequency with which they had been rendered as Perfect constructions in the different languages under investigation, with items represented most frequently with Perfect constructions being considered to have ‘core’ perfect meaning and items represented less frequently with Perfect constructions beng considered to have more ‘peripheral’ perfect meaning. Thus (36) was the most ‘core’ perfect item, being representing with Perfect constructions in 31 of the 64 languages investigated. The next most ‘core’ perfect items were (37) and (38) (28/ 64 each) and (39) and (4) (27/64 each): (37) A: It seems that your brother never finishes books. B: That is not quite true. He READ this book (Zall of it). (38) Q: Is the King still alive? A: No, he DIE. (39) Q: You MEET my brother (any time in your life until now)? (40) Child: Can I go now? Mother: You BRUSH your teeth? For each Perfect construction, Dahl then calculated two numbers, the total frequency of usage in the questionnaire and the Hit Ratio. The Hit Ratio was calculated as follows: If a given Perfect was used X times on the questionnaire, then its Hit Ratio was the number of times it was used in the X most core Perfect meanings divided by X. For example, if a Perfect construction in a given language was used four times in the questionnaire, in (36), (37), (38), and some usage other than (39) or (40), then its Hit Ratio is 3/4 Z 0.75. Dahl considered a given form in a given language to represent a particular aspectual function (such as ‘perfect’) if its Hit Ratio for that function was 0.50 or higher. Figure 36.30 shows data for the constructions Dahl identified as ‘Perfect’ (note that there is no necessary correlation between Frequency and Hit Ratio for a given item):
493
36. Quantitative methods of discourse analysis Language
Description
Frequency
Hit Ratio
Swedish English Limouzi German Kammu Spanish Maori Catalan Finnish Punjabi Isekiri Javanese Estonian Akan Bulgarian Thai Sundanese Bugis Makassar Yoruba Bengali Hindi/Urdu Wolof Amharic Tamil
Aux ha C supine have C PtP o (eitre) C 92 Aux. haben/sein C PtP hóoc C V Aux. haber/estar C PtP kua C V Aux. haver/esser Aux. olla C Sup. PtP C Aux. hona V C re Aux. (u)wis C V Aux. ola C PtP Perfect Copula C Aor. PtP V C Aux. lööo parantos C V leba C V ti C V PtP C (contracted) copula Pt C Aux. hona V C na Perfect PtP C Aux. irykka
61 37 54 64 24 55 27 56 62 51 18 24 49 22 35 26 23 28 26 80 63 29 19 24
0.87 0.81 0.81 0.80 0.79 0.75 0.74 0.71 0.69 0.67 0.67 0.67 0.65 0.64 0.63 0.62 0.61 0.61 0.58 0.58 0.56 0.55 0.53 0.50
Fig. 36.30: Frequencies and Hit Ratios of Perfects
Dahl’s study is important both for the comparative data it gives on constructions in a wide variety of languages and also for its ranking of prototypical aspectual functions. This said, it must be acknowledged that Dahl’s results appear to be strongly biased by both the relative numerical preponderance of Indo-European languages in his sample (23/64, particularly Germanic, Romance, and Slavic) and by the fact that a number of the aspectual categories appear to have been defined on the first pass through the data largely using some combination of Germanic, Romance, and Slavic languages. For example, considering that the constructions used as the original basis for defining Perfects were the Perfects of Swedish, English and Finnish, it is hardly surprising that Swedish and English ended up having the most prototypical Perfects in terms of Hit Ratio and Finnish is fourth in frequency (behind only German, which is closely related to Swedish and English, and Bengali and Hindi/Urdu, which are closely related to each other) and ninth in Hit Ratio. If, for example, Dahl had had particularly knowledge of Indonesian languages rather than European languages, it is likely that his profile of the prototypical Perfect would have been quite different, and Java-
nese, Sundanese, and Bugis Makassar would have turned out to have the most prototypical Perfects. As it is, with Indo-European languages dominating the sample and European languages forming the basis for the initial definition of ‘Perfect’, Dahl finds that 6 of the 8 most prototypical Perfects are in Germanic and Romance languages (Limouzi is a Romance language), and the Perfects from the two languages from other families among these 8 K Kammu and Maori K have the lowest frequency of these eight, while of the remaining 16 Perfects on the list, none are Germanic or Romance. All twelve of the most frequent Perfects are in Indo-European languages, except for that of Finnish, used in the initial definition of ‘Perfect’, and Estonian, which is very closely related to Finnish. A similar pattern appears for the category ‘perfective’. Here 11 of the 13 most prototypical Perfectives occur in Slavic (five languages), Romance (five languages), and Greek; the remaining two most prototypical Perfectives are in dialects of Arabic (Maltese and Tunisian) which have been under heavy influence from Romance languages. Thus the ostensibly universal perfective category is more or less defined with Slavic and Romance languages as prototypes, with
494
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
forms in other languages rated as more or less core depending upon how similar they are to the Slavic and Romance usages. Similarly, for the category ‘pluperfect’, 15 of the 18 Pluperfects in Dahl’s sample were in Indo-European languages (83 %), while of the 48 languages without Pluperfects, only 8 had Pluperfects (17 %) (with ‘progressive’, on the other hand, there was no tendency for Indo-European languages to have more prototypical Progressives than non-IndoEuropean languages). The general conclusion we can draw from this is that care must be taken in defining prototypicality so as not to base it upon whatever data are most familiar and accessible, because this will bias the way prototypical categories are defined. It would be preferable to have a more random and representative language sample and to define the categories on the basis of some sort of cluster analysis of the responses.
7.
Translation data
Translation data can be very useful in giving some idea of the functional similarity between constructions in different languages, providing a basis for developing new quantitative parameters for characterization of function, and also suggesting how we might distinguish between subpopulations among usages of a particular construction based upon parameters which languages treat as significant. For example, in Dryer’s (1994) study of voice in Kutenai, he reports that when a bilingual Kutenai-English speaker translated a Kutenai text into English, out of 70 clauses in the Kutenai using what I called in figure 36.21 the (b) construction, only 9 were translated as English Passives (this is why the first English translation given for the Inverse construction (34) is active). This clearly supports the view, suggested by Dryer’s RD and TP counts, that this construction should not be considered a Passive but rather an Inverse. In this section, I will briefly discuss uses of translation data. 7.1. Translation data suggesting functional difference In some cases, translation data can suggest that, even though constructions in different languages have similar scores according to a given text count, they do not actually have the same function. For example, Sun/Givón
(1985) use data such as RD and TP to argue that OV constructions in Chinese and Biblical Hebrew serve basically the same function. However, Myhill/Xing (1993) show that, if we look at translation data from these languages, we see that the objectfronting constructions in these languages are frequently not translated as each other; for example, out of 82 OV constructions in a Biblical Hebrew database, 48 (59 %) did not use an OV construction in the Chinese translation, while out of 193 OV constructions in the Chinese translation, 159 (82 %) did not use an OV construction in the Hebrew original. In other words, in the majority of cases, an OV construction in one language would not be used where an OV construction would be used in the other language. This shows that the Hebrew and Chinese OV constructions clearly differ significantly in discourse function, in spite of their RD and TP scores. In such a situation, where established criteria for cross-linguistic comparison suggest functional similarity while translation data suggest functional differences, linguists interested in cross-linguistic comparison must develop other criteria which will capture these differences. In the case of the comparison of Biblical Hebrew and Chinese objectverb constructions, Myhill/Xing (1993) developed the concept of contrast (described in 2.3), distinguishing between several subtypes of contrast, in order to describe exactly how these constructions are similar in function and how they are different; as we have seen, certain types of contrastive functions result in OV order in both languages, but for other contrastive functions, only Biblical Hebrew fronts objects, while for still others, only Chinese does. Additionally, other factors not related to contrast were shown to affect the use of these constructions, with the languages under investigation being similar in some respects and differing in others. Here the translation data provided clear evidence that similarity of the RD and TP scores was misleading so that it was necessary to look for other text count methods to characterize the functional differences between these constructions. 7.2. Translation data distinguishing between subfunctions of a construction Another use of translation data can be to distinguish between different functions which a particular construction can serve, and to
495
36. Quantitative methods of discourse analysis
do this in a manner which is objective and uses parameters which languages themselves treat as significant; studies such as those using RD and TP described in section 3 make no such functional distinctions but simply lump all structurally similar constructions together. Myhill/Xing (1994) is a contrastive study of voice in Chinese, English, and Biblical Hebrew of this type, using Chinese and English translations of the book of Genesis. They divide up the database into one of a number of types of clauses, where all of the clauses of each type use a particular Hebrew construction translated as a particular Chinese construction and a particular English construction, and give a functional characterization of the type in general. Thus, for example, the combination of an English Passive, a Chinese Patient-Verb construction (suppressing the Agent), and a Hebrew niphal (an intransitive form often like a Passive) occurred 12 times in the translation database, characteristically having an obscure Agent and an inanimate Patient (e. g. The fountains of the deep and the floodgates of the sky were stopped up (Gen. 8:2)), while the combination of an English Passive, a Chinese active, and a Hebrew niphal occurred 19 times in the database, characteristically with future time reference and a 1st or 2nd person Agent (implied in the English and Hebrew, e. g. By this you will be put to the test, but Chinese wo yao shiyishi nimen, lit. ‘I will test you’ (Gen. 42:15)), so that Chinese is the only one of the three languages which does not use an agent-suppressing construction to avoid mentioning 1st or 2nd person Agents in such a situation; similar patterns were found with other combinations of translations. By using translation data of this type, it is possible to divide structurally homogeneous tokens in a given language into distinctive functional types, each of which can be given its own characterization.
8.
Conclusion
I have reviewed in this article a variety of quantitative methodologies of research on language function. In closing, I would emphasize that this field is still comparatively undeveloped. The quantitative methodologies employed are on the whole not very sophisticated. Multivariate analyses would definitely be helpful, but I do not want to
press this point too much at the present stage; use of more sophisticated statistical methods, like formal notation, can often have the effect of concealing and encouraging a lack of substantive thought and theorizing, and this danger as well must be guarded against. Statistical significance tests, on the other hand, are a different story; quantitative findings should always be accompanied by significance tests (although I admit that I myself have been lax in this regard sometimes). With regards to coding systems (e. g. RD, TP, those of Prince (1981) and Gundel/Hedberg/Zacharski (1993)), it is my impression that, at present, most linguists studying discourse function seem to have little patience for developing really detailed coding systems which are objectively applicable to naturally-occurring data. In the hard sciences, it is very common to have papers the great bulk of which discusses experimental procedure, with relatively little space devoted to results and theoretical implications; linguists, on the other hand, appear to be reluctant to spend much time discussing methodology, perhaps out of a lingering doubt that such methodology is really applicable to linguistic data, perhaps because they are afraid that their own coding might be criticized as having been arbitrary, perhaps because they are afraid of boring their readers, perhaps because they want to get on to more grandiose theoretical discussions and claims. This has resulted in a vicious circle; because there is little effort put into developing sophisticated coding techniques, the techniques which exist are simple and primitive, and so the idea has developed that such techniques cannot play a significant role in the study of discourse function. The only way to break this circle is to attempt to develop more sophisticated coding techniques and to have the patience to evaluate and improve them.
9.
Literature (a selection)
Bentivoglio, Paola (1983), Topic continuity and discontinuity in discourse: A study of spoken Latin-American Spanish. In: Givón 1983, 255K 312. Biber, Douglas (1986), Spoken and written textual dimensions in English: Resolving the contradictory findings. In: Language 62, 384K414. Biber, Douglas (1988), Variation across speech and writing. Cambridge: Cambridge University Press.
496
VII. Gebiete und Phänomene: Semantik/Pragmatik / Fields and phenomena: semantics/pragmatics
Biber, Douglas/Finegan, Edward (1988), Drift in three English genres from the 18th to the 20th centuries: A multidimensional approach. In: Corpus linguistics, hard and soft (Conference proceedings of ICAME 1987). (Eds. M. Kytö/O. Ihalainen/M. Rissanen). Amsterdam: Rodopi, 83K 101. Biber, Douglas/Finegan, Edward (1989a), Drift and the evolution of English style: A history of three genres. In: Language 65 (3), 487. Biber, Douglas/Finegan, Edward (1989b), Historical drift in three English genres. In: Synchronic and diachronic approaches to linguistic variation and change (Conference proceedings of GURT 1988). (Ed. T. J. Walsh). Washington, D.C.: Georgetown University Press. Birner, Betty J. (1994), Information status and word order: An analysis of English inversion. In: Language 70 (2), 233K259. Chafe, Wallace L. (1976), Givenness, contrastiveness, definiteness, subjects, topics, and point of view. In: Li 1976, 25K56. Comrie, Bernard (1976), Aspect. Cambridge: Cambridge University Press. Contreras, Heles (1978), El orden de palabras en español. Madrid: Catedra. Cooreman, Ann (1983). Topic continuity and the voicing system of an ergative language: Chamorro. In: Givón 1983, 425K90. Cooreman, Ann (1988), Ergativity in Dyirbal discourse. In: Linguistics 26, 717K746. Dahl, Osten (1985), Tense and aspect systems. Oxford: Basil Blackwell. Dryer, Matthew (1994), The discourse function of the Kutenai inverse. In: Givón 1994, 65K100. Finegan, Edward/Biber, Douglas (1986), Two dimensions of linguistic complexity in English. In: Social and cognitive perspectives on language. (Ed. J. Connor-Linton et al). Los Angeles: Department of Linguistics, University of Southern California, 1K24. Forrest, Linda B. (1994), The de-transitive clauses in Bella Coola: Passive vs. inverse. In: Givón 1994, 147K168. Fox, Andrex (1983), Topic continuity in Biblical Hebrew narrative. In: Givón 1983, 215K254. Gasser, Michael (1983), Topic continuity in written Amharic narrative. In: Givón 1983, 95K139. Givón, Talmy (1977), The drift from VSO to SVO in Biblical Hebrew: The pragmatics of tense-aspect. In: Mechanisms of syntactic change. (Ed. C. N. Li). Austin: University of Texas Press, 181K254. Givón, Talmy (1978), Definiteness and referentiality. In: Universals of human language vol. 4: Syntax. (Ed. J. Greenberg et al). Stanford: Stanford University Press, 291K330. Givón, Talmy (Ed.) (1983a), Topic continuity in discourse. Amsterdam: John Benjamins.
Givón, Talmy (Ed.) (1983b), Topic continuity and word-order pragmatics in Ute. In: Givón 1983, 141K214. Givón, Talmy (1987), Beyond foreground and background. In: Coherence and grounding in discourse (Typological studies in language, 11). (Ed. E. R. Tomlin). Amsterdam: John Benjamins. Givón, Talmy (Ed.) (1994), Voice and inversion. Amsterdam: John Benjamins. Gundel, Jeanette K./Hedberg, Nancy/Zacharski Ron (1993), Cognitive status and the forms of referring expressions in discourse. In: Language 69 (2), 274K307. Hinds, John (1977), Paragraph structure and pronominalization. In: Papers in Linguistics 10, 77K 97. Hofmann, Thomas R. (1989), Paragraphs and anaphora. In: Journal of Pragmatics 13 (2), 239K 250. Hopper, Paul J. (1979), Aspect and foregrounding in discourse. In: Discourse and syntax. (Ed. T. Givón). New York: Academic Press, 213K241. Hopper, Paul J./Thompson S. A. (1980), Transitivity in grammar and discourse. In: Language 56, 251K299. Keenan, Edward (1976), Towards a universal definition of ‘subject’. In: Li 1976, 303K334. Kuno, Susumu (1973), The structure of the Japanese language. Cambridge, MA: MIT Press. Labov, William (1972), The transformation of experience in narrative syntax. In: His Language in the inner city. Philadelphia: University of Pennsylvania Press, 354K396. Lakoff, Robin (1974). Remarks on this and that. In: Chicago Linguistics Society 19, 154K172. Leslau, Wolf (1968), Ethiopians speak: Studies in cultural background. Berkeley: University of California Press. Li, Charles N. (Ed.) (1976), Subject and topic. New York: Academic Press. Myhill, John (1984), A study of aspect, word order, and voice. University of Pennsylvania Ph.D. dissertation. Myhill, John (1992), Word order and temporal sequencing. In: Payne 1992, 265K278. Myhill, John (1995), Non-emphatic fronting in Biblical Hebrew. In: Theoretical Linguistics 21 (2K3), 93K144. Myhill, John (1996a), Can and future meaning. In: Functions of Language 3 (1), 31K68. Myhill, John (1996b), The development of the American English strong obligation system. In: American Speech, 339K388. Myhill, John/Xing Zhiqun (1993), The discourse functions of patient fronting: A comparative study of Biblical Hebrew and Chinese. In: Linguistics 31 (1), 25K57.
36. Quantitative methods of discourse analysis Myhill, John/Xing Zhiqun (1994), A comparison of the function of voice in Biblical Hebrew, Chinese, and English. In: Language Sciences 16 (2), 253K283. Myhill, John/Xing Zhiqun (1996), Towards an operational definition of discourse contrast. In: Studies in Language 20 (2), 313K370. Prince, Ellen F. (1981), Toward a taxonomy of given-new information. In: Radical pragmatics. (Ed. Peter Cole). New York: Academic Press, 223K256. Rand, David/Sankoff David (1990), Goldvarb: A variable rule application for the Macintosh, version 2.0 (program and documentation). Montreal: Centre de recherches mathématiques, Université de Montréal. Rude, Noel (1988), Ergative, passive, and antipassive in Nez Perce: A discourse perspective. In: Passive and voice. (Ed. M. Shibatani). Amsterdam: John Benjamins. Sankoff, David/Labov William (1979), On the uses of variable rules. In: Language in Society 8, 189K222.
497 Schachter, Paul/Otanes Fe T. (1972), Tagalog reference grammar. Berkeley: University of California Press. Schiffrin, Deborah (1981), Tense variation in narrative. In: Language 57, 45K62. Sun, Chaofen/Givón Talmy (1985), On the SOV word order in Mandarin Chinese. In: Language 61, 2. Thompson, Chad (1989), Voice and obviation in Navajo. In: Proceedings of the Fourth Annual Meeting of the Pacific Linguistics Conference. Eugene: University of Oregon Department of Linguistics, 466K488. Thompson, Chad (1994), Passive and inverse constructions. In: Givón 1994, 47K64. Trudeau, G. B. (1984), Doonesbury deluxe. New York: Henry Holt and Company. Ward, Gregory L. (1985), The semantics and pragmatics of preposing. University of Pennsylvania Ph.D. dissertation.
John Myhill, Haifa (Israel)
VIII. Gebiete und Phänomene: Geolinguistik und Dialektologie / Fields and phenomena: geolinguistics and dialectology 37. Dialektometrie 1. 2. 3. 4. 5.
1.
Dialektometrie: Typodiagnose anhand sprachgeographischer Daten Methodische Voraussetzungen: vom Sprachatlas zur Datenmatrix Meßmomente Nachbemerkung Literatur (in Auswahl)
Dialektometrie: Typodiagnose anhand sprachgeographischer Daten
Im Jahr 1973 kreierte der Tolosaner Romanist Jean Séguy (1973) den Terminus „dialectométrie“, worunter ab ovo ein numerisch-mathematisches Verfahren zur Auswertung und Komprimierung von in Sprachatlanten enthaltenen geolinguistischen Daten zu verstehen war. Forschungsintention (Z Datensynthese, Datenklassifikation, Typodiagnose, Mustererkennung etc.) und Struktur der Daten (Z Sprachatlanten) rükken die Dialektometrie in unmittelbare Nähe anderer Metrien (wie. z. B. Soziometrie, Psychometrie, Ökonometrie, Anthropometrie etc.) oder sonstiger quantifizierender Disziplinen (wie z. B. der quantitativ arbeitenden Geographie), wo überall K freilich in methodisch und methodologisch meist um vieles anspruchsvollerer Form K ein empirisch erhobener Datensatz aus N Elementen (oder Dingen) und p Merkmalen (oder Attributen, Eigenschaften etc.) auf konstitutive Ordnungsmuster verschiedenen Ranges untersucht wird. „In vielen wissenschaftlichen Disziplinen gibt es folgendes Problem: gegeben ist eine Menge von Objekten. Jedes dieser Objekte ist gekennzeichnet durch die Ausprägungen einer bestimmten Anzahl von Merkmalen. Ist es möglich, diese Objekte so zu klassifizieren, daß die einer Klasse zugehörenden Objekte einander in einem bestimmten, noch näher zu definierenden Sinne möglichst ,ähnlich‘ sind, während gleichzeitig die verschiedenen Klassen zugehörenden Objekte einander möglichst ,unähnlich‘ sind?“ (Vogel 1975, 1).
Heute steht zur Lösung derartiger Probleme eine numerische Disziplin zur Verfügung, die unter den verschiedensten Namen auftritt: numerical classification (Sneath/ Sokal 1973), automatische Klassifikation (Bock 1974), numerische Klassifikation (Vogel 1975), Taxometrie, analyse typologique (Chandon/Pinson 1981), analyse des données (Benzécri 1980) etc. Es existieren hierzu Lehr- und Handbücher in allen gängigen Großsprachen sowie K was besonders unterstrichen werden soll K weltweit kooperierende Klassifikationsgesellschaften (dazu Dachverband seit 1986: International Federation of Classification Societies) mit einer entsprechenden Publikations- und Kongreßtätigkeit. Leider haben Séguy und die Mehrzahl der ihm nachfolgenden Dialektometer den Kontakt zur numerischen Klassifikation weder gesucht noch gefunden, so daß viele der von ihnen gesetzten Bemühungen methodisch und methodologisch höchst unscharf geblieben sind. Es soll daher mit allem Nachdruck betont werden, daß es heutzutage einfach unverantwortlich und anachronistisch wäre, Dialektometrie ohne engste Anlehnung an die allgemeine Entwicklung der numerischen Klassifikation zu betreiben. Überdies sind numerisch-taxonomische Verfahren bereits 1973 erstmals explizit von G. Altmann und W. Lehfeldt zur Bearbeitung sprachtypologischer Fragestellungen herangezogen worden. Jedes typologische Diagnostizieren kennt verschiedene Rang- und Erkenntnisstufen. Es gibt mehr oder weniger globale Typodiagnosen sowie Typodiagnosen mit und zu speziellen Zielsetzungen. Wichtig ist es stets, daß der Typodiagnostiker sich seines Erkenntniszieles voll bewußt ist. Im Rahmen der sprachatlasgestützten Sprachgeographie sind diese Erkenntnisziele allerdings wegen der methodisch eher hemdsärmeligen Vorgeschichte der Sprachgeographie nur vage formulierbar. Es geht dort grosso modo um die Erkenntnis geolinguistischer Gliederungen, die Herausarbeitung sprachgeographi-
37. Dialektometrie
scher Raumstrukturen oder die Problematik dialektgeographischer Abstufungen, alles freilich nur anhand von einzelnen Atlaskarten. Damit lag und liegt der Interessenschwerpunkt der traditionellen Sprachgeographie eher im Bereich partikulärer als synthetischer Sehweisen. Dieser Umstand war und ist für die Entwicklung der Dialektometrie keineswegs förderlich. Bibliographische Übersichten zur internationalen Dialektometrie: Goebl 1993a, 277K278 und CLAE 2, 9.0. Appendix, ferner Viereck 1980 und 1984 sowie Schneider 1984.
2.
Methodische Voraussetzungen: vom Sprachatlas zur Datenmatrix
In Anbetracht verschiedentlich aufgetauchter Mißverständnisse rund um die Dialektometrie formuliere ich die Sache prägnant: extra atlantes linguisticos nulla salus dialectometrica [„Außerhalb von Sprachatlanten gibt es kein dialektometrisches Heil.“]. Die Dialektometrie steht und fällt mit ihrer Datenbasis. Und hiefür kommen nur Sprachatlanten in Frage, die durch die Struktur ihrer Daten (N Meßpunkte, p Atlaskarten) und die Art von deren Erhebung (N standardisierte Interviews mit jeweils p Fragen aus einem feststehenden Fragebuch) die Gewähr dafür bieten, daß bei der vergleichenden Auswertung „nur Vergleichbares miteinander verglichen“ wird. Unter „Sprachatlas“ soll hier jede nach dem N-mal-p-Prinzip erhobene und organisierte geolinguistische Datenkompilation verstanden wird. Die strikte Anwendung des Atlasprinzips bei der Publikation soll dabei aber keine Rolle spielen. Auch die in der Romanistik gut bekannten „Tableaux phonétiques des patois suisses romands“ (TPPSR) gelten demnach als vollwertiger Sprachatlas. Dies betrifft überdies auch viele andere geolinguistische Erhebungen, die vorwiegend in den ersten Jahrzehnten des 20. Jahrhunderts durchgeführt und nur in Tabellen- statt in Atlasform veröffentlicht wurden. 2.1. Dialektometrisches Messen bzw. Abbilden Wer Dialektometrie betreiben will, muß messen. Wer mißt, bildet ab. Und wer abbildet, reduziert, vereinfacht, faßt zusammen K und irrt. Dies gilt sowohl für die empirische Sozialforschung als auch für die Satellitenphotographie. Sprachatlanten sind Abbil-
499 dungen (und damit Reduktionen) der unter einem bestimmten Blickwinkel (diatopische Sprachvariation) gesehenen sprachlichen Realität. Dieses sprachatlasgebundene Abbild muß, um dialektometrisch faßbar zu werden, weiter reduziert werden. Mit anderen Worten: es muß die jeder Sprachatlaskarte innewohnende Information nach einem bestimmten Reduktions- oder Abbildungsprinzip zusammengefaßt werden. Dieser Vorgang ist seit dem Erscheinen der ersten (romanischen) Sprachatlanten den Linguisten durchaus vertraut. Es handelt sich dabei um das „Typisieren“ von Sprachatlaskarten mit Hilfe von stummen Karten. Zahllose konkrete Anwendungsfälle finden sich hiezu im Bereich der romanischen Onomasiologie und Wortforschung. Ziel dieser Reduzierung ist die Erstellung der Datenmatrix, die aus p Zeilen und N Spalten besteht: siehe Abb. 37.1, linke Hälfte. Dabei wird unter Ansetzung eines bestimmten Meßprinzips (Messung der phonetischen und/oder morphosyntaktischen und/oder lexikalischen Variation) pro Atlaskarte (mit N Belegen) eine bestimmte Anzahl von Belegtypen (genauer Taxat-types) ermittelt, die zumeist kleiner als N ist, theoretisch aber alle Werte zwischen 1 und N annehmen kann. Aus meßtheoretischer Sicht handelt es sich dabei um eine Messung auf der Kardinal-, Nominal- oder Kategorialskala: cf. dazu Sodeur 1974, 40 f. oder Orth 1974, 24 f. Dabei wird vorausgesetzt, daß die gemessenen Einheiten (Taxate bzw. Taxattypes oder -tokens) voneinander gleichrangig verschieden sind. Diese Messung ist freilich sehr grob. Allerdings sind höherrangige Messungen an Sprachatlasdaten (auf der Ordinalskala bzw. auf metrischen Skalen) nur sehr schwer möglich. 2.2. Exkurs: Zur quantitativen Struktur dialektometrischer Daten Bei der nominalen Vermessung der Karten eines Sprachatlasses können K stets vorausgesetzt, daß keine Mehrfachbelege erfaßt werden (müssen) K bei N Meßpunkten pro Atlaskarte theoretisch zwischen 1 und N Taxat-types auftreten. Bei 1, 2, 3 (etc.) Taxattypes pro Atlaskarte spricht man von mono-, di-, trinymer (etc.) Taxierung. Die Abb. 37.5 (im Anhang) zeigt die entsprechenden Taxierungsbilanzen für Italien (anhand von 696 Arbeiskarten aus dem AIS) und Frankreich (anhand von 1687 Arbeitskarten aus dem ALF). Die jeweils erfaßten Variationen sind beim AIS nur lexikalisch und morpho-
500 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology syntaktisch, beim ALF dagegen phonetisch, morphosyntaktisch und lexikalisch. Bilanzen dieser Art hängen natürlich von den folgenden zwei Grundfaktoren ab: (1) von Art und Variabilität der Rohdaten (i. e. des Sprachatlasses), (2) von Zielsetzung und Art des vom Dialektometer verwendeten Meßverfahrens, wobei der „Selektivität“ dieses Meßverfahrens (Splitting versus Lumping) eine besondere Bedeutung zukommt. Die in Abb. 37.5 visualisierten Verteilungen K die entfernt an die von G. K. Zipf entdeckten Wortschatzverteilungen erinnern K haben G. Altmann (1985) veranlaßt, deren anscheinende Regularität auf einen Poisson’schen Geburts- und Todesprozeß zurückzuführen, ein entsprechendes Gesetz („Goebl’sches Gesetz“) zu erstellen und anhand empirischer Daten (aus dem französischen Sprachatlas ALF: N Z 71, p Z 1468 Atlaskarten) zu verifizieren. Es ist allerdings sehr schwer, für die auf einer Sprachatlaskarte aufscheinende Typen- bzw. Taxat-Vielfalt die verursachenden Wirkfaktoren (Kräfte, Synergien etc.) in eindeutig quantifizierbarer Form zu erfassen. Zwar haben viele Einzelanalysen von Sprachatlasdaten (vor allem im Rahmen der Onomasiologie) diesbezüglich eine Vielzahl anekdotischer Information beigebracht. Doch beschränkt sich deren Erklärungskraft jeweils nur auf eine einzige Sprachatlaskarte. Die Einbindung dieser disparaten Einzelphänomene in eine mathematisch faßbare Gesamtsynergetik ist bis jetzt noch nicht geglückt bzw. scheint zur Zeit auch außer Griffweite zu sein. Gangbar ist dagegen der induktiv-empirische Weg. Dieser setzt voraus, daß jede Sprachatlaskarte mit der ihr eigenen Strukturierung als ein Puzzle-Stein eines übergeordneten Globalmusters aufgefaßt wird, das als Gesamtbilanz der in der betreffenden Gegend abgelaufenen (Sprach-)Geschichte gelten kann. Eine Zusammenführung vieler PuzzleSteine (mittels taxometrischer Methoden) würde es nunmehr gestatten, diesem übergeordneten Globalmuster auf die Spur zu kommen. Daraus erwächst auch die besondere interdisziplinäre Relevanz dialektometrischer Synthesen. In diesem Zusammenhang muß allerdings ergänzt werden, daß entsprechende Versuche gezeigt haben, daß sich die Gestalt (Musterung, Struktur etc.) von dialektometrischen Synthesen jenseits
einer bestimmten Mindestmenge an synthetisierten Einzeldaten (Z Atlas-, genauer: „Arbeits“-Karten) nur mehr wenig verändert. Diese Mindestmenge liegt bei rund 200K300 (thematisch voneinander unabhängigen) Arbeitskarten. Die hier beigefügten AIS-Karten basieren auf rund 700 und die ALF-Karten auf rund 1700 Arbeitskarten: daher sind die auf ihnen aufscheinenden Musterungen stark redundant und damit „sehr solide“. Die N Spalten der Datenmatrix werden auch „Meßpunktvektoren“, die p Zeilen „Merkmalsvektoren“ genannt. Einzelne Meßpunktvektoren werden mit den Indizes j und/oder k angesprochen, während für einzelne Merkmalsvektoren die Indizierung mittels i üblich ist. Der untersuchte Sprachatlas kann ganz oder teilweise vermessen werden. Es ist möglich, dem Netz der explorierten Meßpunkte einen oder mehrere künstliche Meßpunkte (z. B. die jeweilige Hochsprache: siehe hier die Abb. 37.11 [Italienisch] und 37.12 [Französisch]) hinzuzufügen. Einer Karte eines Sprachatlasses können fallweise auch mehrere Merkmalsvektoren („Arbeitskarten“) entnommen werden (Doppel- oder Mehrfachtaxierung). Man muß allerdings streng darauf achten, daß das gewählte Meßverfahren (Taxierung) in sich konsistent ist und über die Dauer der gesamten Messung dieselbe Validität behält. Zu allen hieher gehörenden theoretischen und praktischen Problemen sei exemplarisch auf Goebl 1984 I und Schiltz 1996 verwiesen.
3.
Meßmomente
Die einmal konstituierte Datenmatrix kann nunmehr in der verschiedensten Weise ausgewertet werden. Die Wahl des im Zuge der taxometrischen Auswertung der Datenmatrix verwendeten Meßmoments hängt vom Untersuchungsziel ab. Man sollte es vor Arbeitsbeginn definiert haben. Diese prinzipielle Zielgerichtetheit jeder taxometrischen Arbeit soll hier nochmals explizit unterstrichen werden. Im Rahmen dieser vorwiegend methodisch ausgerichteten Kurzdarstellung können nur einige Meßmomente dargestellt und ihre jeweiligen Einsatzbereiche post festum kurz angedeutet werden. Der bei taxometrisch „reifen“ Wissenschaften übliche Vorgang wäre umgekehrt: zuerst Reflexion über das Erkenntnisziel, dann Wahl der taxometrischen Mittel.
501
37. Dialektometrie
3.1. Ähnlichkeitsmessung (Abb. 37.6KAbb. 37.15) Seit es Sprachatlanten gibt, wird versucht, die darin enthaltenen punktgestützten Daten zu kompakteren Aggregaten zusammenzufassen. Dies geschah und geschieht unter Ansehung der Ähnlichkeiten und/oder Verschiedenheiten (Distanzen) der Einzelbelege zueinander. In der Terminologie der Taxometrie wird die Messung der (paarweisen) Ähnlichkeiten und/oder Verschiedenheiten (Distanzen) von Elementvektoren der Datenmatrix „Q-Analyse“ genannt. Was im Zuge einer Q-Analyse unter Ähnlichkeit bzw. unter Distanz zu verstehen ist, muß zunächst genau definiert werden. Die beiden Begriffe K Ähnlichkeit und Distanz K gehören zur Klasse der logischen Relationen. Ihre Anzahl ist theoretisch unbegrenzt. Es ist daher Aufgabe des Dialektometers, in der Sprachgeographie bereits mehr oder weniger explizit vorhandene Ähnlichkeits- und/ oder Distanzvorstellungen mit taxometrischen Mitteln nachzuvollziehen bzw. derartige sprachgeographische Ähnlichkeits- und/ oder Distanzvorstellungen in das taxometrische Messinstrumentarium einfließen zu lassen: cf. dazu auch Goebl 1983 (a und b) und 1987. Das ist ein besonders heikler Punkt innerhalb der taxometrischen Verfahrenskette, vor allem deshalb, weil im Rahmen linguistischer Klassifikationen (oder Typologien) der Problembereich der prinzipiellen Vielfalt der Relationen und des notwendigerweise damit verbundenen Definitions-
zwanges bislang als solcher noch nicht erschlossen worden ist. Dinge (hier: Meßpunktvektoren), Eigenschaften (hier: Merkmalsvektoren) und Relationen (hier: gewähltes Meßmoment): diese Trias ist die logische Basis jeglicher Klassifikation: cf. dazu Ujomov 1965. 3.1.1.
Erstellung einzelner Ähnlichkeitskarten 3.1.1.1. Methodisches, Verfahrenstechnisches Der französische Naturforscher und Anthropologe Joseph-Pierre Durand (1826K1900) hat vor weit mehr als 100 Jahren einen geolinguistisch brauchbaren Ähnlichkeitsbegriff wie folgt definiert: „Et maintenant, qu’est-ce qui constitue le degré de ressemblance qui rapproche deux langues entre elles, et le degré de dissemblance qui les éloigne l’une de l’autre? La ressemblance se mesure à la proportion des caracte`res communs, la dissemblance à la proportion des caracte`res particuliers“ [„Und was definiert nun das Ausmaß der Ähnlichkeit, die zwei Sprachen miteinander verbindet, und was das Ausmaß der Unähnlichkeit, die sie voneinander scheidet? Die Ähnlichkeit wird durch den Prozentsatz der übereinstimmenden Sprachmerkmale erfaßt, die Unähnlichkeit aber durch jenen der differierenden Sprachmerkmale.“]. (Durand 1889, 63). Dem darin formulierten Ähnlichkeitsbegriff entspricht der „Relative Identitätswert“ (RIWjk). Siehe dazu Abb. 37.1.
Datenmatrix: heller Raster: Koidentitäten ((KOI2,4) i in i Z 1, 2, 5). dunkler Raster: Kodifferenzen ((KOD2,4) i in i Z 3). Ähnlichkeitsmatrix: heller Raster: RIW2,4 und RIW4,2. Abb. 37.1: Generierung einer Ähnlichkeitsmatrix aus der Datenmatrix durch Messung der paarweisen Ähnlichkeiten der Messpunktvektoren der Datenmatrix mittels RIWjk.
502 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology Die Formel dazu lautet: p˜
RIWjk Z 100 $
∑ (KOIjk) i iZ1 p˜
p˜
iZ1
iZ1
∑ (KOIjk) i C∑ (KOD)jk) i
(1)
In dieser Formel bedeuten: RIWjk
Maß für die Ähnlichkeit zwischen den Meßpunktvektoren j und k (0 ! RIWjk ! 100)
p˜
Anzahl der im Meßpunktvektorenpaar jk vorhandenen paarweisen Taxatübereinstimmungen (Koidentitäten)
∑ (KODjk) i iZ1
p˜
Anzahl der im Meßpunktvektorenpaar jk vorhandenen paarweisen Taxatunterschiede (Kodifferenzen)
p˜
Anzahl der pro Meßpunktvektorenpaar verrechenbaren Merkmalsebenen (nach Abzug der fehlenden Daten)
∑ (KOIjk) i iZ1
Der RI-Wert nimmt stets positive Werte an, pendelt zwischen 0 und 100, ist unabhängig von der Meßrichtung (symmetrisch: RIWjk Z RIWkj) und ergibt bei reflexiver Messung (RIWjj) stets 100. Für jede Koidentität ((KOIjk)i) und für jede Kodifferenz ((KODjk)i) wird definitionsgemäß der Wert 1 eingesetzt. Insoferne ist der RI-Wert gleichgewichtend (adansonistisch). Immerhin wäre es ja denkbar, jede Koidentität nicht von vorneherein mit 1 gleichzusetzen, sondern ihr in Abhängigkeit von ihrer Lage innerhalb der Datenmatrix einen variablen Wert beizumessen (cf. Goebl 1983a und b sowie 1987, alle passim). Der RI-Wert ist ein Standardmaß der numerischen Klassifikation und hat dort verschiedene Namen. Zur Problematik cf. Goebl 1984 I, 74 f. Einsetzbeispiel anhand Abb. 37.1: Man suche auf: j Z 2, k Z 4. Hiefür gelten: 3
∑ (KOI2,4) i Z 3 iZ1 3
∑ (KOD2,4) i Z 1
iZ1
RIW2,4 Z 100 $
1 3C1
RIW2,4 Z 75 Der Wert RIW2,4 Z 75 ist in der Ähnlichkeitsmatrix (Abb. 37.1, rechte Hälfte) durch Grauraster hervorgehoben. Die Ähnlichkeitsmatrix hat stets die Dimensionen N mal N und entsteht durch N mal N nach demselben Schema durchgeführte Messungen. Vermöge der metrischen Eigenschaften des ver-
wendeten Ähnlichkeitsmaßes (RIWjk) enthält die Diagonale der Ähnlichkeitsmatrix nur den Wert 100. Ferner sind die beiden Hälften der Ähnlichkeitsmatrix spiegelgleich. Daher verbleiben zur weiteren taxometrischen Exploration: 1 / 2 (N 2 K N) Z N / 2 (N K 1) Meßwerte. Die Ähnlichkeitsmatrix ist jene Drehscheibe, von der die weiteren taxometrischen Schritte ausgehen: dazu gehört zunächst die Erstellung von „Ähnlichkeitskarten“. Darunter versteht man Visualisierungen von „Ähnlichkeitsverteilungen“, die ihrerseits wiederum je einer Spalte (oder Zeile) der Ähnlichkeitsmatrix entsprechen. Siehe dazu Abb. 37.2, links oben. Eine Ähnlichkeitsverteilung besteht immer aus N Meßwerten, wovon immer ein Meßwert 100 beträgt, der das Resultat der reflexiven Messung (RIWjj) ist. Eine ganze Ähnlichkeitsmatrix enthält stets N Ähnlichkeitsverteilungen. Dies bedeutet, daß zu jedem der N Meßpunkte einer Datenmatrix eine eigene Ähnlichkeitsverteilung errechnet werden kann. Jede Ähnlichkeitsverteilung ist also definiert durch einen Prüfbezugspunkt j. Aus Abb. 37.2 wird ferner ersichtlich, daß die Exhaustion einer Ähnlichkeitsverteilung nur eine von vielen Möglichkeiten darstellt, die Daten der Ähnlichkeitsmatrix taxometrisch auszuwerten. Die taxometrisch-klassifikatorische Auswertung der Ähnlichkeitsverteilung kann visuell und/ oder numerisch erfolgen. Für Sprachgeographen ist selbstverständlich der visuelle Weg besonders wichtig. Für die Visualisierung der N Werte einer Ähnlichkeitsverteilung empfiehlt sich ganz besonders das thema-
37. Dialektometrie
503 (1) Dreiecksvernetzung der Meßpunkte des Untersuchungsgebietes. (2) Errichtung der Streckensymmetralen über den Dreiecksseiten. (3) Verschmelzung jeweils dreier Streckensymmetralen zum Mittelpunkt des dem fraglichen Dreieck umschriebenen Kreises (Umkreismittelpunkt). (4) Die Umkreismittelpunkte stellen die Eckpunkte von Polygonen dar, innerhalb deren der jeweilige Meßpunkt liegt.
Links oben, gerastert: Ähnlichkeitsverteilung zu j (Z k) Z 4. Rechts unten, gerastert: an der Berechnung von Kennwertsynopsen und Dendrogrammen beteiligter Bereich der Ähnlichkeitsmatrix. Die (symmetrische) Ähnlichkeitsmatrix wurde entlang der Diagonale in ihre zwei (jeweils asymmetrischen) identischen Hälften zerlegt. Abb. 37.2: Beispiele für verschiedene Exhaustionen der Ähnlichkeitsmatrix.
kartographische Instrument der Flächenmosaik- und Choroplethenkarte. Hiefür sind erforderlich: (a) die Verwandlung der im Raum diskret verteilten Meßpunktmenge in ein fugenlos und überlappungsfrei gestaltetes Flächenmosaik, das zur Aufnahme von Farb- oder Graurastersignaturen geeignet ist und solcherart als „Pseudokontinuum“ dient; (b) die Umlegung der numerischen Variation der Ähnlichkeitsmeßdaten in eine für das menschliche Auge sehpsychologisch günstige optische (ikonische) Variation. Zu (a): Hierfür eignet sich optimal ein geometrisches Verfahren, das K obschon in mathematischen Fachkreisen seit Jahrhunderten bekannt K 1898 vom Germanisten Carl Haag erstmals auf sprachgeographische Fragestellungen angewendet wurde und im Rahmen der Geographie seit geraumer Zeit mit dem Namen des Meteorologen Alfred H. Thiessen (1911) und in jenem der Mathematik mit den Namen der Mathematiker B. Delaunay und G. F. Voronoi verbunden wird (cf. dazu Okabe/Boots/Sugihara 1992). Dieses Verfahren sieht die folgenden Prozeduren vor:
Zu weiteren Details (mit Konstruktionsskizze) cf. Goebl 1984 I, 90 f. und Okabe/ Boots/Sugihara 1992 (passim). Zu (b): Kartographen, Semiotikern und Psychologen ist gut bekannt, daß das menschliche Auge bei der Betrachtung von Flächenmosaiken differentiell nur 6K8 Tonwert- oder Farbstufen verarbeiten kann. Unser Problem besteht nun darin, die Variation von N Meßwerten in einer (verhältnisgleichen) Variation von 6K8 Tonwert- oder Farbstufen abzubilden. Dieser Abbildungsvorgang kann wiederum auf die verschiedenste Art und Weise erfolgen und stellt demnach ein vollwertiges Glied der taxometrischen Kette dar. Die Wahl der Abbildungsmodalitäten muß daher mit besonderer Sorgfalt getroffen werden. Auch hiefür steht im Rahmen der statistischen Kartographie erprobtes Handbuchwissen zur Verfügung: cf. Dickinson 1973. Bei der Erstellung der Abb. 37.6K37.15 wurde die Visualisierung mittels des Algorithmus MINMWMAX durchgeführt. Der fragliche Algorithmus sieht vor: 6 Graurasterstufen, 3 davon unterhalb und 3 oberhalb des arithmetischen Mittels der zu visualisierenden Ähnlichkeitsverteilung. Die unterdurchschnittlichen Intervallbreiten errechnen sich durch Drittelung der Spanne zwischen Minimalwert und arithmetischem Mittel, die überdurchschnittlichen Intervallbreiten durch Drittelung der Spanne zwischen Maximalwert und arithmetischem Mittel. Dieser Algorithmus (MINMWMAX) hat sich aus vielerlei Gründen für choroplethische Zwecke als brauchbarster Abbildungsschlüssel erwiesen. Freilich gibt es für andere Zwecke und besondere Fragestellungen daneben noch zahlreiche andere Umsetzungsalgorithmen. Zur Problematik cf. Goebl 1984 I, 93 f. Die Abb. 37.16K37.19 beruhen auf den Intervallalgorithmen MEDMW und MED: beide stützen sich auf mit möglichst gleich vielen Meßpunkten be-
504 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology setzte Klassen: bei MEDMW zu beiden Seiten des Mittelwerts, bei MED zu beiden Seiten des Medians: cf. dazu Goebl 1984 I, 95K97. Auf den Abb. 37.6K37.19 sind rechts unten im Legendenbereich Stabdiagramme sichtbar, die eine konkrete Vorstellung von der Gestalt der visualisierten Häufigkeitsverteilung geben. Die Konstruktion dieser Stabdiagramme (Histogramme) wird ebenso mit Hilfe des jeweils eingesetzten Intervallalgorithmus durchgeführt: zu Details cf. Goebl 1984 I, 97 f. 3.1.2. Allgemeines zur Interpretation der Abb. 37.6K37.14 Zu beachten ist, daß die neun Karten auf zwei Datenmatrizen beruhen, die anhand des AIS (696 Arbeitskarten aus den Bänden 1, 2 und 4; lexikalische und morphosyntaktische Variation) und des ALF (1687 Arbeitskarten aus 626 ALF-Originalkarten; phonetische, lexikalische und morphosyntaktische Variation) generiert wurden. Zudem enthalten die beiden Meßpunktnetze je einen Kunstpunkt, der der jeweiligen Hochsprache entspricht: AIS: P. 999 (in der Nähe von Florenz), ALF: P 999 (in der Nähe von Paris). Die Kenntnis dieser datenseitigen Voraussetzungen ist wichtig, um die Kartenbilder richtig einzuschätzen. Zu beachten ist ferner, daß gewisse Meßpunkte des AIS-Netzes einen Sternchenvermerk tragen. Es sind das Meßpunkte, in deren Vektoren zahlreiche Daten (oft bis zu zwei Dritteln des Gesamtpotentials) fehlen. Die an ihnen auftretenden Meßwerte fallen daher aus dem Rahmen des sonst Üblichen. Sie sind meist unverhältnismäßig hoch. Bei der Interpretation der Choroplethenprofile muß man diesen Umstand berücksichtigen und sollte die fraglichen Polygone am besten „geistig ausblenden“. Die Abb. 37.6K37.14 stellen fünf von insgesamt 251 (AIS) bzw. vier von insgesamt 641 (ALF) Ähnlichkeitskarten dar. Sie enthalten jeweils einen bestimmten Bildtyp, der dem Betrachter in der Form eines „Gebirges“ (warmfarbene Polygone: große Reliefhöhen, kaltfarbene Polygone: geringe Reliefhöhen) entgegentritt. Bei der Betrachtung der Karten sollte man seine Aufmerksamkeit auf die folgenden Bildteile richten: Lage des „Gebirgssockels“ (Farben 1K2: Dunkelblau, Hellblau), der „Gebirgsflanken“ (Farben 3K4: Grün, Gelb) und der „Spitzen des Gebirges“ (Farben 5K6: Orange, Rot).
Das Zusammenspiel der sechs nach der Logik des Regenbogens gestaffelten Farben erzeugt Raumgliederungen, die dialektologisch bedeutsam sind. So erkennt man auf Abb. 37.6 durch das Zusammenspiel der Farben Rot und Orange einen als „lombardisch“ anzusprechenden Zentralkern, dann das Einzugsgebiet des Piemontesischen (Grün), ferner das Aostatal (Dunkel- und Hellblau), das Bündnerromanische (ebenso Dunkel- und Hellblau), den Stoß zwischen dem Festlandvenezianischen und umgebenden Dialektzonen etc. Eine volle Würdigung der typodiagnostischen Leistung der Ähnlichkeitsmessung kann eigentlich nur nach Einsicht aller N Flächenmosaikkarten und aller dazugehörenden Zahlenwertkarten (auf deren Präsentation hier aus Platzgründen zur Gänze verzichtet werden muß) vorgenommen werden. Wichtig ist die Erkenntnis, daß zwischen linguistischer Ähnlichkeit und geographischer Distanz ein variabler (und keineswegs ein fester) Zusammenhang besteht, der für den vorgewählten Prüfbezugspunkt typisch ist und daher zu typodiagnostischen Zwecken herangezogen werden kann. Siehe dazu die Abb. 37.3 die diesen Zusammenhang zwischen linguistischer Ähnlichkeit und geographischer Distanz für die AIS-Daten-Matrix anhand zweier Ähnlichkeitsmaße (RIW und GIW(1)) in sehr anschaulicher Form zeigt. Man unterscheidet auf den beiden Scattergrammen deutlich einen Hauptschwarm und mindestens einen Nebenschwarm. Der Hauptschwarm gehört zu den anhand der genuin italienischen Meßpunkte vorgenommenen Ähnlichkeitsmessungen, der Nebenschwarm zu jenen Ähnlichkeitsmessungen, die zu den rätoromanischen und frankoprovenzalischen Meßpunkten des AIS-Netzes durchgeführt wurden. Man beachte den mittels der Gewichtung (bei GIW(1)) erzielbaren „Kompaktierungseffekt“! Wiewohl zu N Meßpunkten stets N Ähnlichkeitskarten erstellt werden können, bedeutet dies nicht, daß jede dieser N Ähnlichkeitskarten einen gesonderten Bildtyp repräsentiert. So sind die Prüfbezugspunkte der Abb. 37.6 und 37.7 sowie 37.8 und 37.9 einander direkt benachbart. Man erkennt, daß die betreffenden Choroplethenprofile einander sehr ähnlich sind. Bei Versetzung des Prüfbezugspunktes erfährt der jeweilige Bildtyp nur dann eine tiefergreifende Veränderung, wenn dabei der Prüfbezugspunkt in eine typologisch stark abweichende Zone
37. Dialektometrie
505
Abb. 37.3: Zwei Ausprägungen (anhand RIW und GIW (1)) der Relation zwischen linguistischer Ähnlichkeit und geographischer Distanz.
gerät: so liegen die Prüfbezugspunkte der Karten 37.6 und 37.7 einerseits und der Abb. 37.8 und 37.9 andererseits in solchen „typologisch stark voneinander abweichenden
Zonen“. Diese von Ähnlichkeitskarte zu Ähnlichkeitskarte mehr oder weniger stark schwankende Bildtypendifferenz kann K bei Vorhandensein entsprechender photo-
506 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology oder EDV-graphischer Hilfsmittel (Überblendprojektion, Trickfilm, Computer-Animation) K zur Erzeugung kinematographischer Effekte (Fließbild-Effekte) in der Form einer „dynamischen Bildtypologie“ verwendet werden: cf. dazu Goebl 1984 I, 104 f. Die sprachgeographisch bedeutsamste Aussagekraft von Ähnlichkeitskarten liegt in der präzisen Beantwortung einer explizit und implizit im Rahmen von Dialektologie und Variationslinguistik sehr oft gestellten Frage, nämlich nach der „Stellung der Varietät X im Rahmen eines umgebenden Varietätenraumes“. Die von den Abb. 37.6 und 37.7 gelieferten Informationen zeigen deutlich, wie die Dialektizitäten der AIS-Meßpunkte 252 respektive 1 innerhalb des untersuchten Meßpunktfeldes gelagert sind. Die Frage nach dem WIE wird hier quantitativtypologisch beantwortet und setzt damit den Rückgriff auf eine quantitative Begrifflichkeit voraus, die in der Sprachwissenschaft im allgemeinen und in der sprachwissenschaftlichen Typologie im besonderen keine große Tradition hat; cf. dazu Goebl 1984 I, 98 f. 3.1.2.1. (Geo)Linguistische Interpretation der Abb. 37.6K37.14 Vorbemerkung: Zur Numerierung der Polygone der ALF-Karten siehe http://ald.sbg. ac.at/dm/germ/Allgemein/ALF_Netz.pdf. Die Abb. 37.6 und 37.7 haben einander direkt benachbarte Prüfbezugspunkte und zeigen beide ein typisch westlombardisches Ähnlichkeitsprofil. Der Profilverlauf gestaltet sich gegen Norden (Rumantschia bzw. Rätoromanisch der Schweiz) sehr abrupt, gegen Westen, Süden und Osten dagegen um einiges weicher. Aus der Sicht der romanischen Geolinguistik kann die Lage aller sechs Wertstufen plausibel interpretiert werden. Der Prüfbezugspunkt der Abb. 37.6 (252-Monza) ist stärker städtisch beeinflußt als jener von Abb. 37.7 (250-Maniago: ein kleines Dorf, 30 km westlich von Mailand). Man erkennt dies vor allem an der größeren Ähnlichkeit des Toskanischen (Wertklasse 4, Gelb, statt 3, Grün) und des Hochitalienischen zum Prüfbezugspunkt 252. Die Abb. 37.8 und 37.9 haben erneut einander benachbarte Prüfbezugspunkte, die beide im Einzugsbereich des Surselvischen, einer westlichen Variante des Bündnerromanischen, liegen. Bemerkenswert sind die Lage der „Antipoden“ (Wertklasse 1, Dunkelblau) in der Toskana und in der Romagna
sowie die nach Osten weisenden Ähnlichkeitsbezüge zum Ladinischen und Friaulischen (Wertklasse 4, Gelb). Die Bildsyntax wird an einigen Stellen (AIS-Punkte mit reduziertem Korpus) auf Grund des Fehlens von Daten durch Polygone in (der überhöhten) Wertklasse 4 (Gelb) gestört. Die Abb. 37.10 stellt K da ihr Prüfbezugspunkt das Hochitalienische (ein in das AIS-Netz post festum eingesteuerter „Kunstpunkt“) ist K letztendlich eine Bilanz der Italianisierung des ganzen Untersuchungsraumes dar. Die „anti“-italienischen Residuen liegen erwartungsgemäß an der Peripherie. Die auf dem französischen Sprachatlas ALF beruhenden Abb. 37.11K37.14 haben nacheinander als Prüfbezugspunkte das Hochfranzösische (Abb. 37.11), einen pikardischen (Abb. 37.12), einen frankoprovenzalischen (Abb. 37.13) und einen languedokischen (Abb. 37.14) Lokolekt. Die darauf sichtbaren Choroplethenprofile sind für die Einzugsbereiche des zentralen Nordfanzösischen, des Pikardischen, Frankoprovenzalischen und Languedokischen als „typisch“ zu bezeichnen und treten daher auch bei der Ähnlichkeitsmessung ausgehend von ALFPunkten auf, die in der Nähe zu den hier gewählten Prüfbezugspunkten liegen. Die Summe der warmfarbenen Polygone einerseits und jene der kaltfarbenen Polygone andererseits ist auf den Abb. 37.11 und 37.12 ungefähr gleich groß und deckt eine in der Galloromanistik traditionsgemäß als „Domaine d’Oı¨l“ bezeichnete Sprachlandschaft ab. Umgekehrt verweisen die warmfarbenen Polygone der Abb. 37.14 auf die galloromanische Sprachlandschaft „Domaine d’Oc“. Auf Abb. 37.13 entsprechen die roten und orangefarbenen Polygone weitgehend der traditionell dem Frankoprovenzalischen zugesprochenen Fläche. Die Lage der jeweiligen „Antipoden“ (Dunkel- und Hellblau) ist räumlich deutlich markiert. Noch zwei Hinweise: (1) Am Südrand der katalanophonen Landschaft Roussillon befindet sich der Kunstpunkt Hochkatalanisch (P. 997) und am äußersten Ostrand der Provence K und zwar direkt an der Küste K der Kunstpunkt Hochitalienisch (P. 998). Es hat sich allerdings gezeigt, daß die diesen beiden Kunstpunkten zugeordneten Hochsprachen bei der Ausbildung der (süd)galloromanischen Land-
507
37. Dialektometrie
schaften keine auch nur annähernd mit dem Hochfranzösischen vergleichbare Rolle gespielt haben. (2) Auf den Abb. 37.11K37.13 ist südlich von Bordeaux ein gelb markiertes Polygon sichtbar, das im Westen und Süden von hellblauen und im Osten und Norden von grünen Polygonen umgeben und von der warmfarbenen Zone deutlich abgesetzt ist. Es handelt sich dabei um den zur (nordfranzösischen) Sprachinsel der „Petite Gavacherie“ gehörenden ALF-Meßpunkt 635 (Andraut, Département Gironde). 3.1.2.2. Außerlinguistische Interpretation der Abb. 37.6K37.14 Die Abb. 37.6K37.14 können auch aus außerlinguistischer Sicht interpretiert werden. So erlaubt es die algebraische Logik des verwendeten Ähnlichkeitsmaßes (RIWjk), eine Ähnlichkeitskarte fernsprechtechnisch zu interpretieren. Dabei entspricht dem Prüfbezugspunkt ein Telephonanschluß: der Profilverlauf der Ähnlichkeitskarte zeigt an, wohin der betreffende Telephoninhaber am meisten telephoniert bzw. woher er die meisten Gespräche empfangen hat (cf. dazu Rauh 1998, passim). Diese funktionale Interpretation per analogiam vollzieht grosso modo jene Prozesse nach, die bei einer räumlichen Diffusion von sprachlicher Affinität (repräsentiert hier vor allem durch lexikalisch und morphosyntaktisch affine Einheiten) ablaufen bzw. bis dato abgelaufen sind. Eine andere interdisziplinäre Analogieinterpretation der Ähnlichkeitskarten bezieht sich auf den in der Humangeographie gebräuchlichen Begriff der „Zentralität“ bzw. der „zentralen Lage“ eines Orts (hier: eines Meß- bzw. Prüfbezugspunktes). Ein Vergleich der Abb. 37.6 und 37.8 zeigt, daß die Dialektizität des AIS-Punkts 252 (i. e. der Vektor des Meßpunkts 252) besser in die Datengesamtheit integriert ist als die Dialektizität des AIS-Punkts 1. Als Maßzahl hiefür kann beispielsweise das arithmetische Mittel (oberer Eckwert der Farbstufe 3, Grün) der jeweiligen Ähnlichkeitsverteilung genommen werden (Abb. 37.6: 69,39; Abb. 37.8: 48,37). In diesem Zusammenhang ist auch ein Vergleich der Silhouetten der beiden Histogramme angebracht: auf Abb. 37.6 ist eine leicht rechtsschiefe, auf Abb. 37.8 eine stark linksschiefe Verteilung sichtbar. Die Ähnlichkeitsverteilungen sind also nicht nur ikonisch-kartographisch, sondern offenbar auch mathematisch-statistisch typisiert.
3.2. Erstellung von Kennwertsynopsen (Abb. 37.15K37.17, Anhang) Die Ähnlichkeitskarte repräsentiert eine Ordnungsstruktur niederen Ranges. Will man höherrangige und damit komplexere, umfassendere, globalere Ordnungsstrukturen sichtbar machen, muß man entsprechende Komplexitätskriterien definieren bzw. K mit anderen Worten K in komplexerer Weise auf die Daten der Ähnlichkeitsmatrix zugreifen. Siehe dazu Abb. 37.2, rechte untere Hälfte. 3.2.1. Synopse der Schiefen von N Ähnlichkeitsverteilungen (Abb. 37.15K37.17, Anhang) Unter Schiefe versteht man einen Kennwert der deskriptiven Statistik, mit dem die Symmetrie bzw. Asymmetrie einer Häufigkeitsverteilung erfaßt wird. Ein Vergleich der Silhouetten der Histogramme der Abb. 37.6 und 37.8 ist hiefür lehrreich. Das Prinzip der Synopse der Schiefen besteht darin, für jede der Ähnlichkeitsverteilungen die Schiefe zu errechnen und anschließend den errechneten Schiefenwert an der Stelle des jeweiligen Prüfbezugspunkts einzutragen. Dieser Vorgang wird N mal wiederholt. Solcherart entsteht eine Häufigkeitsverteilung aus N Schiefenwerten, die in üblicher Weise visualisiert wird: siehe dazu die Abb. 37.15 K 37.17. Die Formel für die Schiefe lautet wie folgt: n _ (RIWjk K Xj)3 ∑ iZ1 (2) gj Z n $ s3j In dieser Formel bedeuten: gj sj RIWjk k n _ Xj
Schiefe einer Ähnlichkeitsverteilung zum Prüfbezugspunkt j Standardabweichung einer Ähnlichkeitsverteilung zum Prüfbezugspunkt j einzelner RI-Wert einer Ähnlichkeitsverteilung zum Prüfbezugspunkt j Index für die jeweils mit j verglichenen Meßpunktvektoren: läuft zwischen 1 und N N K 1 (hier: 250, bei N Z 251 (bzw. 640, bei N Z 641)) arithmetisches Mittel einer Ähnlichkeitsverteilung zum Prüfbezugspunkt j
Der Wert gj kann positive und negative Werte annehmen. Bei vollständiger Symme-
508 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology trie der Ähnlichkeitsverteilung ist der Wert von gj Null. Für taxometrische Zwecke können sowohl die Meßwertausprägung als auch nur die Vorzeichenvariation benutzt werden. Für die Abb. 37.15K37.17 gilt ersteres. Zum Verständnis der drei Karten muß man sich zuvorderst über die geolinguistische Bedeutung des Kennwerts „Schiefe“ Rechenschaft ablegen. Bei Ähnlichkeitsverteilungen mit stark negativer Schiefe (d. h. mit rechtssteiler Kurvensilhouette) liegt die Mehrzahl der einzelnen RI-Werte über dem arithmetischen Mittel. Bei Ähnlichkeitsverteilungen mit stark positiver Schiefe (d. h. mit linkssteiler Kurvensilhouette: siehe das Histogramm auf den Abb. 37.8 und 37.9) liegt die Mehrzahl der einzelnen RI-Werte unter dem arithmetischen Mittel. Je größer die Anzahl der RI-Werte über dem arithmetischen Mittel ist, desto besser ist die fragliche Ähnlichkeitsverteilung (und damit die Dialektizität des dazugehörenden Meßpunktvektors) in die Datengesamtheit integriert. Die fragliche Dialektizität kann demnach als mehr oder weniger gut, akzeptiert, „im Trend liegend“, anpassungsfähig, durchsetzungskräftig etc. betrachtet werden. Dieser Umstand läßt sich durch eine kommunikationstheoretische Analogie verdeutlichen: jeder Merkmalsvektor sei einer von N Spielern. Er kann gegen jeden seiner NK1 Mitspieler jeweils einmal spielen. Aus diesen NK1 Spielen eines jeden Spielers erwächst ein numerisches Spielresultat (hier: die Schiefe gj). Die N möglichen Spielresultate der N Spieler werden verglichen. Schlechte Spieler erzielen „nur“ positive Schiefewerte, gute Spieler erzielen negative Werte. Diese Problematik knüpft an in der Dialektologie oft gebrauchte, aber stets sehr vage verbliebene Begriffe wie „laterale vs. zentrale Dialektzonen“, „konservative vs. innovatorische Gebiete“ etc. an. 3.2.2. (Geo)linguistische Interpretation der Abb. 37.15 Die Abb. 37.15 zeigt ein bildsyntaktisch überaus harmonisch aufgebautes Profil. An der Peripherie liegen die traditionell als „nicht-italienisch“ eingestuften Dialektzonen des Alpinokzitanischen, Frankoprovenzalischen (Aostatal und südliche Vorlande), Bündnerromanischen, Sellaladinischen und Friaulischen. Sie haben alle sehr hohe Schiefenwerte. Dagegen bilden die kleinsten Meßwerte (Farbstufe 1, Dunkelblau) zusammen eine Art Zange, deren Arme grosso
modo einerseits dem Tal der Etsch und andererseits dem Verlauf des Apennin entsprechen. Es sind das Zonen, die gemäß unserer Definition Meßpunktvektoren enthalten, deren Dialektizitäten als überaus „anpassungsfähig“ bzw. „durchschlagskräftig“ angesehen werden können. Daß damit zugleich markante Sprachgrenzgebiete erfaßt werden, die aus der klassischen Sprachgeographie her bekannt sind, sollte nicht erstaunen, da Sprachgrenzgebiete immer auch dem Sprachaustausch dienen und solcherart eine gewisse „Doppelnatur“ bzw. „Ianusköpfigkeit“ besitzen: man vergleiche dazu die Abb. 37.15 und 37.18 bzw. die Abb. 37.16 K 37.17 und Abb. 37.19! Grosso modo darf festgestellt werden, daß durch die in dunkelblau kolorierten Polygone jene Gebiete erfaßt werden, in denen die intensivsten Sprachaustausch-, Sprachausgleichs- und Sprachkontaktphänomene stattfinden bzw. stattgefunden haben. 3.2.3. (Geo)linguistische Interpretation der Abb. 37.16 und 37.17 Die Abb. 37.16 und 37.17 wurden zum einen nicht mit 6, sondern mit 8 Farbstufen erzeugt und beruhen zum anderen auf verschiedenen Teilkorpora unserer ALF-Daten. Ersteres geschah, um die hochinteressanten Musterstrukturen der beiden Karten einzeln und im Vergleich miteinander besser sichtbar zu machen; letzteres, um zu zeigen, wie sich kategorielle Unterschiede bei den zu synthetisierenden Daten auf die dialektometrischen Choroplethenprofile auswirken. Wie bei Abb. 37.15 ist zunächst auf die Lage der dunkelblauen Zonen zu achten, wo bekanntlich die intensivsten Sprachausgleichsprozesse ablaufen. Auf beiden Karten erkennt man dabei eine Nordfrankreich bzw. das Domaine d’Oı¨l umschließende zirkuläre Struktur, die ihr Irradiationszentrum im (grün markierten) Zentrum Nordfrankreichs zu haben scheint. Auch das Frankprovenzalische (im Südosten) ist Gegenstand einer von Norden, Westen und Süden wirksamen Umfassung. Die vierfache Abstufung der kalten Farben läßt die Zirkularität der Sprachausgleichsgebiete besonders deutlich zutage treten. Demgegenüber signalisieren die in Rot, Orange etc. markierten Gebiete (v. a. Gascogne, Languedoc, Roussillon, Provence) das weitgehende Fehlen weitstrahlig angelegter Sprachausgleichsvorgänge und repräsentieren demnach Relikt- bzw. „Außenseiter“-Zonen. Überaus be-
509
37. Dialektometrie
merkenswert ist die weitgehende Ähnlichkeit der beiden Choroplethenprofile, die immerhin auf Korpora beruhen (Abb. 37.16: Phonetik, Abb. 37.17: Lexikon), denen traditionell nicht dieselbe Neigung zu Gesetzmäßigkeiten und Strukturbildung zugeschrieben wird. Ich erinnere in diesem Zusammenhang an die in Germanistik und Romanistik hinsichtlich der angeblichen „Spontaneität“ und „Wanderfreudigkeit“ des Wortschatzes seit Jacob Grimm immer wieder zitierte Maxime der zufolge „jedes Wort seine eigene Geschichte“ habe (cf. Christmann 1971). Solcherart wurden Wortschatzstudien dominant im Zeichen kasuistischer Einzelanalysen betrieben. Demgegenüber belegen die hier gezeigten synthetischen Resultate, daß es möglich ist, durch die konsequente Addition vieler Einzel-„Geschichten“ zu einer Global-„Geschichte“ der lexikalischen Bewirtschaftung einer bestimmten Gegend durch die betreffenden Sprecher vorzustoßen bzw. diese zu rekonstruieren. Auf beiden Karten ist ferner die jeweils überaus charakteristische Gestaltung der Kontaktzonen zwischen dem Domaine d’Oı¨l und dem Domaine d’Oc bemerkenswert, wobei der breite dunkelblaue Gürtel auf Abb. 37.17 räumlich besonders tief gestaffelte Sprachaustauschvorgänge signalisiert. Siehe dazu auch Goebl 2002, 25 f. und 2003, 81 f. 3.3.
Distanzmessung und Isoglossensynthese (Abb. 37.18K37.19, Anhang) 3.3.1. Methodisches, Verfahrenstechnisches Das klassische Isoglossenprinzip (cf. dazu Händler/Wiegand 1982) kann dialektometrisch unschwer nachmodelliert werden. Zwischen den Meßpunktvektoren werden statt Ähnlichkeiten Distanzen gemessen. Dies bedeutet, daß Koidentitäten und Kodifferenzen ihre Stelle wechseln und in der Formel (1) füreinander eintreten. Das dabei entstehende Distanzmaß sei „Relativer Fündigkeitswert“ (RFWkj) genannt. Zum „Relativen Identitätswert“ (RIWjk) verhält sich der RFWkj komplementär: RFWkj C RIWjk Z 100
(3)
Mit dieser Formel kann aus der Ähnlichkeitsmatrix der Abb. 37.1 und 37.2 unschwer die Distanzmatrix der Abb. 37.4 hergeleitet werden. Von ausschlaggebender Bedeutung ist ferner, daß aus der solcherart generierten Di-
stanzmatrix nur eine relativ kleine Anzahl von Meßwerten zur Kartierung bzw. Visualisierung abgegriffen wird. Es sind dies jene Meßwerte, die auf Grund der durch die Thiessen(bzw. Delaunay-Voronoi-) Parkettierung festgelegten Nachbarschaftslage (Kontiguität) hiefür in Frage kommen. Siehe dazu wiederum Abb. 37. 4 (linke Hälfte). Alle anderen Meßwerte werden beiseitegelassen bzw. unterdrückt. Die fraglichen Relationen sehen in unserem Fall wie folgt aus: in der italienischen Distanzmatrix (nach AIS) sind 31.375 Meßwerte enthalten (Z N / 2 (N K 1), bei N Z 251). Davon werden nur 665 Meßwerte (für ebensoviel „Polygonseiten“) (Z 2,12 %) abgegriffen und visualisiert. Im Falle Frankreich (nach ALF) sind das bei 205.120 Meßwerten der Distanzmatrix und 1791 Polygonseiten gar nur 0,87 % aller Meßwerte. Die Isoglossenklassifikation ist also sehr selektiv. Die gesamte ikonische Klassifikationsaussage entsteht durch das bildsyntaktische Zusammenspiel von 665 bzw. 1791 Polygonseiten sowie durch deren Färbung und Strichstärke. Die strenge Einhaltung der durch das Haag/ Thiessen/Delaunay-Voronoi-Prinzip vorgegebenen geometrischen Normen ist für das Gelingen und die Aussagekraft der Isoglossensynthese von entscheidender Bedeutung. Leider haben viele, auch genuin dialektometrisch angelegte, Isoglossensynthesen (z. B. Guiter 1973) diesen Grundsatz nicht beachtet. Bedeutsam ist ferner K genau wie bei den Choroplethenkarten K die Wahl des passenden Intervallalgorithmus, der die Umsetzung der 665 bzw. 1791 Distanzwerte in eine sehpsychologisch verkraftbare Anzahl von Strichstärken steuert. Der hier gewählte Intervallalgorithmus (MED) beruht auf dem Prinzip der Bildung von hinsichtlich der Zahl der Meßwerte (bzw. Polygonseiten) möglichst gleich großen Klassen. Allgemein ist festzuhalten, daß Aussagekraft und Bildqualität von Isoglossensynthesen von der Größe und Dichte des Meßpunktefeldes und damit von der Anzahl der verfügbaren Grenzsegmente (bzw. Polygonseiten) abhängig sind. Dabei gilt die Faustregel: je größer die Anzahl der Grenzsegmente, desto differenzierter die Bildsyntax und damit desto größer der typologische Wert der Isoglossensynthese. Isoglossensynthesen mittels Wabenkarte gehören seit Haag (1898) zum festen Repertoire der germanistischen Dialektologie. Romanistische Isoglossensynthesen haben dagegen bis vor kurzem auf die Anwendung
510 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
Distanzmaß: Relativer Fündigkeitswert (RFWkj)). Die Werte der Distanzmatrix wurden aus jenen der Ähnlichkeitsmatrix in Abb. 37.1 nach der folgenden Formel abgeleitet: RFWkj C RIWjk Z 100. Abb. 37.4: Exhaustion und Kartierung jener RF-Werte (RFWkj) der Distanzmatrix, die hierfür auf Grund der Nachbarschaftsgeometrie der Grundkarte in Frage kommen.
der Haag/Thiessen/Delaunay-Voronoi-Parkettierung verzichtet und sind aus diesem Grund graphisch mehr oder weniger mißlungen (typisch dafür Ettmayer 1924, Atwood 1955, Goebl 1981 und zahlreiche Arbeiten von Guiter seit 1973, z. B. Guiter 1984; graphisch bessere Resultate liefern dagegen Polanco Roig 1983 und Saramago 1986). Einen gesonderten Hinweis verdient eine mit einer Wabenkarte anhand von AIS-Daten (phonetische Variation) durchgeführte Isoglossensynthese von Haag selber (1930). Die dabei erzielte Bildaussage ist jener von Abb. 37.18 durchaus ähnlich. Ich habe seit 1985 damit begonnen, vor allem für romanistische Sprachatlanten stumme Karten mit grau oder gerastert aufgedruckter Haag/Thiessen/Delaunay-Voronoi-Parkettierung zu produzieren (cf. Goebl 1998). Die Verwendung derartiger stummer Karten würde es gestatten, in Hinkunft graphischen Insuffizienzen der inkriminierten Art zu begegnen und das für methodisch korrekte Isoglossensynthesen notwendige Problembewußtsein der Sprachgeographen zu schärfen. 3.3.2. (Geo)linguistische Interpretation der Abb. 37.18 und 37.19 Auf die Beigabe von Listen aller 665 bzw. 1791 kartierten RF-Werte mußte verzichtet werden: zu den AIS-Werten cf. Goebl 1983b, 396 f. und 1984 III, 285 f. Die bildtypologische Aussagekraft der Abb. 37.18 und 37.19 beruht auf dem sechsfach gestuften Zusammenspiel von 665 bzw. 1791 Grenzsegmenten (Schot-
ten, Wabenkanten, Polygonseiten etc.). An charakteristischen Stellen der beiden Karten ergibt sich dabei aus der mehr oder weniger kompakten Abfolge ähnlich dicker Grenzsegmente der Eindruck einer Begrenzung. Nirgends aber entsteht durch das Zusammenwirken mehrerer Grenzsegmente eine gleichmäßig dicke, durchgehende Linie, die den in der traditionellen Sprachgeographie üblichen Begriff der „Dialektgrenze“ rechtfertigen würde. Dieser undifferenzierte (qualitative) Begriff ist für Zwecke von Typodiagnose und Datensynthese völlig unbrauchbar. Er sollte vermöge der ihm inhärenten Indifferenziertheit nur zur Bezeichnung jener Grenzlinien (Z Isoglossen im eigentlichen Sinne) verwendet werden, die das Einzugsgebiet eines einzigen, räumlich kompakt auftretenden geolinguistischen Merkmals (Taxat-types) umspannen. Beim Sprechen von „Dialektgrenzen“ im dialektometrischen Kontext muß man sich dessen bewußt sein, daß eine dialektometrische Dialektgrenze einem quantitativen Begriff entspricht und de facto einen höchst differenziert verlaufenden „Höhenzug“ repräsentiert. Überdies hat man diesen Umstand bereits früh erkannt, doch bis heute daraus nicht die nötigen begrifflichen und terminologischen Konsequenzen gezogen: „[...] mais encore faut-il s’entendre sur le mot frontie`re, limite, muraille, ou tout autre que l’on voudra employer. Entre le basque et le béarnais vous trouverez en effet une limite en quelque sorte matérielle et tangible, parce que ces langues sont absolument différentes; mais, quand il
37. Dialektometrie
s’agit de langues ou de dialectes de même origine, la limite sera une zone intermédiaire. Il y aura transition et non un brusque saut“ [„. doch müßte man sich hinsichtlich der Bedeutung von frontie`re, limite, muraille oder anderen Wörtern verständigen. Zwischen dem Baskischen und dem Bearnesischen kann man eine in gewisser Weise materielle und greifbare Grenze finden, weil diese beiden Sprachen von Grund auf verschieden sind; aber wenn es sich um genetisch verwandte Sprachen oder Dialekte handelt, wird die Grenze eine Übergangszone sein. Es wird also ein Hinübergleiten und keinen abrupten Sprung geben.“] (Castets 1888, 307). Die Abb. 37.18 zeigt deutlich komplex gestaltete Raumkammerungen, die alle traditionell bekannten Dialektlandschaften Oberitaliens und der Südschweiz hervortreten lassen. Die intensivsten Abschottungen finden sich zwischen Graubünden und der Lombardei einerseits sowie zwischen dem Aostatal und Piemont andererseits. Die bekannte Apenninengrenze tritt demgegenüber numerisch zurück. Durch den bei der Erstellung der Abb. 37.18 verwendeten Intervallalgorithmus (MED) wird diese numerische Unterschiedlichkeit allerdings im oberen Meßwertebereich zugunsten differenzierterer Gliederungen im mittleren Meßwertbereich ikonisch verwischt. Auf Abb. 37.19 repräsentiert der breite Grenzgürtel zwischen dem Domaine d’Oı¨l und dem Domaine d’Oc das Zentrum der Bildaussage. Daneben sind auch die dunkel und hellblau markierten Verschottungseffekte im Nordosten (Wallonie, Lothringen) und Osten (Frankoprovenzalisch) des ALFNetzes bemerkenswert. Deutlich ist ferner der Stoß zwischen den Dialektlandschaften Languedoc und Roussillon markiert (dunkelblaue, dicke Grenzsegmente), welch letzterem gegenüber sich sogar das homogenetische Hochkatalanische deutlich absetzt. Die im Bereich des Nordrands des Massif Central in der Gestalt einer querliegenden Mondsichel auftretenden Abschottungen markieren die seit etwa 100 Jahren in der Galloromanistik immer wieder diskutierte Übergangszone (zwischen Oı¨l und Oc) des „Croissant“ (cf. Brun-Trigaud 1990). Sehr deutlich ist auch südlich von Bordeaux die vorhin schon erwähnte Sprachinsel der Petite Gavacherie (ALF-Punkt 635) zu sehen. Als isoglottisch weniger gegliedert (dünne, rote Grenzsegmente) erscheinen drei Zonen: das Zentrum Nordfrankreichs rund um Paris, das südliche Languedoc und die südliche Provence.
511 3.4. Hierarchisch-agglomerative Klassifikation Dieses Verfahren ist im Rahmen der Dialektometrie sehr gut einsetzbar. Fast alle der in der einschlägigen Literatur dazu beschriebenen Methoden ergeben brauchbare Resultate. Aus Platzgründen werden hier nur die Ergebnisse (anhand von ALF) der Methode „complete linkage“ vorgeführt. Die Kenntnis des Funktionierens von „complete linkage“ muß dabei als bekannt vorausgesetzt werden (cf. Bock 1974, 392 f. und Vogel 1975, 300 f.; zu einer ausführlichen Diskussion im Rahmen der Dialektometrie cf. Goebl 1992, 1993a und b sowie 1997, 2002, 29 f. und 2003, 84 f.). Der Gesamtertrag der Klassifikation nach „complete linkage“ liegt in einem Baumgraphen vor, der „bottom up“ K d. h. in der Richtung von den Blättern des Baumes zum Stamm K generiert wurde. Die Verzweigungsstruktur des Baumes ist streng binär und hierarchisch. Aus dialektometrischer bzw. geolinguistischer Sicht interessieren nur bestimmte (in sich kohärente) Abschnitte des Gesamtbaumes („Dendreme“) und deren räumliche Umlegung in das betreffende Sprachatlasnetz („Choreme“). Der Einfachheit halber wurden für das ALF-Netz nur 11 Dendreme (alle in der Nähe des Stammes) ausgewählt und räumlich umgelegt: siehe dazu das Abbildungspaar 37.20 und 37.21. Die dabei jeweils zustandekommenden Raumpartitionen sind aus geolinguistischer Sicht überaus interessant und zugleich hochplausibel. Bemerkenswert ist die große räumliche Kohärenz der Choreme: Ausreißer sind sehr selten. Die Dendrogramme können im Prinzip sowohl synchron (zu Zwecken der Dialektklassifikation) als auch diachron (zu Zwecken der Rekonstruktion der dialektalen Ausgliederung) interpretiert werden. Dabei entspricht die diachrone Interpretation sowohl inhaltlich wie methodisch voll und ganz der Lexikostatistik. Dieser in der Fachwelt viel zu wenig bekannte Sachverhalt soll hier besonders hervorgehoben werden (cf. auch Sankoff 1973 sowie Goebl 1992, 70 f. und 1993a, 75 f.). Die auf den Abb. 37.20 (Baum) und 37.21 (dazu Spatialisierung) aufscheinenden Gruppierungen wurden mittels des von E. Haimerl (siehe hier Art. 38) geschriebenen Dialektometrie-Programms VDM („Visual Dialectometry“) erstellt und können die mit der hierarchisch-agglomerativen Klassifikation (mittels Baumgraphen) einerseits und dem Programm VDM andererseits gegebenen Mög-
512 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology lichkeiten nur andeuten. Der Einsatzbereich der hierarchisch-agglomerativen Klassifikation ist nämlich durch die Kombination einer Vielzahl von Ähnlichkeitsmaßen (hier: RIWjk K Relativer Identitätswert) mit einer Vielzahl von Baumalgorithmen (hier: Complete Linkage) überaus breitgefächert. Entsprechende Selektionen müssen demnach vom Linguisten hinsichtlich ihrer Nützlichkeit für bestimmte Forschungsziele genau geprüft werden. An den beiden obersten Astgabeln oder Bifurkationen (A und B) werden mit dem Dendrem-Chorem 1 die katalanischen Lokolekte des Roussillon, das Hochkatalanische und das Hochitalienische vom Rest des ALFNetzes (Bifurkation B) abgetrennt. Dieser Rest zerfällt seinerseits in das Domaine d’Oc (Bifurkation C: Dendreme-Choreme 2K5) und das Domaine d’Oı¨l (Bifurkation D: Dendreme-Choreme 6K11). Das Domaine d’Oc gliedert sich sehr schlüssig in die Dendreme-Choreme 5 (Gascogne), 4 (Languedoc), 3 (Provence) und 2 (Alpinprovenzalisch, z. T. auf italienischem Staatsboden). Gleiches gilt für das Domaine d’Oı¨l (Bifurkation D). Dabei entsprechen die von der Bifurkation D wegstrebenden Verzweigungen G, H und I der Reihe nach dem „Croissant“, dem Frankoprovenzalischen und dem eigentlichen Domaine d’Oı¨l (Dendreme-Choreme 8K11). Auffällig ist daran die Anbindung des „Croissant“ (Dendrem-Chorem 6) und des Frankoprovenzalischen (Dendrem-Chorem 7) an das Astwerk des Domaine d’Oı¨l. Im Zuge anders angelegter hierarchisch-agglomerativer Analysen können beide einzeln oder getrennt auch an das Domaine d’Oc angeschlossen werden. Das Domaine d’Oı¨l zerfällt im Rahmen des gewählten Klassifikationskontextes in räumlich überaus kompakte Makrochoreme (8: Pikardie, Wallonie, Nordlothringen; 9: Südlothringen, Franche-Comté; 10: Poitou, Saintonge samt Petite Gavacherie; 11: Rest des Domaine d’Oı¨l). Selbstverständlich kann auch das Dendrem-Chorem 11 bei Bedarf weiter aufgegliedert werden. Unsere bislang mit der hierarchisch-agglomerativen Klassifikation nordfranzösischer (1983b), italienischer (1992 und 1993a, b) und englischer (1997) Daten gemachten (sehr positiven) Erfahrungen werden nunmehr durch die Resultate der Analyse der ALF-Daten K welche zugleich umfangsmäßig das Maximum unserer bisherigen Klassifikationen repräsentieren K vollauf bestätigt.
4.
Nachbemerkung
Die Dialektometrie zählt als typodiagnostisches Verfahren unzweifelhaft zur Domäne der linguistischen Klassifikation und/oder Typologie. Von Begrifflichkeit, Methode und Methodologie steht sie den von Greenberg (z. B. 1957, 1960) vorgelegten klassifikatorischen Arbeiten noch am nächsten. Aus der Sicht der Dialektometrie und der ihr zugrundeliegenden methodischen Postulate sind Klassifikation und Typologie nicht notwendigerweise getrennt zu halten, wie das ansonsten im Rahmen der Linguistik geschieht. Die typologische Erkenntnisabsicht der Dialektometrie zielt auf die Erstellung bzw. Entdekkung geolinguistischer Organisations- und Musterstrukturen. Die in der Dialektometrie mittels Klassenbildung (Klassifikation) generierten Typen sind quantitativ strukturierte räumliche Ordnungsmuster verschiedenen Ranges. Damit setzt die Dialektometrie überkommene sprachgeographische Fragestellungen meist qualitativer Ausrichtung mit quantitativen Mitteln fort. Insofern diese traditionellen Fragestellungen von syn- und diachroner Relevanz waren oder sind, trifft das auch auf die Fragestellungen der Dialektometrie zu. Wie schon bei der klassischen Sprachgeographie sind auch bei der Dialektometrie die Sach- und Analogiebezüge zu den Geo- und Sozialwissenschaften unübersehbar. Diese interdisziplinäre Brücke sollte mit aller Sorgfalt und Umsicht ausgebaut werden. Siehe dazu beispielsweise den Vergleich zwischen geo-genetischen und geo-linguistischen Datensynthesen in Goebl 1996. Dialektometrische Methoden können nur sinnvoll auf genuine Sprachatlasdaten angewandt werden. Eine Heranziehung oder Anwendung dialektometrischer Methoden auf andere als geolinguistische Datensorten führt automatisch in eine Sackgasse und sollte unterbleiben. Vor der Durchführung dialektometrischer Projekte ist ein sorgfältiges Studium der numerischen und graphischen Methoden anhand der Originalliteratur unerläßlich. Ich schließe mit einer Paraphrase auf ein bekanntes Werk („On ne badine pas avec l’amour“ [„Man spielt nicht mit der Liebe.“]) des französischen Dichters Alfred de Musset (1810K1857): „On ne badine pas avec la dialectométrie“.
5.
Literatur (in Auswahl)
AIS: Jaberg, Karl/Jud, Jakob (Hrsg.) (1928K1940), Sprach- und Sachatlas Italiens und der Südschweiz,
37. Dialektometrie 8 vol. Zofingen: Ringier (Neudruck: Nendeln: Kraus 1971). ALF: Gilliéron, Jules/Edmond, Edmont (Hrsg.) (1902K1910), Atlas linguistique de la France [Sprachatlas Frankreichs], 10 vol. Paris: Champion (Neudruck: Bologna: Forni 1968K69). Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. Prinzipien und Meßverfahren. München: Fink (1973). Altmann, Gabriel (1985), Die Entstehung diatopischer Varianten. Ein stochastisches Modell. In: Zeitschrift für Sprachwissenschaft 4, 139K155. Atwood, E. B. (1955), The Phonological Division of Belgo-Romance. In: Orbis 4 , 367K389. Benzécri, J.-P./Benzécri, F. (1980), Pratique de l’analyse des données. 1. Analyse des correspondances. Exposé élémentaire [Praxis der Datenanalyse. 1. Die Korrespondenzanalyse: Einführung]. Paris: Dunod. Bock, Hans Hermann (1974), Automatische Klassifikation. Theoretische und praktische Methoden zur Gruppierung und Strukturierung von Daten (Cluster-Analyse). Göttingen: Vandenhoeck & Ruprecht. Brun-Trigaud, Guylaine (1990), Le croissant: le concept et le mot. Contribution à l’histoire de la dialectologie française au XIX e sie`cle [Das « Croissant » : der Begriff und das Wort. Ein Beitrag zur Geschichte der französischen Dialektologie im 19. Jahrhundert]. Lyon: Université-Lyon III Jean Moulin. Castets, F. (1988), Rezension zu: Gaston Paris, Les parlers de France [Die Dialekte Frankreichs] [1888]. In: Revue des langues romanes 32, 303K314. Chandon, Jean-Louis/Pinson, Suzanne (1981), Analyse typologique. Théories et applications [TypenAnalyse. Theorien und Anwendungen]. Paris, New York, Barcelona, Mailand: Masson. CLAE: Viereck, Wolfgang/Ramesch, Heinrich (Hrsg.) (1991, 1997), The Computer Developed Linguistic Atlas of England, 2 Bände, Tübingen: Niemeyer. Christmann, Hans Helmut (1971), Lautgesetze und Wortgeschichte. Zu dem Satz „Jedes Wort hat seine eigene Geschichte“. In: Stempel, Wolf-Dieter/Coseriu, Eugenio (Hrsg.), Sprache und Geschichte. Festschrift für Harri Meier zum 65. Geburtstag. München: Fink, 11K124. Dickinson, G. C. (1973), Statistical mapping and the presentation of statistics, London: Arnold, 2. Auflage. Durand, Joseph-Pierre (1889), Notes de philologie rouergate (suite) [Anmerkungen zur Philologie des Rouergue, Fortsetzung]. In: Revue des langues romanes 33, 47K84. Ettmayer, Karl von (1924), Über das Wesen der Dialektbildung, erläutert an den Dialekten Frankreichs. In: Denkschriften der Akademie der Wissenschaften in Wien, phil.-hist. Klasse, 66. Band, 3. Abhandlung, Wien, 1K56, 7 Tafeln.
513 Goebl, Hans (1981), La méthode des interpoints appliquée à l’AIS (essai de dialectométrie interponctuelle)[Die Interpunktmethode, auf den AIS angewendet: ein Versuch zur interpunktuellen Dialektometrie]. In: Mélanges de philologie et de toponymie romanes offertes à Henri Guiter, Perpignan, 137K 172. Goebl, Hans (1983a), Parquet polygonal et treillis triangulaire. Les deux versants de la dialectométrie interponctuelle [Polygonmosaik und Dreiecksvernetzung. Die zwei Seiten der Zwischenpunktdialektometrie]. In: Revue de linguistique romane 47, 353K412. Goebl, Hans (1983b), „Stammbaum“ und „Welle“. Vergleichende Betrachtungen aus numerisch-taxonomischer Sicht. In: Zeitschrift für Sprachwissenschaft 2 (1), 3K44. Goebl, Hans (1984), Dialektometrische Studien. Anhand italoromanischer, rätoromanischer und galloromanischer Sprachmaterialien aus AIS und ALF, 3 Bände, Tübingen: Niemeyer. Goebl, Hans (1987), Points chauds de l’analyse dialectométrique. Pondération et visualisation [Brennpunkte der dialektometrischen Analyse : Gewichtung und Visualisierung]. In: Revue de linguistique romane 51, 63K118. Goebl, Hans (1992), Dendrogramme im Dienst der Dialektometrie. Zwei hierarchisch-agglomerative Klassifikationen von Daten des Sprachatlasses AIS. In: Klenk, Ursula (Hrsg.), Computatio linguae. Aufsätze zur algorithmischen und quantitativen Analyse der Sprache, Stuttgart: Steiner, 54K73. Goebl, Hans (1993a), Dialectometry: A Short Overview of the Principles and Practice of Quantitative Classification of Linguistic Atlas Data. In: Köhler, Reinhard/Rieger, Burghard B. (Hrsg.), Contributions to Quantitative linguistics. Dordrecht: Kluwer, 277K315. Goebl, Hans (1993b), Eine hierarchisch-agglomerative Klassifikation von Daten des Sprachatlasses AIS. In: Schmidt-Radefeldt, Jürgen/Harder, Andreas (Hrsg.), Sprachwandel und Sprachgeschichte. Festschrift für Helmut Lüdtke zum 65. Geburtstag, Tübingen: Narr, 63K78. Goebl, Hans (1996), La convergence entre les fragmentations géo-linguistique et géo-génétique de l’Italie du Nord [Die Übereinstimmung zwischen der geo-linguistischen und der geo-genetischen Gliederung Norditaliens]. In: Revue de linguistique romane 60, 25K49. Goebl, Hans (1997), Some Dendrographic Classifications of the Data of CLAE 1 and CLAE 2. In: CLAE 2, 23K32. Goebl, Hans (1998), Due cartine mute poligonizzate per lo spoglio dell’Atlante linguistico italiano [Zwei stumme Karten mit Polygonnetz zur Auswertung des Atlante linguistico italiano]. In: Bollettino dell’Atlante linguistico italiano, III serie, Dispensa N. 22, 205K212 (C 2 Faltkarten).
514 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology Goebl, Hans (2002), Analyse dialectométrique des structures de profondeur de l’ALF [Dialektometrische Analyse der Tiefenstrukturen des ALF]. In: Revue de linguistique romane 66, 5K63. Goebl, Hans (2003), Regards dialectométriques sur les données de l’Atlas linguistique de la France (ALF): relations quantitatives et structures de profondeur [Dialektometrische Blicke auf die Daten des Atlas linguistique de la France (ALF): quantitative Relationen und Tiefenstrukturen]. In: Estudis Romànics 25, 59K121. Greenberg, Joseph H. (1957), The Nature and Uses of Linguistic Typologies. In: International Journal of American Linguistics 23, 68K77. Greenberg, Joseph H. (1960), A Quantitative Approach to the Morphological Typology of Language. In: International Journal of American Linguistics 26, 178K194. Guiter, Henri (1973), Atlas et frontie`res linguistiques [Atlanten und Sprachgrenzen]. In: Straka, Georges/Gardette, Pierre (Hrsg.), Les dialectes romans de France à la lumie`re des atlas régionaux (Colloque de Strasbourg 1971), Paris: Klincksieck, 61K109. Guiter, Henri (1984), Confrontation de méthodes géolinguistiques en domaine normand [Vergleich von geolinguistischen Methoden im Bereich des Normannischen]. In: Actes du 105( Congre`s national des Sociétés savantes (Caen 1980), Section de philologie et d’histoire, Paris, tome II, 19K28. Haag, Carl (1898), Die Mundarten des oberen Neckar- und Donaulandes (schwäbisch-alemannisches Grenzgebiet: Baarmundarten), Beilagen zum Programm der königlichen Realanstalt zu Reutlingen. Reutlingen: Hutzler. Haag, Karl (1930), Die Sprachlandschaften Oberitaliens. In: Germanisch-romanische Monatsschrift 18, 458K478. Händler, Harald/Wiegand, Herbert Ernst (1982), Das Konzept der Isoglosse. In: Besch, Werner et al. (Hrsg.), Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung. Berlin/New York: Walter de Gruyter, erster Halbband, 501K 527. Okabe, Atsuyuki/Boots, Barry/Sugihara, Kokichi (1992), Spatial Tesselations. Concepts and Applications of Voronoi Diagrams. Chichester/New York/ Brisbane/Toronto/Singapur: Wiley. Orth, Bernhard (1974), Einführung in die Theorie des Messens. Stuttgart: Kohlhammer. Polanco Roig, Lluís B. (1984), Llengua o dialecte: solucions teòriques i aplicació al cas català [Sprache oder Dialekt: theoretische Lösungen mit einer Anwendung auf das Katalanische]. In: Actes du XVIIe Congre`s international de linguistique e philologie romanes (Aix-en-Provence 1983), Aix-en-Provence, Band 5, 13K31. Rauh, Jürgen (1998), Telekommunikation und Raum. Informationsströme im internationalen, re-
gionalen und individuellen Beziehungsgefüge. Hamburg/Münster/London: LIT. Sankoff, David (1973), Mathematical Developments in Lexicostatistic Theory. In: Current Trends in Linguistics 11, 93K11. Saramago, João (1986), Différenciacion lexicale (un essai dialectométrique appliqué aux matériaux de l’A.L.E.) [Lexikalische Unterschiede (ein dialektometrischer Versuch mit Anwendung auf die Materialien des A.L.E.)]. In: Géolinguistique 2, 1K31. Schiltz, Guillaume (1996), Der Dialektometrische Atlas von Südwest-Baden (DASB). Konzepte eines dialektometrischen Informationssystems. 4 Bände, Marburg: Elwert. Schneider, Edgar (1984), Methodologische Probleme der Dialektometrie. In: Goebl, Hans (Hrsg.), Dialectology, Bochum: Brockmeyer, 314K335. Séguy, Jean (1973), La dialectométrie dans l’Atlas linguistique de la Gascogne [Die Dialektometrie im Atlas linguistique de la Gascogne]. In: Revue de linguistique romane 37, 1K24. Sneath, Peter H. A./Sokal, Robert R. (1973), Numerical Taxonomy. The Principles and Practice of Numerical Classification. San Francisco: Freeman. Sodeur, Wolfgang (1974), Empirische Verfahren zur Klassifikation. Stuttgart: Teubner. Thiessen, Alfred H. (1911), Precipitation Averages for large Areas. In: Monthly Weather Review 39, 1082K1084. TPPSR: Gauchat, Louis/Jeanjaquet, Jules/Tappolet, Ernest (Hrsg.) (1925), Tableaux phonétiques des patois suisses romands. Relevés comparatifs d’environ 500 mots dans 62 patois-types [Lauttabellen zu den Welschschweizer Dialekten. Vergleichende Aufnahmen von rund 500 Wörtern in 62 ausgewählten Ortschaften]. Neuchâtel: Attinger. Ujomov, A. I. (1965), Dinge, Eigenschaften und Relationen. Berlin: Akademie-Verlag. Viereck, Wolfgang (1980), Dialektometrie und englische Dialektologie. In: Grazer linguistische Studien 11/12, 335K355. Viereck, Wolfgang (1985), Linguistic Atlasses and Dialectometry: the Survey of English Dialects. In: Kirk, J. M./Sanderson, St. F./Widdowson, J. D. A. (Hrsg.), Studies in Linguistic Geography, London: Croom Helm, 94K112. Vogel, Friedrich (1975), Probleme und Verfahren der numerischen Klassifikation unter besonderer Berücksichtigung von Alternativmerkmalen. Göttingen: Vandenhoeck & Ruprecht. Siehe auch die Internetseite: http://ald.sbg.ac.at/dm/
Danksagung: Für die EDV-technische Erstellung aller Abbildungen dieses Beitrags danke ich herzlichst Roland Bauer, Edgar Haimerl, Heide Marie Pamminger und Slawomir Sobota. Hans Goebl, Salzburg (Österreich)
37. Dialektometrie
515
Kommentar: Entlang der x-Achse sind die pro Atlaskarte erhobenen Anzahlen der Taxat-types aufgetragen. Diese variieren beim AIS zwischen 1 und 51 und beim ALF zwischen 1 und 91. Entlang der y-Achse sind die Anzahlen der betreffenden Arbeitskarten ablesbar. So gibt es beim AIS 147 binyme (also stets 2 Taxat-types enthaltende) und beim ALF 211 tri-nyme (also stets 3 Taxat-types enthaltende) Arbeitskarten. Zum AIS: cf. Goebl 1984 I, 41 f.; zum ALF: cf. http:// ald.sbg.ac.at/dm/ germ/default.htm und Goebl 2002, 10K15. Abb. 37.5: Histogramm zu den numerischen Strukturen der Daten des AIS (696 Arbeitskarten) und des ALF (1687 Arbeitskarten).
516 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Totalkorpus (696 Arbeitskarten). Abb. 37.6: Ähnlichkeitskarte zum Prüfbezugspunkt 252 des AIS (Monza).
37. Dialektometrie
RIW K Relativer Identitätswert. Totalkorpus (696 Arbeitskarten). Abb. 37.7: Ähnlichkeitskarte zum Prüfbezugspunkt 250 des AIS (Magnago).
517
518 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Totalkorpus (696 Arbeitskarten). Abb. 37.8: Ähnlichkeitskarte zum Prüfbezugspunkt 1 des AIS (Brigels/Breil, Graubünden).
37. Dialektometrie
RIW K Relativer Identitätswert. Totalkorpus (696 Arbeitskarten). Abb. 37.9: Ähnlichkeitskarte zum Prüfbezugspunkt 3 des AIS (Pitasch, Graubünden).
519
520 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Totalkorpus (696 Arbeitskarten). Abb. 37.10: Ähnlichkeitskarte zum künstlichen Prüfbezugspunkt 999 des AIS-Netzes (Standarditalienisch).
37. Dialektometrie
RIW K Relativer Identitätswert. Totalkorpus (1687 Arbeitskarten). Abb. 37.11: Ähnlichkeitskarte zum Prüfbezugspunkt 999 des ALF (Hochfranzösisch).
521
522 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Totalkorpus (1687 Arbeitskarten). Abb. 37.12: Ähnlichkeitskarte zum Prüfbezugspunkt 287 des ALF (Teneur, Départment Nord).
37. Dialektometrie
523
RIW K Relativer Identitätswert. Totalkorpus (1687 Arbeitskarten). Abb. 37.13: Ähnlichkeitskarte zum Prüfbezugspunkt 967 des ALF (Chamonix, Département Haute-Savoie).
524 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Totalkorpus (1687Arbeitskarten). Abb. 37.14: Ähnlichkeitskarte zum Prüfbezugspunkt 720 des ALF (Cahors, Département Lot).
37. Dialektometrie
RIW K Relativer Identitätswert. Totalkorpus (696 Arbeitskarten). Abb. 37.15: Choroplethenprofil der Schiefen-Werte Oberitaliens und der Südschweiz (nach AIS).
525
526 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Teilkorpus: Phonetik (1117 Arbeitskarten). Abb. 37.16: Choroplethenprofil der Schiefen-Werte der Galloromania (nach ALF).
37. Dialektometrie
RIW K Relativer Identitätswert. Teilkorpus: Lexikon (463 Arbeitskarten). Abb. 37.17: Choroplethenprofil der Schiefen-Werte der Galloromania (nach ALF).
527
528 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Totalkorpus (696 Arbeitskarten). Abb. 37.18: Zwischenpunkt-, Grenzsegment- oder Schottenkarte Oberitaliens und der Südschweiz (nach AIS).
37. Dialektometrie
RFW K Relativer Fündigkeitswert. Totalkorpus (1687 Arbeitskarten). Abb. 37.19: Zwischenpunkt-, Grenzsegment- oder Schottenkarte der Galloromania (nach ALF).
529
530 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
RIW K Relativer Identitätswert. Totalkorpus (1687 Arbeitskarten). A ... I: Bifurkationen. Abb. 37.20: Hierarchisch-agglomerative Klassifikation der ALF-Daten (nach „Complete Linkage“). Dendrogramm („Stammbaum“) mit elf (illustrationshalber ausgewählten) Dendremen.
37. Dialektometrie
Abb. 37.21: Hierarchisch-agglomerative Klassifikation der ALF-Daten (nach „Complete Linkage“). Räumliche Umlegung (Chorematisierung) der elf Dendreme von Abb. 37.20.
531
532 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
38. Taxierungsalgorithmen 1. 2. 3. 4. 5.
1.
Allgemeines zur Taxierung von Sprachatlasdaten EDV-spezifische Aufbereitung der Sprachatlasdaten für Taxierungsalgorithmen EDV-generierte Hilfsmittel für die manuelle Taxierung Algorithmen zur automatischen Klassifikation einzelner Sprachatlaskarten Literatur (in Auswahl)
Allgemeines zur Taxierung von Sprachatlasdaten
1.1. Was ist Taxierung? Unter Taxierung versteht man in der Dialektologie ein Verfahren, das aus der Antwortenvielfalt einer oder mehrerer Karten eines Sprachatlasses nach vorher genau festgelegten linguistischen Kriterien Typen abstrahiert und die Antworten diesen Typen subsumiert. In den meisten Fällen werden ähnliche strukturelle Eigenschaften, z. B. das Auftreten einer Diphthongierung, als Kriterium für die Typenbildung verwendet. Für eine differenzierte Bestimmung und Einteilung des Typenbegriffs sei auf Zerssen (1973) verwiesen. Das Ziel der Einteilung vieler Einzelobjekte in Gruppen, die Klassifikation der geolinguistischen Erhebungsdaten, ist die Reduktion der Antwortenvielfalt und damit die Kondensierung der in Sprachatlanten enthaltenen Information. Erst auf diesem höheren Abstraktionsniveau sind linguistisch relevante Untersuchungen der geographischen Verteilung der Antworten im Erhebungsgebiet möglich. Gemäß dieser Definition der Taxierung sind Taxierungsalgorithmen schematische Verfahren, mit denen aus dialektalen Erhebungsdaten anhand bestimmter dialektologischer Fragestellungen gezielt Taxate, Typen oder Klassen abstrahiert und so diese Daten für anschließende Untersuchungen aufbereitet werden. Diesbezügliche Fragen und Einwände K z. B. ob es neben den konkreten Objekten (den einzelnen Sprachatlasdaten), das Allgemeine (die Typen oder Klassen) wirklich gibt, ob diese nur als Abstraktionen oder vielmehr als wesenhafte Ideen aufzufassen sind, ob die Suche nach übergeordneten Strukturen nicht doch die Kenntnis des Einzelnen schmälert u. ä. K haben eine mindestens 2000 Jahre alte Tradition. Eine histori-
sche Aufarbeitung gibt Stegmüller (1965); Goebl (1986) diskutiert diese Problematik mit Blick auf die Dialektologie, Willmann (1985) mit Blick auf die Biologie. 1.2. Das Ziel der Taxierung Die Klassifikation von Sprachatlasdaten soll die folgenden Anforderungen erfüllen: (1) Sie soll exhaustiv sein, d. h. es soll keine singulären Objekte geben, und damit Antworten, die keiner Klasse zugeteilt werden können. (2) Die Taxate sollen untereinander disjunktiv sein, d. h. eine bestimmte Antwort kann nicht mehreren Taxaten zugeordnet werden. Allerdings können mehrere Taxate in übergeordneten Klassen zusammengefaßt werden, man spricht dann von hierarchischer Klassifikation. Kombinationen verschiedener Klassifizierungen innerhalb einer Karte, sogenannte Kreuzklassifikationen, sind meist unübersichtlich und erschweren zudem die dialektometrische Auswertung. Beispiele für Kreuzklassifikationen finden sich bei Naumann (1977, 190). Putschke und Naumann (1982, 763) schlagen eine systematische Symbolkonstruktion für etymologische, morphologische und phonologische Klassifikationen innerhalb einer einzigen Symbolkarte vor. Es empfiehlt sich jedoch mit Blick auf die Übersichtlichkeit, Kreuzklassifikationen zu vermeiden und statt dessen mehrere Karten-Auswertungen mit jeweils getrennten Klassifikationen bzw. Taxierungen zu erstellen. Zu unterscheiden ist die Klassifizierung einzelner Atlaskarten von der globalen Klassifizierung ganzer Sprachatlanten. Dieser Artikel konzentriert sich auf Taxierungsalgorithmen, die zur Klassifikation der Daten einzelner Sprachatlaskarten eingesetzt werden können. Die globale Klassifizierung mehrerer Atlaskarten oder sogar eines gesamten Atlaswerks setzt die Taxierung einzelner Karten voraus. Der Rechenaufwand, der bei der Taxierungen vieler Atlaskarten anfällt, konnte erst durch den EDV-Fortschritt der letzten 2 Jahrzehnte bewältigt werden. Die dabei verwendeten Algorithmen, Methoden und Visualisationsverfahren haben sich als eigenständiger Forschungsbe-
38. Taxierungsalgorithmen
reich innerhalb der quantitativen Linguistik etabliert und werden in diesem Handbuch im Artikel „Dialektometrie“ von Hans Goebl (vgl. Art. Nr. 37) näher behandelt. Altmann/Naumann (1982) sowie Kessel (1995) und Nerbonne/Heeringa (1997) schlagen Verfahren vor, die die Daten mehrerer Atlaskarten oder eines ganzen Sprachatlasses in einem Verarbeitungsschritt klassifizieren, ohne vorher einzelne Karten zu taxieren. Diese Versuche, die von einer den Sprachatlasdaten inhärenten, objektiven Struktur ausgehen, die in einer „natürlichen“ Klassifikation aufgedeckt werden kann, suchen nach einer einzig richtigen Einteilung der Sprachatlasdaten. Dazu werden verschiedene Klassifikationsverfahren getestet und durch Vergleiche mit Isoglossenkarten und etabliertem Fachwissen bewertet; doch ist an diesem Vorgehen problematisch, dass in der Praxis ein bestimmtes Klassifikationsergebnis nicht an sich schlechter oder besser als ein anderes ist, sondern dass es nur im Hinblick auf bestimmte Zwecke oder Ziele bewertet werden kann: „Richtige oder falsche Klassifikationsergebnisse gibt es (in der Regel) nicht, sondern nur mehr oder weniger brauchbare.“ (Vogel 1975, 15). Diese Grunderkenntnis ist bei der Klassifikation von Sprachatlasdaten sowie deren automatischer Taxierung mit zu berücksichtigen: Schon bei der Taxierung einzelner Atlaskarten gibt es verschiedene Kriterien der Klassifikation; darüber hinaus steht für die summarische Auswertung einer Mehrzahl von taxierten Atlaskarten ein breites Arsenal von Klassifikations- und Visualisationsverfahren bereit, die jeweils anderen linguistischen Zielen gerecht werden. 1.3. Manuelle Taxierungsverfahren Die Taxierung einzelner Volltext K Sprachatlas K Karten kann vom Dialektologen manuell vorgenommen werden. Dazu sind ausgehend von den Antworten, die auf der betreffenden Karte in phonetischer Transkription publiziert sind, in einem ersten Schritt die Typen (Z Taxate) zu bilden. In einem zweiten Durchgang werden dann alle Antworten je einem Typ zugeordnet. Wenn die Antworten der Atlaskarte auf verschiedene Etyma zurückgehen, ist die Taxierung lexikalisch relevant. Lexikalisch einheitliche Karten können phonetisch taxiert werden, wobei verschiedene phonetische Kriterien zu verschiedenen Taxierungen führen. Sind jedoch auf den Atlaskarten nicht Transkrip-
533 tionen publiziert, sondern bereits vorklassifizierte Symbole enthalten (symbolkartierte Atlanten), so ist eine davon abweichende Taxierung nur schwer erstellbar. In den meisten Fällen wurde die Symbolvergabe manuell durchgeführt und für die Zuordnung der Symbole zu den einzelnen Typen sowie für die Kartenerstellung ein Computerprogramm benutzt. Ein gelungenes Beispiel dieser halbcomputativen Arbeitsweise bietet das Kartierprogramm des „Wolgadeutschen Sprachatlasses“ (WDSA, vgl. Berend/Post 1997). Ähnlich, allerdings nicht so komfortabel, wird beim „Sprachatlas von Bayerisch-Schwaben“ mit den „Augustaplot Modulen“ gearbeitet (beschrieben in König 1997, 48 f.). Manuelle Taxierungsverfahren sind vor allem bei Sprachatlanten mit vielen Erhebungspunkten sehr zeitintensiv. Nachteilig wirkt sich der nicht unerhebliche subjektive Faktor bei der Klassifikation aus: ohne klar definierte Regeln lassen sich die Typenfindung und die Taxatzuordnung nur schwer intersubjektiv durchführen. Diese Gründe haben schon früh zur Suche nach geeigneten Algorithmen geführt, die, aus einer endlichen Anreihung von Befehlen bestehend, mit Computern abgearbeitet werden können. Methoden aus der Numerischen Klassifikation, Algorithmen für die Gruppierung von Daten und der Mustererkennung kommen bei solchen automatischen Verfahren der Taxierung zur Anwendung. Sie reduzieren nicht nur den Zeitaufwand der manuellen Taxierung, sondern ermöglichen die objektive Anwendung genau definierter Regelsysteme auf die jeweiligen Erhebungsdaten. 1.4. Anforderungen an Sprachatlasdaten für deren automatische Taxierung Um automatische Taxierungsverfahren einsetzen zu können, müssen die Sprachatlasdaten verschiedene Grundanforderungen erfüllen. Bei der Auswertung von Sprachatlanten mit Volltextkarten, die z. B. in der Romanistik eine langjährige Tradition haben, können Taxierungsalgorithmen nur dann direkt auf die transkribierten Sprachatlasdaten angewendet werden, wenn sie in computerlesbarer Form vorliegen (dies trifft zu z. B. beim ALD-I: Sprachatlas des Dolomitenladinischen und angrenzender Dialekte I). Sind die Daten jedoch K wie das meistens der Fall ist K nicht in computerlesbarer Form verfügbar (z. B. beim AIS K Sprachund Sachatlas Italiens und der Südschweiz
534 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology oder beim ALF K Atlas linguistique de la France), wird man nolens volens auf rein manuelle Verfahren der Taxierung zurückgreifen müssen. Sie führen in diesem Fall einfacher und schneller ans Ziel als das langwierige Einskannen oder als die fehleranfällige, komplette Neueingabe. Anders ist es bei Atlanten mit Symbolkarten, wie sie in der Germanistik und Anglistik üblich sind. Eine bestimmte Art von Taxierung ist dort bereits von den Autoren bei der Erstellung der Symbolkarten durchgeführt worden. Taxierungen nach anderen Gesichtspunkten oder mit abweichender Zielsetzung sind dabei aber nur dann möglich, wenn die transkribierten Daten neben der Symbolkarte in Listenform veröffentlicht wurden (z. B. Sprachatlas von Bayerisch-Schwaben, König 1997). Bei symbolkartierten Atlanten spielen deshalb Taxierungsalgorithmen meist nur bei der Atlas-Produktion eine Rolle, nicht jedoch bei der Atlas-Auswertung. Alle im Folgenden dargestellten Verfahren zur Taxierung von Atlaskarten gehen davon aus, dass die Sprachatlasdaten (1) als Listen oder Karten in detaillierter Transkription und (2) computerlesbar vorliegen. Wichtig ist zudem, dass nicht irgendein Format (z. B. als reine Textdatei oder das Dateiformat eines Textverarbeitungs- oder Kalkulationsprogramms), sondern ein gängiges Datenbankformat verwendet wird. Datenbanken sind Applikationen, die dazu konzipiert und optimiert sind, eine große Anzahl (mehrere Millionen) gleich strukturierter Datensätze zu erfassen und zu verwalten, und deren Performanz bei der Sortierung nach verschiedenen Gesichtspunkten von der Gesamtzahl der Datensätze weitgehend unabhängig ist. Hilfsmittel für die Datenerfassung, Wartung und Korrektur der Daten sowie für die Ausgaben von Listen gehören meist zum Funktionsumfang. Wichtig ist, dass moderne Datenbanken die Festlegung von Integritätsregeln auf mehreren Ebenen erlauben und damit schon bei der Eingabe die Plausibilität der Daten sicherstellen. PCDatenbanken bieten gegenüber Client-Server Systemen zudem den Vorteil großer Portabilität ohne deutliche Performanzverluste bei den bei Sprachatlanten anfallenden Datenmengen (z. B. für die Publikation der Daten auf CD-ROM) und erlauben außerdem den Datenzugriff in internen Netzwerken sowie die Veröffentlichung im Internet. Problematisch sind nach wie vor Speicherung, Darstellung und Sortierung der phone-
tischen Zeichen. Eine Vielzahl von Transkriptionssystemen, variierende Zeichenvorräte und immer neue Zeichen für zu differenzierende Lautvarianten machen eine standardisierte Lösung des Sonderzeichenproblems unmöglich. Selbst von der zunehmenden Ausbreitung der UNICODE Fonts mit max. 65536 Zeichen ist keine Lösung dieser Problematik zu erwarten. Diese Fonts zielen auf die möglichst uneingeschränkte, internationale Verwendbarkeit der Software und nicht auf konkrete Arbeitserleichterungen für die wenigen Dialektologen und Phonetiker. Da zu erwarten ist, dass weiterhin die diversen Atlasprojekte ihre eigenen Sonderzeichenlösungen entwickeln werden, wird bei den Taxierungsalgorithmen im Folgenden davon ausgegangen, dass die Darstellung der Transkriptionsfelder in der Datenbank sowie entsprechende Such- und Sortiermöglichkeiten projektspezifisch gelöst werden. (Beschreibungen verschiedener Sonderzeichenlösungen: beim ALD-I: Bauer/ Goebl/Haimerl 1993, 136K140; beim SSA: Kelle/Schiltz 1993; Kelle 1998, 66 ff.; beim Sprachatlas von Bayerisch-Schwaben: König 1997, 33 f.; beim RND: Nerbonne/Heeringa/ van den Hout 1996)
2.
EDV-spezifische Aufbereitung der Sprachatlasdaten für Taxierungsalgorithmen
Die EDV-lesbaren Sprachatlasdaten liegen in der Regel in einer Tabelle vor, die jede Antwort der Interviews als eigenen Datensatz (Z Zeile) notiert. Jeder Datensatz ist durch eine eindeutige Kombination von Ortsnummer K Fragenummer K Versionsnummer identifizierbar, wobei durch die Versionsnummer Mehrfachantworten unterschieden werden. Um die Datenintegrität sicherzustellen, sind diese Nummern mit einem entsprechenden Feld in der Tabelle der Lagedaten bzw. der Fragedaten referenziell verknüpft. Eine detaillierte Beschreibung einer derartigen Datenbankstruktur gibt Bauer (1996; 1997) am Beispiel des ALD-I. Bei der Aufbereitung der Sprachatlasdaten für Taxierungsalgorithmen wird zuerst aus den Sprachatlasdaten eine neue Tabelle erstellt, in der jede Frage-Antwort-Kombination nur einmal eingetragen wird; so entsteht eine Tabelle der Identitätstypen. Zusatzfelder geben Auskunft über die Häufigkeit jeder Frage-Antwort-Kombination in
535
38. Taxierungsalgorithmen
der Gesamtdatenbank sowie über die Belegorte. Bei dieser Konvertierung der Sprachatlasdaten in die Identitätstypen muß nicht notwendig die gesamte Differenzierungsbreite der phonetischen Transkription beibehalten werden. Parallel zur Konvertierung kann durch die Überführung der Transkription in einen reduzierten Zeichensatz eine erste Reduktion stattfinden. Für diese Übersetzung verwendet man eine Tabelle, die jedem phonetischen Zeichen der detaillierten Transkription ein Zeichen des reduzierten Zeichensatzes zuordnet. Dabei können mehrere phonetische Zeichen der detaillierten Transkription auf ein Zeichen der reduzierten Transkription abgebildet werden. Zudem wird man Artikel, Pronomen u. ä. aus der Antwort ausklammern. Sie können weitgehend automatisch erkannt werden, wenn man nur die Transkriptionen von Substantiven untersucht, die aus mindestens 2 token bestehen. In einem ersten Durchgang speichert die Routine alle ersten token aus mehrteiligen Substantivantworten in einer Tabelle. Diese relativ leicht handhabbare Tabelle aller vermeintlichen Artikelformen muß autoritativ kontrolliert werden und kann dann in einem zweiten Durchgang als Referenztabelle für das tatsächliche Löschen der Artikelformen aus der Transkription verwendet werden. Diese Reduktionen sind allerdings irreversibel; die dabei ausgeblendete Information steht für keine der folgenden Taxierungen mehr zur Verfügung. Durch die Konvertierung der Sprachatlasdaten in die Tabelle der Identitätstypen im reduzierten Zeichensatz und durch das Löschen von Artikel bzw. Pronomen entsteht ein Index der Sprachatlasdaten, der alle vorkommenden Antworttypen inklusive Häufigkeits- und Belegangaben enthält.
3.
EDV-generierte Hilfsmittel für die manuelle Taxierung
Sobald diese Indextabelle vorliegt, gibt es verschiedene, teils sehr einfach durchzuführende Verfahren, um mit dem Computer die manuelle Taxierung von Atlasdaten zu erleichtern. Dabei handelt es sich um Ausgaben der Indextabelle in verschieden sortierte Listen: (1) Vorwärts alphabetische Sortierung: Diese Sortierung entspricht der Standardform eines Index zum Kartenwerk. Anworten können schnell aufgefunden
werden, um z. B. Information über Häufigkeit und Belegorte abzufragen. Zudem gibt die alphabetische Indexliste einen Überblick über den gesamten Antwortenbestand (vgl. Händler/Hummel/Putschke 1989, 556 f.). (2) Rückwärts alphabetische Sortierung: Diese Sortierung hilft z. B. bei der Untersuchung von Auslautphänomenen. Je nach verwendetem Datenbanksystem läßt sich die rückläufige Sortierung durch eine Funktion bewerkstelligen, die direkt aus der Indexdatei aufgerufen wird und den rückläufigen Abfragestring zurückgibt, oder K weniger elegant K durch Sortierung über ein zusätzliches Hilfsfeld der Indextabelle mit rückläufigen Antworten. (3) Frage K Response: In dieser zweistufigen Sortierung nach Fragenummer K Response stehen alle Antworten einer Atlaskarte, repräsentiert durch die Fragenummer, in alphabetischer Reihenfolge direkt hintereinander. Diese Liste der Identitätstypen ist zugleich die Datenbasis für die automatische Taxierung einzelner Karten. (4) Frage K Häufigkeit: Diese zweistufige Sortierung nach Fragenummer K Häufigkeit stellt die häufigsten Typen an den Anfang, die seltensten ans Ende. Ausschnitte aus dieser Liste, die sich z. B. auf alle Antworten einer Karte beschränken, können statistisch ausgewertet werden. Man kann z. B. das 2te Moment in Bezug auf null oder wie Altmann/Naumann (1982, 662) die „quantitative Variabilität“ als Maß für die Variationsbreite der Antworttypen einer oder mehrerer Karten errechnen: k
R Z∑
iZ1
() fi
2
n
(1)
Hier ist k die Gesamtzahl der beobachteten Antworttypen, fi die absolute Häufigkeit des i-ten Antworttyps und n die Gesamtzahl der berücksichtigten Antworten.
4.
Algorithmen zur automatischen Klassifikation einzelner Sprachatlaskarten
Bisher ging es um allgemeine Voraussetzungen, d. h. um die Anforderungen, die an Sprachatlasdaten zu stellen sind, damit sie
536 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology durch moderne Taxierungsalgorithmen ausgewertet werden können. Im Folgenden werden bisher existierende Lösungsansätze vorgestellt, die zur automatischen Taxierung einzelner Sprachatlaskarten eingesetzt werden können. 4.1. Bisheriger Stand der Forschung 4.1.1. Taxierungsalgorithmen, die Ähnlichkeits- oder Distanzmaße verwenden Distanzverfahren basieren auf einem Maß, das jedem Paar von Beobachtungen (a, b) eine reelle Zahl K den Ähnlichkeits- oder Distanzwert K zuordnet. Von einer Metrik kann man dann sprechen, wenn diese Zuordnung φ folgende Axiome erfüllt: (1) Positivdefinit: φ (a, b) R 0 für alle a und b (2) Reflexivität: φ (a, a) Z 0 (3) Symmetrie: φ (a, b) Z φ (b, a) für alle a und b (4) Dreiecksungleichung: φ (a, c) % φ (a, b) C φ (b, c) für alle a, b, c (vgl. Sneath/Sokal 1973, 120 f.; Bock 1974, 25 f.; Goebl 1984, 77 f.; Mucha 1992, 73 f.) Automatische Klassifikationsalgorithmen, die auf einer solchen Metrik basieren, gehen in der Regel (1) von einer Ähnlichkeitsbeziehung auf der Ebene einzelner Lautzeichen aus, aus der anschließend (2) die Ähnlichkeit auf der Ebene ganzer Lautzeichenstrings durch Aufsummieren errechnet wird. 4.1.1.1. Ähnlichkeitsmessung auf der Ebene einzelner Lautzeichen Naumann (1976, 153; ähnlich 1977, 201 ff.) positioniert die Lautzeichen in einem quasi 3-dimensionalen Raum und ordnet einzelnen Verbindungen zwischen den Lauten im Raum Distanzwerte zu. Dabei bleiben aber viele mögliche Lautdistanzen undefiniert; Naumann gibt auch keine Distanzmatrix aller Lautzeichen zueinander an, sondern nur eine knappe Auswahlliste (Naumann 1977, 203). Zu diesen und ähnlichen Versuchen stellte Altmann/Naumann (1982, 660) fest, dass das Problem „nicht zufriedenstellend“ gelöst wurde: „Man müßte alle Phoneme/ Laute mit allen vergleichen, wobei die Resultate ziemlich verzerrt werden könnten.“ (vgl. Altmann/Naumann 1982, 660). Altmann/Naumann (1982, 660) zeigt ein mathematisch exakt definiertes Verfahren
zur Bestimmung der phonetischen Ähnlichkeit: Jedem Lautzeichen werden Werte bezüglich verschiedener Eigenschaften (z. B. high, back und round für die Vokale) zugeordnet. Dabei geht er von der bei Ladefoged K allerdings für das Amerikanische K vorgeschlagenen Qualität der Phoneme aus (vgl. Ladefoged 1975, 239). Diese Einteilung läßt sich übersichtlich in einer Matrix zusammenfassen, in der die Lautzeichen (als cases) die Zeilen bilden; in den Spalten stehen die Werte der Merkmalsausprägung dieser Elemente (als variables; bei Altmann sind die Zeilen und Spalten vertauscht). Jedes Phonem wird durch seinen Eigenschaftsvektor beschrieben, das ist eine Zeile der Matrix. Die Distanz bzw. Ähnlichkeit zweier Phoneme/Laute läßt sich dann einfach mit der Manhatten-Distanz der zugehörigen Eigenschaftsvektoren berechnen, indem man die Differenzen der paarweisen Werte der beiden Vektoren aufsummiert. n
Dij Z ∑ K xik K xjk K
(2)
kZ1
Hier ist Dij der Abstand der Eigenschaftsvektoren i und j, n die Gesamtzahl der im paarweisen Vergleich zu berücksichtigenden Variablen. 4.1.1.2. Ähnlichkeitsmessung auf der Ebene von Lautzeichenstrings Wenn man nun die Ähnlichkeit einzelner Lautzeichen zur Berechnung der Ähnlichkeit zweier Transkriptionsstrings benutzt, ergeben sich neue, größere Probleme: Wie können Lautzeichenstrings miteinander verglichen werden, die aus einer verschiedenen Anzahl von Lautzeichen bestehen? Welche Lautzeichen sollen beim Vergleich zweier lexikalisch verschiedener Sprachatlasdaten paarweise verglichen werden, wenn die Entsprechungen nicht mehr an der gleichen Position im String liegen? Naumann (1977, 205) beschränkt sich auf den Vergleich „nicht überlappender Teilsequenzmengen“, Altmann (1982, 661) umgeht in seinem Beispiel diese gesamte Problematik, indem er zwei gleich lange Transkriptionen mit paarweiser Lautzeichenähnlichkeit (ohne Rhotazismus, Diphthongierung o. ä.) konstruiert und den Abstand eines beliebigen Lautzeichens zu einer Nullstelle im Vergleichsstring konsequent auf den Wert 5 setzt.
537
38. Taxierungsalgorithmen
4.1.1.3. Ähnlichkeitsmessung auf der Ebene lexikalisch relevanter Lautzeichenstrings Für die lexikalische Taxierung könnte mit einer Ähnlichkeit zwischen Lautzeichenstrings und verschiedenen Etyma operiert werden. Doch dieses Verfahren wirft zusätzliche Probleme auf: es ist auf lexikalische Taxierungen beschränkt und erfordert die manuelle Erstellung einer Liste aller möglicher Etyma. Derzeit sehen wir keine praktikable Lösung für eine verschiedene Etymologien einbeziehende automatische Taxierung. 4.1.2. Taxierungsalgorithmen, die die Lautzeichen auf wenige Symbole reduzieren Eine Alternative zu den eleganten aber problembehafteten Distanzverfahren sind die sogenannten „Reduktionsverfahren“. Einzelne Zeichen der Transkription werden dabei auf eine kleine Symbolmenge abgebildet. Dieses Verfahren war schon im Abschnitt 2. für die Generierung der Tabelle der Identitätstypen beschrieben worden. Im germanistischen Sprachatlas SSA operieren Taxierungsverfahren mit einer Symbolmenge aus 16 Elementen; Regeln für Vokale, Konsonanten und mundartliche Besonderheiten ermöglichen die Reduktion des Transkriptionsstrings (vgl. Schiltz 1993). Putschke und Naumann reduzieren den Sonderzeichenvorrat der verwendeten Transkriptionen auf nur 4 Symbole (Putschke/Naumann 1982, 762; Einteilung in Lautklassen bei Naumann 1977, 204). Um den gesuchten Wortstamm als Reduktionsstring zu erhalten, müssen Suffixe, Präfixe u. ä. in einem zweiten Schritt ausgeblendet werden, falls sie nicht schon bei der Datenerfassung in separaten Feldern erfaßt worden sind. Schiltz (1993) geht dabei von einer Liste möglicher Suffixe und Präfixe in reduzierter Form aus und sucht sie am Anfang bzw. Ende des reduzierten Transkriptionsstrings. Ein dritter Schritt operiert ausschließlich auf reduzierten Transkriptionsstrings und versucht, Einzelbelege jenen Syntagmen zuzuordnen, in denen sie als Teilstring vorkommen. Dieses Reduktionsverfahren ist einfach zu implementieren, kann allerdings nur den Anspruch erheben, einen provisorischen Vorschlag für die lexikalische Taxierung zu machen. Die endgültigen Karten müssen
„durch den Kartenbearbeiter interpretiert, ergänzt und nachbearbeitet werden.“ (Schiltz 1993, 117). 4.2.
Lösungsansätze im Rahmen des Index-Retrieval-Systems (IRS) für den Ladinienatlas (ALD-I) 4.2.1. Einbeziehung phonetischer Kriterien in den Taxierungsalgorithmus 4.2.1.1. Taxierungen sind immer von Taxierungskriterien abhängig Die Praxis der manuellen Taxierung von Sprachatlasdaten zeigt, dass man sich nicht auf ein einziges Ähnlichkeits- oder Distanzmaß beschränken kann, um damit eine erschöpfende Klassifikation der Sprachatlasdaten durchzuführen. Vielmehr muß der linguistisch gebildete Benutzer für automatische Taxierung unterscheidende Merkmale definieren. Das verlangte schon Putschke (1977, 35): Die Automatisierung der Klassifikation „ist abhängig von einer genauen und vollständigen Formulierung entsprechender Ähnlichkeitskriterien; diese beziehen sich auf einzelne Aspekte der jeweiligen Kartendaten, wie zum Beispiel ihre etymologische Ähnlichkeit, ihre morphologische, grammatische, semantische oder genetische Ähnlichkeit. Die Schwierigkeiten sind in erster Linie bei der Formulierbarkeit solcher Kriterien zu suchen, die bei einem manuellen Kartierungsprozeß von dem Dialektologen auf Grund seiner Kenntnisse mehr oder weniger intuitiv gehandhabt werden.“ (vgl. Putschke 1977, 35). Für die Taxierungsalgorithmen bedeutet das, dass die in der Klassifikation zu berücksichtigenden phonetischen Eigenschaften als maßgebende Kriterien der Taxierung mit einbezogen werden müssen. Dabei kann weder die Bestimmung der Phonähnlichkeiten im 3-dimensionalen Raum noch die Reduktion auf wenige Symbole verhindern, dass ein und dieselbe Karte mehrfach taxiert werden muß bzw. kann. 4.2.1.2. Die Formale Begriffsanalyse liefert die theoretische Voraussetzung, um Taxierungskriterien zu definieren Der erste Schritt des im ALD-Projekt zur automatischen Taxierung phonetischer Atlaskarten entwickelten Algorithmus besteht in der eindeutigen Festlegung der zu untersuchenden Lautkriterien. Dafür liefert die Formale Begriffsanalyse die theoretischen Voraussetzungen: Die Lautzeichen (als Ge-
538 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology genstände) bilden zusammen mit den aus der Phonetik bekannten Lauteigenschaften (als Merkmale) einen formalen Kontext. Die Formale Begriffsanalyse definiert den formalen Begriff eines Kontexts als ein Paar, das (1) aus dem Begriffsumfang (Extension, die Menge zutreffender Merkmale) besteht, und (2) aus den Gegenständen als Begriffsinhalt (Intension), auf die diese Menge von Merkmalen zutreffen (die exakte mathematische Definition gibt Wille/Ganter 1996, 18). Die so definierten formalen Begriffe lassen sich als Unter- und Oberbegriffe hierarchisch ordnen und als geordnete Menge von Begriffen zu einem Begriffsverband zusammenfassen. Formale Begriffe sind also nicht in dem Sinn ideale Gebilde, dass ihnen die konkrete Gegenständlichkeit fehlte. Sie sind vielmehr ein Verband von Merkmalen, die an Gegenständen auftreten, bzw. selber Gegenstände, die immer durch bestimmte Merkmale gekennzeichnet sind. Sie sind damit ein idealer Ausgangspunkt für eine Klassifikation, für eine Einteilung von Gegenständen nach Merkmalen. Diese Praxisbezogenheit verdankt die Formale Begriffsanalyse ihrer Orientierung an der pragmatischen Philosophie von Ch.S. Peirce, die den Bedeutungsgehalt eines Begriffes in seinen denkbaren Handlungsfolgen sieht, sowie an der Diskursphilosophie (K.-O. Apel, J. Habermas; Details bei Wille 1994). 4.2.1.3. Der formale Kontext der Lautzeichen des ALD-I Ein formaler Kontext lässt sich als Kreuztabelle darstellen, in der jedes Lautzeichen durch eine Zeile dieser Tabelle repräsentiert wird. In den Spalten stehen die jeweiligen Werte der Lauteigenschaften. Sinnvollerweise wird der formale Kontext direkt als Datenbanktabelle gespeichert, um den Taxierungsalgorithmen einen schnellen Zugriff zu erlauben. Ordinalskalierte Lauteigenschaften lassen sich unschwer in mehrere Spalten mit binären Werten aufteilen. Solche binär codierten Kreuztabellen, allerdings nicht als formaler Kontext beschrieben, finden sich auch bei Ladefoged (1975). Da der formale Kontext der Lautzeichen das spezielle phonetische Fachwissen eines Sprachatlasses enthält, ist zu erwarten, dass er von Atlas zu Atlas variiert. Als Beispiel ist in Abb. 38.1 ein Ausschnitt aus dem formalen Kontext der Lautzeichen des ALD-I als Datenbanktabelle wiedergegeben, wie sie in IRS verwendet
wird (Detailbeschreibungen der Transkriptionszeichen finden sich im ALD-I, Bd.1: ALD-I 1998. XXIV). Die gleiche Information lässt sich als Tabelle der Eigenschaften der einzelnen Lautzeichen darstellen, wie sie in der Phonetik geläufig ist: In der Tabelle Abb. 38.2 sind für jeden Konsonanten des ALD-I die Werte der Eigenschaften Artikulationsart, Artikulationsstelle und Stimme am Rand der Tabelle ablesbar; z. B. ergibt sich für k die Codierung Art Z 1 (siehe Nr. der Spalte), Stelle Z 2 (siehe Nr. der Zeile), Stimme Z 1 (siehe Unterteilung der Spalte). Die gleiche Codierung findet man in der Tabelle Abb. 38.1 in der vorletzten Zeile. Entscheidend ist nicht die räumliche Position eines Lautzeichens und sein Abstand zu anderen Lautzeichen, sondern die Teilhabe an bestimmten Merkmalen. Wie kann diese schematische Gliederung für die Festlegung der Taxierungskriterien genutzt werden? Die bei der Taxierung zu berücksichtigenden Kriterien können mit Hilfe der Formalen Begriffsanalyse als formale Begriffe des Kontexts der Lautzeichen und ihrer Merkmale beschrieben werden. Dann kann man bei der Untersuchung z. B. der Palatalisierung nur jene Lautzeichen berücksichtigen, die Elemente des Begriffsinhalts „Affrikate oder Spirant“ sind. Die Untersuchung kann verfeinert werden, indem dieser formale Begriff differenziert wird, wodurch „Affrikate“ und „Spirant“ als je ein formaler Begriff in die Analyse eingehen. Im folgenden Abschnitt wird anhand eines konkreten Beispiels auf dieses Verfahren zur Festlegung der Taxierungskriterien ausführlich eingegangen. 4.2.1.4. EDV-Implementierung: Probleme und Lösungsansätze Die Praktikabilität dieses Ansatzes erweist sich in der Einfachheit ihrer Handhabung bei der Taxierung phonetischer Atlaskarten. Die in Nordostoberitalien bedeutsame Palatalisierung von lat. C vor A dient als Beispiel zur Veranschaulichung des Verfahrens. Als Daten verwenden wir alle Antworten auf die Frage cantare im ALD-I (Karte 109 des ALD-I: ALD-I, 1998, 109). Die Daten stellt das im ALD-I zur Indexverwaltung und automatischen Taxierung entwickelte und auf der ALD-CD veröffentliche Programm IRS (Index Retrieval System) bereit. Wir werden drei formale Begriffe als Taxierungskriterien für die Erfassung der Veränderungen von lat. A verwenden: (1) velar explosive Konso-
38. Taxierungsalgorithmen
539
Abb. 38.1: Ausschnitte aus dem formalen Kontext der Lautzeichen des ALD-I als Datenbanktabelle. Die Zahlenwerte in den Tabellenspalten „Artikulationsart“, „Artikulationsstelle“ und „Stimme“ entsprechen den Nummern der Merkmalsausprägungen in Abb. 38.2. Grau hinterlegte Zeilen in den Abb. 38.1 und Abb. 38.2 werden im Text zur Illustration verwendet.
540 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
541
38. Taxierungsalgorithmen
2
1
3
4
Abb. 38.3: Bildschirmgestaltung während der Taxierung mit IRS: Der obere Dialog verwaltet die Liste der bereits definierten Kriterien: Nr. 1 zeigt die Kriterien als Liste mit den IDs, Nr. 2 die zu einem ausgewählten Listeneintrag gehörenden Lautzeichen. Mit dem unteren Dialog (Nr. 3) können neue Kriterien an die Liste angefügt werden. Das rechte Fenster (Nr. 4) zeigt einen Teil der zur Taxierung ausgewählten Sprachatlasdaten.
nanten, (2) Affrikaten sowie (3) alle Varianten des a-Vokals. Im formalen Kontext der Lautzeichen (vgl. Abb. 38.1) sowie in der Tabelle der Konsonanten (vgl. Abb. 38.2) erscheint dieser formale Begriff K velar explosive Konsonanten K grau hinterlegt. In IRS ist die Eingabe von Taxierungskriterien folgendermaßen implementiert: Ein Dialog zeigt in einer Liste alle bereits definierten formalen Begriffe mit den zugehörigen IDs (identities Z Identifikationsnummern) (Abb. 38.3, Nr. 1) und darüber den Begriffsinhalt, d. h. die Lautzeichen, die dem aktivierten Kriterium entsprechen (Nr. 2). Das erste Kriterium wird durch den Code K12? repräsentiert: K steht für Konsonant, die nächste Codeposition für Art Z 1 (Explosivae), Stelle Z 2 (Velares), die Stimm-
haftigkeit ist nicht relevant. Diese Codierung entspricht dem in Abb. 38.2 grau hinterlegten Bereich (Spalte 1, Zeile 2) sowie den in der Datenbanktabelle (Abb. 38.1) grau markierten Spalten. Ein neues Kriterium lässt sich an diese Liste anhängen, indem man, wie im unteren Dialog abgebildet (Nr. 3), die zu beachtenden Merkmale aus Drop-down Listen auswählt. Gemäß den so definierten Kriterien übersetzt nun IRS die Lautzeichen der Transkription in die entsprechenden IDs der formalen Begriffe bzw. die in keinen der eingestellten Begriffsinhalte fallenden Lautzeichen in die ID 0. Bei der im oberen Dialog in Abb. 38.3 gezeigten Einstellung werden nur die ersten 3 Lautzeichen berücksichtigt und der Rest der Transkription durch ein Stellvertreterzeichen er-
542 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
2
5
4 1
3
Abb. 38.4: Bildschirmgestaltung während der Taxierung mit IRS: Die vorher (vgl. Abb. 3) definierten Kriterien wurden auf die Einträge im Taxierungsfenster (Nr. 1) angewendet. Dabei wurden die einzelnen Lautzeichen in entsprechende IDs übersetzt und in 8 Gruppen (Nr. 2) zusammengefaßt; die letzte Gruppe mit der Kodierung 230* ist aufgeklappt, um ihren Inhalt (nämlich 48 tokens) zu zeigen. Im oberen Dialog werden die Parameter der Clusteranalyse festgelegt: die Gewichtungen der Weighted Levenshtein-Distanz werden in Nr. 4 und das Cluster-Distanzmaß in Nr. 5 ausgewählt (UPGMA steht für „unweighted pair group average“).
setzt (siehe Eingabefeld „Anfang“). OderVerknüpfungen mehrerer Kriterien werden in der Reihenfolge abgearbeitet, in der sie in die Liste eingetragen wurden; so wird es möglich, Unterbegriffe getrennt zu behandeln. Zwar stellt die Einbeziehung bigraphischer Lautzeichen keine besondere Schwierigkeit dar, ist aber im Rahmen des ALD-I nicht nötig. Das Ergebnis sieht man im rechten Bildschirmfenster in Abb. 38.4, wo das Pro-
gramm IRS gemäß den definierten Kriterien alle Antworten auf die Frage cantare in 8 disjunkte, exhaustive Klassen eingeteilt hat (Nr. 2). Mit Blick auf die Liste der Kriterien im Dialog links unten (Nr. 3) erkennt man die mit 1 beginnenden Kriteriencodes (velare Explosivae) als jene Klassen, die Sprachatlasdaten mit gegenüber der lateinischen Basis konservativem Lautstand enthalten. Die mit 2 beginnenden Kriteriencodes umfassen die Affrikate-Varianten, die
543
38. Taxierungsalgorithmen
mit 0 beginnenden Klassen beinhalten den Rest. Zur weiteren Veranschaulichung wurde die durch den Code 230* repräsentierte Klasse aufgeklappt (Nr. 1). Diese zeigt die untergeordneten Lautzeichenstrings: Jeder Eintrag beginnt an der ersten Stelle des Strings mit einer Affrikate entsprechend der ID 2, gefolgt von einer Variante des Vokals A (ID 3) und, an dritter Stelle, einem Lautzeichen, das gemäß den Kriteriendefinitionen nicht zu berücksichtigen ist und deshalb mit 0 codiert wird. Bei einigen Taxierungen ist es notwendig, den zu beachtenden Teilstring nicht an einer festen Position in der Transkription zu suchen. Für diese Problematik bietet IRS eine Option, die nicht relevante Lautzeichen ausblendet, statt sie in die ID 0 zu übersetzen. Die Umsetzung der Taxierungskriterien, der zu berücksichtigenden formalen Begriffe bzw. Unterbegriffe, hat eine erste Klasseneinteilung erzeugt. Meist wird man den Weg von der Definition der Kriterien zur entsprechenden Klassifikation mehrere Male durchlaufen, bis eine adäquate Definition und eine linguistisch sinnvolle Klasseneinteilung gefunden ist. In Experimenten mit stärkeren oder schwächeren Kriterien und durch die Berücksichtigung mehr oder weniger langer Ausschnitte aus dem Lautzeichenstring erwirbt der Taxator K linguistisch-dialektologisches Fachwissen vorausgesetzt K Sensibilität für den Zusammenhang von Kriteriendefinition und Klasseneinteilung. 4.2.2. Klassifikation des intermediären Codierungsertrags mittels hierarchisch-agglomerativer Clusteranalyse Eine einzelne ALD-I Karte enthält ca. 230 Antworten, denn zu den 217 Grunddaten gesellen sich meist zusätzliche Daten in Form von Doppel- und Dreifachantworten. Durch die Umsetzung der Kriterien ist eine erste Klassifikation erfolgt, die die ca. 230 Antworten einer ALD-I Karte in 5K20 Klassen zusammenfasst. Jede dieser Klassen wird durch einen Kriteriencode repräsentiert, der für das Zutreffen der definierten Taxierungskriterien auf den zu berücksichtigenden Lautzeichenstring steht; man könnte daher von einer kriterienorientierten Reduktion sprechen. Da die Kriteriencodes nur aus Abfolgen von Zahlen zwischen 0 und 9 bestehen, lassen sie sich leicht unter Einsatz von Clusteranalyse-Algorithmen
weiter klassifizieren. Dazu muss ein Ähnlichkeitsmaß zwischen den Kriteriencodes definiert werden. Das ist wesentlich einfacher als die Definition eines Ähnlichkeitsmaßes zwischen Lautzeichenstrings. Es bietet sich die gewichtete Levenshtein-Distanz (WLD) an. Sie wird definiert als der minimale Aufwand von Edit-Operationen K das sind Einfügungen, Löschungen und Ersetzungen K um String A in String B zu überführen: WLD (A, B) Z min {pa (i) C qb (i) C rc (i)} i
(3)
In der Formel sind a (i), b (i) und c (i) die Anzahl nötiger Ersetzungen, Einfügungen und Löschungen und p, q und r die jeweiligen Gewichte. Als Standard wird man die Gewichte für Ersetzung (p) und Einfügung (q) auf 1, die Gewichtung für Ersetzen (r) auf 2 setzen. Die Levenshtein-Distanz vermeidet bei verschieden langen Zeichenketten die Nachteile der Hamming-Distanz, bei der die Unterschiede einfach sequentiell aufsummiert werden. Eine detaillierte Beschreibung sowie den Ablauf des dynamischen Algorithmus geben Sankoff/Kruskal (1983, 18K30) oder Nerbonne/Heeringa (1997). Um Anfangs- und Endstücke des Lautzeichenstrings untersuchen zu können, wird die WLD um Stellvertretersymbole erweitert: * steht für eine beliebige Anzahl zu überspringender Stellen, ? für ein beliebiges einzelnes Zeichen. Eine geschwindigkeitsoptimierte Implementierung der WLD in Pascal mit Berücksichtigung von Stellvertretersymbolen findet sich in Michael (1994). Diese gewichtete Levenshtein-Distanz wird zur Berechnung einer Distanzmatrix verwendet, die für je zwei Kriteriencodes
Abb. 38.5: Matrix der mittels WLD (Weighted Levenshtein-Distanz) errechneten Distanzen zwischen acht Kriteriencodes (Datenbasis: ALD-I, Karte 109: cantare; Taxierungskriterien wie in Abb. 3; Gewichte der WLD wie in Abb. 38.4, Nr. 4). Auf der Grundlage dieser Distanzmatrix wird der Baum in Abb. 38.6 generiert.
544 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology deren Abstand angibt. Abb. 38.5 zeigt diese symmetrische Matrix zu den Werten der Palatalisierung von lat. A C C in cantare (ALD-I 1998, 109). In Spalte 1 und Zeile 2 der Distanzmatrix findet man den Abstand 2 zwischen den Codes 003* und 103*. Dieser Wert ergibt sich aus Formel (3) als eine Ersetzung mit der Gewichtung 2. Diese Distanzmatrix kann wiederum Ausgangspunkt für verschiedene Cluster-Algorithmen sein, wie sie z. B. im Statistikprogramm SPSS angeboten werden. In IRS ist die hierarchisch-agglomerative Clusteranalyse mit der Möglichkeit der Auswahl verschiedener Distanzmaße zwischen den einzelnen Clustern implementiert. Diese Implementierung baut auf dem FORTRAN-Code von Kaufmann/Rousseeuw (1990) auf. Der Algorithmus der hierarchisch-agglomerativen Clusteranalyse beginnt mit einer Klasseneinteilung, bei der jede Klasse nur ein Objekt enthält und fasst sukzessive jeweils jene beiden Klassen zusammen, die den jeweils kleinsten Abstand voneinander haben. Das Dendrogramm der Clusteranalyse nach dem Verfahren „unweighted pair group average“ (Abb. 38.6) zeigt, bei welchen Distanzen (wiedergegeben in der horizontalen Koordinatenachse, Nr. 2) Objekte bzw. Klassen zusammengefasst werden. Beim Verfahren „unweighted pair group average“ ist der Abstand zu einer beliebigen Klasse als Mittelwert der Abstände zu allen Objekten der betreffenden Klasse definiert. Goebl (1993) erklärt den Algorithmus der hierarchischagglomerativen Clusteranalyse anhand einfacher Beispiele; aus der sehr reichhaltigen Literatur zur Clusteranalyse seien Kaufmann/Rousseeuw (1990), Mucha (1992) und Bock (1974) empfohlen. Problematisch sind jene kleinen Distanzunterschiede, die bei der Untersuchung kurzer Teilstrings entstehen. Der „agglomerative coefficient“ der Clusteranalyse (vgl. Kaufmann/Rousseeuw 1990, 212) bleibt nämlich bei kurzen Teilstrings zu gering, die Struktur der Daten für eine Clusteranalyse zu unscharf. In solchen Fällen wird man versuchen, auf strengere Kriterien zurückzugreifen, und sogar auf die anschließende Clusteranalyse verzichten. Die Wahl des Schwellenwerts, bei dem der Algorithmus das Zusammenfassen in übergeordnete Klassen abbricht, kann nicht generell vorgegeben oder gar automatisch ermittelt werden. Hier ist wieder das substanzwissenschaftliche Fachwissen des Lin-
2
A
B
C
1
Abb. 38.6: Cluster-Baum: Das Dendrogramm zeigt das Ergebnis der hierarchischen agglomerativen Clusteranalyse nach dem Verfahren „unweighted pair group average“ (UPGMA). Verwendet wurden die in den Dialogoptionen Nr. 4 und Nr. 5 (siehe Abb. 38.4) eingestellten Werte. Auf der Koordinatenachse (Nr. 2) ist das Fusionsniveau ablesbar, so fällt z.B. das Element 003* ab der Distanz 1 mit dem Element 030* in ein Cluster zusammen. Die vertikale Linie (Nr. 1) markiert den Schwellenwert bei 1.80, ab dem die 8 Elemente (ganz links) in 3 Gruppen (A, B, C) zusammengefasst werden.
guisten gefragt, der durch einen Doppelklick in das von IRS erzeugte Dendrogramm den Schwellenwert festlegt (vgl. in Abb. 38.6 die Markierungslinie bei 1.80; Nr. 1) und damit automatisch das Ergebnis der Clusteranalyse in der Liste der Antworten und Kriteriencodes umsetzt. IRS führt neue, hierarchisch geordnete Agglomerationen ein und ordnet die Kriteriencodes entsprechend unter. Nach der Vergabe von Labelnamen und Farben erhält man die fertige Taxierung, wie sie in Abb. 38.7 zu sehen ist. Das eigentliche Ziel der Klassifikation geolinguistischer Sprachatlasdaten liegt in der Visualisierung der geographischen Verteilung der Klassen. Dafür werden in der Germanistik und Anglistik meist Symbolkarten verwendet, auf denen jeder Typ durch ein eigenes Symbol repräsentiert wird; die linguistische Ähnlichkeit von Typen sollte sich in der graphischen Ähnlichkeit der gewählten Symbole ausdrücken. Die erstmals von Haag (1898) eingesetzten und inzwischen auch computativ erstellbaren Thiessen-Polygone (auch Voronoi-Diagramme genannt) können allerdings K nach entsprechender Signierung mit Farben oder Grau-
545
38. Taxierungsalgorithmen
2
1
3
Abb. 38.7: Das Ergebnis der automatischen Taxierung mit IRS auf einen Blick: Im rechten Fenster (Nr. 1) sieht man die taxierten Daten in einer den vorab definierten Kriterien entsprechenden hierarchischen Struktur. Im linken Fenster (Nr. 2) ist die geographische Verteilung der Taxierung als Choroplethenkarte mit entsprechend eingefärbten Polygonen sichtbar. Im Fenster links unten (Nr. 3) befinden sich die Transkription und Zusatzinformationen zu jenem Ort, über den gerade die Maus gleitet (p. 84: La Val).
werten K besser den Eindruck kohärenter Flächen vermitteln. Ein automatisches Verfahren zur Erzeugung von exhaustiven, disjunktiven Polygonzerlegungen beschreibt z. B. Pudlatz (1977); ausführlicher tun dies Okabe/Boots/Sugihara (1992). Einige moderne GIS-Applikationen bieten die Möglichkeit, Voronoi-Diagramme zu erzeugen (z. B. Vertical mapper als add-on zu MapInfo). Die in IRS dargestellte Karte ist eine computativ erstellte Thiessen-Polygonisierung, der die naturräumlichen Lagedaten der 217 ALD-Messpunkte zugrunde liegen. Werden die Polygone entsprechend der Klassenzugehörigkeit der betreffenden Belege eingefärbt, so entstehen mehr oder weniger kohärente Areale (Abb. 38.7). Die Ergebnisse der automatischen Taxierung und deren Visualisierung durch Voronoi-Diagramme bedürfen der anschließenden linguistischen Interpretation: Die Klas-
senstruktur, die in den Antworten zu cantare unter Berücksichtigung der Palatalisierung von lat. C vor A gefunden wurde, zeigt eine räumliche Struktur, bei der das Rätoromanische vom Norditalienischen abgegrenzt wird. (1) Die velaren Formen (in Blau) finden sich im Süden des Erhebungsgebiets, in der Lombardei, in den südlichen Teilen des Trentino und im Veneto. (2) Frikative Formen (in Orange) sind vorherrschend in Graubünden (in der Schweiz), am Sulzberg, Nonsberg, in den dolomitenladinischen Tälern und in einigen Teilen von Friaul. (3) Affrizierte Formen (mit dunkelroten Polygonen) treten ausnahmslos am Sulzberg, Nonsberg, in den dolomitenladinischen Tälern und an der Grenze zu Friaul auf.
546 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology 4.2.3. Vorteile und Grenzen des IRSVerfahrens Der Vorteil der automatischen Taxierung liegt nur zum Teil in der Zeitersparnis. Entscheidend ist vielmehr das exakte methodische Vorgehen: die Kriterien müssen genau definiert sein, um dann automatisch und somit objektiv umgesetzt werden zu können. Damit können sie auch jederzeit intersubjektiv von Fachleuten nachvollzogen werden. Natürlich sind fundierte linguistische und dialektologische Kenntnis dabei nicht überflüssig; ganz im Gegenteil: da die Kriterien der Taxierung schnell geändert werden können, wächst die Experimentierfreude und damit die Einsicht in die Arealität dialektaler Phänomene. Darüber hinaus bietet IRS die Möglichkeit der Gruppierung der Daten einer Sprachatlaskarte, ohne auf den integralen Zugriff auf die ungruppierten Ausgangsdaten verzichten zu müssen:
men von einem taxometrisch und linguistisch bestens ausgewiesenen Dialektologen eingesetzt werden, sind geolinguistisch sinnvolle Ergebnisse zu erwarten.
5.
Literatur (in Auswahl)
AIS (1928K40), Sprach- und Sachatlas Italiens und der Südschweiz. (Hrsg. K. Jaberg/J. Jud). Ringier, Zofingen, (reprint: Kraus, Nendeln, 1971), 8 vol. ALD-I (1998), Sprachatlas des Dolomitenladinischen und angrenzender Dialekte I. (Hrsg. H. Goebl). Wiesbaden: Dr. Ludwig Reichert Verlag. ALF (1902K1910), Atlas linguistique de la France. (Hrsg. J. Gilliéron/E. Edmont). Paris: Honoré Champion, 10 vol. Altmann, Gabriel/ Naumann, Carl Ludwig (1982), Statistische Datendarstellung. In: Dialektologie; ein Handbuch zur deutschen und allgemeinen Dialektforschung (Hrsg. W. Besch). Berlin: De Gruyter, 654K666.
(1) Im rechten Fenster (Abb. 38.7, Nr. 1) sind die detaillierten Transkriptionen der Daten hierarchisch den Kriteriencodes und diese wiederum den aus der Clusteranalyse gewonnenen Gruppen untergeordnet. (2) Im linken Fenster (Nr. 2) wird die geographische Verteilung des Klassifikationsertrags als Voronoi-Diagramm angezeigt, wobei die Polygone gemäß der Klassenzugehörigkeit eingefärbt sind. (3) Im Fenster links unten (Nr.3) findet sich die (leicht vereinfachte) Transkription mit Zusatzinformationen zu jenem Ort der Karte, über den gerade die Maus gleitet.
Bauer, R./Goebl, H./Haimerl, E. (1993), Arbeitsbericht 8 zum ALD I. In: Ladinia XVII, 125K 152.
Wenn Sprachatlaskarten automatisch taxiert werden, wird dadurch dem Dialektologen nicht Arbeit ab- bzw. weggenommen. Vielmehr übernehmen die Taxierungsalgorithmen die maschinelle und damit rasche Verifikation der vom Dialektologen vorgegebenen Kriterien. Für den Dialektologen kommt dabei als neue Aufgabe hinzu, den formalen Kontext der Lautzeichen, der für die Definition sinnvoller Kriterien essentiell ist, zu erstellen und zu optimieren. Dieser formale Kontext ist für jedes Atlasprojekt neu zu entwickeln und verlangt vom Dialektologen sowohl Detail- als auch Überblickswissen, wobei dieser mit den spezifischen Dialektdaten natürlich bestens vertraut sein sollten. Erst wenn die Taxierungsalgorith-
Bock, Hans Hermann (1974), Automatische Klassifikation; theoretische und praktische Methoden zur Gruppierung und Strukturierung von Daten (Cluster Analyse). Göttingen: Vandenhoeck & Ruprecht.
Bauer, Roland (1996), Le syste`me de gestion de base de données de l’Atlas Linguistique du Ladin Central (ALD I). In: Bases de données linguistiques: conceptions, réalisations, exploitations. Actes du Colloque International. [Corte, 11K14 octobre 1995], (Hrsg. Ge. Moracchini), Corte: Université de Corse, 195K211. Bauer, Roland (1997), Zur Rolle des Computers beim Dolomitenladinischen Sprachatlas ALD-I. In: Ladinia XXI, 217K223. Berend, Nina/Post, Rudolf (Hrsg.), WDSA Wolgadeutscher Sprachatlas; aufgrund der von Georg Dinges 1925K1929 gesammelten Materialien. Tübingen u. a.: Francke, 1997.
Goebl, Hans (1984), Dialektometrische Studien anhand italoromanischer, rätoromanischer und galloromanischer Sprachmaterialien aus AIS und ALF. Bd. 1K3. Tübingen: Max Niemeyer. Goebl, Hans (1986), Muster, Strukturen und Systeme in der Sprachgeographie. In: Mondo Ladino (10), 41K71. Goebl, Hans (1993), Hierarchisch-agglomerative Klassifikation von Daten des AIS. Ein Anwendungsfall von dendrographischer Dialektometrie. In: Romanistik in Geschichte und Gegenwart. (Hrsg. D. Kremer/H.-J. Niederehe). Tübingen: Gunter Narr, 191K201.
38. Taxierungsalgorithmen Haag, Carl (1898), Die Mundarten des oberen Nekar- und Donaulandes (Schwäbisch-alemannisches Grenzgebiet: Baarmundarten). Reutlingen: Beilagen zum Programm der Königlichen Realanstalt zu Reutlingen. Händler, H./Hummel, L./Putschke, W. (1989), Computergestützte Dialektologie. In: Computational linguistics; an international handbook on computer oriented language research and applications (HSK 4). (Hrsg. I. Bátori). Berlin/New York: Walter de Gruyter, 553K576. Kaufman, Leonard/Rousseeuw, Peter J. (1990), Finding Groups in Data. New York: John Wiley & Sons. Kelle, Bernhard (1998), Das Projekt „Südwestdeutscher Sprachatlas“. In: Dialectologia et Geolinguistica DiG, Journal of the International Society for Dialectology and Geolinguistics (SIDG) (6), 55K79. Kelle, Bernhard/Schiltz, Guillaume (1993), Die Wiedergabe phonetischer Schriftzeichen in der automatischen Sprachatlas- und Druckvorlagenherstellung, In: Zeitschrift für Dialektologie und Linguistik (ZDL), Beihefte (74), 240K252. Kessel, Brett (1995), Computational dialectology in Irish Gaelic. In: Seventh Conference of the European Chapter of the Association for Computational Linguistics: proceedings of the conference, March 27K31. University College Dublin, Belfield, Dublin, Ireland, (7), 60K66. König, Werner (1997), Sprachatlas von BayerischSchwaben. Band 1: Einführung. Heidelberg: Winter. Ladefoged, Peter (1975), A Course in Phonetics. New York: Harcourt Brace Jovanovich. Michael, Jörg (1994), Erweiterung der Levenshtein-Funktion auf Wildcards, In: c’t (3), 230K 239. Mucha, Hans-Joachim (1992), Clusteranalyse mit Microcomputern. Berlin: Akademie Verlag. Naumann, Carl Ludwig (1976), Grundzüge der Sprachkartographie und ihrer Automatisierung. In: Germanistische Linguistik (1K2), 1K284. Naumann, Carl Ludwig (1977), Klassifikation in der automatischen Sprachkartographie. In: Germanistische Linguistik (3K4), 181K210. Nerbonne, John/Heeringa, Wilbert (1997), Measuring Dialect Distance Phonetically: In: Computational Phonology, 11K18. Nerbonne, J./Heeringa, W./van den Hout, E./van der Kooi P./Otten, S./van de Vis, W. (1996), Phonetic distance between Dutch dialects. In: Pro-
547 ceedings of the CLIN ’95. (Hrsg. G. Durieux/W. Daelemans/S. Gillis). Wilrijk: UIA, 185K202. Okabe, A./Boots, B./Sugihara, K. (1992), Spatial tessellations. Concepts and Applications of Voronoi Diagrams. Chichester u. a.: Wiley & Sons. Pudlatz, H. (1977), Automatische Erzeugung von Isoglossen auf dem Computer mit Hilfe von Thiessen-Polygonen, In: Germanistische Linguistik (3K4), 245K258. Putschke, Wolfgang (1977), Automatische Sprachkartographie: Konzeption, Probleme und Perspektiven. In: Germanistische Linguistik (3K4), 25. Putschke, Wolfgang/Robert Naumann (1982), Automatische Sprachkartographie. In: Dialektologie: Ein Handbuch zur deutschen und allgemeinen Dialektforschung (HSK 1). (Hrsg. W. Besch). Berlin/New York: Walter de Gruyter, 749K762. Sankoff, David/Kruskal, Joseph B. (1983), Time Warps, string edits and Macromolecules: The Theory and Practice of sequence comparison. London u. a.: Addison Wesley Publishing Comp. Schiltz, Guillaume (1993), Die automatische Typisierung bei der Erstellung von Übersichtskarten. In: Einleitung zum Südwestdeutschen Sprachatlas. (Hrsg. H. Steger/V. Schupp). Marburg: N. G. Elwert. Sneath, Peter H. A./Sokal, Robert R. (1973), Numerical Taxonomy: The principles and practice of numerical classification. San Francisco: W. H. Freeman & Co. Stegmüller, Wolfgang (1965), Das Universalienproblem einst und jetzt. Darmstadt: Wissenschaftliche Buchgesellschaft. Vogel, Frank (1975), Probleme und Verfahren der numerischen Klassifikation. Göttingen: Vandenhoeck & Ruprecht. Wille, Rudolf (1994), Plädoyer für eine philosophische Grundlegung der Begrifflichen Wissensverarbeitung. In: Begriffliche Wissensverarbeitung: Grundfragen und Aufgaben. (Hrsg. R. Wille/M. Zickwolff). Mannheim u. a.: BI-Wiss. Verlag, 11K 26. Wille, Rudolf/Ganter, Bernhard (1996), Formale Begriffsanalyse; mathematische Grundlagen. Berlin u. a.: Springer. Willmann, Rainer (1985), Die Art in Raum und Zeit. Berlin/Hamburg: Paul Parey. Zerssen, Detlev v. (1973), Methoden der Konstitutions- und Typenforschung. In: Enzyklopädie der geisteswissenschaftlichen Arbeitsmethoden (9). München: Oldenbourg, 35K143.
Edgar Haimerl, Salzburg (Österreich)
548 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
39. Multidimensional scaling for linguistics 1. 2. 3. 4. 5.
Introduction MDS method Applications Summary Literature (a selection)
1.
Introduction
It is not hard to imagine a situation where, in the villages north of the Humber River, people speak one dialect and another dialect in the villages south of the river. But, the field-worker who studies several speakers in each of several dozen villages, using a protocol with several hundred elicitations on vocabulary, phonetics, morphology, syntax and semantics soon gathers more data than can be imagined easily or drawn simply on a map. Multidimensional scaling (MDS) provides a means of dealing with large amounts of data varying in many different ways, and such is the nature of much of the data that social scientists (including linguists) often deal with. Here, we describe the fundamental ideas of MDS, and show some of the ways MDS has been used in linguistics, and in particular, in visualizing data in dialectometry (cf. art. 37) and elsewhere. 1.1. Scaling “Scaling” is the process of quantifying data so that it can be represented on one or more scales. Temperatures, for example, can be quantified by the length of a column of mercury in a thermometer, and represented on a single temperature scale. Other data, such as the location of Toronto, Montreal and New York, can be measured, but not precisely represented on
Tor
NY
Tor
Mtl
Mtl
NY
Fig. 39.1: Toronto (Tor), Montreal (Mtl) and New York (NY) are each about 500 km from one another. The symmetry of the relationship is lost on a 1-dimensional scale, but captured in 2 dimensions.
a single scale K two scales (latitude and longitude, for example. See figure 39.1) are required. In general, n C 1 items can always be represented precisely by n scales or dimensions. However, for large n, such representations can be cumbersome and uninformative. The quantification of data can be: K Cardinal (also called interval or metric) to capture quantity, either continuous quantity as in the temperature example, or discrete quantities such as counts of people or words. K Ordinal to capture the relative sequence of items, such as first, second, third, etc., or high, mid and low, without giving any significance to the distance between elements such as first to second vs. second to third. K Nominal to capture the existence of an item or relationship: a feature is present or absent, or two features are the same or different. 1.2. Multidimensional scaling Multidimensional scaling (MDS) “is a powerful mathematical procedure which can systematize data by representing the similarities of objects spatially as in a map” (Shiffman et al. 1981. xv). It represents a configuration of at least n C 1 items in fewer than n dimensions, while still preserving the original relationships (whether metric or otherwise) as much as possible. Consider, as an illustration, your hand (a 3-dimensional object) and its shadow on the wall. If you turn your hand appropriately, you can get a shadow that still shows the same relationships among the fingers and thumb, even though the shadow is only a 2-dimensional object. MDS can be used to find the important dimensions that underlie a set of data. For example, given the geographic distances among 20 or more cities, MDS can find a 2-dimensional (not a 19-dimensional) representation of their locations, and those dimensions would correspond (in some sense) to latitude and longitude. There are other statistical techniques (such as Factor Analysis, and clustering techniques) that uncover underlying dimensions. However, MDS uses a weaker set of assumptions about the data
549
39. Multidimensional scaling for linguistics
than, say, Factor Analysis (Shiffman et al. 1981, 13; see also Davison 1983). More recently in linguistics, MDS has been used to provide a visualization of highvolume, high-dimension data. The visualization allows for ready exposition of the data, intuitive testing of hypotheses, and a means of generating plausible new hypotheses. Given that much linguistic data is already quantified, MDS becomes a straightforward technique of comparing the distances among data items, and then representing those items in a small-dimensional space, such as a 2-dimensional map. The computational aspects of MDS are readily handled by computer packages.
2.
MDS method
Conceptually, data items can be considered as points in an n-dimensional space, with the coordinates of a point being the measures for that item along some relevant scale. It is easy to calculate the distance between two points from the coordinates. MDS reverses this process. It takes the distances between items and reconstructs the coordinates, and hence reconstructs the space and the dimensions that are relevant. With two items, it is trivial to create a one dimensional space to hold them. It is equally trivial to add a new dimension for each additional point, so that n C 1 points are embedded in an n-dimensional space. MDS creates a space that is less than ndimensional. In one approach, it reduces any n-dimensional space by one dimension, and then repeats the process as often as necessary to get a 2 or 3 dimensional map that can be readily visualized. 2.1. Steps In practice, the researcher using MDS does the following: (1) Quantifies the data. (2) Calculates the distances among pairs of data items to get a distance matrix. (3) Applies an MDS scaling package to the distance matrix to get a set of coordinates for each data item. Typically, then, the coordinates are graphed to create a map. 2.2. Quantifying the data Often, data is already measured in some sense. For example, vowel heights can be
measured with electronic equipment to get a ratio between first and second formants. Or, one can order the vowels as “low” Z 0; “mid” Z 1; and “high” Z 2. Or, one could ask a panel of “experts” to rank the vowels, and make a quantification based on their judgements. The techniques for creating a quantification from ordinal or subjective data have been extensively explored in such fields as psychology and marketing. Linguists are fortunate that they can often quantify a subject by simple counting (e. g. counting words, or units) or by using physical measures (e. g. in acoustics), but other techniques are quite valid and useful. The extensive literature on how to quantify (including the use of subjective estimates by panels of judges) can be accessed through such texts as Torgerson (1958), Davison (1983), and Shiffman et al. (1981). 2.3. Distance measures In ordinary space (Euclidean space), the distance between two points P Z !px, py, pzO and Q Z !qx, qy, qzO can be calculated by taking the differences between pairs of coordinates and applying the Pythagorean theorem to get: distance (!px, py, pzO, !qx, qy, qzO) Z ((px K qx)2 C (py K qy)2 C (pz K qz)2 )1/2
(1)
Formula (1) can be generalized for more dimensions, and for different metrics: k-distance (P, Q) Z (Sum ((pj K qj)k))1/k, for all dimensions j. (2) When k Z 1, (2) gives the “city-block” metric. Measurements are made parallel to the axes (east-west, north-south, up-down) but without cutting across any corners. This metric is suitable for spaces where the distance in one dimension does not correspond to any distance in another dimension, such as when points on an ordinal scale are given arbitrary distances (the first point is 1 unit from the second, which is 1 unit from the third etc.). When k O 2, there is more weight placed on the dimension with the longest distance, and as k gets very large, only the longest dimension has any significance. In general, a researcher may use any measurement, D, that is defined for all pairs of points (P, Q) and that satisfies these rules:
550 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology (1) D (P, P) Z 0 K a point is zero distance from itself. (2) D (P, Q) O 0 K two distinct points have a positive (non-zero) distance. (3) D (P, Q) Z D (Q, P) K two points are the same distance apart, coming and going. (4) D (P, Q) % D (P, R) C D (R, Q), for all points R K there is no shorter distance between two points than the direct distance. If the distances between n points are put in an n ! n matrix, these rules imply that the matrix has: (i) Only zeroes on the main diagonal (by rule 1) (ii) All other values are positive (by rule 2) (iii) The values above the diagonal correspond to the values below the diagonal (by rule 3). Hence, a triangular matrix (with or without the main diagonal) is sufficient to represent the distances. Table 39.1: Example matrix a
b
c
d
a
0
b
4
0
c
1
3
0
d
3
5
2
0
e
10
8
7
5
e
(iv) Use of asymmetric distance matrices, and matrices that do not strictly represent distances (i. e. that violate the rules for distances given above) (v) Treating multiple sets of distances simultaneously In each case, there are methods and software adapted to the variations. However, the researcher using these variations needs to understand how to interpret the results. What does it mean, for example, to adopt the asymmetric distance matrix and say that A is more similar to B than B is similar to A? 2.5. Software packages The content of software packages changes so rapidly that we cannot begin to give a list that remains current. We use the MDS proc in the SAS package from the SAS Institute Inc. (www.sas.com). It is also possible to program directly the equations for MDS (say, from Torgerson 1958: 247 ff.) but the reader is cautioned to do an appropriate analysis of the error introduced by the process of computer calculation.
3.
Applications
3.1. General 0
An arbitrary triangular matrix of this form may not satisfy rule 4. For example, distance measured on a network of paths may provide a longer direct path from G to H than the shorter path from G to K to H. MDS can still be carried out on such a matrix but the interpretation of the results is not clear. 2.4. Variations on MDS In addition to the classic MDS which uses a full symmetric distance matrix, representing a true metric, researchers have tried a number of variations (Young 1985), including: (i) Transformations of the recorded data (including ratios, and sequences) to produce metric data (e. g. transforming judgements by a panel of judges into distances representing the similarity or dissimilarity of the judgements) (ii) Weighting of the distances (iii) Use of incomplete distance matrices
As a procedure for discovering the underlying dimensions of a set of data, MDS has been used extensively in Psychology and Marketing. For example, a marketing application might be of the following form (for specific examples, see Shiffman et al. 1981): Subjects are asked to taste various soft drinks, and rate their preferences (“I like A better than B”). What aspect of the soft drink is determining the subject’s preference? The preferences are quantified to create a distance between A, B and the other soft drinks. MDS is used to separate the soft drinks along one, two or more dimensions. The dimensions are then identified with properties of the drinks (such as sweetness or colour). It is possible to quantify these properties also, and include them in the MDS analysis. As a further example, Oltaman and Stricker (1991) used multidimensional scaling to obtain the dimensions underlying tests for teaching English as a foreign language. The dimensions were compared both
39. Multidimensional scaling for linguistics
when the scores were “dichotomously scored right-wrong” and when all 6 possible scores were used. As a result, they could compare whether or not the tests were measuring the same thing under the two different scorings. Furthermore, the results were illustrated with graphs derived from the MDS generated coordinates. Linguists have used MDS in a range of situations from phonetics to dialectology. Here are a couple of examples, where again, MDS is used to uncover the underlying dimensions of a subject. Black (1973) applied MDS to linguistics, noting “multidimensional scaling provides a long needed means for investigation and describing spatial relationships among speech varieties”. He proposed it for both a “cline”, which are variations within one language, and for persistent variations among distinct languages, not suitable for a hierarchy. He then went on to study language situations in Africa, the Pacific and North America. In the latter case, for example, he compared the dozen dialects of Coast Salish using geographic maps, a hierarchical analysis (i. e. the traditional family tree model) and an MDS analysis. He showed how MDS could uncover dimensions of relationships among the dialects that are not apparent in the hierarchical model. Terbeek (1977) used MDS in the study of vowel perception in English, German, Thai, Turkish, and Swedish. He was able to calculate both the dimensions that are important, and the weight attached to each dimension. Among his conclusions: “Perceptual dimensions correspond strikingly well with categories in use by linguists for the description of vowels ...” (Terbeek 1977, ix) but also that cross-language differences indicated that comparable features could use acoustic clues differently across languages, and therefore there is a need for abstract phonological properties. The work includes the distance matrices used in the analyses. 3.2. Dialectometry Recently, MDS has been used in dialectometry, not simply to search for underlying dimensions, but rather as a tool for representing large quantities of data in a way that can be readily visualized. Embleton (1987, 1993) describes the technique. Whereas earlier uses of MDS dealt with a few dozen elements at most, this approach looks at hundreds of data points,
551 each with hundreds of components to their measure. The inspiration for the technique is the classic problem of representing the dialect information for an entire language. Dialect atlases can capture this information only by using many maps, each typically representing the distribution of just one or a few features. The detail is well captured, but the overall picture is lost in the multitude of maps. There are other technical problems with the representation of data in traditional atlases, such as the use of isoglosses (boundary lines) where in reality there is no simple boundary. Rather, in many cases, one dialect region fades into and overlaps another K but this is not consistent with the use of a boundary line, whether for one feature or many. In Embleton’s approach, each location and each feature contributes to the quantification of the dialect distance between locations. Villages that share many features are close together and vice versa. The result is potentially a high-dimension space (as many dimensions as locations, less one) in which each location is placed at a suitable distance from the others. MDS is applied to this highdimension space to give a 2-dimensional map K a dialect map, but now one that is the product of all the known dialect information, and not just a map of one feature. Such a map has not used any geographic information. It strictly represents the dialect information. However, the result of applying this technique to English dialect data involving 169 features at 313 locations (Embleton/ Wheeler 1994; 1997a) was a map that closely (but not exactly) reflected geographic position. The exceptions were not unexpected to English dialectologists, but now the relationships were all visible on a single map. The representation of the MDS output on a map requires some innovative graphing to create a readable map. For example, each English county was represented by a handful of villages, each of which became a point on the map. To show the villages by set (county or region), each village point was connected to the midpoint for the set, in a “star-burst” pattern (reconstructed in figure 39.2). In some cases, the star-burst for one county overlapped that of another county, showing the “fading” boundary, without hiding any of the details, or compromising the results with an arbitrary choice of boundary.
552 VIII. Gebiete/Phänomene: Geolinguistik/Dialektologie / Fields/phenomena: geolinguistics/dialectology
Fig. 39.2: Illustration of star-burst mapping technique, showing two overlapping regions.
Embleton/Wheeler (1997b; 2000) have undertaken to apply MDS to Finnish dialect data, but this first requires an extensive effort to computerize an existing dialect atlas of Finnish. Embleton/Uritescu/Wheeler (2002) propose to apply the technique to Romanian as a part of a more extensive project to create an online dialect based on Stan and Uritescu (1996; 2003) 3.3. Visualization MDS can be used beyond dialectology as a visualization tool for understanding data and hypotheses made about that data. For example, Wheeler (2003) considers the problem of developing a quantitative method for separating one kind of text from another. The texts might be “good emails” vs. “junk emails”, or the true works of an author vs. those of an imitator, or even the sequencing of texts of an author from early to late. A simple method of profiling a text is proposed in which one counts the number of occurrences of each type of character by its ASCII or Unicode code (an easy thing to program with online data). The result is a 256-number profile for each text measured (cf. figure 39.3).
Now, the question arises: is this method useful in a given set of circumstances. Merely looking at the numbers gives no sense of what is being measured. However, one can create a distance between profiles (by taking the sum of the squares of the differences in the percentage counts for each of the 256 ASCII codes) and apply MDS. MDS generates a set of coordinates for each text that can be plotted, as in figure 39.4. Now, it is possible to ask whether or not the method has separated the texts as you wanted, because you can see the separation. You can also see how doubtful the hypothesis may be, and perhaps even intuit a better hypothesis or at least a next step. Visual data is more readily comprehended. MDS provides a principled way to create visualizations of a wide range of data. MDS space for 7 email files 1.5 f
b
1 0.5 a
-3
-2
-1
0 c -1
e d
1
2
3
Trash
-1.5
Fig. 39.4: Six email logs of welcome email, and 1 log of unwanted email
4.
Summary
MDS is a straightforward technique. It requires that data be quantified, and from the quantification, that one create a matrix of distances between data points. With that distance matrix, MDS programs can calculate the best coordinates for plotting the data
Fig. 39.3: ASCII code profiles of two texts. What is the signficant difference?
39. Multidimensional scaling for linguistics
points on a 2 (or more) dimensional map. From these low-dimension maps, one can identify the key scales or dimensions underlying a given set of data. Alternatively, one can use the MDS output as a tool to visualize data, especially large volumes of data, potentially involving many critical dimensions. With a good visualization tool, the researcher can readily assess results, and select new strategies and hypotheses. MDS has been applied in Linguistics, but could be applied more widely.
5.
Literature (a selection)
Black, Paul. 1973 Multidimensional Scaling Applied to Linguistic Relationships. Cahiers de l’Institut de Linguistique de Louvain. v 3. n 5K6. Dec 1976. Expanded version of a paper presented at Conference on Lexicostatistics. Montreal. University of Montreal. May 19K20 1973 Davison, Mark L. 1983. Multidimensional Scaling. New York: John Wiley & Sons. Embleton, Sheila. 1987. “Multidimensional Scaling as a Dialectometrical Technique”, in Papers from the Eleventh Annual Meeting of the Atlantic Provinces Linguistic Association, ed. Rose Mary Babitch. Pp. 33K49. Embleton, Sheila. 1993. “Multidimensional Scaling as a Dialectometrical Technique: Outline of a research project”, in Contributions to Quantitative Linguistics, Proceedings of the First Quantitative Linguistics Conference, September 23K27, 1991, ed. Reinhard Köhler & Burghard Rieger. Dordrecht & Boston: Kluwer. Pp. 267K276. Embleton, Sheila & Eric Wheeler 1994. Dialect Project: Technical Report. York University, Toronto, Department of Languages, Literatures & Linguistics. Embleton, Sheila & Eric Wheeler. 1997a. “Multidimensional Scaling and the SED Data”, in The Computer Developed Linguistic Atlas of England 2, ed. Wolfgang Viereck & Heinrich Ramisch. Tübingen: Max Niemeyer. Pp. 5K11.
553 Embleton, Sheila & Eric Wheeler. 1997b. “Finnish Dialect Atlas for Quantitative Studies”, Journal of Quantitative Linguistics, volume 4, pp. 99K102. Embleton, Sheila & Eric Wheeler. 2000. “Computerized Dialect Atlas of Finnish: Dealing with Ambiguity”, Journal of Quantitative Linguistics, volume 7, pp. 227K231. Embleton, Sheila, Dorin Uritescu & Eric Wheeler. 2002. Online Romanian Dialect Atlas. http:// vpacademic.yorku.ca/romanian Oltman, Philip K. and Lawrence J. Stricker. 1991. Developing Homogeneous TOEFL Scales by Multidimensional Scaling. TOEFL Technica, Report 1. Princeton NJ: Educational Testing Service. Schiffman, Susan S. , M. Lance Reynolds, Forrest W. Young. 1981. Introduction to Multidimensional Scaling. Theory, Methods, and Applications. New York: Academic Press. 411 pp. Stan, Ionel & Uritescu, Dorin. 1996. Noul Atlas lingvistic român. Crişana. Vol. I. Bucharest: Romanian Academy Press. Stan, Ionel & Uritescu, Dorin. 2003. Noul Atlas lingvistic român. Crişana. Vol. II. Bucharest: Romanian Academy Press. Terbeek, Dale. 1977. A cross-language multidimensional scaling study of vowel perception. Working Papers in Phonetics 37. Los Angeles: University of California. Torgerson, Warren S. 1958. Theory and Methods of Scaling. New York: John Wiley & Sons, Inc. Viereck, Wolfgang (ed.). 1993. Proceedings of the International Congress of Dialectologists. I. Stuttgart: Steiner. Viereck, Wolfgang & Heinrich Ramisch. 1991. The Computer Developed Linguistic Atlas of England 1. Computational Production: Harald Händler et al. Tübingen: Niemeyer. Wheeler, Eric S. 2003. Multidimensional Scaling to Visualize Text Separation Glottometrica 6, 65K69 Young, Forrest. 1985. “Multidimensional Scaling”, in Kotz-Johnson (ed.). Encyclopedia of Statistical Sciences, Vol 5. John Wiley & Sons, Inc. (also http://forrest.psych.unc.edu/teaching/p208a/mds/ mds.html)
Eric S. Wheeler, Toronto (Canada)
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology 40. Quantitative methods in typology 1. 2. 3. 4. 5. 6.
Introduction Sampling Establishing types Interpreting variation Conclusion Literature (a selection)
1.
Introduction
The principle of linguistic typology is that insight into the structure of human language can be obtained by classifying languages into types. The diversity and distribution of types helps us understand the possibilities and preferences of human language. The traditional conception of such types was holistic, meaning that the typology attempts to characterise a complete language as belonging to a particular type. At least since Greenberg (1963) a different, more reductionistic approach has arisen, in which only restricted domains of linguistic structure are classified into types, e. g. the kind of word order or the size of the phoneme inventory, to name just a few random examples (see Plank 2001 for a survey of 17th and 18th Century precursors of the reductionistic approach). It then becomes an empirical question whether the resulting typologies of different domains correlate with each other or not. By investigating such correlations in a sample of languages that are genealogically and areally independent from each other, an attempt is made to uncover regularities, or even universals, of linguistic structure. In this approach, the usage of data from as many as possible languages is encouraged, but quantitative methods are not widely used. Of the 37 articles that appeared in the first six volumes of the journal Linguistic Typology (1997K2002) there are twenty that compare data from a wide variety of languages. However, only five of these twenty articles were based on some kind of representative sample of the world’s languages and only five out of twenty (not necessarily the same) used some kind of quantitative analysis of the data. In fact only one article (viz. Siewierska 1998) actually pre-
sented frequencies as found in a stratified sample of the world’s languages and only one other article (viz. Fenk-Oczlon/Fenk 1999) presented quantitative analyses on a cross-linguistic convenience sample of 34 languages. As far as the publications in Linguistic Typology are representative of the field of linguistic typology, this indicates that the usage of strict sampling procedures and quantitative analyses is not widespread. The scarcity of usage of quantitative methods is also reflected in their somewhat unsophisticated application. Even so, I will survey the various quantitative approaches that have been used in the literature. In contrast to other surveys of quantitative methods in typology, like Altmann/Lehfeldt (1973) or Perkins (2001), I will not focus on measures and statistical tests that could be used in typology, but only discuss those methods that have actually been used and point out possible pitfalls with them. The present exposition will be organised along three main themes. First, in section 2, I will discuss various approaches to the problem of sampling. The central question here is which of the thousands of languages should be investigated in a typological study and what conclusions can be drawn from any such sample. Next, in section 3, the problem of establishing types will be discussed. In most contemporary typological investigations the types are defined qualitatively. In this section, I will summarise some quantitative methods to classify a language as belonging to a particular type. Finally, in section 4, the interpretation of typological data is examined from a quantitative point of view.
2.
Sampling
2.1. Using data from many languages When one intends to use data from a wide array of languages, the first question that arises is which languages one should investigate from among the 5.000 to 10.000 languages presently spoken. In most typological
40. Quantitative methods in typology
studies, the set of languages chosen is a convenience sample, meaning that there is no a priori restriction on which languages might or should be included. Indeed, this is the best way to go for any exploratory study K and most typological investigations are still exploring the linguistic potential of human language. However, as soon as general patterns are observed, it is important to check such patterns in a more thoughtfully selected sample of the world’s languages. This is the only way to assess the merit of any hypothesised generalisation about human linguistic structure. The question how to establish such a sample is the most widely discussed aspect of typological methodology, though this still means only about five original contributions (viz. Bell 1978; Dryer 1989; Perkins 1989; Rijkhoff et al. 1993; and Maslova 2000a). The most widespread approach to sampling, as used throughout the social sciences, is to represent the diversity of phenomena using a stratified probability sample. A probability sample is, roughly spoken, a randomly chosen subset of the world’s languages. By adding a stratification it is possible to delimit the influence of known biases. I will discuss various guidelines as proposed in the literature on how to compose a stratified probability sample in section 2.2. A general problem of probability samples is that the best they can do is to represent the actual world’s languages, which are not necessarily the same as the possible human languages. Various reactions to this discrepancy will be considered in section 2.3. The major form of criticism from the wider linguistic community to any kind of sampling is to point out errors of observation (i. e. “incorrect attribution of characteristics to languages”, Bell 1978, 126). Typically, such criticism takes the form as found in Campbell et al. (1988) who react to Hawkins (1983) by “correcting some wrongly reported word-order patterns in certain languages [.] We make no attempt to be exhaustive, but rather concentrate on languages of our experience and patterns that otherwise seem suspicious, i. e., are of a low frequency of occurrence in the sample” (Campbell et al. 1988, 210). It is of course of great importance to correct errors, but errors as such are not a major problem for a sample study. Errors will always be present and often they will neutralize each other (though the larger the sample, the greater
555 the chance that some erratic residue will remain). A much more valid kind of criticism is to show that there is a consistent direction in the errors, leading to a systematic bias in the sample. The corrections as made by Campbell et al. (1988) do exactly the opposite: by focussing on a particular subset of the sample (viz. those languages they know well, and those languages that have an uncommon type in the original study by Hawkins) they induce a bias, thereby reducing the validity of the sample. To be able to discuss the various approaches to sampling, a short terminological clarification is necessary. I will use the term genus for “genetic groups roughly comparable to the subfamilies of Indo-European, like Germanic and Romance” (following Dryer 1989, 267; cf. Bell 1978, 147; the term family is used for the same concept by Nichols 1992, 24). There appears to be rather general consensus about this notion, although nobody has been able to give a stricter definition than the one cited above. In an attempt to do so, a genus is sometimes equated with a group of related languages, which have maximally diverged for 3500 years (Bell 1978, 147; Dryer 1992, 84 n. 2). However, units that are called genera are often much less old K and sometimes much older (Nichols 1997, 362K363). Also note that looking at groups with a maximal divergence of 3500 years is not the same as looking at the number of languages 3500 years ago (Dryer 2000, 345K346). Besides genus, the term stock will be used for the maximal reconstructable unit, i. e. the highest node in a genealogical tree (cf. Bell 1978, 148; Nichols 1992, 25; the term phylum is used for the same concept by Perkins 1992, 128). The content of this notion of course highly depends on whose reconstruction one is inclined to believe. 2.2. Probability samples The first extensive discussion of sampling techniques applied to linguistic typology is presented by Bell (1978). He strongly encourages the usage of a stratified probability sample and discusses many options of sample stratification. However, he only works out a stratification along genealogical lines in any detail. For each stock he estimates the number of genera. The number of languages sampled for each stock should be proportional to the number of genera in the stock (Bell 1978, 147K149). For example, Bell lists
556
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
12 genera for Indo-European, out of a total of 478 genera for the whole world, thus a sample should contain 12 / 478 Z 2.5 % Indo-European languages. The concept of a purely genealogical stratification has been perfected by Rijkhoff et al. (1993; 1998). Their method is designed to increase the probability of a rare type being represented in the sample. For each stock, they consider the complete structure of the genealogical tree to compute the diversity value (DV), relative to which the sample should be proportional. The formula to compute the DV for a particular stock is shown in (1). In this formula, L is the number of levels of the genealogical tree and Nx is the number of nodes at level x. The formula basically adds together the change in the number of nodes at each level (Nx K Nx K 1), but it values the additions in the higher levels of each stock as more important than the additions in the lower levels (as expressed by the factor L K x C 1/L in the formula). The other factor (LmaxK x C 1/Lmax) adds a kind of normalisation between stocks, limiting the DV of ‘deep’ stocks with many intermediate levels (Lmax being the maximum number of intermediate levels of any tree in the world, in their case 16 from Niger-Kordofanian). L
DV Z ∑ (Nx K NxK1) xZ1
ber of languages per genus (this means that if a particular genus has, for example, 30 languages out of a total of 6.500 languages in the world, then this genus should ideally be represented in the sample by 30 / 6.500 Z 0.46 % of the languages). For the areal stratification, Tomlin used an intuitively established division of the world in 26 areas based on “non-controversial” (Tomlin 1986, 301) areas, limiting the restovers by major continental boundaries (Tomlin 1986, 29). A different approach is a combination of genealogical and cultural stratification as used by Perkins (1992, 129K133). Basically, Perkins included one randomly chosen language per stock, taking care not to take two languages from the same cultural area (for the determination of cultural areas, Perkins refers to an unpublished thesis by Kenny, based on an analysis of cultural traits as proposed by Murdock). There are various problems with stratified probability samples. The first problem with any stratification is that the resulting sample completely depends on the classification that is followed to obtain the stratification. For example, Rijkhoff and Bakker (1998, 277K292) show that genealogically stratified samples (especially the smaller ones) change drastically depending on the genea-
(L K x C 1) (Lmax K x C 1) L
A particularly nice aspect of this approach is that it can be applied recursively within genealogical units to decide from which part of the tree a language has to be chosen. Rijkhoff et al. also propose to include at least one language for each highest node, an approach that leads to a diversity sample (Rijkhoff et al. 1993, 184K190; Rijkhoff/ Bakker 1998, 271K277). Other stratifications are sometimes used in combination with a genealogical one. A combination of genealogical and areal stratification is used by Tomlin (1986, 24K32). He started from a convenience sample of 1063 languages, which he subsequently reduced to 402 languages to represent the genealogical and areal diversity of the world’s languages. For the genealogical stratification, Tomlin refers to Bell’s (1978) proposal to represent the number of genera per stock. However, Tomlin actually uses a different method, as his sample represents the num-
Lmax
(1)
logical classification that is used. As genealogical classifications are especially prone to fierce scientific debate, the position taken in this issue will strongly influence any genealogically stratified sample. Second, a stratification is especially effective if the parameter of investigation is known (or expected) to be more homogeneous within each stratum than between the strata. For example, the 500-odd Bantu languages are strongly homogeneous in having all an SVO basic word order (with one or two exceptions). This homogeneity will substantially raise the number of SVO languages in a genealogically unstratified sample (cf. Dryer 1989, 258). However, genealogical classifications are mostly based on lexicographic and phonological/morphological comparison, which does not necessarily imply a relation to, for example, syntactic properties like word order. So it is not clear beforehand whether a genealogical stratification is of any use for a
40. Quantitative methods in typology
typology of a syntactic parameter. Indeed, low-level genealogical strata can show a large variability on syntactic parameters (see, for example, the high diversity of indefinite pronouns within Germanic or Romance, as described in Haspelmath 1997). Such variation within genealogical strata casts doubt on the usefulness of such a stratification. Especially higher levels of genealogical relationship are prone to show a high amount of typological diversity as higher genealogical units are often based on very restricted evidence, leaving much room for variation. There are two different approaches to deal with these problems. First, Dryer (1989; 1991; 1992) simply ignores all genealogical levels higher than the genus for his stratification. He uses a stratification along genera, but he does not propose any kind of probabilistic representation of genera. He seems to want to include all genera as attested among the world’s languages (cf. Dryer 1992, 133K135). He also checks the consistency within each genus by sampling (preferably) more than one language from each genus. Obviously, the disadvantage of this approach is that extremely large samples are needed. In contrast, Perkins (1989) accepts a full genealogical stratification, but he proposes to check its usefulness by statistical calculations. He describes a method that compares the variation within a stratum with the variation between the strata. This method can be used to assess the optimal grain for a stratification. For example, Perkins reanalysed Tomlin’s (1986, 301) areal stratification concluding that “the continental grid size displays the maximum effect for word order. Consequently, I infer that continents should be used as the highest level strata for a language sampling frame for basic word order” (Perkins 1989, 309). Note though that this method can only be used post-hoc, meaning that only after data have been collected, this method can calculate the optimal stratification. 2.3. Actual vs. possible languages A general problem for all sample studies is that the best they can do is to represent the actual world’s languages. However, many investigators would like to use typological samples to make inferences about possible human languages. It is conceivable, though, that the actual world’s languages are not representative of the possible human lan-
557 guages. For example, having clicks is extremely rare among the world’s languages, so typologically speaking there has to be a restricting factor somewhere. However, the question is whether there is an inherent linguistic reason restricting the presence of clicks in the phoneme inventory, or whether there is a completely different rationale for their current distribution. For example, it might just as well have been a coincidence of historical development that those languages with clicks did not spread their characteristics among the world’s languages. This possibility implies that the scarcity of a linguistic phenomenon does not necessarily indicate that it is linguistically marked. The actual and the possible only meet in what Maslova (2000a, 326) calls a ‘stationary distribution.’ In such a distribution, the netresult of all language change does not influence the frequencies of occurrence of the types; the number of changes between the types is in balance. Maslova (2000a, 315K 325; 2000b, 357K361) uses a stochastic Feller-Arley model to investigate the potential effects of changes on the actual frequencies of structural types in a language population. The effects turn out to be most salient in little populations. She concludes that “the current [typological] distributions need not be independent of their initial counterparts. In particular, they may still bear statistically significant traces of those [.] events that had happened [.] when the language population had been small” (Maslova 2000a, 326). In other words, there is reason to assume that the actual world’s languages are not mirorring possible human language. This position is most forcefully defended by Nichols (1992; 1995; 1996; 1997). She attempts to interpret areal skewing of types as the result of historical processes. To her, typology is the “linguistic counterpart to population biology and population genetics, which analyse variation within and between populations of organisms and use the results to describe evolution” (Nichols 1992, 2). In practice, she compares frequencies of occurrence of linguistic types between various geographical regions (cf. section 4.6.). She is rather eclectic as to which geographic regions she compares, though natural barriers (mountain ranges, large water masses, coastlines) play an important role to delimit the areas. In her more recent works, the areas investigated have become more and more
558
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
determined by hypothesised economic/political influences on linguistic distribution. A different approach to the possible mismatch between the actual and the possible world’s languages is to devise a method that controls for this mismatch. Both Perkins (1989) and Dryer (1989) propose such a method by counting only independent cases, i. e. count only those cases of which one is sure that there is no historical connection leading to shared characteristics. Perkins (1989) uses a kind of ANOVA model to analyse the dependency of variation between the languages in the sample according to a particular stratification. He proposes to reduce the sample until there is no significant association any more between the sample and the stratification. Using his method on the 1063-languages sample from Hawkins (1983), Perkins ends up reducing this immense sample to only forty-three genealogically and areally independent cases. This method regularly leads to rather small samples of about 50 languages. Perkins recommends “using around a hundred languages for most linguistic samples to balance the requirements for representativeness and independence in samples. The results from using samples of this size should always be checked, however, to determine if the variables under considerations significantly vary across language groups” (Perkins 1989, 312). Dryer (1989) proposes an even stronger criterion of independence. He considers only five large continental areas (in later publications there are six areas, see Dryer 1991; 1992) and “the only assumption about independence is that these five areas are independent of each other” (Dryer 1989, 268). Within each area, he counts the number of genera of a particular type, allowing for a genus to be split if its languages are not typologically uniform on a specific parameter (split genera are called ‘subgenera’, cf. Dryer 1989, 289 n. 4), Any preference should be attested in all areas for it to be interpreted as a linguistic universal (see section 4.5. for a detailed exposition of his method). 2.4. Other approaches to sampling Maslova (2000a, 328K329) describes a completely different method to establish a sample of the world’s linguistic variation. She proposes to estimate the transition probabilities between types, i. e. the chances that a language will change its type. These prob-
abilities can be used to compute the stationary distribution of linguistic diversity. Simply put, when a transition from one type to another, say from type Ti to type Tj, is much higher than the opposite transition, from Tj to Ti, then the result will be a proliferation of Tj as compared to Ti. After a long enough period, a stable situation will be reached in which the frequencies of Ti and Tj are proportional to the transition probabilities. However, there remains the practical problem of estimating transition probabilities. We only have historical information on very few languages K much too few to base any valid estimates on. Circumventing this problem, Maslova proposes two ‘apparent time’ (cf. Labov 1994, 43 ff.) approaches by using variation to estimate transition probabilities. First, one could use genealogical groups of recent origin and interpret any internal variation to reach an estimate for the transition probabilities. However, it is questionable whether it is really possible to find enough suitable genealogical groups among the world’s languages to make a statistically valid estimate. It is also often difficult to infer the direction of change on the basis of variation alone. Maslova’s other proposal is to relate the number of ‘mixed type’ languages in a sample to the number of ‘pure type’ languages, interpreting languages of a mixed type as intermediate cases in a transition. However, the designation ‘mixed type’ is highly dependent on theoretical interpretations, as a ‘mixed type’ might just as well be an unrecognised pure type. Even more problematic, the proportion of mixed type languages in a sample is both a result of transition probability and transition speed. Transition speed is not constant; some languages might stay in an intermediate stage for a long time, while others do not. It seems to be impossible to tease apart probability and speed. And then, even if one succeeds in estimating transition probabilities, it is still possible that these estimates are only valid for the present world’s languages. The probabilities of transitions might have been different in the past and might be different in the future. Compiling a typology of transitions is an interesting approach in itself because it is an attempt to directly investigate the possibilities of language change (cf. Cysouw 2003b, 245K294 for an attempt to collect a large set of transitions of the paradigmatic structure of person marking). The results of such an
559
40. Quantitative methods in typology
investigation are a priori independent of a synchronic typological survey. Only in a stationary distribution will synchronic and diachronic typologies give compatible results. This implies that all of the above points of criticism also apply to the reverse situation. Not only is it dangerous to deduce synchronic patterns (e. g. universals) for diachronic data (e. g. transition probabilities), but it is also troublesome to infer a typology of change from a purely synchronic typological survey. There is a recurrent attempt in the literature to explain typological patterns with the help of hypothesised universals of language change. For example, Vennemann (1974, 347) proposes to explain exceptions to his typological generalisation of ‘natural serialization’ by invoking language change. Such conclusions are dangerous, if not downright unwarranted (cf. Mallinson/Blake 1981, 434K435 for detailed criticism to Vennemann). Likewise, Plank/Schellinger (2000) propose to interpret some universals about dual marking diachronically. They are more cautious than Vennemann in their conclusions, but the basic problem remains. Methodologically, a claim about diachronic laws is only possible if the languages in the sample are investigated diachronically. To make a typology of possible changes, one has to investigate a sample of transitions, not a sample of synchronic types. Finally, a rather different approach towards sampling was pioneered by Plank/ Schellinger (1997). They investigated Greenberg’s (1963) implicational universals 37 and 45, which (roughly summarised) state that gender in the plural implies gender in the singular. In their study, Plank/Schellinger presuppose this to be true, though they note that there are quite a number of counterexamples, contrary to what is often assumed (see also section 4.3. on the problem of counterexamples). Their attractive approach to investigating the possibilities of human language is to construct a heavily biased convenience sample consisting only of counterexamples to Greenberg’s universals. With this collection of ‘quirks’ they are able to establish deeper insights into the universally valid possibilities of human language. They summarise that “it is hard to know whether the amount of exceptions now on record should cause concern. Encouragingly, it is still with more than chance frequency that gender distinctions prefer the singular over non-singulars [.] Nonetheless, when well
above 10 % of the languages examined are at odds with what is being predicted [.] this would not seem an entirely negligible margin” (Plank/Schellinger 1997, 93). This approach to sampling K collecting examples of cross-linguistically rare phenomena K is also used by Cysouw (forthcoming a, b, c) to investigate typologically unusual patterns of person marking. Other examples are Haspelmath (1994), investigating boundary changes in morphological structure, and Olson/Hajek (2003), investigating the labial flap.
3.
Establishing types
3.1. Continuous parameters Besides the choice of languages, the other basic precondition to establish a typology is to delimit the types. In most current investigations, types are established categorially. In such an approach, there are strict definitions that govern to which type a language belongs. In contrast to this categorial approach, a few authors use continuous parameters. Greenberg (1990 [ 1954/1960]) was the first to propose non-categorial measurements, in his case to characterise the morphological type of a language. He proposes various indices based on text counts. For example, he defines the degree of synthesis (or ‘gross word complexity’) of a language as the ratio M/W, where M is the number of morphemes in a particular stretch of text and W is the number of words in the same text. Greenberg’s measurements have been refined by Krupa (1965). Fenk-Oczlon/Fenk (1985; 1993; 1999) use texts counts to test various correlations inspired by Menzerath’s Law (cf. art. No. 67) on a cross-linguistic sample of languages. Also Myhill (1992) discusses many different indices based on text counts (cf. art. No. 53). In the same vein, Altmann/Lehfeldt (1973, 71K121) propose many different measurements for all levels of structural analysis, mostly for phonology and morphology, but also a few for syntax. Unfortunately, the measurements proposed by Altmann/Lehfeldt have never been used in a typological survey. In all investigations that use text counts, there is some attempt to control for the type of texts used (for example, often only story-telling monologues are used). Only Fenk-Oczlon/Fenk (1985; 1993; 1999) use translations of a controlled set of utterances for their typological text counts.
560
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
In this tradition, a fair amount of work has been done on the question of the explicitness of marking of noun phrases (NPs). Languages differ as to how often full NPs or, converse, zero markers are used to mark arguments. Givón (1983, 17K18) established a continuum of accessibility from zero marked argument, through clitics, dislocated NPs, to full NPs. He hypothesises that, as the contextual identification of an argument becomes more difficult, a construction will be used high on this continuum. He developed various indices to measure the difficulty of contextual identification (Givón 1983, 14K15), like referential distance (‘look back’), potential interference (‘ambiguity’) and persistence (‘decay’). For example, referential distance “assesses the gap between the previous occurrence in the discourse of a referent and its current occurrence in the clause [.] The gap is [.] expressed in the terms of the number of clauses to the left” (Givón 1983, 13). Givón and his co-workers investigated the correlations between the accessibility continuum and the various measures of contextual identification by text counts for a small sample of the world’s languages. Later, Myhill (1992, 20K52) extended this approach by using slightly different indices and comparing languages more directly. Bickel (2003) uses a somewhat simpler measurement called ‘referential density’, which is defined as the ratio of the number of overt argument NPs and the number of available argument positions in a stretch of text. Although he only compares three languages, he also included within-language variability by establishing referential density for various speakers (differencing for age, gender and literacy) of each language. By using ANOVA tests, he found that the between-language variation is bigger than the within-language variation. A different quantitative approach to type establishment is to combine various categorial parameters into a complex parameter. For example, Nichols (1992, 72K75) uses a ratio of two parameters (viz. counts of head and of dependent marking structures) which both have a range from 0 to 9. Their ratio looks like a continuous parameter, but this is misleading. The original parameters can only take whole numbers as values, so there are actually only 10 different values on each parameter (viz. all integers from 0 to 9). The cross-section of the two parameters result
in 10*10 Z 100 different types. Taking the ration of the two parameters reduces the number of possible types to 60 (because some ratios are identical, e. g. 2/8 Z 1/4). Although this is a wealth of types for a typology, strictly speaking it does not qualify as a continuous parameter. The same method of combining categorial typologies into something that looks like a continuous parameter is used by Bakker (1998) to characterise the flexibility of word order in a language (cf. art. No. 59). A major pitfall with the usage of such combined parameters is that they are easily interpreted as indicating linguistic variation on a continuous range. This misinterpretation can lead to erratic explanations (see section 4.1.). 3.2. Semantic maps One of the central difficulties for the establishment of types is the problem of crosslinguistic comparability. Different languages often have categories and constructions that are alike to each other, yet they are almost never exactly alike. By positing a categorial definition (‘a language is of type A if characteristic X is attested, but of type B if X is not attested’), a researcher simply divides the semantic/functional space of variation into two distinct parts. A more detailed typology can be reached by the usage of semantic maps (sometimes called cognitive maps or implicational maps), a method first used by Anderson (1982) to tackle the crosslinguistic variability of marking perfectivity. To establish a semantic map, various (etic) functions of language are distinguished and then for each language in the sample, the (emic) categories or constructions that express those functions are established. A semantic map for such data shows the (etic) functions in a two-dimensional space. Lines connect those functions that can be expressed by the same (emic) category or construction in any language in the sample (see Haspelmath 2003 for a detailed exposition of this method). A prime example of this approach is Haspelmath’s (1997) investigation of indefinite pronouns. He distinguishes nine functions that can be expressed by an indefinite pronoun. Theoretically, with nine functions there are 29 K 1 Z 511 combinations possible (the K1 is added because there has to be at least one function covered). However, in a sample of 40 languages, Haspelmath finds 133 indefinite pronouns showing only
561
40. Quantitative methods in typology
(1) specific known
(2) specific unknown
(4) question
(6) indirect negation
(5) conditional
(8) comparative
(7) direct negation
(3) irrealis non-specific
(9) free choice Fig. 40.1: Semantic map for indefinite pronoun functions (reproduced from Haspelmath 1997: 4).
(7)
(6) (1)
(2)
(3)
(4) (5)
(8)
(9) Fig. 40.2: Two-dimensional approximation of the distances between indefinite pronouns functions, based on Haspelmath’s (1997: 68K75) data (reproduced from Cysouw 2001: 611).
39 different combinations of functions. To model this apparent restriction of possible combinations, Haspelmath proposes a semantic map, shown here in Figure 40.1. This map restricts the number of possibilities from 511 to 105. With two extra constraints (Haspelmath 1997, 77), this number is further reduced to 82, still about double the number of the 39 cases attested. This model overestimates the variation attested, a recurrent problem with semantic maps. Another problem with this kind of approach is that a semantic map does not take into account which combinations of features are frequent and which are rare. Cysouw (2001) reanalysed Haspelmath’s data incorporating the frequencies of occurrence of the combinations of functions using multidimentional scaling (cf. Croft/Poole 2004).
The basic idea is to place the nine (etic) functions in a two-dimensional space in such a way that the distance between any two functions is proportional to their frequency of (emic) co-occurrence. The result of a purely mathematical approximation is shown in Figure 40.2. The similarity to Haspelmath’s “inductively established” (1997, 122) map is striking. 3.3. Reducing continuous data Parameters that use a continuous scale (or distinguish very many types) are often reduced into just a few discrete types. There are two possible reasons to use such a reduction. First, continuous scales might seem somewhat tedious to work with, so a reduction to two or three discrete types can be used to simplify the interpretation of the
562
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
data. Second, there is a preference in the typological literature for typologies of just a few types (about 2 to 5) on each parameter. The preference for such parameters is probably based in the widespread belief among linguists that everything essential in linguistic structure will be discrete. Also, many linguists find it conceptually more insightful to interpret a situation of, for example, three different classes of phoneme inventories (small, regular and large) then to work with a range from 11 to 141 phonemes. At least five different strategies have been used in the literature to reduce a continuous scale of typological variation (or a scale with very many different types) to just a few types of linguistic structure. The basic problem is to decide where to put the cutoff point. The following strategies have been used: K divide the linear scale into equal parts on the linear scale; K divide the linear scale into equal sizes of the resulting groups; K use frequently occurring types on the linear scale as cut-off points; K use a confidence interval around a central value; K use similarity as established by a mathematical distance measure. The first strategy K divide into equal parts K is quite straightforward. For example, Nichols (1992, 98) divides her complexity range with values from 1 to 15 into three equally sized subparts 1K5 (‘low’), 6K10 (‘moderate’) and 11K15 (‘high’). Another example is Bakker (1998, 394K405) who divides various parameters with values ranging between 0 to 1 into three equal parts: 0K0.33, 0.34K0.66 and 0.67K1. Another approach with the same result is to round off decimal values. With this method Nichols (1992, 73K74) reduces 35 different classes of head/dependent ratio to 11 classes. The problem with these reductions is that it does not have any intrinsic motivation. It is just a tool to turn continuous data into discrete groups. Fenk-Oczlon/Fenk (1999, 157K158) also use this rounding strategy to reduce a continuous scale describing the average number of syllables per clause. As syllables always come in whole numbers, this reduction might be interpreted as describing the prototypical number of syllables per clause. The second strategy K divide into equally sized group K at least makes more sense
methodologically. For example, Justeson/ Stephens (1984, 533) divide the range of phonemic inventories into two parts in such a way that each part consists of the same number of languages in their sample. For example, the cut-off point for the number of vowels in a language is between nine and ten vowels, because 25 out of their 50 languages have nine or less vowels, and the other 25 have ten or more vowels. Maddieson (1984, 10K20) appears to use the same approach, though he does not explicitly state his reasons for establishing his cut-off points. This kind of division still does not mean anything linguistically, but at least the resulting groups are roughly comparable in size, which allows for easier statistical evaluation. Both the first two strategies are mostly meaningless linguistically. They are purely formal strategies for division, without any reference to content. However, as they are independent of the data, this makes these strategies suitable for all situations. In contrast, the following two strategies can only be used with particular distributions of the data. The third strategy K use frequently occurring types as cut-off points K is for example used by Nichols (1992, 97K98) to simplify her typology of head/dependent ratios, ranging between 0 and 1. She found a few types in this range that were clearly more common than others (but see Cysouw 2002, 78K79 for criticism on this analysis) and she decided to use these types as cut-off points. It remains unclear, though, to which side of the cut-off point these common types should be counted K and this decision strongly influences the frequencies of the resulting types. Yet, in principle a division informed by the actual distribution of the data is linguistically interesting. However, it can only be used if the data show some peaks in their distribution. The fourth strategy K use a confidence interval around a central value K can likewise only be used with a particular distribution of the data, namely only when the data show a single peak inside the range. Lehfeldt (1975, 284K285; see also Altmann/Lehfeldt 1980, 97K101) divides the phoneme inventory range into parts using a statistical confidence measure around the central peak. In this way, he designates all inventories up to 18 phonemes as ‘small’ and all inventories from 48 phonemes upwards as ‘large’. The same approach is also used by Krupa/Altmann (1966). The problem with this ap-
563
40. Quantitative methods in typology
proach is that it depends on a suitable mathematical model for the data in which confidence intervals can be determined. Finally, an interesting strategy to establish discrete types from continuous data is used by Altmann/Lehfeldt (1973, 34K48; 1980, 282K293). They use a mathematical similarity measure (combining 10 different continuous parameters) to establish a similarity matrix of their sample of 20 languages. They then organise the languages in a tree in which more similar languages share a node. Their method for organising the languages in the tree is rather outdated, but recent cladistic methods from biology can be used instead (cf. Felsenstein 2004 for a survey). Such a tree of relative similarity can subsequently be used to determine discrete groups of languages by choosing particular branches as establishing a type.
4.
Interpreting variation
4.1. One-dimensional skewing When a sample of the world’s languages is established and the languages in the sample are all classified according to the parameter of interest, then the next step is to interpret the frequencies obtained. In almost all typological investigations, it turns out that the various types on a particular parameter are not uniformly distributed. Some types are much more common than others. In the case of continuous parameters (or parameters with very many different types) quantitative models can be of service. For example, the size of phonological inventories varies widely among the world’s languages. There is a range from minimally 11 to maximally 141 phonemes with a median between 28 and 29 (Maddieson 1984, 7). Lehfeldt (1975; see also Altmann/Lehfeldt 1980, 87K95) attempts to model the distribution of inventory size using a gamma distribution. This result is criticised by Justeson/Stephens (1984, 538K540; see also Stephens 1984, 651) because there does not seem to be a sensible reason for using a gamma distribution, except that it fits the data rather nicely. Instead, they propose a log-normal distribution, which also fits the data. However, this model also has a motivation: Justeson/ Stephens reason that the number of distinctive features used by a language is crucial, not the number of phonemes themselves. They argue that the number of distinctive
features used by a language is normally distributed and that “the number of distinctive features exploited in a language is roughly proportional to the logarithm of the number of segments built up from them” (Justeson/ Stephens 1984, 539K540). This results in a log-normal distribution for phonemes, which is corroborated by the data. Building on this distribution of phoneme inventories, Altmann/Lehfeldt (1980, 151K 182) show that various characteristics of phoneme distribution are related to the size of the phoneme inventory K of a particular language. For example, the repeat-rate R of a language is defined as: K
R Z ∑ pk2
(2)
kZ1
In this formula, pk represents the chance of occurrence of a phoneme k in the language. The repeat-rate R describes the mathematical expectation of pk for all phonemes of a language. If all phonemes were equally frequent in a language (which is counterfactual), it can easily be shown that R would be identical to 1/K. However, starting from the assumption that the chances for the occurrence of individual phonemes are geometrically distributed, Altmann/Lehfeldt derive that R should be roughly identical to 2/K. This prediction very nicely describes the actual values of R in a sample of 63 languages (1980, 151K159). Zörnig and Altmann (1983) question the assumption of the geometrical distribution of phoneme frequencies. Assuming a Zipfian distribution (cf. art. No. 16) they get a slightly better fit of the data, though the formula for R is rather complex and loses the intuitive attractiveness of the simpler 2/K. There is a major pitfall for the interpretation of skewing of parameters. In some typological studies, the parameters are composites: their values are based on a combination of various empirical measurements (cf. section 3.1.). The interpretation of such composite measures is dangerous, because it is easily forgotten that they are not empirical primitives and consequently the statistically expected values are often not intuitively assessable. For example, the central parameters used by Nichols (1992) are counts of head (H) and dependent (D) marking structures in a language. In her approach to the concept of head and dependent marking, both counts are in principle independent: a structure can be marked on both the head
564
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology 30
Number of languages
25
20
15
10
5
0 0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Complexity (Head + Dependent marking
Fig. 40.3: Nichols’ complexity data (bars) and the statistically expected values (line), adapted from Cysouw (2002: 77).
and the dependent, only on one of both, or on neither. She uses various composite measures that are based on these counts, such as ‘complexity’ (defined as D C H) and ‘head/dependent ratio’ (defined as D / D C H). In the evaluation of these composite measures, Nichols forgets that the statistically expected values are also composites. For example, she finds a “roughly normal distribution” for complexity, which she interprets as “showing that languages avoid the extremes of complexity” (Nichols 1992, 87K88). However, the statistically expected distribution of her value for complexity has about the same form as the attested distribution, as shown here in Figure 40.3 (cf. Cysouw 2002, 77). The same problem is attested with her head/dependent ratio, about which she claims that “it is bimodal, with the greatest peaks at the extremes of exclusive head marking [.] and exclusive dependent marking” (Nichols 1992, 72K73). This seems to imply that there is a tendency for a language to be either head or dependent marking. In fact, the distribution described by Nichols is almost purely the result of the transformation D / D C H, not of the underlying data (Cysouw 2002, 78). In these cases, the apparent skewing does not have to be explained or modelled. 4.2. Implicational universals Although the observation of skewing within a single parameter is already a result of major importance, most typological investigations do not stop there. The ultimate goal of many typological investigations is the estab-
lishment of interaction between a priori independent parameters. The classical approach to analysing dependency between two discrete typological parameters was introduced by Greenberg (1963) and is concisely set out in Greenberg (1978). The basic tool is the implicational universal A / B, which states that there is an interaction between two parameters A and B in such a way that exactly one of four theoretically possible combination of features, viz. [AC, BK], does not occur among the world’s languages. In words, such an implicational universal amounts to saying: for all languages, if a language has characteristic A, then it also has characteristic B. However, if a language does not have characteristic A, then it can either have, or have not, characteristic B (and both these options should occur). This kind of implication is what logicians call ‘material implication’ and its interpretation is rather different from the intuitive interpretation of the English statement A implies B. The intuitive notion makes no claim as to what happens if A is not true. In contrast, the material implication explicitly claims that both B and not-B should be attested when A is not true. There are two important derivatives of the (material) implicational universal: the bidirectional universal (or logical equivalence) and the implicational hierarchy. The bidirectional universal A 4 B is a combination of the two mutual implications A / B and B / A. Such a universal claims that two combinations of features do not occur among the world’s languages, viz. [AC, BK] and
565
40. Quantitative methods in typology
[AK, BC]. However, Greenberg comments that “statements of this type are hardly ever encountered, perhaps because of their obviousness. They are probably worth more attention in that they involve a very strong relationship, stronger than that of a unidirectional implication” (1978, 52). An implicational hierarchy consists of “a ‘chain’ of implicational universals, so that the implicatum of the first universal is the implicans of the second, the implicatum of the second universal is the implicans of the thirds, and so on” (Croft 1990, 96K98). A set of chained universals is shown in (3a). Such a chain is not equivalent (in the mathematical sense) to the nested chain as shown in (3b). The logically accurate way to formulate an implicational hierarchy is shown in (3c). Because this notation is rather cumbersome and uninformative, a hierarchy will normally be summarised by using another symbol instead of the implicational arrow, as for instance shown in (3d). Finally, another equivalent way to depict a hierarchy is shown in (3e). This table shows that five different types of languages have been attested out of 24 Z 16 logically possible types. The parameter-settings in this table-like layout intuitively show the hierarchical structure. (3) a. A / B B/C C/D b. A / (B / (C / D)) c. (A / B) & (B / C) & (C / D) d. A O B O C O D e. A B C D type 1: C C C C type 2: K C C C type 3: K K C C type 4: K K K C type 5: K K K K A central aspect of the implicational approach is that some of the logically possible types do not exist among the world’s languages. However, more often than not, it is not as simple as that. Some counterexamples or even whole subregularities are bound to appear among the world’s linguistic diversity. One proposal to deal with this is to extend the power of the implicational universal, as put forward by Hawkins (1983). He used concatenations of implications like, for example, in (4) to reach exceptionless statements. By nesting implications, it is possible to include subregularities within a major im-
plicational pattern (see Pericliev 2002 for a refinement of this approach). (4) If a language has SOV word order, then, if the adjective precedes the noun, the genitive precedes the noun. Hawkins (1983, 64) uses the notation as shown in (5a), though this is logically equivalent to the expression in (5b). In general, any nested set of implications like (6a) can be reformulated as a single implication with a conjoined implicans, as shown in (6b). (5) a. SOV / (AN / GN) b. (SOV & AN) / GN (6) a. A / (B / (C / . (Y / Z))) b. (A & B & C & . & Y) / Z There are various problems with the usage of such nested implicational universals. First, statements like (5a) seem to imply a relative order of importance among the parameters, though strictly logically this is not the case. This can easily be recognised by considering the equivalent expression (5b). In this expression, the order within the conjunction is not important (SOV & AN) b (AN & SOV). Thus, in the extended implicational universals the order of all parameters, except for the last, is of no importance (cf. Pericliev 2002, 54 n. 4), The implication SOV / (AN / GN) is logically identical to AN / (SOV / GN). Second, an extended implicational universal is not a very strong statement, contrary to what it might look like at first sight. A statement like (4) seems rather interesting, linking three different characteristics into a meaningful bond. However, logically only one of the eight theoretical distribution of values is actually excluded by this statement (viz. SOVC, ANC, GNK). This weakness becomes even stronger as more implications are nested like in (6a). For each extra level of nesting, the theoretical possibilities double, yet the number of excluded value settings remains the same: no matter how long the concatenation of implications, only one value setting is excluded. Finally, and most crucially, there is a dangerous empirical pitfall with the usage of nested implications (cf. Dryer 1997, 140K 141). The problem occurs if a single implicational universal already presents a strong generalisation. For example, the second nested implicational universal proposed by Hawkins (1983, 65) is shown in (7a). As al-
566
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
ready discussed, this is equivalent to (7b). However, if only the second part of this statement, as in (7c), is considered, this universal has only two counterexamples in Hawkins’ data, both of them Aztecan languages (but see Campbell et al. 1988, 211K 212 for a different view of the Aztecan data). Now, it is rather easy to make this implication exceptionless by adding any untrue statement about Aztecan languages as an extra implicans. For example, Aztecan languages do not have tone, so the statement in (7d) does not have any counterexamples anymore. However, being a tone language does not seem to have any sensible typological relation to word order regularities. This example illustrates that by nesting implications one can always get rid of exceptions, but possibly at the cost of adding senseless constraints. (7) a. b. c. d.
VSO / (NA / NG) NA / (VSO / NG) VSO / NG Tone / (VSO / NG)
4.3. The problem of exceptions From the start, the implicational approach suffered from the problem of exceptions. Greenberg (1963) already qualified some of his implicational universals as holding only “with overwhelmingly greater than chance frequency.” For others he did not add this qualification. However, Comrie (1989, 20) rightly commented that “it is virtually impossible in many instances to distinguish empirically between absolute universals and strong tendencies [.] either the universal is absolute, or we happen not yet to have discovered the exceptions to it.” Dryer (1997) even forcefully argues that statistical universals are better than absolute universals. Many typological studies go into great detail to discount the exceptions to the implicational universals that are encountered. However, empirically this tactic is not legitimate, as it is often just as well possible to cast doubt on the classification of the regular cases (cf. section 2.1.). Cysouw (2003a) points out two pitfalls for the typologist’s disposition towards establishing absolute implicational universals (and their derivatives). The first problem is that non-occurrence of a particular combination of types (the basis of the implicational analysis) does not necessarily mean something. Compare the hypothetical distri-
butions of a 100-language sample as shown in (8). Both distributions show an empty cell in the cross-section of two parameters A and B, which would traditionally be interpreted as qualifying an implicational universal A / B. This works fine for the distribution in (8a), which has one zero and a significant interaction (p ! 0.0001). However, the distribution in (8b) also has exactly one zero, but does not show any statistical interaction (p Z 0.10), so the inference is wrong in this case. (8) a. BC BK
AC 26 0
AK 48 26
BC BK
AC 14 0
AQ 72 14
b.
I have used Fisher’s Exact test here to argue for or against significance of interaction. This test will be used throughout this section. However, this does not mean that this is necessarily the best test to apply to test typological frequencies (cf. section 4.5.). I will report here one-sided exact p-values (which is the weakest version of this test). Dryer (2003, 124K126) appears to report one-sided p-values for the same or stronger association, and Maslova (2003, 105K106) appears to report two-sided p-values for the same or stronger association. The use of either of these depends on the hypothesis that is tested and the resulting values may differ rather strongly for one and the same distribution. The basic assumption for using Fisher’s Exact (or other measures of interaction) is that the parameters are established independently of each other. The test assumes the proportion of AC to AK and the proportion of BC to BK is given and calculates on this basis whether there is statistical reason to assume an interaction between the two parameters A and B. It does not say anything about the reasons for any skewed distribution of the parameters in isolation K these remain to be explained. For example, in (8b) no interaction between A and B is attested, so the zero does not have to be explained. However, the distributions of both A and B in isolation are heavily skewed (the plus to minus ratio is 1 : 6 in both cases).
567
40. Quantitative methods in typology
These skewed distributions still have to be explained. The second problem with the typologist’s focus on implicational universals is that interesting distributions are possibly dismissed because there are no empty cells. Compare the hypothetical distributions of a 100-language sample as shown in (9). Both distributions show ample occurrences of all possible combinations of types, so from the viewpoint of implicational universals there is nothing of interest going on here. However, the distribution in (9a) shows an equally strongly significant interaction as the distribution in (8a) (p ! 0.0001). For a theory of linguistic structure, this distribution is very interesting. In contrast, the distribution as shown in (9b) does not show any significant interaction (p Z 0.12). (9) a. BC BK b.
AC 35 15
AC BC 26 BK 15
AK 15 35 AK 33 26
Cysouw (2003a) concludes from such examples that the presence of any statistical significant interaction is more important than the occurrence of zeros. However, a distribution with both a significant interaction and a zero, like in (8a), remains of special interest. Maslova (2003) describes a useful test to distinguish between different kinds of statistically significant interactions. When there is a significant interaction between two parameters A and B, she proposes to correlate both parameters to a third K derivative K parameter. This new parameter contrasts the cases that are in line with the correlation (i. e. the cases [AC, BC] and [AK, BK], abbreviated below as A Z B) with those cases that go against the correlation (i. e. the cases [AC, BK] and [AK, BC], abbreviated below as A s B). There are three different kinds of results when both original parameters are correlated with this new derivative parameter: K The two extra tests both show a significant interaction. This can be called a twosided asymmetrical dependency; K Only one of the two tests shows a significant interaction. This can be called a onesided asymmetrical dependency;
K Both tests do not show a significant interaction. This can be called a symmetrical dependency. The three kinds of significant interactions are exemplified in (10) to (12), respectively, In all these examples, the table labelled ‘a’ shows the original distribution of cases and the tables labelled ‘b’ show the two additional tests. Both asymmetrical dependencies in (10) and (11) are characterised by one cell that is relatively empty. Asymmetrical dependencies thus resemble the traditional typologist’s notion of the implicational universal. However, this is only a superficial characterisation that cannot be reversed (i. e. one cannot deduce from a relatively empty cell that there is an asymmetrical dependency). Maslova (2003) uses the names ‘strong unidirectional implication’ and ‘weak unidirectional implication’, respectively, for the two-sided and one-sided asymmetries. However, these labels are misleading in either of the two possible readings. First, there is no difference in the strength of the implication (both are equally strongly significant). Second, ‘strong unidirectionality’ would most appropriately refer to a more asymmetric situation, which would suggest the one-sided dependency and not the two-sided dependency. (10) A two-sided asymmetrical dependency a.
AC BC 33 BK 4
AK 30 33
p ! 0.0001 b.
AC AK AZB 33 33 AsB 4 30
BC BK AZB 33 33 AsB 30 4
p ! 0.0001
p ! 0.0001
(11) A one-sided asymmetrical dependency a.
AC BC 21 BK 4
AK 21 54
p!0.0001 b.
AC AK AZB 21 54 AsB 4 21
BC BK AZB 21 54 AsB 21 4
p Z 0.11 (n. s.)
p ! 0.0001
568
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
It is tempting to interpret a one-sided asymmetric distribution, like (11a), as showing an influence from B on A, but not the reverse (cf. Maslova 2003, 106). However, it remains to be seen whether the difference between the two-sided and the one-sided asymmetry is linguistically salient. Asymmetric dependencies can be used as a statistically valid replacement of the implicational universal. I propose to use the notation ‘A w B’ for both asymmetric dependencies, highlighting that there is no direction in the dependency. The symmetrical distribution in (12) also intuitively shows the symmetry in the distribution of frequencies. I propose to use the notation ‘A z B’ to designate symmetric interactions.
pair (B, C), then it also holds for the pair (A, C). This is true for the material implication: if A / B and B / C, then also A / C. However, this is not necessarily true for the asymmetrical dependency: if A w B and B w C, then A and C do not even have to show a significant interaction! For example, a hypothetical distribution of three parameters A, B and C in a 100-language sample is shown in Table 40.1. This distribution is traditionally interpreted as an implicational hierarchy, based on the material implications (with a few counterexamples). As shown in (13), the interactions A w B and B w C are indeed statistically significant. However, the interaction between A and C is not significant at all. Cysouw (2003a, 98K99) proposes a different analysis to capture the intuition of a hierarchical distribution in Table 40.1 in a statistically correct way. First, a statistical analysis has to show a significant interaction between the parameters A, B and C. Additionally, the frequencies of occurrence of the three parameters in isolation (as shown in the last column of Table 40.1) have to be significantly different. Indeed, the occurrence of AC is significantly less then the occurrence of BC, which is in turn significantly less than the occurrence of CC, viz. 21 / 50 / 79. The significance of the differences (i. e. that 21 is really significantly smaller than 50, etc.) can be tested, for example, by computing a confidence interval around each frequency. These confidence intervals should not overlap. The combination of a significant three-way interaction and a non-overlapping frequency cline can be interpreted as a hierarchy A O B O C. A different, and probably better, approach is to use log-linear modelling (e.g.
(12) A symmetrical dependency a.
AC BC 33 BK 17
AK 17 33
p ! 0.001 b.
AC AK AZB 33 33 AsB 17 17
BC BK AZB 33 33 AsB 17 17
p Z 0.17 (n. s.)
p Z 0.17 (n. s.)
The replacement of the implicational universal with the notion of asymmetrical dependency (as proposed here) poses a problem for the concatenation of such dependencies (as used in implicational hierarchies, see section 4.2.). The problem is that asymmetrical dependencies are not necessarily transitive (in the mathematical sense of the word). Mathematical transitivity states that if a relation holds between the pair (A, B) and the
(13)
AC AK BC 19 BK 2
31 48
p ! 0.0001
BC BK CC 48 CK 2
31 19
p ! 0.0001
AC AK CC 19 CK 2
60 19
p Z 0.09 (n. s.)
Table 40.1: A hypothetical distribution of three parameters A, B and C in a 100-language sample showing an implicational hierarchy. A B C
C C C
K C C
K K C
K K K
C K K
C C K
K C K
C K C
18
30
30
18
1
1
1
1
Total AC Z 21 Total BC Z 50 Total CC Z 79
40. Quantitative methods in typology
Justeson/Stephens 1990). However, the details of how to use of such an approach for typology have yet to be worked out. I did some preliminary analyses which indicate that only a very restricted set of results of a log-linear analysis qualify as a hierarchy. Only in case a model with maximally twoway interactions suffices, and these two-way interactions can be lineary ordered, then the data can be said to be modelled by a hierarchy. For example, in Justeson and Stephens’ (1990) analysis of word order correlations, they claim to need only two-way interactions for a sufficiently good model. (However, I have not been able to replicate this claim using the data from Hawkins 1983: 288. In my analysis, various three-way interactions were needed to arrive at a good fit.) If this claim from Justeson and Stephens is accepted, then the two-way interactions in their best model can still not be ordered lineary, so there is no hierarchy. The usage of log-linear modelling indicates that hierarchies are rather unusual results, but it also points towards more intricate models that could be fruitfullly used in typology. This is definitively an area that needs more investigation. 4.4. Statistical testing Although one might think that the collection of typological data will automatically lead researchers to use statistical methods for their evaluation, this is not what has happened. Statistical techniques are used incidentally, but there has not been a general acclaim for the need of such methods. An early example of cross-linguistic cross-parameter statistical testing is found in Krupa/ Altmann (1966; see also Altmann/Lehfeldt 1973, 44K48). They investigated Greenberg’s (1990 [1954/1960]) morphological parameters in a sample of 20 languages (unfortunately heavily biased towards Indo-European). Correlating the various parameters, they found remarkable dependencies between the parameters (cf. art. No. 58). As early as 1979, Justeson and Stephens started to look at statistical patterns in word order typology. However, their results were only (partly) published much later (Justeson/Stephens 1990), and even then without any influence on the developments in typology (their work has recently been broughy back into attention by the discussion in Croft 2003: 74K77)
569 Around 1980, various researchers again started (independently from each other) to use statistical methods to evaluate claims of typological dependency. The first to use basic chi-square testing of Greenbergian-style universals was Isaac Kozinsky in his 1979 Moscow dissertation (as cited in Testelets 2001, 314K316). However, this unpublished and not widely known work did not have any influence on other researchers. Around the same time, Maddieson (1980, 59; 1984, 9) reports on a significant (though weak) cross-linguistic correlation between the number of consonants and the number of vowels in a language. This result is heavily criticised by Justeson and Stephens (1984) using various statistical approaches to argue that there is no such correlation. Also around the same time, Perkins extensively used various correlation coefficients to argue for correlations between linguistic structure and cultural complexity (starting with his unpublished 1980 SUNY Buffalo dissertation, later published as Perkins 1988; 1992). From 1985 onward Fenk-Oczlon/ Fenk (1985; 1993; 1999) use statistical methods to show correlations between the size of syllables, words and sentences in a sample of the world’s languages. In recent years, statistical tests are used on an off-andon basis in the typological literature (mostly non-parametric correlation or dependency tests). For example, under Perkins’ influence, Bybee also started to use statistical tests to evaluate cross-linguistic frequencies (cf. Bybee et al. 1990; 1998). The most extensive use of correlation statistics in typology to date is found in Nichols (1992). She collected a large typological database to investigate holistic claims made by Klimov (Nichols 1992, 7K12). Nichols performed numerous correlation tests between the various characteristics of the 172 languages in her database. However, in her brave attempt to substantiate all her typological claims with statistical tests, she sometimes forgets to recapitulate the validity of using a statistical test. For example, she correlates two parameters ‘complexity’ and ‘head/dependent proportions’ (data repeated here in Table 40.2). Nichols concludes from these data (using a chi-square test) that “head marking favors low complexity and dependent marking favors high complexity. Languages of low complexity show a strong preference to place what little morphology they do have on heads: 21 of
570
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Table 40.2.: Complexity and head/dependent type (adapted from Nichols 1992: 99). Expected values are added between brackets. Head/Dependent proportions
Complexity levels Low
! 0.5 (head marking) Z 0.5 O 0.5 (dependent marking)
21 3 10
(31.1) (3.5) (13.2)
Moderate
High
50 5 41
4 4 34
(35.4) (4.7) (38.2)
(3.5) (6.2) (36.3)
Table 40.3: Affix order relative to basic word order (adapted from Siewierska & Bakker 1996: 150, Table 18). Expected values are added between brackets. AO V3 V2 V1 Free Split
20 20 5 2 3
Total
50
OA (23.3) (14.2) (5.7) (4.0) (2.8)
18 1 5 2 0 26
these languages are in the head-marking part of the range, and only ten in the dependent-marking part” (Nichols 1992, 99). However, she forgets that both parameters are based on the same counts of head (H) and dependent (D) constructions. Contrary to Nichols’ interpretation, when the statistical expectation is computed from the underlying H and D values (shown in brackets in the table, for computational details see Cysouw 2002, 74K81), it turns out that head marking with low complexity (21 cases) is clearly less common than expected (31.1 cases) and overall there is no significant dependence whatsoever (χ2 Z 11.3, p Z 0.18). However dangerous the pitfalls of using statistical analyses, it is still of major importance to check the statistically expected values of any interaction claimed. Statistical significance alone is never enough to qualify an observation as interesting (see section 4.5.). Yet, interpreting numbers without checking chance effects might lead to wrong interpretations. Still, even basic significance tests are not at all standard in typological works. Many authors rely on frequencies and proportions to make their argument. In most cases, the argumentation is not as strongly flawed as the preceding example from Nichols. However, little mistakes can be found regularly. For example, in a typological investigation of verb agreement, Siewierska and Bakker claim that: “in both V3 and V1 languages [but not in V2 languages, MC] AO and OA affixal order is
Both (12.1) (7.4) (2.9) (2.1) (1.5)
3 4 0 3 2 12
Total (5.6) (3.4) (1.4) (0.9) (0.7)
41 25 10 7 5 88
more or less evenly distributed” (Siewierska/ Bakker 1996, 150 italics added). Judging from their data (repeated here in Table 40.3), AO and OA order in V3 and V1 languages are indeed roughly equally frequent, though surely not evenly distributed. Siewierska and Bakker fail to take into account that there are many more cases of AO (50 cases) than OA (26 cases) in the complete sample. The chance expectation (as added between brackets in the table) reveals that OA in V3 languages is much more frequent than expected (actually 18 cases against expected 12.1) and AO in V3 languages is slightly less frequent than expected (though the deviation form expectation does not seem to be significant here). 4.5. Dryer’s approach to significance Dryer (especially 1989; 2003) opposes the usage of traditional statistical measures (like Fisher’s Exact) for typological data because typological samples are often biased: “various examples could be cited from the literature where conclusions are reached, often with levels of statistical significance cited, which can be shown to be artefacts of the nonindependence of the languages in the sample” (Dryer 1989, 265). One of the main reasons for this nonindependence is the existence of strong macro-areal effects in the distribution of linguistic features. These effects, whatever their origin, can distort statistical measures. For example, the languages in Dryer’s database show a strongly
571
40. Quantitative methods in typology
significant interaction between the order of adjective and noun, and the order of the negative word and verb (Dryer 2003, 124K126), as shown in (14a). However, the significance appears to be strongly influenced by the languages of North America. Removing this macro-area from the sample results in the disappearance of the significance, as shown in (14b).
in Table 40.4, describing the frequencies of the order of verb and object (OV / VO), crossed with the order of the noun and the relative clause (NRel / RelN). This table uses the layout favoured by Dryer, showing a box around the highest frequency of the second parameter (here: NRel / RelN) for each macro-area. To be significant, the same preference should be attested in all six macroareas. From these frequencies, there is a clear preference for VO & NRel compared to VO & RelN for all areas (cf. the last two lines in Table 40.4). However, the situation for the OV languages is not as obvious. To argue for a consistent preference among these frequencies, Dryer calculates the proportions of RelN (Z RelN / RelN C NRel) for both the OV languages and the VO languages (the results are shown here in Table 40.5). He then compares the values for each macro-area and draws a box around the highest proportion. Now it turns out that all areas show the same preference after all. Finally, Dryer calculates the average of the proportions of all macro-areas (the last column in Table 40.5). By averaging proportions instead of taken the proportion of the average, any overrepresentation of macroareas is discounted (cf. ‘Simpson’s paradox’). There are a few problems with this method. First, by splitting up the sample, the number of cases in each macro-area is often too low to reach any significance by itself (even in the extremely large samples that Dryer is using). For example, when the data from Table 40.4 are evaluated using Fisher’s Exact (shown in Table 40.6), the complete sample indeed shows a strong dependency between OV and RelN (p ! 0.0001). How-
(14) a. Whole world AdjN NAdj
NegV 64 81
VNeg 12 43
p Z 0.0025 b. Whole world, excluding North America AdjN NAdj
NegV 40 72
VNeg 12 41
p Z 0.064 (n. s.) Such effects led Dryer to reject non-parametrical statistical tests wholesale and develop a different test for significance, based on the assumption of independence of six macro-areas (see also section 2.3.). This reaction appears to be too strong (cf. Maslova 2003, 102 n. 2), If one finds statistical significance, as in (14a), then it is indeed important to check for areal effects (see section 4.6.), which might disqualify the significance. However, interpreting numbers without checking basic chance effects, as Dryer proposes in his method, might lead to wrong interpretations as well. To illustrate Dryer’s procedure and some possible problems with it, consider the data
Table 40.4: Order of noun and relative clause (reproduced from Dryer 1992: 86). OV&RelN OV&NRel VO&RelN VO&NRel
Africa
Eurasia
SEAsia&Oc
Aus-NG
NAmer
SAmer
Total
5 9 0 21
11 5 0 8
2 2 1 12
2 6 0 3
3 12 0 11
3 3 0 5
26 37 1 60
Table 40.5: Proportions of genera containing RelN languages (reproduced from Dryer 1992: 87). OV VO
Africa
Eurasia
SEAsia&Oc Aus-NG
NAmer
SAmer
Average
.36 .00
.69 .00
.50 .08
.20 .00
.50 .00
.42 .01
.25 .00
572
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Table 40.6: Statistical evaluation of the data from Table 4, correlating RelN with OV. pZ
Africa
Eurasia
SEAsia&Oc
Aus-NG
NAmer
SAmer
Total
0.0062
0.0017
0.11
0.51
0.18
0.12
0.0000
Table 40.7: A hypothetical example of an areal breakdown, analysed following Dryer’s method. Africa AC, AC, AK, AK,
Eurasia
SEAsia&Oc
Aus-NG
NAmer
SAmer
Total
BC BK BC BK
5 9 0 2
1 15 0 2
2 2 1 3
2 6 0 3
3 12 0 2
3 3 1 5
16 47 2 17
BC/AC BC/AK
.36 .00
.06 .00
.50 .25
.25 .00
.20 .00
.50 .17
.31 .07
ever, only Africa and Eurasia reach significance by themselves (p Z 0.0062 and p Z 0.0017, respectively). All other macro-areas do not show any significant interaction. Note that Dryer is counting genera, which will often consist of various languages of the same type, so it might be the case that when counting languages, significance can be reached in other areas as well (yet, he explicitly rejects counting languages, see section 2.3.). Dryer acknowledges the possible lack of significance of each single area. His method only validates a result when all six areas show the same preference (independently of whether each area in itself reaches any statistical significance or not). He claims that the chance of six independent areas showing the same tendency is low enough to warrant to significant observation. “The logic behind this [method] is that there is only one chance in [32] that all six areas will exhibit a given preference” (Dryer 2003, 110). However, he adds a proviso: “There are often situations in which one area does not quite satisfy the test [.] As a rule of thumb, I adopt the practice of tentatively accepting a pattern as reflecting a real linguistic preference if a type is more common in 5 out of the 6 areas, if the preference for that type is quite strong in those other 5 areas, and if the greater number of genera in the one exceptional area is by a relatively small margin.” (Dryer 2003, 112K113). So, the chances are not really 1 out of 32 (which amounts to p Z 0.031). Adding six semi-consistent situations (one possibly aberrant case for each of the six areas) results in validation for 7 out of 32 cases (which amounts to p Z 0.22). This is far from
reaching any significance. To counter this objection, Dryer adds the condition that the relative frequencies are important (the preferences in the five consistent areas have to be ‘quite strong’ and the aberrant case is only exceptional by a ‘relatively small margin’). In personal communication, Dryer explains that he has “calculated, under plausible interpretations, that allowing these cases raises p to 0.04 from 0.03, not to 0.22.” However, throughout this method, Dryer rejects interpreting the actual numbers: he only looks whether a proportion is higher or lower. But now, only if it is a close call, does he acknowledge that there is a difference between ‘strong preferences’ and ‘small margins’. If such quantitative criteria are allowed, then they should be used throughout, as exemplified by the usage of Fisher’s Exact above. Simply looking for the highest proportion, as Dryer proposes, is a rather crude measure. It might even lead to wrong conclusions, because small differences already count. In the case that all areas consistently show only a small preference, Dryer’s method might lead one to conclude that there is an interaction, although statistically speaking there is nothing going on. For example, consider the hypothetical distribution as shown in Table 40.7. In this table, I have changed the distribution from Table 40.4 only slightly (though deliberately into the wrong direction to explain how things could go wrong). The same preference is attested in all six areas, showing a preference for BK in both the AC and the AK languages. However, the proportions as reported in the lower two lines of Table 40.7 show a clear preference for AC under con-
573
40. Quantitative methods in typology
dition of BC (cf. Table 40.5). Such a distribution would lead Dryer’s method to the conclusion that there is a significant implicational universal A / B. However, taking the numbers for the total sample, there is no statistically significant interaction at all, when using Fisher’s Exact as measure (p Z 0.11). Dryer is right in criticizing any ignorant use of statistical measures in linguistic typology. However, his own method K when followed blindfolded K is just as prone to result in errors as a standard statistical test like Fisher’s Exact. If one wants to interpret a difference between numbers, whatever their origin, it is always important to make sure that any observed difference is not simply due to chance. It is also of the uttermost importance that typological correlations are investigated as to their areal distribution. What is needed is both statistical significance and areal independence, and these two concepts do not exclude each other (cf. Maslova 2000a, 328; 2003, 102 n. 2). Dryer’s method, when handled with care, is a fine approach that attempts to unify both these desideratives into one calculation. 4.6. Areal analysis Investigating the areal patterns in a typological sample has not attracted much attention in the literature. All approaches, to be described shortly, only test effects in any preestablished areal breakdown of the world’s languages. In such a method, the world’s languages are first divided into groups based on geographical vicinity, and then these groups are investigated as to internal consistency. However, if no effect is found, there might still be areal consistencies, which happen to be cross-sected by the boundaries of the pre-established areal breakdown. The most basic approach to investigate whether there are any areal patterns at all is to plot a parameter on a world map and look for areal consistencies (cf. Haspelmath et al. forthcoming). however, the biggest methodological problem that such a visual analysis of areal patterns faces is to assess the chance probabilities of an areal distribution. It is not at all obvious which kind of areal distribution would be expected based on chance alone. Random distributions in space always appear to show some clustering to the human eye. So, it might very well be the case that the areal patterns attested are to a large extent due to chance.
Perkins (1989) was the first to note that areal patterns can be investigated statistically like any other parameter. He proposed a kind of ANOVA to investigate the effects of a given partition of the world’s languages on any observed interaction of parameters. Such an analysis can show an influence of an areal partition on the interaction between linguistic parameters (see also section 2.3.). Dryer (1989) proposed a simpler test (as described in the previous section), based on the principle that any effect should be found in all of the six macro-areas distinguished. A generalisation of Dryer’s test for areal effects has been used by Nichols (1992, 187K188). Each worldwide effect should be attested in all areas distinguished K though Nichols allows for an error rate of p ! 0.05. Assuming that the chances of dominance of a particular feature in an area are binomially distributed, Dryer’s test for areal independence becomes a goodness-of-fit test (see Table 40.8 for some selected boundary values). Nichols also reverses this test by looking at the minimal number of departures required for a divergence at p O 0.10, which she uses as criterion to show that a particular parameter is areally skewed. The latest approach to testing areal coherence is currently being developed by D. Janssen and B. Bickel (first results were presented in Bickel/Nichols 2003). They use randomization techniques to evaluate whether two areally defined groups of languages are significantly different. This method is especially designed to deal with groups that are strongly different in size (e. g. to compare the languages in one little area to the rest of the world). Such situations makes traditional statistical techniques unreliable. Table 40.8: Distributions required for significance on Dryer’s test (reproduced from Nichols 1992: 188). No. of areas
Maximum departures allowed for goodness-of-fit at p ! 0.05
Minimum departures required for divergence at p O 0.10
12 10 8 6 5 3
2 1 1 0 0 not testable
4 3 2 2 2 1
Some investigators have used visual approaches to show areal patterns. Van der Auwera (1998a, 1998c) uses an overlay of
574
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
various typological isoglosses to make an isopleth-map. He uses this method to investigate Sprachbund-sized areas, but the method is also suitable for larger areas. The method van der Auwera proposes is to start from a particular language as the standard and encircle those languages that share a particular number of features with the standard. The features themselves need not be identical, only the number of parallels to the standard language is important. The circumference lines thus do not mark identity and are not isoglosses in the strict sense K van der Auwera calls them isopleths. Depending on which language is the standard, different maps will appear. Some of these maps will show a geographical contiguous cluster at a high number of features, other maps will not show such clusters. As an example, consider the map in Figure 40.4 (van der Auwera 1998b, 122). This map is based on twelve parameters, all related to phasal adverbials in the languages of Europe. The lines in this figure depict the isopleths surrounding languages that share features on at least ten out of the twelve parameters inves-
tigated. Only the strongest clusters are shown, which happen to be the clusters that arise when Danish, German and Bulgarian are chosen as standards. The existence of these clusters is explained by reference to historical contingencies. An ‘inverted isopleth’ method is employed by Cysouw (2002, 81K91), reanalysing data from Nichols (1992). This method visualises clusters of similar languages for a chosen area, making it possible to observe differences in the clustering between areas. Some specimens of this visualisation are shown in Figure 40.5. The lines in the pictures encircle linguistic types that are equally common in Nichols’ typology, showing clear differences of typological clustering in different areas. A problem with this visualisation is that the data from Nichols are interpreted as continuous parameters, which they are not (cf. section 3.1.).
5.
Conclusion
In the last decades, various quantitative methods to capture the world’s linguistic di-
Fig. 40.4: Clustering of 10 or more phasal adverbial parameters, based on German, Danish, and Bulgarian (reproduced from Van der Auwera 1998b: 122).
575
40. Quantitative methods in typology
Head Marking
South and Southeast Asia
Dependent Marking
New Guinea & Oceania
versity have been employed in the field of typology. None of them is flawless, but all are sensible to a certain extent. I have attempted to summarise the virtues and pitfalls of these approaches, as used in this flourishing branch of linguistic investigation. The general conclusion is that there is no method that will bring us the holy grail of knowledge just automatically. Investigating the world’s languages remains an enterprise in which basic scientific methods like clearly stated hypotheses, consistent argumentation, and careful judgment are more important than fixed methods to be followed blindfolded. The most important work remains very basic: the detailed interpretation of grammatical structures in various languages and the effort to devise parameters that actually allow all those languages to be compared. We are all well advised to follow Plank’s scepticism towards fancy statistics: “Nor am I persuaded that doing typology I mostly ought to be doing applied statistics and next to no grammar” (Plank 2003, 138).
Head Marking
6.
Dependent Marking
Head Marking
Australia
Dependent Marking
Literature (a selection)
Altmann, Gabriel & Lehfeldt, Werner (1973), Allgemeine Sprachtypologie: Prinzipien und Meßverfahren. München: Fink. Altmann, Gabriel & Lehfeldt, Werner (1980), Einführung in die Quantitative Phonologie. Bochum: Brockmeyer. Anderson, Lloyd B. (1982), The ‘perfect’ as a universal and as a language-particular category. In: Hopper, Paul J. (ed.). Tense-Aspect: Between Semantics & Pragmatics. Amsterdam: Benjamins, 227K264. Bakker, Dik (1998), Flexibility and consistency in word order patterns in the languages of Europe. In: Siewierska, Anna (ed.). Constituent Order in the Languages of Europe. Berlin: Mouton de Gruyter, 383K419. Bell, Alan (1978), Language samples. In: Greenberg, Joseph H. (ed.). Universals of Human Language. (Vol), 1: Method and Theory. Stanford: Stanford University Press, 123K156. Bickel, Balthasar (2003), Referential density in discourse and syntactic typology. In: Language 79 (4): 708K736 Bickel, Balthasar & Nichols, Johanna (2003), Typological enclaves. Paper presented at the 5th
Fig. 40.5.: Clusters of languages with similar head/ dependent type in three different areas (reproduced from Cysouw 2002: 86, 88).
576
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Conference of the Association for Linguistic Typology, Cagliari, September 18, 2003. Bybee, Joan L. & Chakraborti, Paromita & Jung, Dagmar & Scheibman, Joanne (1998), Prosody and segmental effect: some paths of evolution for word stress. In: Studies in Language 22 (2): 267K314. Bybee, Joan L. & Pagliuca, William & Perkins, Revere D (1990), On the asymmetries in the affixation of grammatical material. In: Croft, William (ed.). Studies in Typology and Diachrony. Amsterdam: Benjamins, 1K42. Campbell, Lyle & Bubenik, Vit & Saxon, Leslie Adele (1988), Word order universals: refinements and clarifications. In: Canadian Journal of Linguistics 33 (2): 209K230. Comrie, Bernard (1989), Language Universals and Linguistic Typology. Oxford: Blackwell. (2nd edition). Croft, William (1990), Typology and Universals. Cambridge: Cambridge University Press. Croft, William (2003), Typology and Universals. (2nd edition). Cambridge: Cambridge University Press. Croft, William & Poole, Keith T. (2004), Inferring universals from grammatical variation: multidimensional scaling for typological analysis. Unpublished Manuscript (available at http://lings.ln.man. ac.uk/Info/staff/WAC/WACpubs.html) Cysouw, Michael (2001), review of Martin Haspelmath “Indefinite Pronouns”. In: Journal of Linguistics 37 (3): 99K114. Cysouw, Michael (2002), Interpreting typological clusters. In: Linguistic Typology 6 (1): 69K93. Cysouw, Michael (2003a), Against implicational universals. In: Linguistic Typology 7 (1): 89K101. Cysouw, Michael (2003b), The Paradigmatic Structure of Person Marking. Oxford: Oxford University Press. Cysouw, Michael (forthcoming-a), Honorific uses of clusivity. In: Filimonova, Elena (ed.). Clusivity. Amsterdam: Benjamins. Cysouw, Michael (forthcoming-b), Syncretisms involving clusivity. In: Filimonova, Elena (ed.). Clusivity. Amsterdam: Benjamins. Cysouw, Michael (forthcoming-c), What it means to be rare: the case of person marking. In: Frajzyngier, Zygmunt & Rood, David S. (eds.). Linguistic Diversity and Language Theories. Amsterdam: Benjamins. Dryer, Matthew S. (1989), Large linguistic areas and language sampling. In. Studies in Language 13 (2): 257K292. Dryer, Matthew S. (1991), SVO languages and the OV : VO typology. Journal of Linguistics 27: 443K 482.
Dryer, Matthew S. (1992), The Greenbergian word order correlations. In: Language 68 (1): 80K 138. Dryer, Matthew S. (1997), Why statistical universals are better than absolute universals. In: Chicago Linguistic Society 33 (2): 123K145. Dryer, Matthew S. (2000), Counting genera vs. counting languages. In: Linguistic Typology 4 (3): 334K350. Dryer, Matthew S. (2003), Significant and non-significant implicational universals. In: Linguistic Typology 7 (1): 108K128. Felsenstein, Joseph (2004), Inferring Phylogenies. Sunderland, Massachusetts: Sinauer. Fenk-Oczlon, Gertraud (1993), Menzerath’s law and the constant flow of linguistic information. In: Köhler, Reinhard & Rieger, Burghard B. (eds.). Contributions to Quantitative Linguistics. Dordrecht: Kluwer, 11K31. Fenk-Oczlon, Gertraud & Fenk, August (1985), The mean length of propositions is 7 G 2 syllables K but the position of languages within this range is not accidental. In: d’Ydewalle, G. (ed.). Cognition, Information Processing, and Motivation. Amsterdam: North Holland, 355K359. Fenk-Oczlon, Gertraud & Fenk, August (1999), Cognition, quantitative linguistics, and systemic typology. In: Linguistic Typology 3 (2): 151K177. Givón, Talmy (ed.). (1983), Topic Continuity in Discourse: A Quantative Cross-language Study. Amsterdam: Benjamins. Greenberg, Joseph H. (1963), Some universals of grammar with particular reference to the order of meaningful elements. In: Greenberg, Joseph H. (ed.). Universals of Language. Cambridge, MA: MIT Press, 73K113. Greenberg, Joseph H. (1978), Typology and crosslinguistic generalizations. In: Greenberg, Joseph H. (ed.). Universals of Human Language. Vol. 1: Method & Theory. Stanford, California: Stanford University Press, 33K59. Greenberg, Joseph H. (1990) [1954/1960], A quantitative approach to the morphological typology of language. In: Denning, Keith & Kemmer, Suzanne (eds.). On Language: Selected Writings of Joseph H. Greenberg. Stanford, California: Stanford University Press, 3K25. Haspelmath, Martin (1994), The growth of affixes in morphological reanalysis. In: Booij, Geert & Van Marle, Jaap (eds.). Yearbook of Morphology 1994. Dordrecht: Kluwer, 1K29. Haspelmath, Martin (1997), Indefinite Pronouns. Oxford: Clarendon Press. Haspelmath, Martin (2003), The geometry of grammatical meaning: Semantic maps and crosslinguistic comparison. In: Tomasello, Michael (ed.). The New Psychology of Language: Cognitive and Functional Approaches to Language
40. Quantitative methods in typology Structure. Vol. 2, Mahwah, New Jersey: Erlbaum, 211K242. Haspelmath, Martin & Dryer, Mathew & Gil, David & Comrie, Bernard (eds.). World Atlas of Language Structure. Oxford: Oxford University Press. forthcoming. Hawkins, John A (1983), Word order universals. New York: Academic Press. Justeson, John S. & Stephens, Laurence D. (1984), On the relationship between the numbers of vowels and consonants in phonological systems. In: Linguistics 22: 531K545. Justeson, John S. & Stephens, Laurence D. (1990), Explanation for word order universals: a log-linear analysis. In: Bahner, Werner & Schildt, Joachim & Viehweger, Dieter (eds.) Proceedings of the Fourteenth International Congress of Linguists. Vol. 3. Berlin: Akademie Verlag, 2372K 2376. Krupa, Viktor (1965), On quantification of typology. In: Linguistics 12: 31K36. Krupa, Viktor & Altmann, Gabriel (1966), Relations between typological indices. In: Linguistics 24: 29K37. Labov, William (1994), Principles of Linguistic Change. Vol. 1: Internal Factors. Oxford: Blackwell. Lehfeldt, Werner (1975), Die Verteilung der Phonemanzahl in den natürlichen Sprachen. In: Phonetica 31: 274K287. Maddieson, Ian (1980), Phonological generalizations from the UCLA Phonological Segment Inventory Database (UPSID). In: UCLA Working Papers in Phonetics 50: 57K68. Maddieson, Ian (1984), Patterns of Sound. Cambridge: Cambridge University Press. Mallinson, Graham & Blake, Barry J. (1981), Language Typology. Amsterdam: North Holland. Maslova, Elena (2000a), A dynamic approach to the verification of distributional universals. In: Linguistic Typology 4 (3): 307K333. Maslova, Elena (2000b), Stochastic models in typology: obstacle or prerequisite? In: Linguistic Typology 4 (3): 357K364. Maslova, Elena (2003), A case for implicational universals. In: Linguistic Typology 7 (1): 101K 108. Myhill, John (1992), Typological Discourse Analysis. Oxford: Blackwell. Nichols, Johanna (1992), Linguistic Diversity in Space and Time. Chicago: University of Chicago Press. Nichols, Johanna (1995), Diachronically stable structural features. In: Andersen, Henning (ed.). Historical linguistics 1993. Amsterdam: Benjamins, 337K355.
577 Nichols, Johanna (1996), The geography of language origins. In: Berkeley Linguistic Society 22: 267K277. Nichols, Johanna (1997), Modeling ancient population structures and movement in linguistics. In: Annual Review of Anthropology 26: 359K384. Olson, Kenneth S. & Hajek, John (2003), Crosslinguistic insights on the labial flap. In: Linguistic Typology 7 (2): 157K186. Pericliev, Vladimir (2002), Economy in formulating typological generalizations. In: Linguistic Typology 6 (1): 49K68. Perkins, Revere D. (1988), The covariation of culture and grammar. In: Hammond, Michael & Moravcsik, Edith A. & Wirth, Jessica (eds.). Studies in Syntactic Typology. Amsterdam: Benjamins, 359K378. Perkins, Revere D. (1989), Statistical techniques for determining language sample size. In: Studies in Language 13 (2): 293K315. Perkins, Revere D. (1992), Deixis, Grammar and Culture. Amsterdam: Benjamins. Perkins, Revere D. (2001), Sampling procedures and statistical methods. In: Haspelmath, Martin & König, Ekkehard & Oesterreicher, Wulf & Raible, Wolfgang (eds.). Language Typology and Language Universals: An International Handbook. Vol. 1. Berlin: De Gruyter, 419K434. Plank, Frans (2001), Typology by the end of the 18th century. In: Auroux, Sylvain & Koerner, E. F. K. & Niederehe, Hans-Josef & Versteegh, Kees (eds.). History of the Language Sciences: An International Handbook of the Evolution of the Study of Language from the Beginnings to the Present. Vol. 2. Berlin: Walter de Gruyter, 1399K1414. Plank, Frans (2003), There’s more than one way to make sense of one-way implications K and sense they need to be made of. In: Linguistic Typology 7 (1): 128K139. Plank, Frans & Schellinger, Wolfgang (1997), The uneven distribution of genders over numbers: Greenberg Nos. 37 and 45. In: Linguistic Typology 1 (1): 53K101. Plank, Frans & Schellinger, Wolfgang (2000), Dual Laws in (no) Time. In: Sprachtypologie und Universalien Forschung 53 (1): 46K52. Rijkhoff, Jan & Bakker, Dik (1998), Language sampling. In: Linguistic Typology 2 (3): 263K314. Rijkhoff, Jan & Bakker, Dik & Hengeveld, Kees & Kahrel, Peter (1993), A method of language sampling. In: Studies in Language 17 (1): 169K203. Siewierska, Anna (1998), On nominal and verbal person marking. In: Linguistic Typology 2 (1): 1K56. Siewierska, Anna & Bakker, Dik (1996), The distribution of subject and object agreement and
578
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
word order type. In: Studies in Language 20 (1): 115K161. Stephens, Laurence D. (1984), review of Gabriel Altmann & Werner Lehfeldt: Einführung in die quantitative Phonologie. In: Language 60 (3): 650K651. Testelets, Yakov G. (2001), Russian works on linguistic typology in the 1960K1990s. In: Haspelmath, Martin & König, Ekkehard & Oesterreicher, Wulf & Raible, Wolfgang (eds.). In: Language Typology and Language Universals: An International Handbook. Vol. 1. Berlin: De Gruyter, 306K323. Tomlin, Russell S. (1986), Basic Word Order: Functional Principles. London: Croom Helm. Van der Auwera, Johan (1998a), Conclusion. In: Van der Auwera, Johan (ed.). Adverbial Constructions in the Languages of Europe. Berlin: Mouton de Gruyter, 813K836. Van der Auwera, Johan (1998b), Phasal adverbials in the languages of Europe. In: Van der Auwera, Johan (ed.). Adverbial Constructions in the Languages of Europe. Berlin: Mouton de Gruyter, 25K145.
Van der Auwera, Johan (1998c), Revisiting the Balkan and Meso-American linguistic areas. In: Language Sciences 20: 259K270. Vennemann, Theo (1974), Topics, subjects, and word order: from SXV to SVX via TVX. In: Anderson, John M. & Jones, Charles (eds.). Historical Linguistics. Vol. 1, Amsterdam: North Holland, 339K376. Zörnig, Peter & Altmann, G. (1983), The repeat rate of phoneme frequencies and the Zipf-Mandelbrot law. In: Köhler, Reinhard & Boy, Joachim (eds.). Glottometrika 5, Bochum: Brockmeyer, 205K211.
Acknowledgements I would like to thank Balthasar Bickel, Bernard Comrie, Matthew Dryer, August Fenk, Reinhard Köhler and Elena Maslova for useful comments on earlier versions of this article. Of course, the opinions expressed in the present version remain completely my own responsibility. Michael Cysouw, Leipzig/Berlin (Germany)
41. Morphologisch orientierte Typologie 1. 2. 3. 4. 5. 6. 7. 8.
1.
Einleitung: Klassifikation und Typologie Klassische morphologische Typologie Quantitative morphologische Typologie Strukturalistische Typologie Moderne morphologische Typologie (Funktionale) morphologische Sprachtypologie Zusammenfassung Literatur (in Auswahl)
Einleitung: morphologische Klassifikation und Typologie
Unter morphologischer Typologie versteht man traditionellerweise den im 19. Jh. einsetzenden Versuch, Sprachen aufgrund eines Merkmals ihrer Wortstruktur in verschiedene Klassen einzuteilen (erste Strömung: klassische morphologische Typologie). Heute kann morphologische Typologie allgemein so definiert werden, dass sie den morphologischen Bereich der modernen Sprachtypologie meint. Hierbei ist zu unterscheiden zwischen solchen Arbeiten, die sich explizit in die Tradition der klassischen morphologischen Typologie stellen (zweite Strömung:
moderne morphologische Typologie), und sprachtypologischen Forschungen zur Morphologie bzw. zumeist Morphosyntax (dritte Strömung: (funktionale) morphologische Sprachtypologie). Als Übergang zwischen den beiden letzteren kann die strukturalistische Typologie angesehen werden. Dieser Aufsatz stellt in den folgenden Kapiteln diese verschiedenen Strömungen dar K von der klassischen morphologischen Typologie bis hin zu Arbeiten, die als morphologisch, quantitativ und typologisch charakterisierbar sind. Zunächst erfolgen einige terminologische Bemerkungen zu den Begriffen Klassifikation und Typologie und eine Zuordnung der Ansätze. Die Begriffe Typologie und Klassifikation werden häufig synonym verwendet, Lehmann (1988, 11 f.) unterscheidet jedoch streng zwischen ihnen. Er versteht unter Klassifikation eine Operation über einer Menge von Gegenständen, durch welche diese in mutuell disjunkte und gemeinsam exhaustive Klassen eingeteilt werden. Dazu sind ein oder mehrere Klassifikationskriterien vonnöten, die gemäß dem Zweck der
41. Morphologisch orientierte Typologie
Klassifikation gewählt werden. Eine Typologie (oder auch Typenlehre) besteht aus einer Menge von Typen, die eine zusammenhängende Menge von Gestaltungsprinzipien darstellt, welche die Individuen strukturieren. Ein Typ ist also ein Prägemuster, durch das eine Menge von Gegenständen charakterisiert ist. Individuen in einer Klasse werden als gleichartig verstanden, während Instanzen eines Typs diesen mehr oder weniger gut repräsentieren können, vgl. Prototypenbegriff. Der Typ wird durch eine Menge von relevanten Eigenschaften, die gebündelt auftreten, gebildet. Gemeinsam ist Klassifikation und Typologie, dass beide eine Ordnung in eine Individuenmenge bringen. Lehmann betont, eine Typologie sei jedoch nur möglich, wenn die Individuenmenge sich in „natürliche“ Gruppen gliedere. An dieser Stelle ist kritisch anzumerken, dass der Begriff „natürlich“ hier weder definiert noch operationalisiert wird. Hempel (1959/1965) fordert dazu: „in a classification of the former kind [i. e. ,natural‘ classification], those characteristics of the elements which serve as criteria of membership in a given class are associated, universally or with high probability, with more or less extensive clusters of other characteristics“ (Hempel 1959/ 1965, 146). Er versteht unter „Natürlichkeit“ die Existenz prädiktiv verwertbarer Indikatoren. Es können verschiedene Klassifikationen bzw. Typologien unterschieden werden, je nachdem, wie die zugrunde liegenden Begriffe definiert sind, vgl. Hempel (1952/1972) und Altmann/Lehfeldt (1975). Mit einem einfachen Klassifikationsbegriff werden Typen als Klassen konstruiert. Diese qualitativen Begriffe helfen, Ordnung in einen Gegenstandsbereich zu bringen. Oft sind jedoch keine sauberen Trennlinien zwischen den einzelnen Klassen möglich, dann sollten Klassifikationsmerkmale als Extremtypen konstruiert werden. Die Untersuchungsgegenstände können somit Merkmale in einem bestimmten Ausmaß aufweisen. Diese Art der Klassifikation setzt mehr als nur qualitative Begriffe voraus: es müssen komparative Begriffe vorhanden sein, deren Operationalisierungsregeln eine Rangbildung mehrerer Objekte bezüglich des Merkmals erlauben. Obwohl auch hier die Verwendung nichtnumerischer Kriterien möglich ist, ist es im Hinblick auf weitere Hypothesen- und Theoriebildung wünschenswert, quantitative Vergleichsoperationalisierungen anzuwen-
579 den. Idealtypen sind keine Begriffe im engeren Sinne, sondern komplexe wissenschaftliche Konstrukte als Systeme von Eigenschaften und Zusammenhangshypothesen zwischen diesen. Werden die Eigenschaften angemessen metrisiert, so können die Hypothesen in numerischer Form ausgedrückt werden und nach angemessener empirischer Überprüfung (explanativen) Gesetzesstatus erlangen. Die klassische morphologische Typologie ist eng mit den auf der Wortstruktur basierenden Sprachklassifikationsbemühungen des 19. und des beginnenden 20. Jahrhunderts verbunden. Trotz der anderslautenden Bezeichnung handelt es sich um eine Klassifikation, ich behalte im folgenden die traditionelle Bezeichnung „morphologische Typologie“ bei. Je nach Wahl der Klassifikationskriterien können unterschiedliche Klassifikationen entstehen. Im Rahmen dieser Ansätze, die eine sprachenübergreifende Komparativistik darstellen, werden Sprachen aufgrund (typischerweise) morphologischer Merkmale als ähnlich beurteilt und Klassen zugeordnet. Während die Arbeiten des 19. Jahrhunderts und eigentlich auch noch Sapir einen eher klassifikatorischen Ansatz verfolgen, besteht Skaličkas Anliegen in einer veritablen (Ideal-)Typologie. Altmann und Lehfeldt gelangen über eine hierarchische Klassifikation bzw. numerische Taxonomie, beruhend auf mehreren Merkmalen, zu einer Interpretation der Klassen als Typen, zu einer Typologie, die im Gegensatz zu Skaličkas mit metrisierten Begriffen arbeitet. In der modernen morphologischen Typologie wird die Klassifikation weniger stark thematisiert. Die funktionale morphologische Sprachtypologie beschäftigt sich mit Fragestellungen wie der des sprachenübergreifenden Zusammenhangs zwischen Form und Funktion, der Beziehung morphologischer Merkmale untereinander sowie zu anderen grammatischen Merkmalen und der Frage der Erklärungsmechanismen für morphosyntaktische Strukturen. So kann sie als Untersuchung der sprachenübergreifenden Variation (morphologischer) Merkmale und den Einschränkungen dieser verstanden werden. Diese Einschränkungen resultieren sowohl aus den Ausprägungen anderer sprachlicher Merkmale, zu denen morphologische in Bezug gesetzt werden, als auch aus anderen Parametern der sprachlichen Kommunikation (Croft 1990, 12). In der modernen Sprachtypologie wird
580
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
zum einen der Gedanke der Klassifikation wiederbelebt, indem ein sprachlicher struktureller Typ als „a particular feature associated with a particular construction in a particular language“ (Croft 1990, 38) definiert wird: dies ermöglicht den Vergleich von sowohl Merkmalen als auch Konstruktionen und Sprachen, garantiert also eine höhere Flexibilität und Beschreibungsschärfe. Die Forschungsmethode begnügt sich zum anderen jedoch nicht mit der Klassifikation an sich, die hier ein rein deskriptives Instrumentarium für weitergehende Zwecke darstellt, sondern die Klassifikationsergebnisse werden stattdessen quantitativ weiterverarbeitet, zueinander in Bezug gesetzt, funktional und explanativ interpretiert. Der programmatische Unterschied zwischen der modernen morphologischen Typologie und der funktionalen morpho(syntaktischen) Sprachtypologie besteht vor allem in der Schwerpunktsetzung. Die moderne morphologische Typologie versucht, die Kritik an der klassischen morphologischen Typologie ernst zu nehmen und zu klareren und differenzierteren Definitionen zu kommen und empirisch abgesichertere Aussagen zu treffen. Dabei kann ihr weder der funktionale Ansatz noch das Interesse an Korrelationen zu anderen Variablen abgesprochen werden. In der funktionalen Sprachtypologie liegt der Schwerpunkt auf der funktionalen Herangehensweise und auf den Korrelationen zwischen sprachlichen Variablen. Im Folgenden werden sowohl die Ansätze der klassischen morphologischen Typologie als auch die moderne morphologische Typologie sowie interessante quantitative Forschungen der (funktionalen) Sprachtypologie im Bereich der Morphologie bzw. Morphosyntax vorgestellt.
2.
Klassische morphologische Typologie
2.1. Die morphologische Typologie Kroener (1994) datiert den Beginn der wissenschaftlichen Sprachklassifikation auf der Basis der morphologischen Wortstruktur auf den Beginn des 19. Jahrhunderts, für Vorläufer und Details vgl. die Überblicke in Arens (1969), Horne (1966) und Quasim (1985). Friedrich von Schlegel schlug 1808 in seinem Werk „Ueber die Sprache und Weisheit der Indier“ vor, Sprachen nach zwei Typen zu unterscheiden, jene, die über Affixe verfü-
gen und die Wurzelbedeutung durch Addition von Elementen modifizieren (Agglutination), und jene, die Flexion verwenden und die Wurzelbedeutung über Veränderung der Wurzel selbst ergänzen. Sein Bruder August Wilhelm von Schlegel erweitert 1818 in seinem Werk „Observations sur la langue et la littérature provençales“ diese binäre Einteilung um die Klasse der isolierenden Sprachen, die über wenig Morphologie verfügen und analytische Ausdrucksweise verwenden. Wilhelm von Humboldt ergänzt 1836 in „Über die Verschiedenheit des menschlichen Sprachbaues“ den inkorporierenden Typ. Während die Brüder Schlegel an der genetischen Klassifikation auf morphologischer Basis interessiert sind, Humboldt eher an der morphosyntaktischen Klassifikation, versucht August Schleicher, genetische, komparative und typologische Stränge zu vereinen, vgl. Koerner (1994, 4814). Auch interpretiert er, im Gegensatz zu Humboldt, vgl. Greenberg (1954/1960, 181), Greenberg (1974, 39), die Klassen als aufeinanderfolgende Stadien der sprachlichen Evolution. Schleichers Werk „Die Sprachen Europas“ von 1850 ist vor allem bemerkenswert, da es eine detaillierte algebraische Notation für die Beschreibung komplexer morphologischer Wortstruktur enthält, vgl. Koerner (1994, 4815). 2.2. Kritik an der klassischen morphologischen Typologie Problematisch ist, dass die klassische morphologische Typologie eine monovalente Klassifikation darstellt, die eine eindeutige Zuordnung einer Sprache zu einer Klasse verlangt, während die meisten Sprachen in verschiedenen Teilbereichen Charakteristika mehrerer Klassen aufweisen. Der z. T. anzutreffende sprachliche Imperialismus des Primats der indoeuropäischen Sprachen, der sich in der wissenschaftlich nicht haltbaren Bevorzugung der Klasse der flektierenden Sprachen ausdrückt, ist aus heutiger Sicht als bedenklich einzustufen und außerdem wissenschaftlich ungenau, da bei genauerer Analyse deutlich wird, dass einige von den indoeuropäischen Sprachen eher schwach flektierend sind. Die aus sprachtypologischer Sicht wesentlichste Kritik bezieht sich jedoch auf die Tatsache, dass die Klassifikation selbst zu unklar definiert ist, die einzelnen Klassen verschiedene Dimensionen morphologischer Beschreibung vereinen und somit eine klare Handhabung der Begriffe nicht möglich ist K ein Problem, das
581
41. Morphologisch orientierte Typologie
auch Humboldt bereits thematisierte, vgl. die Analyse in Altmann/Lehfeldt (1975). Für eine Zusammenfassung der Kritik vgl. u. a. Sapir (1921, 122 ff.), Greenberg (1954/ 1960, 181 f.), Altmann/Lehfeldt (1975) und Carstairs-McCarthy (1994b, 4818). Edward Sapir greift 1921 in seinem Werk „Language“ diese Kritikpunkte umfassend wieder auf, indem er zum einen den bewertenden und evolutionären Anspruch der morphologischen Typologie verneint und zum anderen ein mehrdimensionales, gestaffeltes Klassifikationsraster entwickelt. Das grundlegende Klassifikationskriterium ist insofern neu, als dass unterschiedliche Zeichentypen eine Rolle spielen; die sich aus diesem Kriterium ergebenden Sprachklassen werden ausdifferenziert nach Konstruktionstechnik und Synthesegrad. Für die grundlegende Klassifikation unterscheidet Sapir vier Zeichentypen nach morphosyntaktischen Kriterien und ordnet diese auf einer Skala an. Sie reicht von grundlegenden Zeichen mit hohem referentiellem Potential K Wurzeln mit eigenständiger und „konkreter“ Bedeutung K über abgeleitete Zeichen (Derivation) und über anschauliche Beziehungszeichen bis zu rein relationalen Zeichen: Affixen mit syntaktischer Funktion. Sapir betont, dass er zwar vier Typen auf dieser Skala definiere, es sich im Grunde aber um ein nur schwer segmentierbares Kontinuum handele. Die verschiedenen Sprachtypen selbst definieren sich durch eine Kombination dieser Zeichentypen. So sind in allen Sprachtypen Zeichen des ersten (Basiskonzepte) und des vierten Konzepttyps (rein relationale Konzepte) vorhanden. Die restlichen Zeichentypen können entweder allesamt oder in Auswahl in einem Sprachtyp vertreten sein, so dass sich insgesamt vier Klassen ergeben. Diese Sprachtypen beantworten die Frage danach, ob Sprachen Derivation zur Modifikation der Wurzelbedeutung einsetzen und ob relationale Elemente über ihre syntaktische Funktion hinaus konkrete semantische/referentielle Bedeutung tragen. Der Parameter der Konstruktionstechnik unterscheidet jeweils die Sprachen innerhalb eines Typs nach dem Grad der morphologischen Veränderung bei der Affigierung. Die Skala reicht von Agglutination über Fusion bis zur „Symbolisierung“, womit Wurzelveränderung gemeint ist. Bei der Klassifizierung der Sprachen können mehrere Techniken für unterschiedliche Bereiche verwendet werden. Eine weitere Klassifikation in-
nerhalb der Sprachtypen erfolgt nach dem Synthesegrad (synthetisch, analytisch oder polysynthetisch), der sich auf die Wortstruktur insgesamt bezieht. Somit gelingt es Sapir, die heterogenen und unklaren Begriffsbestimmungen der ursprünglichen Klassifikation zu präzisieren und differenzierte Klassifikationen von Sprachen zu ermöglichen. Er betont jedoch: „classifications are neat constructions of the speculative mind, are slippery things“ (Sapir 1921, 144). Für Sapir ist die Klassifikation ein Mittel, das er mit dem Ziel einsetzt, daraus die grundlegenden „ground-plans“ für Sprachbau und Sprachwandel zu entdecken. Altmann und Lehfeldt (1975, 70) interpretieren Sapirs Äußerungen als ein Interesse an einer allgemeinen auf Gesetzen beruhenden Sprachtheorie, die Aussagen über die Zusammenhänge sprachlicher Eigenschaften mache. Seine Klassifikation begrüßen sie als konsequent aufgebaute Klassifikation oder „kombinatorische Typologie“, kritisieren jedoch, dass es sich lediglich um ein definitorisch festgelegtes Ordnungsschema handele, während die Klassifikation aus den Gesetzen einer Theorie folgen müsse. Skalička (1935/1979) kritisiert die klassische morphologische Typologie u. a. unter strukturalistischen Gesichtspunkten: das Bestreben, jede Sprache eindeutig einer Klasse zuordnen zu wollen, verhindere den Blick auf die Opposition zwischen verschiedenen morphologischen Typen innerhalb einer Sprache, zum anderen sei sie sehr angreifbar, da sich kaum eine Sprache eineindeutig zuordnen lasse. Skalička bemängelt vor allem das Fehlen einer theoretischen Basis der Typologie: „Bei näherer Untersuchung hat man eine Sprache mit einem einfachen, durchsichtigen Sprachbau als Vorbild eines Typus genommen und alle seine Eigenschaften auf den ,Typus‘ übertragen. So ist die Vorstellung von wenigen rein typischen Sprachen und von den anderen gemischten Übergangssprachen entstanden. So ist es auch dahin gekommen, dass man jetzt eigentlich nicht weiß, was Agglutination, Flexion, Isolation usw. ist“, (Skalička 1935/ 1979, 62).
3.
Quantitative morphologische Typologie
Greenberg (1954/1960) greift Sapirs Klassifikation und seine Konzeption von der Skalarität der Merkmale auf. Er erweitert und
582
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Morphologisches Merkmal
Index1
Beschreibung
Synthesegrad (SYN)
M/W
Konstruktionstechnik (AGGL)
A/J
Morphemtypen (COMP) (DER) (INFL) Reihenfolge der Elemente in Bezug auf die Wurzel (PREF, SUF) Morphosyntaktische Maße für verschiedene Mittel zum Ausdruck von syntaktischen Beziehungen zwischen Wörtern eines Satzes (ISOL, PI, CONC)
R/W D/W I/W P/W S/W O/N Pi/N
Analytische Sprachen verfügen über einen geringen Indexwert, synthetische über einen größeren und polysynthetische über den größten Indexwert. Agglutinierende Sprachen ergeben einen höheren Indexwert als stark fusionierende Sprachen. Maß für Kompositabildung Maß für derivationelle Wortbildung Maß für Flexion Maß für Präfigierung Maß für Suffigierung Maß für die Verwendung von Reihenfolge Maß für die Verwendung von Flexion (außer Kongruenzflexion) Maß für die Verwendung von Kongruenzflexion
1
Co/N
M Z Morphem, W Z Word, A Z agglutierende Konstruktion, J Z Morphemjunktur, R Z Wurzel, D Z Derivationsaffix, I Z Flexionsaffix, P Z Präfix, S Z Suffix, N Z Nexus (syntaktische Beziehung), O Z Reihenfolge, Pi Z reine Flexion, Co Z Kongruenzflexion (alle Variablen beziehen sich auf die Anzahl der jeweiligen Elemente)
Abb. 41.1: Morphologische Indizes nach Greenberg (1954/1960, 185 ff.)
modifiziert die Klassifikationskriterien entsprechend der geäußerten Kritik. Seine Innovation besteht darin, die einzelnen morphologischen Merkmale zu metrisieren und somit die Kategorisierung von Sprachen auf eine präzisere Basis zu stellen. Greenberg unterscheidet fünf Klassifikationsmerkmale, die über einen oder mehrere Indizes quantifiziert werden. Abb. 41.1 gibt einen Überblick über die Merkmale und ihre Metrisierungen. Zu einer umfassenderen Analyse der K z. T. weniger offensichtlichen K Korrelationen bzw. Abhängigkeiten kommen Altmann/Lehfeldt (1973), vgl. Abschnitt 4. Anhand der Greenbergschen Indizes werden Vergleiche der morphologischen Merkmale acht typologisch verschiedener Sprachen angestellt. Krupa (1965) normiert die Indizes, um ihre Vergleichbarkeit zu gewährleisten. Zur Illustration der Anwendung der Indizes werden die Werte aus der Erhebung von Altmann/Lehfeldt (1973) in Abb. 41.2 dargestellt. Die Zählung dieser Autoren umfasst insgesamt 20 typologisch verschiedene Sprachen, inklusiv jener aus der Greenbergschen Stichprobe, und hat den Vorteil, die Indizes in normierter Form anzugeben. Altmann/Lehfeldt (1973) resümieren zudem die von verschiedenen Autoren definierten morphologischen Indizes und ergänzen sie um phonologische und syntaktische. Sie verwenden für ihre eigene Untersuchung jedoch nur die Greenbergschen
Maße. Außerdem geben sie für jeden Index an, ob er im Text und/oder im Sprachsystem bzw. Inventar erhoben wird. Greenberg (1954/1960) diskutiert das Problem der Operationalisierung der zu zählenden Einheiten. Krupa (1965) und Stepanov (1995) machen darauf aufmerksam, dass die Messwerte bei variierender Stichprobengröße und Textsorte unterschiedlich ausfallen, eine Kritik die u. a. auch von Ineichen (1991, 70) geäußert wird. Sil‘nickij (1993) erklärt diesen Einwand jedoch für nichtig, indem er Kasevič/Jachontov (1982) zitiert. Diese sind der Auffassung, dass die vielen verschiedenen Untersuchungen mit Texten des Umfangs von 100 Wörtern K die von Greenberg gewählte Größe K zeigen, dass die Indexwerte signifikant ausreichend stabil blieben. Stepanov (1995) wendet ein verfeinertes statistisches Instrumentarium auf größere Datenmengen an, bleibt im Kern jedoch bei einem Einzeltextumfang von 100 Wörtern. Als Datengrundlage für die Indizes werden mehrere Texte verschiedener Genres verwendet, die zuvor automatisch morphologisch analysiert wurden. Die einzelnen Indexwerte eines Index für alle Texte im Korpus stellen eine Verteilung dar. Durch die Verwendung einer Verteilung können mehrere statistische Parameter (Mittelwert, Standardabweichung u. a.) als kennzeichnend für den Index ausgewertet werden. Folgt die Verteilung eines Index der Nor-
583
Agglutination A/J
Komposition W/R
Derivation D/M
Flexion I/M
Präfigierung P/M
Suffigierung S/M
Isolation O/N
reine Flexion Pi/N
Kongruenz Co/N
Sanskrit Bengali Altpersisch Neupersisch Griechisch (Homer) Neugriechisch Altenglisch Neuenglisch Jakutisch Suaheli Vietnamesisch Eskimo Türkisch (Schriftsprache) Türkisch (Gespr. Spr.) Gotisch Altkirchenslavisch Hethitisch Rigveda Asoka Griechisch (N. T.)
Synthese W/M
41. Morphologisch orientierte Typologie
0,39 0,53 0,41 0,66 0,48 0,55 0,47 0,60 0,46 0,39 0,94 0,27 0,43 0,57 0,43 0,44 0,51 0,39 0,40 0,41
0,09 0,46 ,020 0,34 0,10 0,40 0,11 0,30 0,51 0,67 K 0,03 0,60 0,67 0,19 0,20 0,42 0,08 0,26 0,12
0,88 0,92 0,98 0,97 0,99 0,98 1,00 1,00 0,98 1,00 0,93 1,00 1,00 0,96 0,97 1,00 1,00 0,91 0,82 0,97
0,24 0,15 0,17 0,07 0,10 0,07 0,09 0,09 0,16 0,03 0,00 0,34 0,11 0,06 0,13 0,15 0,12 0,19 0,17 0,11
0,32 0,28 0,41 0,26 0,41 0,37 0,42 0,32 0,38 0,31 0,00 0,47 0,43 0,38 0,42 0,41 0,36 0,38 0,34 0,47
0,06 0,01 0,08 0,01 0,03 0,02 0,03 0,02 0,00 0,45 0,00 0,00 0,00 0,00 0,04 0,05 0,01 0,07 0,03 0,07
0,46 0,42 0,50 0,32 0,48 0,42 0,48 0,38 0,53 0,16 0,00 0,73 0,54 0,44 0,52 0,51 0,48 0,48 0,49 0,51
0,16 0,57 0,23 0,52 0,48 0,53 0,15 0,75 0,29 0,40 1,00 0,02 0,43 0,69 0,37 0,41 0,35 0,26 0,40 0,34
0,46 0,29 0,39 0,29 0,27 0,21 0,47 0,14 0,59 0,19 0,00 0,46 0,67 0,16 0,34 0,33 0,32 0,48 0,18 0,32
0,38 0,14 0,38 0,19 0,26 0,26 0,38 0,11 0,12 0,41 0,00 0,38 0,20 0,03 0,29 0,26 0,33 0,27 0,42 0,34
Abb. 41.2: Morphologische Indizes (vgl. Abb. 41.1) für 20 Sprachen nach Altmann/Lehfeldt (1973, 40).
malverteilung ohne Beeinflussung durch Faktoren wie Textgenre, so nimmt Stepanov an, dass es sich um zufällige Abweichungen handelt. Anderenfalls wird systematisch durch Textausschluss versucht, die „störenden“ Texte zu ermitteln. Stepanov untersucht die fünf Greenbergschen Indizes SYN, DER, PREF, SUF, PI (für die Abkürzungen vgl. Abb. 41.1) für literarisches Arabisch und Maltesisch. Sein Korpus besteht für ersteres aus 700 Textstücken à ca. 100 laufende Wörter und für letzteres aus 70 Textstücken à ca. 100 laufende Wörter. Die Textstücke entstammen Texten der Genres wissenschaftlicher Text, formal-technischer Text (nur für das Arabische), politischer Text, Prosa, biblischer Text (nur für das Arabische). Bei der Untersuchung des Arabischen ergibt sich, dass die Indizes SYN und DER nicht der Normalverteilung folgen. Durch Analyse der Genres zeigt sich, dass sich die Verteilungen aus jeweils zwei Normalverteilungen zusammensetzen, die wiederum genrespezifisch in die Gruppen Koran und Prosa einerseits und wissenschaftliche, politische und formal-technische Texte andererseits differenziert werden können. Ein Test
auf Normalverteilung liegt jedoch leider nicht vor. Es zeigt sich, dass mit Sapir der Versuch, eine Sprache in ihrer Gesamtheit einer Klasse zuordnen zu wollen, aufgegeben wird. Ebenso setzt er mehrere Beschreibungsdimensionen an und verfeinert damit das begriffliche Untersuchungsinstrumentarium. Greenberg unternimmt den ersten wichtigen Schritt zu einer konsequenten Operationalisierung der Variablen, ohne diese jedoch zueinander in Bezug zu setzen.
4.
Strukturalistische Typologie
Skalička (1951/1979; 1966/1979) operiert weiterhin mit den aus der klassischen morphologischen Typologie bekannten morphologischen Begriffen, fasst aber unter einer systemischen Perspektive zusätzliche grammatische Eigenschaftsausprägungen zusammen, die charakteristisch für die jeweiligen Typen sind. Er betont wiederholt, dass es sich einerseits weiterhin um starke Schematisierungen handelt, die nicht auf jede Sprache zutreffen, dass es aber auch andererseits
584
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
nicht so sei, dass Spracheigenschaften willkürlich miteinander kombiniert werden könnten. Es gelte, genau diesen Spielraum, die Frage nach den wirklichen, den möglichen, den wahrscheinlichen, den unwahrscheinlichen und den unmöglichen Sprachen zu erforschen. Dieser Gesichtspunkt ist neu und Paradigmen-begründend für die moderne Sprachtypologie. Innerhalb dieses Ansatzes wird die pure Morphologie verlassen, die Kookkurenz und somit Interdependenz von bestimmten morphologischen Eigenschaften mit anderen grammatischen, nicht unbedingt rein morphologischen, Eigenschaften steht im Vordergrund. Es werden für die traditionellen Sprachtypen „typologische Konstrukte“ bestimmt, die Eigenschaftsbündel darstellen. Skalička unterscheidet ebenfalls die Typen agglutinierend, flektierend, isolierend, polysynthetisch und introflexiv. Diese Benennungen sind eher als „Etiketten“ für die Typen als wie bislang Klassen-konstituierend aufzufassen. Die Konstrukte stellen jedoch hypothetische Typen dar, die möglicherweise nie vollständig durch eine Sprache realisiert werden. Dies trifft vor allem für den introflexiven Typ zu. Abb. 41.3 erläutert kurz die beschriebenen Konstrukte. Weitere strukturelle Merkmale zur Kennzeichnung des agglutinierenden bzw. des fusionierenden/isolierenden Typs stellt FenkOczlon (1997) zusammen. So sind agglutinierende Sprachen durch eine große Silbenanzahl pro Wort und Satz, phonemarme Silben, OV-Wortfolge und Silbenrhythmus gekennzeichnet. Für fusionierende und isolierende Sprachen sind folgende strukturelle Merkmale charakteristisch: geringe Silbenzahl pro Wort und Satz, phonemreiche Silben, VO-Wortfolge, Akzentrhythmus. Altmann und Lehfeldt (1973) verstehen sich zum einen als Nachfolger Greenbergs, für den eine quantitative Methode unerlässlich ist, und beziehen sich zum anderen auf die Arbeiten Skaličkas. Die Autoren kritisieren die morphologische Typologie in mehrfacher Hinsicht. Zum einen sei sie monothetisch ausgerichtet, was bedeutet, dass nur ein oder wenige sprachliche Merkmale als Klassifikationskriterien herangezogen werden. Es entstehe somit eine rein logische Division in Genus proximum und Differentia specifica, die wegen ihrer Eindimensionalität für die Sprachtypologie uninteressant sei. Zum anderen sei die Auswahl der Merkmale, die als Klassifikationskriterien heran-
gezogen werden, nicht begründet, da sie nur schwer motiviert werden könne (vgl. z. B. Ineichen (1991, 37 ff.), zur Frage der Bestimmung von „charakteristischen“ Merkmalen). Die Benennung von bestimmten Merkmalen als charakteristisch für eine Klasse (eigentlich: einen Typ) setze eine vorherige Gruppierung voraus, die erst erreicht werden soll. Die herkömmliche Art der Klassifikation erreiche keine oder nur geringe Prädiktivität. Altmann und Lehfeldt streben eine numerische Taxonomie an, die auf möglichst vielen Merkmalen basiert, mit dem Ziel, eine polythetische Klassifikation und letztlich eine Typologie aufzustellen. Dazu verwenden sie die durch Krupas Normierung korrigierten morphologischen Indizes Greenbergs und unterziehen die Messwerte automatischen Klassifikationsprozeduren und Korrelationsanalysen. Letztere werden u. a. dazu verwendet, einen „diagnostischen Schlüssel“ aufzustellen, anhand dessen neue, bislang unklassifizierte Sprachen einem Sprachtyp zugeordnet werden können. Neben dieser prädiktiven Zielsetzung verfolgen sie zum einen das Ziel, methodisch objektivere Klassifikationen aufgrund globaler Ähnlichkeit zwischen Sprachen zu erhalten. Zum anderen versuchen sie, Aufschluss über die Konstruktionsmechanismen von Sprachen zu erhalten, die anhand des Korrelationsgefüges zwischen Merkmalen offensichtlich werden sollen. Das Vorgehen im Einzelnen besteht darin, die morphologischen Indexwerte für jede Sprache als Profilvektor aufzufassen. Interpretiert man die Werte als Raumkoordinaten a, b, ..., n, so wird jede Sprache in einen n-dimensionalen Raum abgebildet. Die Ähnlichkeit zwischen Sprachen drückt sich darin aus, dass sie räumlich nah beieinander liegen. Die Entfernung d zweier Sprachen A und B zueinander wird hier mathematisch mittels der Euklidischen Distanz bestimmt, jedoch kann man zu diesem Zweck zahlreiche andere Ähnlichkeits- oder Distanzmaße verwenden, vgl. Bock (1974) für einen Überblick. Aus der Bestimmung der Distanzen aller Sprachpaare zueinander resultiert eine symmetrische Distanzmatrix. Auf der Basis dieser Matrix können nun mittels eines Verfahrens zur automatischen Klassifikation, hier eines Clusterverfahrens, einander ähnliche Sprachen gruppiert werden. Als Ergebnis entsteht ein Dendrogramm, welches verschiedene Gruppierungen von Sprachen er-
agglutinierender Typ
flektierender Typ
isolierender Typ
polysynthetischer Typ
introflexiver Typ
allgemein
Wurzel, an die formale Elemente angehängt werden
Kumulation der Endungen
wenige bis gar keine Affixe
Affixe anderer Sprachen durch Autosemantika ersetzt, die oft metaphorisch verwendet werden
„Unterbrechung“ des Morphems durch Infixation oder Wurzelflexion
Synsemantika/ Autosemantika Genus
wenige eigenständige Synsemantika zumeist nicht vorhanden
Personalpronomina Wortarten
oft durch Affigierung ausgedrückt
Wortbildung
phonematische Beschaffenheit der Affixe
fehlen fast vollständig, Affixmorphologie für weite Teile aller Wurzeln einheitlich durch (viele) Ableitungsaffixe, kaum Konversion Gegensatz Ableitungssuffix und Endung verschwindet Reduktion von Homonymie und Synonymie der Affixe
viele Synsemantika ausgeprägtes Genussystem
zumeist nicht vorhanden
eindeutige grammatische Einordnung des Worts, verschiedene Wortarten haben verschiedene Deklinationen Wortklassenwechsel durch Suffigierung Gegensatz zwischen Endungen und Ableitungssuffixen oft keine selbstständige Silbe, Homonymie und Synonymie stark ausgeprägt
wenig Klassifikation
wenig Klassifikation
werden differenziert
Konversion, kaum Ableitungsaffixe
Komposita, keine Ableitungsaffixe
durch innere Flexion
einsilbig, in Syn- und Autosemantika Homonymie und Polysemie vertreten
phonologisch gleichartige Elemente
formale und semantische Elemente phonologisch sehr unterschiedlich hypothetisch: könnte wg. Kongruenz frei sein hypothetisch: introflexives Konstrukt könnte Nebensatz ausdrücken
Wortfolge
gebunden, da keine Kongruenzaffixe
frei, oft Kongruenz
gebunden
gebunden
Nebensätze
niederfrequent stattdessen Partizipialkonstruktionen, Infinitive, Gerundia
reiche Entwicklung der Nebensätze
reiche Entwicklung der Nebensätze
als Kompositum ausgedrückt
41. Morphologisch orientierte Typologie
Typ Merkmal
Abb. 41.3: Typen nach Skalička (1951/1979) und Skalička (1966/1979)
585
586
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
laubt, je nachdem, welche Distanz als klassenbildend angesetzt wird. A posteriori kann dann eine bestimmte Distanzstufe, z. B. im Vergleich mit den Ergebnissen der Komparativistik, als „sinnvoll“ zur Klassenbildung bestimmt werden. Jedes Cluster repräsentiert einen bestimmten Typ. Es stellt sich nun die Frage danach, wie der Sprachtyp, der dieser Klasse unterliegt, linguistisch beschrieben werden kann. Dazu nehmen die Autoren wiederum Bezug auf die ursprünglichen Indexwerte und berechnen paarweise die Korrelationen zwischen diesen. Unter Auswertung aller signifikanten negativen und positiven Korrelationen kann ein Merkmalsnetz in Form eines ungerichteten Graphen aufgebaut werden, wobei die Indizes die Knoten darstellen und die signifikanten Korrelationen die Kanten, vgl. Abb. 41.4. Co/N
–
O/N
+ –
–
–
+ D/M o A/J
+
+
W/M
Pi/N
– S/M o P/M
+
I/M o W/R
Abb. 41.4: Netz morphologischer Merkmalszusammenhänge nach Altmann/Lehfeldt (1973, 44), für die Abkürzungen vgl. Abb. 41.1.
Diese Darstellung kann als ein Modell des allgemeinen Konstruktionsprinzips von Sprachen interpretiert werden, das den Begriff des „Typs“ von Skalička modelliert. Dieses Netz illustriert die „interne Prädiktivität“ der angewandten Methode. Ist der Wert eines Indexes bekannt, so kann mithilfe der Regression der Wert eines anderen Index vorhergesagt werden. Die Methode erzielt „externe Prädiktivität“, indem ein diagnostischer Schlüssel verwendet wird, um neue Sprachen in die bestehende Klassifikation einzuordnen, ohne dass erneut eine Distanzmatrix berechnet und eine Clusteranalyse durchgeführt werden müssten. Zur Erstellung des diagnostischen Schlüssels wird eine Entscheidungsfolge hinsichtlich der Belegung signifikanter Indizes aufgestellt. Je nachdem, in welchem numerischen Bereich ein Indexwert liegt, wird die zugehörige Sprache einer Klasse zugeordnet bzw. wird ein weiterer Index zur Klassenbestimmung herangezogen. Analysiert man auf diese
Weise detaillierter, mit welchen Wertebelegungsintervallen der einzelnen Indizes die Klassen konstituiert werden, so ergibt sich eine quantifizierte linguistische Beschreibung der einzelnen Klassen, bezogen auf die morphologischen Indizes, somit die Charakterisierung einzelner Sprachtypen. Zusammenfassend lässt sich sagen, dass die Autoren quantitative Methoden erfolgreich auf eine polythetische morphologische Klassifikation anwenden und somit eine allgemeine polythetische Typologie in Aussicht stellen, die auf einer größeren Anzahl von Merkmalen aus unterschiedlichen grammatischen Bereichen basiert. Bei der Interpretation der Ergebnisse der Clusteranalyse, die darauf angewiesen ist, dass die geeignete Distanz zur Klassenbildung gewählt wird, muss jedoch wiederum Bezug auf andere (monothetische) Klassifikationsergebnisse genommen werden. Sil’nickij (1993) legt eine neuere Untersuchung zur morphologischen Typologie auf der Basis von 31 Sprachen vor. Aufbauend auf Altmann und Lehfeldt bzw. Greenberg verwendet er die zehn von Krupa normierten morphologischen Indizes. Mittels der quantitativen Methoden der Korrelationsanalyse und der Faktorenanalyse gilt es, drei Fragestellungen zu beantworten. Zum einen geht es um die Gruppierung der Indizes selbst, zum anderen sollen die durch die Indizes beschriebenen Sprachen klassifiziert werden, und endlich sollen die diagnostisch relevanten Indizes mathematisch bestimmt werden. Zur Klassifikation der Indizes selbst werden die Korrelationen zwischen den Indizes sowohl einer Cluster- als auch einer Faktorenanalyse unterzogen. Beide Auswertungsverfahren gruppieren die Indizes in zwei deutliche Cluster (für die Abk. vgl. Abb. 41.1): SUF, SYN, INF, PI, DER, CONC und AGGL, ISOL, COMP. Dieses Ergebnis ist vergleichbar mit dem von Altmann und Lehfeldt. Neben den zwei Hauptclustern steht der Außenseiter PREF. Auf der Basis der Indizes werden Korrelationen zwischen den einzelnen Sprachen berechnet und per Clusteranalyse zu Klassen gruppiert. Je nach Stärke der Korrelation wird nach zentralen, peripheren, marginalen und kritischen Klassenmitgliedern unterschieden, wobei die Schranken rein willkürlich gewählt zu sein scheinen. Es ergeben sich drei Klassen, die die Etiketten isolierend, agglutinierend und flektierend erhalten, da sie traditionelle Sprachtyp[/klassen]auffas-
587
41. Morphologisch orientierte Typologie
sungen zu bestätigen scheinen. Eine vierte Klasse ist recht heterogen und umfasst die Sprachen Deutsch, Hindi und Urdu. Einige Sprachen konnten nicht klassifiziert werden, z. B. fällt Französisch K anhand dessen Skalička die Eigenschaften einer isolierenden Sprache illustriert (!) K nicht in die Klasse der isolierenden Sprachen. Bei der Auswertung der Daten mittels Faktorenanalyse können mit der sechsfaktoriellen Variante ähnliche Ergebnisse wie mit der Korrelationsanalyse erzielt werden, wobei die Korrelationsanalyse jedoch als effektiver eingeschätzt wird. Bei der Faktorenanalyse stellt sich das Problem der Interpretation der sechs entstehenden Faktoren. Aus der Klassifikation ergibt sich eine große typologische Diversität unter den indoeuropäischen Sprachen in der Stichprobe. Um zu überprüfen, welche der verwendeten Indizes tatsächlich für die Klassifikation diagnostisch relevant sind, wendet Sil’nickij ein von Vapnik entwickeltes Verfahren (V-Klassifikation) an. Dieses besteht darin, mittels eines variierenden quantitativen Merkmals (hier die Menge oder Teilmengen der Indizes) Distanzsequenzen der Sprachen aufzustellen. Jene Teilmenge, die in derselben Distanzsequenz resultiert wie die ursprüngliche Menge, ist diagnostisch relevant. Die Teilmenge, die die typologischen Indizes SUF, AGGL und PREF enthält, wird als diagnostisch relevant ermittelt. Sie besteht nicht vollkommen unerwartet aus jeweils einem (zentralen) Element der zuvor ermittelten Indexcluster und dem Außenseiter. Diese Indizes sind geeignet, die klassifikatorische Funktion aller Indizes zu repräsentieren. Im Gegensatz zu Altmann/Lehfeldt (1973) lässt Sil’nickij ein Analogon zum diagnostischen Schlüssel vermissen, welches den Schritt von der bloßen Klassifikation zur Typologie ermöglichte. Eine ideale Typologie im Skaličkaschen Sinne verfolgt auch Klimov (1983a; 1983b) im Rahmen der Inhaltstypologie („contentive typology“). Während Skalička die Typen an den traditionellen morphologischen Klassen ausrichtet, sieht Klimov die Art und Weise, wie Sprachen grammatische Relationen ausdrücken (Nominativsprachen, Ergativsprachen, Aktivsprachen u. a.) als Typen-begründend. Dieses strukturelle Merkmal sei mit anderen Merkmalen auf lexikalischer, morphologischer, syntaktischer und wahrscheinlich auch phonologischer Ebene korreliert. Klimov konzentriert seine For-
schungen, die in Nichols (1992), vgl. Abschnitt 6., kritisch beleuchtet werden, vor allem auf die Aktivsprachen. Skalička unternimmt den entscheidenden Schritt in Richtung moderne Sprachtypologie, indem er (Ideal-)Typen, basierend auf vielen sprachlichen Merkmalen, konstruiert. Altmann und Lehfeldt wenden konsequent mathematische Verfahren zur Erstellung ihrer Typologie an. Während Skalička rein deskriptiv Typen vermutet, werden diese bei Altmann/Lehfeldt durch mathematische Techniken fundiert und zusätzlich einzelne Variablenausprägungen in einen numerisch präzisierten Prädiktionszusammenhang gesetzt. Kontrastiert man die Arbeiten von Skalička und Klimov, so wird deutlich, dass beide nach einem grundlegenden Merkmal zu suchen scheinen, mit dem alle anderen sprachlichen Ausprägungen eines Typs in Verbindung stehen. Die programmatische Erweiterung dieser Perspektive ist u. a. Ziel der modernen funktionalen Sprachtypologie (vgl. Art. 40) und auch der synergetischen Linguistik (vgl. Art. 53). Es gilt, nicht nur die gegenseitige Bedingtheit von sprachlichen Merkmalsausprägungen, ihre Abhängigkeitsbeziehungen und ihre (funktionalen) Erklärungszusammenhänge zu erforschen, sondern vor allem, diese Untersuchungen im Hinblick auf zu formulierende Gesetze und Theorien auf eine solide quantitative Basis zu stellen.
5.
Moderne morphologische Typologie
Die moderne morphologische Typologie ist gekennzeichnet durch die präzisere Definition von Begriffen wie Agglutination und Flexion/Fusion, vgl. bspw. Plungian (2001) und Narrog (1999). Im Vordergrund steht nicht der Versuch einer Klassifikation, im Gegenteil, morphologische Merkmale von Sprachen bzw. Teilen des Sprachsystems wie „agglutinierend“ oder „flektierend“ werden differenziert in primitivere Merkmale und zu anderen Eigenschaften des Sprachsystems in synchroner oder diachroner Perspektive in Bezug gesetzt; die Paradigmenorganisation wird untersucht. Ein erstes Beispiel findet sich in Carstairs (1983). Er stellt ein allgemeines Prinzip der Paradigmenökonomie auf, das die kombinatorisch mögliche große Menge an Deklinationsklassen in Sprachen drastisch beschränkt. Nyman
588
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
(1987) kritisiert diese Arbeit, da es im Wesentlichen das Prinzip selbst sei, welches erklärt werden müsse. In vielen Fällen sei das Prinzip der Paradigmenökonomie auf das Prinzip „one form K one meaning“ zurückzuführen. Zudem könne es als Erklärungsprinzip für morphologischen Wandel in vielen Fällen nicht herangezogen werden. Plank (1986) verleiht dem Begriff der Paradigmenökonomie eine neue Bedeutung. Seine unter quantitativen Gesichtspunkten interessante Hypothese TENT (Type of exponence K Number of Terms) besagt, dass der Typ des Exponenten (des morphologischen Affixtyps einer Kategorie) Einfluss auf die mögliche Anzahl der Affixterme nimmt. Zur Charakterisierung morphologischer Affixtypen unterscheidet Plank zunächst die Begriffe „kumulativ“ und „separatistisch“. Kumulative Exponenten sind gleichzeitig Ausdruck für verschiedene morphologische Kategorien, ohne dass diese segmentiert werden könnten, (Bsp.: lat. man-ibus mit -ibus für Ablativ und Plural versus türk. el-ler-den mit -ler für Plural und -den für Ablativ). Unabhängig von der Frage der Kumulation können Exponenten morphologische oder lexikalische Kontextsensitivität zeigen, die sich bspw. im Nominalsystem in verschiedenen Deklinationsklassen äußert. Sowohl separatistische als auch kumulative Exponenten können sensitiv bzw. nicht-sensitiv sein. Nach der TENTHypothese begrenzen kumulative und sensitiv-separatistische Exponenten die Anzahl der Terme, die eine flexivische Kategorie haben kann (Paradigmengröße), stärker als nicht-sensitive separatistische Exponenten. Zur empirischen Überprüfung der Hypothese werden die Kasussysteme von 47 Sprachen untersucht, davon 16 morphologisch kumulativ, 31 morphologisch separatistisch. Im Durchschnitt besitzen die kumulativen Sprachen 5,6 Terme pro Kasusparadigma, während die separatistischen im Durchschnitt über 8,6 Terme verfügen, bzw. 7,3, wenn man Tabassaranisch ausnimmt. Abb. 41.5 zeigt die Verteilung der einzelnen Sprachen auf unterschiedliche Paradigmengrößen.
Kumulativ Separatistisch
2
3
4K6 7K10 11K
2 4
1 2
7 7
6 10
K 8
Abb. 41.5: Verteilung der Kasusexponenttypen auf Paradigmengrößen nach Plank (1986, 39)
Es zeigt sich klar, dass keine Sprache mit kumulativem Exponententyp über mehr als zehn Kasusterme verfügt, eine Zahl, die jedoch nicht selten bei Sprachen mit separatistischen Exponententypen anzutreffen ist. Bei seinen interpretativen Überlegungen zu diesen Verteilungsverhältnissen bemüht Plank ein kombinatorisches Prinzip der formalen Ökonomie. Sind bspw. zwei morphologische Kategorien Kasus und Numerus mit jeweils vier und zwei Unterscheidungen zu kodieren, so reichen bei separatistischer Kodierung sechs Terme insgesamt für beide Kategorien aus, um alle Distinktionen sichtbar zu machen. Bei nicht-sensitiver, kumulativer Kodierung werden bereits acht Terme benötigt. Bei sensitiver separatistischer Kodierung werden zehn Terme notwendig. Während Kumulation an sich also zu einer Erhöhung der Termanzahl führt und somit eine höhere Gedächtnisleistung erfordert, kann separatistische Kodierung diesen Spielraum zum differenzierteren Ausdruck der Kategorie nutzen. Gerade der kumulative Ausdruck steht in engem Zusammenhang zum Synkretismus, der als Gegenbewegung zur Kumulation den Gedächtnisaufwand wieder verringert. Hier zeigt Plank, dass die morphologische Typologie aktuelle Fragestellungen aufwirft, da sie die tatsächliche Kovariation morphologischer Variablen untersucht. Es sei wünschenswert, der Fragestellung des Zusammenwirkens von Separation, Kumulation und Synkretismus intensiver nachzugehen. Weitere Untersuchungen, die jedoch noch über keine quantitativen Ergebnisse verfügen, finden sich in Plank (1999). Gegenstand von Planks Fragestellung ist wiederum der Exponententyp, der unter der Frage von systematischen ,splits‘ (in welchem grammatischen Bereich weisen die Sprachen welchen Exponententyp auf?) untersucht wird. Die aktuelle Relevanz der morphologischen Typologie wird auch in Bybee (1997) deutlich. Sie untersucht den Zusammenhang zwischen morphologischem Sprachtyp und Grammatikalisierungsprozessen. Es wird die Hypothese verfolgt, dass in Sprachen unterschiedlicher morphologischer Typen in unterschiedlich weitem Maße Grammatikalisierungsprozesse ablaufen. Hierbei bezieht sie sich vor allem auf die Unterscheidung in analytische und synthetische Sprachen K Begriffe, die selbst skalar und komplex sind und aus mehreren skalaren Merkmalen wie Affigierung, Anzahl der Morpheme pro Wort, In-
589
41. Morphologisch orientierte Typologie
korporation u. a. aufgebaut sind. Bybee stellt ein Merkmal in den Vordergrund, das entscheidenden Einfluss auf den Grammatikalisierungsprozess ausübt, nämlich die Frage, inwieweit eine Sprache über obligatorische Kategorien verfügt. Nur durch dieses Merkmal erhält eine Kategorie die notwendige Diskursfrequenz, um in einen Grammatikalisierungsprozess eintreten zu können. Die Existenz der obligatorischen Kategorien wiederum hängt mit unterschiedlichen Diskursstrategien in verschiedenen Sprachen zusammen. In dem Maße, wie notwendige Kategorien für Grammatikalisierungsprozesse zur Verfügung stehen, erhöhen sie wiederum die Synthetizität von Sprachen. Andererseits können nur diejenigen Sprachen, in denen der Grammatikalisierungsprozess vollständig abläuft, bestimmte Bedeutungen flexivisch ausdrücken. Sprachen, die keine Affixe oder obligatorische Kategorien haben, verfügen nicht über grammatikalisierte Tempus/Aspekt-Bedeutungen wie Perfektiv/ Imperfektiv oder Präsens/Präteritum. Askedal (1997) operiert mit einer Klassifikation in „analytische“ und „synthetische“ Sprachen. Komplexe Nominalphrasen im Deutschen können als Resultate von Kondensierungsprozessen verstanden werden, da die explizite Kodierung vieler grammatischer Kategorien K die in finiten Sätzen obligatorisch ist K aufgehoben ist. Askedal (1997) geht der Hypothese nach, ob komplexe Nominalphrasen im Deutschen auch aus quantitativer Sicht kondensierter sind als ihre Übersetzungs-,,äquivalente“ im Norwegischen. Norwegisch, eine Sprache die traditionell als „analytischer“ eingestuft wird als das Deutsche, sollte also in den entsprechenden Sätzen mehr Wörter aufweisen. Anhand einer äußerst geringen Anzahl an Beispielsätzen stellt sich jedoch heraus, dass Kondensierung weder innerhalb der deutschen Alternativen noch im Vergleich zum Norwegischen eine Einsparung an sprachlichem Material ergibt. Eine moderne und plausible Neudefinition der Begriffe Isolation, Agglutination, Fusion und Analytizität/Synthetizität legt Narrog (1999) vor, indem er die morphophonologische Perspektive von der semantischen trennt. Er untersucht jeweils eine kleine Stichprobe eines japanischen, deutschen und chinesischen Texts, um quantitative Vergleiche der Qualität der morphologischen Prozesse in diesen Sprachen anstellen zu können.
6.
(Funktionale) morphologische Sprachtypologie
Dieser Abschnitt stellt das breite Spektrum der modernen morphologischen Sprachtypologie an einigen exemplarischen Arbeiten vor. Sil’nickij (1998) und Bauer (2001) erheben Daten über Verteilungen und Korrelationen zwischen morphologischen Kategorien. Dabei widmet sich Sil’nickij den in indoeuropäischen Sprachen vertretenen morphologischen Kategorien, Bauer untersucht Komposita. Dahl (1985) behandelt den morphosyntaktischen Ausdruck von Tempus- und Aspektkategorien. Nichols (1986) widmet sich der morphosyntaktischen Markierung von Abhängigkeitsbeziehungen. Nichols (1992) untersucht Zusammenhänge zwischen verschiedenen sprachlichen Variablen, unter anderem der morphologischen Komplexität. Letzteres Thema behandelt auch Juola (1998). Arbeiten zu implikativen Universalien und grammatischen Hierarchien legen Greenberg (1963/1966), Bybee (1985) und Hawkins/Gilligan (1988) vor. Sie fragen auch nach möglichen Erklärungsinstanzen für die gefundenen Muster. Weitere morphologische Universalien resümiert Carstairs-McCarthy (1994a). Eine umfangreiche, sprachenübergreifende und quantitative Untersuchung zu morphologischen Merkmalen führt Sil’nickij (1998) durch und löst sich damit von Klassifikation und Typologie. Er untersucht das morphologische System von 38 indoeuropäischen Sprachen mit Hilfe der Korrelationsanalyse. Die folgenden morphologischen Kategorien und Subkategorien sind Gegenstand der Analyse (Abkürzungen werden genannt, soweit weiter unten verwendet): (1) Artikel: definit, indefinit (2) Numerus (num): Singular, Plural, Dual (du) (3) Genus (gnd): maskulin, feminin, neutrum (4) Kasus (case): Genitiv, Dativ, Akkusativ, Instrumental, Lokativ (5) Person (prs) (6) Genus Verbi: Passiv, Medium (7) Modus: Indikativ, Subjunktiv, Optativ (8) Tempus: Präsens, Vergangenheit, Futur, Futur der Vergangenheit (9) außerdem: Perfekt, Progressiv, Perfekt Progressiv, Aspekt, Infinitiv, Adverbialpartizip, Gerundium
590
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
In der Untersuchung werden die Wortarten Substantiv (N), Adjektiv (A), Verb (V) und Pronomen (P) unterschieden. Die möglichen Ausprägungen der Merkmale werden auf nicht vorhanden, teilweise vorhanden und vorhanden beschränkt und auf einer dreiwertigen Skala mit den Belegungen 0, 0,5 und 1 operationalisiert. In der Untersuchung werden Korrelationen und Frequenzen erhoben und implikative Aussagen, basierend auf Frequenzen, getroffen. Zunächst werden nominale (Substantiv, Adjektiv, Pronomen) und verbale Kategorien einzeln untersucht, um sie dann in einen Gesamtzusammenhang zu stellen. Außerdem werden die Sprachen aus historischer Perspektive analysiert. Es wird eine Fülle an Datenmaterial erhoben und dargestellt, dessen grobe Linien hier kurz wiedergegeben werden. Im nominalen System der indoeuropäischen Sprachen zeigt sich eine starke negative Korrelation zwischen Artikel und Kasus, während die Merkmale Anum, Pnum und Pcase positiv korrelieren. Diese Merkmale sind am Repräsentativsten für das nominale morphologische System. Folgende implikative Zusammenhänge werden festgestellt: Ngnd / Nnum, Agnd / Ngnd, Agnd / Anum, Acase / Ncase. Im verbalen System ergeben sich vier Zusammenhangskomplexe. Der Subjunktiv korreliert positiv mit Futur der Vergangenheit, Perfekt, Progressiv, Perfekt Progressiv und Gerundium. Imperativ, Futur und Partizip sind in einem weiteren Verbalkomplex positiv korreliert. In einem dritten Zusammenhangsgefüge finden sich die Merkmale Dualis des Verbs, Optativ und Medium. Ein letzter Komplex entsteht aus den Variablen Genus beim Verb, Aspekt und Adverbialpartizip. Bei der Verbindung zwischen den verbalen und nominalen Zusammenhangsgefügen zeigt sich, dass der Artikel einen Komplex mit dem ersten verbalen Merkmalsbündel bildet, das durch den Subjunktiv gekennzeichnet ist. Der zweite Verbalkomplex, vertreten durch die Kernvariablen Imperativ und Futur, ist mit den Nominalmerkmalen Agnd, Anum und Pprs assoziiert. Der dritte verbale Zusammenhang korreliert die Merkmale Acase, Adu, Vdu und Optativ. Zwischen dem vierten verbalen Zusammenhangsgefüge und den nominalen Merkmalen lassen sich keine Korrelationen feststellen. Die erwähnten implikativen Zusammenhänge werden in beide Richtungen untersucht. An diesem Punkt wäre es interessant gewesen,
die Ergebnisse mit den bereits bekannten implikativen Universalien in Zusammenhang zu setzen. So folgen die von Sil’nickij konstatierten Implikationen Ngnd / Nnum und Agnd / Anum dem 39. Universale von Greenberg (1963/66). Implikationen werden nur formuliert, wenn sie hundertprozentig bestehen, hier sollte jedoch mit Tendenzen gearbeitet werden, wie bereits bei Greenberg. Leider wird in der Untersuchung nicht zwischen morphologischer und periphrastischer Kodierung unterschieden. Auch die dreiwertige Operationalisierung ist fragwürdig, hier sind feinere Skalen möglich. Zusammenfassend lässt sich festhalten, dass ein Fundus an deskriptivem Material vorliegt, der Eingang in weitergehende Hypothesen finden sollte, eine Feststellung, die auch für die folgende Untersuchung zutrifft. Bauer (2001) untersucht verschiedene Arten von Komposita und deren sprachenübergreifende Verbreitung. Er stellt fest, dass es fraglich ist, ob Kompositabildung als Universale eingestuft werden kann. Sprachen, die keine oder kaum Kompositabildung verwenden, verfügen über keine gemeinsamen typologischen oder arealen Merkmale. Die Reihenfolge Kompositumskopf K Modifikator reflektiert häufig die von Possessor und Besitz in Nominalphrasen. Diese Aussage ist jedoch durch die Tatsache zu relativieren, dass die Reihenfolge der Elemente in ca. der Hälfte der untersuchten Sprachen variabel ist. Der Autor erhebt zudem Daten zur Verbreitung der unterschiedlichen Kompositatypen in den Sprachen, wertet diese jedoch statistisch nicht aus. Eine zentrale Fragestellung der funktionalen Typologie bezieht sich auf den einzelsprachlichen Ausdruck von Funktionen. Dabei wird die traditionelle Trennung der linguistischen Beschreibungsebenen Morphologie und Syntax aufgehoben. In diesem morphosyntaktischen Paradigma untersucht Dahl (1985) eine Stichprobe von 64 verschiedenen Sprachen im Hinblick auf ihr morphologisches System K wobei er auch periphrastische Kodierung berücksichtigt K zum Ausdruck von Tempus, in geringem Maße Modus und Aspekt (im Folgenden TMA). Er verfolgt die Hypothese, dass sich die einzelsprachlichen Kategorien zum Ausdruck von TMA auf eine kleine Menge sprachenübergreifender Kategorien reduzieren lassen. Die Daten werden mittels eines Fragebogens erhoben, der 200 Sätze umfasst.
591
41. Morphologisch orientierte Typologie
Kern der Untersuchung ist die Frage der Ermittlung der sprachenübergreifenden Kategorien. Dahl stellt ein inkrementelles Bootstrappingverfahren vor, das sowohl existierende Kategorisierungen zum Ausgangspunkt nimmt als auch empirische Verteilungen berücksichtigt. Grundsätzlich geht es darum, einzelsprachliche Kategorien, die in semantisch-pragmatisch ähnlichen Sätzen verwendet werden, zu einer sprachenübergreifenden Kategorie zusammenzufassen. Zur Frage der Operationalisierung des Prädikats „ähnliche Sätze“ schlägt Dahl zum einen den Kontingenztafeltest vor, der den Nachteil hat, nur paarweise Vergleiche zu ermöglichen, zum anderen entwickelt er das z. T. heuristische Verfahren der „Trefferquote“ (eine Art Rangierungstest). Dazu wird mittels des Bootstrappingverfahrens eine Rangliste der Sätze aufgestellt, in denen die untersuchte sprachenübergreifende Kategorie einzelsprachlich Ausdruck findet, sortiert nach absteigender Frequenz. Beispiel: Wird die sprachenübergreifende Kategorie einzelsprachlich in 18 Sätzen (N) ausgedrückt, so müssen sich diese unter den ersten 18 (H) der Rangliste befinden, um eine Trefferquote von 1 zu erzielen. Sind es weniger, z. B. H Z 15, so sinkt die Trefferquote entsprechend auf 15/18. Diese Trefferquote erzielt ein ähnliches Ergebnis wie der Kontingenzkoeffizient. Der Ausdruck einer übersprachlichen Kategorie in einer Einzelsprache wird nur berücksichtigt, wenn sich der Kontingenzkoeffizient über 0,4 bewegt, welches ungefähr einer Trefferquote von 0,5 entspricht. Somit kann festgestellt werden, welche sprachenübergreifenden T(M)A-Kategorien in den Einzelsprachen kodiert werden. Die wichtigsten quantitativen Ergebnisse werden in der folgenden Abb. 41.6 wiedergegeben. Insgesamt benennt diese Untersuchung die morphosyntaktisch ausgedrückten T(M)A-
Kategorien mit 48. Die Mehrzahl der einzelsprachlichen Kategorien verteilt sich auf wenige sprachenübergreifende Kategorien. Es zeigt sich oft eine klare Tendenz, eine sprachenübergreifende Kategorie entweder hauptsächlich morphologisch oder vor allem periphrastisch auszudrücken. Die sprachenübergreifend am häufigsten ausgedrückten Kategorien sind Futur, Vergangenheit und die Opposition Perfektiv/Imperfektiv. Zugleich sind diese Kategorien auch diejenigen, welche überwiegend morphologisch kodiert werden. Die morphosyntaktischen Markierungstypen syntaktischer Abhängigkeitsbeziehungen untersucht Nichols (1986) sprachenübergreifend. Bei einer grundlegenden Asymmetrie der beteiligten Partner ist einer als regierende Kategorie (Regens, Kopf, head) und der andere als regierte Kategorie (Dependens, dependent) aufzufassen. Die morphologische Markierung der Beziehung kann am Regens, am Dependens, an beiden gleichzeitig, separat oder gar nicht ausgedrückt sein. So findet sich bspw. in der ungarischen Possessivnominalphrase az ember ház-a (das Haus (ház) des Menschen (ember)) die Possessivbeziehung an der Kopfkategorie mittels des Suffix -a markiert, während im Englischen the man’s house die Beziehung mit ’s an der regierten Kategorie markiert wird. In einer Stichprobe von 60 Sprachen untersucht die Autorin Markierungstypen auf Phrasenebene (Prä-/Postpositionalphrase, Possessivphrase, Adjektivphrase) und auf Klausenebene, wo nach der Markierung der verbalen Mitspieler gefragt wird. Die recht grobe Metrisierung besteht darin, für jede syntaktische Beziehung zu bestimmen, welcher Markierungstyp verwendet wird. Dabei wird jeweils das herausragende (,salient‘) Muster zur Zählung herangezogen, andere Markierungsmöglichkeiten werden nicht berücksichtigt. Für jede Sprache wird für die Menge der untersuch-
Kategorie
Ausprägung
Frequenz
Ausdruck
Aspekt
Opposition Perfektiv/Imperfektiv Progressiv Futur
70 % 44 % 78 %
Perfekt Präteritum/Imperfekt
38 % K1
überwiegend morphologisch überwiegend periphrastisch sowohl periphrastisch als auch morphologisch hauptsächlich periphrastisch überwiegend morphologisch
Tempus
1
Hier ist keine Angabe möglich, da die Kategorie zu heterogen und komplex ist und oft eine DefaultKategorie darstellt.
Abb. 41.6: T(M)A-Kategorien in einer Stichprobe von 64 Sprachen nach Dahl (1985)
592
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
ten grammatischen Konstruktionen ein Zahlenpaar ermittelt, welches ausdrückt, wie viele Konstruktionen welchen Markierungstyp verwenden. (Bspw. 1/3, wenn es eine Regensmarkierung und drei Dependensmarkierungen gibt.) Betrachtet man den Regenswert (H value) als x-Koordinate und den Dependenswert (D value) als y-Koordinate und trägt die Zahlenpaare als Punkte in einem Koordinatenkreuz auf, so bilden sich jeweils Cluster bei den hohen Werten von Abszisse und Ordinate, vgl. Abb. 41.7. 9 8 7
D values
6 5 4 3 2 1 0
0
1
2
3
4 H values
5
6
7
8
Abb. 41.7: Clusterbildung von Regens- und Dependensbeziehungen in den untersuchten Sprachen nach Nichols (1986, 70)
Dies bedeutet, dass Sprachen dazu tendieren, entweder strikt Regens- oder strikt Dependens-markierend zu sein, wobei die Streuung bei den Dependens-markierenden Sprachen größer ist. Um aus dem Zahlenpaar auf eine Gesamtquantifizierung und damit indexikalische Charakterisierung einer Sprache zu kommen, verrechnet die Autorin die beiden Werte miteinander, als negative Ganzzahlen schlagen die RegensMarkierungen zu Buche, als positive die Dependens-Markierungen. Je negativer dieser Index ist, desto stärker Regens-markierend ist die Sprache und umgekehrt. Dies ist jedoch nur solange in dieser Form möglich, wie die Sprachen vergleichbar stark Morphologie einsetzen. Werden sprachintern unterschiedliche Markierungstypen verwendet, lässt sich diese Variation durch implikative Universalien systematisieren, z. B. „If a language has dependent-marking morpho-
logy at the clause level, it will have it at the phrase level“, (Nichols 1986, 75). Insgesamt scheinen sprachenübergreifend einige Konstruktionstypen eher die Tendenz zu RegensMarkierung zu haben (bspw. Klause), andere eher zur Dependens-Markierung (bspw. Adjektivphrase). Es ergeben sich Zusammenhänge zur Wortstellungstypologie: VOSprachen sind bspw. eher Regens-markierend, ebenso wie Verb-initiale Sprachen allgemein. Hierzu bietet Nichols eine funktionale Motivation an: Bei initialem Verb in einer Regens-markierenden Sprachen können die grammatischen Beziehungen, die am Verb ausgedrückt sind, recht früh identifiziert werden. Wenn die Nominalphrasen in einer Verb-finalen Sprache vorangehen, so unterstützt die Dependens-Markierung an den NPs die frühzeitige Identifikation der grammatischen Relationen. Bei der Untersuchung der Verteilung der Markierungsmuster auf Sprachen gemeinsamen genetischen Ursprungs zeigt sich, dass die Markierungsmuster innerhalb einer Gruppe statistisch signifikant stabil sind. Zusammenfassend schließt Nichols (1986, 101 ff.), dass insgesamt Regens-Markierung in Sprachen präferiert wird, da (1) diese über große Wortstellungsfreiheit verfügen, (2) Migration von Markierungen vornehmlich in Kopfrichtung auftritt, (3) S-V-Kongruenz in ansonsten Dependens-markierenden Sprachen auftritt, (4) in polysynthetischen Sprachen das Ausmaß der Kopfmarkierung kaum beschränkt zu sein scheint. Dieser Argumentation wird jedoch in Nichols (1992, 71) widersprochen, wo sie feststellt, dass weltweit kein Markierungstyp bevorzugt zu sein scheint, im Gegenteil, dass Regensmarkierung im allgemeinen der weniger präferierte Markierungstyp zu sein scheint. In Nichols (1992) erweitert die Autorin zudem ihr Forschungsprogramm. In Abgrenzung zu und Ergänzung der Arbeiten von Klimov, vgl. Abschnitt 4., untersucht sie die Verteilungen, Korrelationen und areale Ausbreitung vier sprachlicher Variablen (morphosyntaktischer Markierungstyp von Abhängigkeitsbeziehungen, morphologische Komplexität, Wortstellung, Typ der grammatischen Relationen wie Ergativ, Aktiv). Sie versteht die strukturelle Typologie als „Populationstypologie“, die die Diversität der
593
41. Morphologisch orientierte Typologie
sprachlichen Phänomene mittels quantitativer Methoden erfassen und Aufschluss über die sprachliche Prähistorie geben soll. Diese bemerkenswerte Arbeit soll im folgenden nur kurz unter den Aspekten Erwähnung finden, die die Korrelationen der Variablen untereinander betreffen und im Vergleich zu Nichols (1986) neu sind. Nichols definiert ein morphologisches Komplexitätsmaß, das an die Untersuchung der morphosyntaktischen Markierungstypen gekoppelt ist. Eine Sprache erhöht ihre morphologische Komplexität dadurch, dass eine morphosyntaktische Relation an einer Komponente markiert werden kann. Dabei kann diese Komponente selbst Regens oder Dependens sein. Je mehr unterschiedliche Markierungen an verschiedenen syntaktischen Kategorien möglich sind, desto morphologisch komplexer ist eine Sprache. Nichols begegnet dem möglichen Vorwurf, dass dieses Maß eine sehr reduzierte Sicht auf morphologische Komplexität darstelle, die z. B. Paradigmenkomplexität vollkommen ignoriert, mit dem Hinweis, dass die von ihr vorgenommene Operationalisierung ein guter Indikator für generelle morphologische Komplexität sei. Die statistische Signifikanz der Korrelationen wird nicht mittels Korrelationsanalyse K dies verbietet das Skalenniveau der Daten K, sondern mittels Mehrfeldertafeltests geprüft. Bei der Beziehung der Variablen Komplexität und Markierungstyp ist festzustellen, dass Regens-Markierung mit geringer Komplexität einher geht, während Dependens-Markierung mit hoher Komplexität gepaart ist. Der Ergativtyp und DependensMarkierung treten gemeinsam auf, der Aktivtyp paart sich mit Regens-Markierung. Verbinitiale Wortstellung geht einher mit Regens-Markierung, verbmediale und verbfinale Wortstellung mit Dependens-Markierung. Der Ergativtyp tritt zusammen mit hoher Komplexität auf. Die Interaktion der vier Variablen ist höchst unterschiedlich, wobei in Bezug auf den Markierungstyp die meisten Korrelationen festzustellen sind, die z. T. funktional motiviert werden können, vgl. oben zu Nichols (1986). Der Markierungstyp kann außerdem prädiktiv für andere morphologische Eigenschaften eingesetzt werden. In Bezug auf die Typologie von Klimov stellt Nichols fest, dass der Ausdruck nichtveräußerbaren Besitzes mit Regens-Markierung gepaart ist, das klassifizierende Sprachen mittlere bis hohe Komplexität aufweisen, dass eine Wortkategoriehie-
rarchie (Nomen O Verb O Pronomen) die Affinität zu Pluralneutralisierung beschreibt und dass Dependens-markierende Sprachen wenig Pluralneutralisierung aufweisen. Als Fazit formuliert sie, dass der morphologische Markierungstyp die größte Prädiktivität im Hinblick auf andere strukturelle sprachliche Merkmale aufweise und nicht die relationale Typologie, so wie sie von Klimov ausgearbeitet wurde. Ein gänzlich anderes Verfahren als Nichols (1992) zur Bestimmung der morphologischen Komplexität entwickelt Juola (1998). Bezüglich der Metrisierung macht er sich die Funktionalität gängiger Komprimierungsverfahren zunutze, die um so stärker komprimieren, je geringer der Informationsgehalt (im syntaktischen Sinne der Informationstheorie) ist. Im informationstheoretischen Sinne ausbuchstabiert bedeutet dies, dass bei einer ausgeprägten Morphologie, wie bspw. im Russischen, der Anteil der syntaktischen Information, die Entropie, gering ist. In der vorliegenden Operationalisierung wird Morphologie als ein Prozess verstanden, durch den ein/e Leser/in bzw. Hörer/in Teile eines Wortes aus einem vorhergehenden Wort vorhersagen kann. So weiß man bspw., dass auf die Sequenz I am möglicherweise eine Verbalform mit dem Suffix -ing folgt. Diese Prädiktivität senkt den Informationsgehalt der morphologischen Ebene. Eine Sprache mit ausgeprägter Morphologie sollte also stark komprimierbar sein, eine Sprache mit wenig ausgeprägter Morphologie sollte weniger gut komprimierbar sein. Zur Überprüfung der Hypothese wird die Prädiktivität der morphologischen Ebene künstlich zerstört, indem jedes WortformenType eines Textes durch eine eineindeutige Zufallszahl ersetzt wird. Bei einer Sprache mit ausgeprägter Morphologie sollte die Komprimierungsrate der modifizierten Version wesentlich geringer sein als in der Originalversion, was daran liegt, dass die syntaktische Information durch die Zufallszahlen künstlich erhöht wurde. Als Vergleichsmaß bildet der Autor den RC-Quotienten aus der komprimierten Originalversion des Textes in Byte („raw“) und der modifizierten Version des Textes in Byte („cooked“): RC Z
Originaltext (komprimiert) modifizierter Text (komprimiert)
(1)
Der RC-Quotient sollte um so größer sein, je morphologisch komplexer die untersuchte Sprache ist. Die hohe morphologische Kom-
594
Maori Englisch Niederländisch Französisch Russisch Finnisch
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology Original/Modifiziert
Anzahl der Types
Anzahl der Token
0,895 0,972 0,994 1,01 1,04 1,12
19.301 31.244 42.347 48.609 76.707 86.566
1.009.865 824.364 805.102 758.251 600.068 577.413
Abb. 41.8: Morphologische Komplexität nach Juola (1998, 212)
plexität entspricht einer hohen Prädiktivität, also einem geringen Informationsgehalt im informationstheoretischen Sinne. Als Korpus werden dieselben Bibelstellen verschiedener Sprachen (Niederländisch, Englisch, Finnisch, Französisch, Maori und Russisch) verwendet. Abb. 41.8 zeigt die Sprachen sortiert nach aufsteigendem Quotienten. Nicht nur erfahren intuitiv als morphologisch komplex eingestufte Sprachen eine Platzierung am unteren Ende der Liste und vice versa, nicht ganz unerwartet führen die Maße Anzahl der Types und inverse Anzahl der Token zu einer statistisch signifikant ähnlichen Rangierung. Das klassische Beispiel für die empirische Untersuchung von Zusammenhängen zwischen sprachlichen Merkmalen stellt Greenberg (1963/1966) dar. Es werden sowohl Analysen zwischen morphologischen Eigenschaften untereinander als auch zwischen anderen grammatischen Eigenschaften durchgeführt. Er basiert die empirischen Generalisierungen auf eine Stichprobe von 41 Sprachen und formuliert sie als implikative Universalien. Die hier interessierenden Universalien betreffen morphologische und morphosyntaktische Eigenschaften von Sprachen, aber auch semantisch-funktionale Kategorien, die häufig flexivisch ausgedrückt werden, wie Genus oder Numerus. Abb. 41.9 zeigt eine Auswahl der Greenbergschen implikativen Universalien. Mit dem Ausdruck morphologischer Kategorien und den implikativen Beziehungen zwischen den Kategorien untereinander beschäftigt sich Bybee (1985). Sie untersucht den Zusammenhang zwischen der Semantik von Affixen und Regelmäßigkeiten auf der Ausdrucksseite und fragt, welche Faktoren die Wahrscheinlichkeit bestimmen, mit der ein semantisches Konzept als flexivische Kategorie ausgedrückt wird. Diese Wahrscheinlichkeit wird durch das Relevanz- und das Allgemeinheitsprinzip bestimmt. Das Relevanzprinzip besagt, dass zwei Bedeu-
26 If a language has discontinuous affixes, it always has either prefixing or suffixing or both. 29 If a language has inflection, it always has derivation. 34 No language has a trial number unless it has a dual. No language has a dual unless it has a plural. 36 If a language has the category gender, it always has the category of number. 39 Where morphemes of both number and case are present and both follow or both precede the noun base, the expression of number almost always comes between the noun base and the expression of case. Abb. 41.9: Universalien nach Greenberg (1963/ 1966, 112) in Auswahl
tungselemente relevant füreinander sind, wenn das zweite das erste in seinem semantischen Gehalt direkt affiziert oder modifiziert. Auf der Ausdrucksseite kann das graduelle Konzept der Relevanz zur Charakterisierung der verschiedenen Ausdrucksmittel verwendet werden. Es entsteht eine Relevanzskala für die Kodierungsmittel. Am maximalen Ende der Skala werden zwei Bedeutungselemente lexikalisch (walk C water / wade) bzw. flexivisch (walk C Past / walked) ausgedrückt, während sich minimale Relevanz in syntaktischem Ausdruck (walk C sunshine / walk in the sun) niederschlägt, wobei ‚O‘ für relevantere Kombinationen verwendet wird: lexikalischer Ausdruck O flexivischer Ausdruck O periphrastischer Ausdruck
Das Allgemeinheitsprinzip besteht darin, dass ein morphologischer Prozess sehr breit anwendbar ist, das involvierte semantische Element also recht unspezifisch ist. So sind Derivationsaffixe bspw. weniger allgemein als Flexionsaffixe; zum Thema der Grade der Deskriptivität vgl. auch Seiler (1975, 43 ff.). Außerdem untersucht Bybee die verbalen morphologischen Flexionskategorien
595
41. Morphologisch orientierte Typologie
Valenz, Genus verbi, Aspekt, Tempus, Modus, Numeruskongruenz, Personkongruenz und Genuskongruenz in einer Stichprobe von 50 Sprachen. Die Kategorien werden gemäß ihrer semantischen Relevanz für den Verbstamm geordnet. Valenz ist bspw. ein semantisch sehr relevantes Element für den Verbstamm, da es die Rolle der Partizipanten in der Situation und damit die ganze Situation verändert, während Personkongruenz sich hauptsächlich auf die Identifikation der Mitspieler bezieht und die Verbbedeutung kaum betrifft. Abb. 41.10 zeigt die Verteilung der morphologischen Kategorien, die flexivisch ausgedrückt werden. Genuskongr.
Reihenfolge
positiv invers
Aspekt K Tempus Aspekt K Modus Aspekt K Personkongruenz Tempus K Modus Tempus K Personkongruenz Modus K Personkongruenz
8 10 12 8 8 13
0 0 1 (Navaho) 1 (Ojibwa) 1 (Navaho) 5
Abb. 41.11: Affixreihenfolge nach Bybee (1985, 35)
semantischer Relevanz des Affix für den Stamm und Reihenfolge der Affixe bzw. Stammnähe. Sie legt folgende Markiertheitshierarchie der Affixlinearisierung nahe: Aspekt O Tempus O Modus O Personkongruenz
16 28
Personkongr. (Objekt) Personkongr.
56
Numeruskongr.
54 68
Modus Tempus
48
Relevanz 52
Aspekt 26
Genus verbi Valenz
6 0
10
20
30
40
50
60
70
80
Abb. 41.10: Flexivischer Ausdruck morphologischer Kategorien nach Bybee (1985, 30), Werte in Prozent, zunehmende Relevanz
Diese glockenförmige Verteilung lässt sich aus einer Kombination von Relevanzprinzip und Allgemeinheitsprinzip erklären. Die größere Relevanz geht mit geringerer Allgemeinheit (Affix kann mit einem beliebigen Stamm kombiniert werden) einher, welches sich in geringem flexivischen Ausdruck äußert. Die Relevanz der Affixe für den Stamm wirkt sich weiterhin auf die Reihenfolge aus, in der Affixe zum Stamm treten. Die Hypothese der ikonischen Distanz sagt voraus, dass Affixe um so näher am Stamm in der linearen Ordnung zu finden sind, je relevanter sie für diesen sind. Wegen der praktischen Probleme in der Durchführung, die in Fusion, Affixen auf unterschiedlichen Seiten des Stamms etc. bestehen, kann eine paarweise Untersuchung der häufigsten flexivischen Verbalaffixe nur anhand einiger Sprachen durchgeführt werden, deren Ergebnisse Abb. 41.11 illustriert. Numeruskongruenz wurde nicht untersucht, da diese oft mit Personkongruenz fusioniert. Die Untersuchung bestätigt die Hypothese der ikonischen Beziehung zwischen
Hawkins und Gilligan (1988) untersuchen verschiedene Stichproben, die bislang in der sprachtypologischen Forschung verwendet wurden, im Hinblick auf den implikativen Zusammenhang zwischen Wortstellung K OV/VO, NP C Postposition/Präposition C NP K und Affixstellung (präfigiertes oder suffigiertes Affix). Universell scheint Suffigierung der präferierte Prozess zu sein. Diese Links-rechts-Asymmetrie wird in der folgenden Vierfeldertafel dargestellt: VO-Sprachen lassen beide Affigierungsmöglichkeiten zu, OV-Sprachen bevorzugen
{VO, Präp. C NP} {OV, NP C Postp.}
Präfigierung
Suffigierung
X K
X X
Abb. 41.12: Zusammenhang zwischen Wortstellung und Affigierungsort nach Hawkins/Cutler (1988), 285.
Suffigierung. Die Autoren formulieren für diesen Zusammenhang zwei Prinzipien. Das erste Prinzip, das Head-Ordering Principle, betrachtet Affixe als Köpfe von Wörtern und besagt, dass diese sich gemäß den syntaktischen Köpfen verhalten. Bestünde dieses Prinzip allein, so wäre nicht transparent, warum Suffigierung in VO-Sprachen auftritt. Um diese Verteilung zu verstehen, nehmen die Autoren ein allgemeines Prinzip der Suffigierungspräferenz an, das zunächst nicht motiviert wird. Die notwendige Motivation erfolgt jedoch in der Arbeit von Hawkins und Cutler (1988). Die Suffigierungspräferenz wird im Rahmen eines rudimentä-
596
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
ren Modells zur menschlichen Sprachverarbeitung damit begründet, dass Suffigierung den lexikalischen Zugriff beim Sprachverstehen erleichtere. Dabei wird die Annahme getroffen, dass Stamm und Affix getrennt verarbeitet werden müssen, da ersterer lexikalische Information birgt, während letzteres (im Fall von Flexiven) syntaktische Information trägt. Beim Sprachverstehen sei es nun wichtiger, zuerst die lexikalische Information zu verarbeiten, die durch die Suffigierungspräferenz an die exponierteste Stelle des Wortes, seinen Anfang, gesetzt wird. Noch stehen die einzelnen Forschungsergebnisse der funktionalen Sprachtypologie recht unverbunden nebeneinander und viele Detailfragen sind zu klären. Der empirische Ansatz sollte unbedingt durch eine stärkere mathematische Komponente unterstützt werden, damit die Integration der einzelnen Implikationen in ein systemisches Netz der Sprachmodellierung gelingen kann.
7.
Zusammenfassung
Der Weg der klassischen morphologischen Typologie des 19. Jh. bis zur modernen Sprachtypologie ist durch Perspektiven- und Paradigmenwechsel gekennzeichnet und kann als ständige Erweiterung der wissenschaftstheoretischen Grundlagen und Ansprüche verstanden werden. Während im 19. Jh. die Schaffung von eindeutiger Ordnung in den Sprachen der Welt mittels eines jeweils singulären Klassifikationskriteriums im Vordergrund stand, wird Anfang bis Mitte des 20. Jh. der Komplexität von Sprachen Rechnung getragen, indem sie als Typen von sprachlichen Merkmalen mit jeweils Typ-spezifischen Ausprägungen verstanden werden. Klassifikation und Typologie erfahren eine Konsolidierung, indem die untersuchten Variablen metrisiert und in unterschiedlichem Maße quantitativen und statistischen Verfahren wie Korrelationsanalyse und numerischer Taxonomie unterzogen werden. In der modernen Sprachtypologie und der modernen Typologie tritt der Begriff des Sprachtyps zugunsten einer systemischen Sichtweise in den Hintergrund. Letztere ist gekennzeichnet durch die Analyse von Form-Funktions-Gefügen, der Aufstellung von implikativen Universalien und der Suche nach Erklärungsinstanzen für die empirisch beschriebenen Zusammenhänge.
In dieser Hinsicht stellt bspw. die natürliche Morphologie, wie sie vor allem von Mayerthaler, Dressler und Wurzel entwickelt wurde, eine interessante Richtung im Bereich der morphologischen Theoriebildung mit deutlich typologischem Anspruch dar, für einen Überblick vgl. Wurzel (1994). Zwar spielen im Rahmen dieses Ansatzes quantitative Elemente wie Frequenz eine Rolle, die systematische quantitativ-empirische Fundierung steht jedoch noch aus. Ebenso erscheint es wünschenswert, statistische Modellierungstechniken und Testverfahren einzusetzen, um den empirischen und explanativ-funktional orientierten sprachtypologischen Ansatz auf den Weg zu einer mathematisch fundierten Theorie mit statistischen Gesetzen zu bringen.
8.
Literatur (in Auswahl)
Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. München: Fink. Altmann, Gabriel/Lehfeldt, Werner (1975), Begriffskritische Untersuchungen zur Sprachtypologie. In: Linguistics 144, 49K78. Arens, Hans (1969), Sprachwissenschaft. Der Gang ihrer Entwicklung von der Antike bis zur Gegenwart. 2. Aufl. Freiburg: Alber. Asher, R. E. (Hrsg.), The encyclopedia of language and linguistics. Bd. 1K10. Oxford u. a.: Pergamon Pr., 1994. Askedal, John Ole (1997), Computing morphosyntactic differences. A typological perspective on German and Norwegian. In: Journal of quantitative linguistics 4, 35K44. Bauer, Laurie (2001), Compounding. In: Haspelmath (2001), 695K707. Bock, Hans Hermann (1974), Automatische Klassifikation. Theoretische und praktische Methoden zur Gruppierung und Strukturierung von Daten. Göttingen: Vandenhoeck & Ruprecht. Bybee, Joan L. (1985), Morphology. A study of the relation between meaning and form. Amsterdam u. a.: Benjamins. Bybee, Joan L. (1997), Semantic aspects of morphological typology. In: Essays on language function and language type. Dedicated to T. Givón. (Hrsg. Joan L. Bybee u. a.). Amsterdam u. a.: Benjamins, 25K37. Carstairs, Andrew (1983), Paradigm economy. In: Journal of linguistics 19, 115K125. Carstairs-McCarthy, Andrew (1994a), Morphological universals. In: Asher 1994, Bd. 9, 2553K 2557. Carstairs-McCarthy, Andrew (1994b), Typology, morphological. In: Asher 1994, Bd. 9, 4817K4820.
41. Morphologisch orientierte Typologie
597
Croft, William (1990), Typology and universals. Cambridge u. a.: Univ. Pr.
Klimov, Georgij A. (1983b), Principy kontensivnoj tipologii. Moskau: Nauka.
Dahl, Östen (1985), Tense and aspect systems. Oxford u. a.: Blackwell, 1985. Repr. 1987.
Koerner, E. F. K. (1994), Typology and language classification. History. In: Asher 1994, Bd. 9, 4813K4817
Fenk-Oczlon, Gertraud (1997), Die Länge einfacher deutscher Aussagesätze im typologischen Vergleich. In: Vergleichende germanische Philologie und Skandinavistik. Festschrift für Otmar Werner. (Hrsg. Thomas Birkmann u. a.) Tübingen: Niemeyer, 101K110. Greenberg, Joseph H. (1954/1960), A quantitative approach to the morphological typology of language. In: International journal of American linguistics, 23, 68K77. [Nachdruck von 1954] Greenberg, Joseph H. (1963/1966), Some universals of grammar with particular reference to the order of meaningful elements. In: Universals of language. Report of a conference held at Dobbs Ferry, New York, April 13K15, 1961. 2nd ed. (Hrsg. Joseph H. Greenberg). Cambridge, Mass. MIT Pr. Greenberg, Joseph H. (1974), Language typology: a historical and analytic overview. The Hague u. a.: Mouton. Haspelmath, Martin u. a. (Hrsg.) (2001), Language typology and language universals. An international handbook. Berlin u. a.: de Gruyter. Hawkins, John A./Cutler, Anne (1988), Psycholinguistic factors in morphological asymmetry. In: Explaining language universals. (Hrsg. J. A. Hawkins). Oxford: Blackwell, 280K317. Hawkins, John A./Gilligan, Gary (1988), Prefixing and suffixing universals in relation to basic word order. In: Papers in universal grammar. Generative and typological approaches. Lingua Special issue 74. (Hrsg. J. A. Hawkins/H. K. Holmback), Amsterdam: Elsevier Science Publ., 219K259. Hempel, Carl G. (1952/1972), Typologische Methoden in den Sozialwissenschaften. In: Logik der Sozialwissenschaften. (Hrsg. Ernst Topitsch). 8. Aufl. Köln: Kiepenheuer & Witsch, 85K101. Hempel, Carl G. (1959/1965), Fundamentals of taxonomy. In: Aspects of scientific explanation. New York u. a.: Free Pr. u. a., 137K154. Horne, Kibbey M. (1966), Language typology. 19. and 20. century views. Washington, D.C.: Univ. Pr. Ineichen, Gustav (1991), Allgemeine Sprachtypologie. 2. akt. Aufl. Darmstadt: Wiss. Buchges. Juola, Patrick (1998), Measuring linguistic complexity. The morphological tier. In: Journal of quantitative linguistics 5, 206K213. Kasevič, Vadim B./Jachontov, S. E. (Hrsg.), Kvantitativnaja tipologija jazykov Azii i Afriki. Leningrad: Izdatel’stvo Leningradskogo universiteta, 1982. Klimov, Georgij A. (1983a), On contentive typology. In: Lingua e stile 18, 327K341.
Krupa, Viktor (1965), On quantification of typology. In: Linguistics 12, 31K36. Lehmann, Christian (1988), Zu Eugenio Coserius Sprachtypologie. In: Energeia und Ergon. Bd. 3. Das sprachtheoretische Denken Eugenio Coserius in der Diskussion (2). (Hrsg. Jens Lüdtke). Tübingen: Narr, 3K22. Narrog, Heiko (1999), Morphologisch-typologische Überlegungen zum Japanischen im Vergleich zum Deutschen und Chinesischen. In: Kontrastive Studien zur Beschreibung des Japanischen und des Deutschen. (Hrsg. H. Nitta/M. Shigetu/G. Wienold). München: Iudicum, 257K275. Nichols, Johanna (1986), Head-marking and dependent-marking grammar. In: Language 62, 56K 119. Nichols, Johanna (1992), Linguistic diversity in space and time. Chicago u. a.: Univ. Pr. Nyman, Martti (1987), Is the paradigm economy principle relevant? In: Journal of linguistics 23 (1987), 251K267. Plank, Frans (1986), Paradigm size, mophological typology, and universal economy. In: Folia linguistica 20, 29K47 Plank, Frans (1999), Split morphology. How agglutination and flexion mix. In: Linguistic Typology 3, 279K340. Plungian, Vladimir (2001). Agglutination and flection. In: Haspelmath (2001), 669K678. Quasim, Erika (1985), Vorgeschichte und Frühgeschichte der Sprachtypologie. 1500K1835. München, Univ., Diss. Sapir, Edward (1921), Language. New York u. a.: Harcourt, Brace and World. Seiler, Hansjakob (1975), Die Prinzipien der deskriptiven und etikettierenden Benennung. In: Linguistic workshop 3. Arbeiten des Kölner Universalienprojekts 1974. (Hrsg. Hansjakob Seiler). München: Fink, 2K57 Sil’nickij, G. G. (1998), Correlational analysis of Indo-European morphological systems. In: Journal of quantitative linguistics 5, 81K95. Sil’nickij, G. G. (1993), Typological indices and language classes. In: Glottometrika 14. (Hrsg. Gabriel Altmann). Trier: Wiss. Verl., 139K160. Skalička, Vladimír (1951/1979), Das Erscheinungsbild der Sprachtypen. In: Skalička (1979), 21K58. Skalička, Vladimír (1966/1979), Ein typologisches Konstrukt. In: Skalička (1979), 335K341. Skalička, Vladimír (1935/1979), Zur ungarischen Grammatik. In: Skalička (1979), 69K125.
598
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Skalička, Vladimír (1979), Typologische Studien. Braunschweig u. a.: Vieweg. Stepanov, Arthur V. (1995), Automatic typological analysis of semitic morphology. In: Journal of quantitative linguistics 2, 141K150.
Wurzel, Wolfgang U. (1994), Morphology, natural. In: Asher 1994, Bd. 5, 2590K2598.
Christiane Hoffmann, Heidelberg (Deutschland)
42. Word order variation 1. 2. 3. 4. 5. 6. 7. 8. 9.
1.
Word order variation as the subject of analysis; the specific nature of word order Large data files, genetic and areal closeness of languages and the representativeness of the files Statistical vs. non-statistical nature of word order universals; Greenberg’s implicational universals Basic word order vs. most frequent word order; languages without “basic” word order Distributional patterns Basic variants vs. alternative variants Word order coefficients as typological measures of sentence structure properties Quantification of universal (functional) word order principles Literature (a selection)
Word order variation as the subject of analysis; the specific nature of word order
The study of word order variation has always been regarded as one of the central areas of linguistic typology and has been developing in accordance with the way this area of linguistics has been changing and developing. If today typologists consider the subject of their discipline to be “the study of regularities, patterns and limits in crosslinguistic variation” (Siewierska 1998b, V), or its “diversity in space and time” (to paraphrase the title of Nichols’ book of 1992), and if typology is the basic method of studying language universals (Greenberg 1978, 34), then the aim of the study of word order variation is to find the distribution of the basic and alternative word order patterns in the languages of the world, and on the basis of these findings, to discover and verify principles whereby the word order regularities K and variability K may be accounted for. The importance of word order for linguistic typology is indicated by the fact that Greenberg (the founder of implicational typology and one of the greatest personalities
in this field in the 20th century, who has formulated 45 language universals in all) found more than half (28 to be exact) of them to be universals relating to features of word order (Greenberg 1966, 76 ff.). The quantitative analysis of data is the standard method of studying word order variation today. There are a number of reasons for this, the most important being the following argument: (a) Word order is the immediate result of the linearity of speech, i. e. of the fact that speech is realised (produced and perceived) in time and so the elements of speech must always, in one way or another, be arranged successively in linear fashion. (b) The linearity of speech is a physical, directly observable, property. (c) Consequently, word order units (constituents), no matter how defined, are relatively easy to identify because of the potential of their being mutually interchangeable along the linear axis; (d) This property makes them easy to count and the correlations between them are statistically well testable; The studies made so far have repeatedly confirmed that word order evinces a great deal of interlanguage homogeneity or K to use Greenberg’s term K “orderliness” (Greenberg 1966, 73). The orderliness consists in a striking discrepancy between the word order variants which are theoretically (logically, combinatorially) possible and those which are actually attested to in the languages of the world. The number of word order variants actually documented is relatively small, although the number of theoretically possible word order combinations is very high. In other words, we may say that word order displays K in common with some other cross-linguistic patterns of frequency K “a certain amount of linguistic
599
42. Word order variation
stability” and that it “gives one a good sense of the overall type of a language” (Nichols 1992, 45).
2.
Large data files, genetic and areal closeness of languages and the representativeness of the files
The quantitative literature on word order typology is much more wide-ranging and diversified than this brief survey may hope to show. There is an ever increasing number of new descriptive studies oriented towards concrete data and presenting statistics of phenomena ranging from fairly general to very special in one or several languages. Of course, even such studies provide typologically useful information inasmuch as even a “bare” quantitative description may contribute to the universal theory of language by supplying material for comparison. However, the bibliography of such works would be too long. Of decisive importance for advancing the understanding of word order variation are works in which not only the distribution of the basic and alternative word order patterns is studied, but in which these data are used to formulate quantitative hypotheses concerning word order principles themselves, or to derive correlations between word order and other language phenomena. Such works are necessarily based on comprehensive, computer-processed sets of data from several hundred (sometimes over a thousand) languages. The authors of such works include Dryer (1988, 93), who bases his typological research of the word order position of negative morphemes on data describing 345 languages. Recently, the same author (Dryer 1998, 284) drew on data from more than 700 languages, which is even more than in the preceding study based on 625 languages (Dryer 1992, 83). Others include: Nichols (1992, 105) drawing on 146 languages, Tomlin (1986, 18; 1986, 155 ff.) on 1063 languages, Steel (1978, 588) on 63 languages, and Hawkins (1983, 319) on 357 languages. Some typologists’ believe (cf. Croft 1990, 20) that for the actual purposes of quantitative typology, it is enough to use a selection of some 100 languages, even if it cannot give a “definitive” typological picture. This can be provided only by extensive computer databases. One such database is reported on by Bakker (1998, 384 ff.) in connection with the Eurotype project. The Eurotype database con-
tains, in addition to language data, programs for their analysis, procedures for deriving simple and complex implications and hierarchies, as well as statistical software for their evaluation. In processing data from large corpora, it is very important that the sample is well-balanced in terms of the areal closeness and genetic affinity of the languages. In order to ensure minimum areal and genetic distortion, it is possible and advisable to make mutual comparison not between individual languages but between whole genetic groups of languages, arranged according to large geographical areas. In such cases, the rule is that if any word order type proves to be more frequent than another in each of the defined areas, then the respective frequency difference is important (Dryer 1992, 85). Bell (1978) in his methodological study describes and assesses the main concepts of the statistical theory of sampling that are most appropriate to typological research: universe, frame, size of the sample, unit cost, method of selection, documentation, suitability, non-probability sample vs. probability sample, random K stratified K systematic sample, sampling unit, and bias. Examples of typological samples are presented and evaluated and some means of obtaining better samples are discussed. Typologists have questioned to what extent it is possible to identify and thus quantify the “same” grammatical features in different languages. The consensus is that the problem of interlanguage identification should not be overrated (cf. Croft 1990, 13).
3.
Statistical vs. non-statistical nature of word order universals; Greenberg’s implicational universals
The universals formulated by Greenberg, who was alerted to their importance by Jakobson’s work (Greenberg 1966, 104), are in the form of logical implications: If a language has the property P, then it always has the quality Q. It means that if P & Q is possible, than non-P & Q and non-P & non-Q are also possible, but P & non-Q is not possible, as implication is not a symmetrical relationship. Greenberg’s universals are supported by detailed data from 30 languages, and further evidence from another 142 languages. In some universals, Greenberg expressly uses formulations such as “with over-
600
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
whelmingly greater than chance frequency/ with well more than chance frequency/almost always”, etc. and in this sense it may be said that some, though not all, of his universals are statistical. Of a logical K not statistical K nature, however, are Greenberg’s concepts of word order dominance, harmony and recessive word order; these concepts are not founded on the frequency of occurrence. For example, Greenberg’s universal No. 25 (1966, 97) is “If the pronominal object follows the verb, so does the nominal object.” He interprets this universal in the following way: “Since the nominal object may follow the verb whether the pronoun object precedes or follows, while the nominal object may precede the verb only if the pronoun precedes, we will say that VO is dominant over OV since OV only occurs under specified conditions, namely when the pronominal object likewise precedes, while VO is not subject to such limitations. Further, the order noun object K verb is harmonic with pronoun object K verb but is disharmonic with verb K pronoun object since it does not occur with it. [...] A dominant order may always occur, but its opposite, the recessive, occurs only when a harmonic construction is likewise present.” (Greenberg 1966, 97). As Greenberg points out, however, it is not difficult to find examples when one of the recessive alternatives is more frequent than the dominant order. It should be noted that in typological literature, the term dominant word order is often used not in the sense in which Greenberg defined it, but in the sense of “word order with prevailing frequency”. The subsequent developmental lines of typology inspired by Greenberg have taken different directions. While some researches came to the conclusion that all implicational universals should be given a statistical form, Hawkins (1983, 62 ff.) by contrast, argues that to formulate implicational (parametric) universals in statistical terms is theoretically undesirable. The starting point should be exclusively those which are truly attested to in languages and are considerably less numerous than those which can be (only) logically implied.
4.
Basic word order vs. most frequent word order; languages without “basic” word order
The essential prerequisite for the quantitative investigation of word order variation is the demarcation of the concept “basic (neu-
tral, standard, default, underlying, unmarked, etc.) word order”. Empirical research has shown that for the purposes of quantitative typology it is methodologically useful and, for most languages adequate, to regard as basic word order the one which is K in a given concrete language K statistically prevalent (most common, dominant, preferred). For instance, Dryer (1989, 70 ff.) infers that if a certain word order is twice as frequent as another, it constitutes a sufficient reason to consider it basic for a given language. For most languages with “grammatical” (or rigid) word order and for languages with “free” word order (in the common sense of these terms), “basicness” is not a problem: the basic, i. e., the most frequent word order is well describable in the usual grammatical-semantic terms. There are languages, though, in which it is not possible to describe any particular order as the basic syntactic order and we have to say about such languages that they lack a basic word order. Word order in some of these languages is adequately described only in pragmatic terms K e. g. Papago (Payne 1992b, 137 ff.) or the Iroquian languages (Mithun 1992, 46 ff.; 1995, 407 ff.). It is typical that they are (exclusively?) languages without a literary tradition and that the pragmatic constituent which in these languages stands on the extreme left is the rheme (“new” information, newsworthiness), whatever its grammatical role: Clause constituents appear in decreasing order of newsworthiness. So, this pragmatic (discourse) factor affects the word order patterns in these languages more than the cognitive tendency to proceed from the known to the unknown, i. e. to the new information that substantially enriches the knowledge of the listener, a tendency known from functional sentence perspective (the Prague School; cf. Firbas, 1992). Not even in such languages may all the variants be equally frequent, as is shown, for example, by Mithun (1987, 311 ff.). We may agree with Comrie (1981, 82) that languages without a clearly defined “basic” word order are, as far as this typological feature is concerned, irrelevant for typology, but the general validity of such a parameter is not contradicted by this at all.
5.
Distributional patterns
The aim of present-day word order typology is not to classify the languages of the world according to a single word order parameter
601
42. Word order variation
but, in the first place, to find why some languages share certain word order properties (parameters), while others do not; and then to find what properties these are, why some of these shared properties are more frequent than others, and what the correlations between them are. For instance, it is known that many languages have the basic word order of the type Subject-Verb-Object. It would be a simplification, however, to claim on the basis of this single property that there is a language type SVO. We have to ask whether the given property is in definite correlation with other word order properties. The investigation of distributional universals is the most important theme of word order typology. The mutual position of Verb, Subject, and Object is, in typology, regarded as the quintessential parameter of word order variation. We have quantitative data from many languages of the world at our disposal. Although individual authors differ both in the languages they include in their statistical investigations and K in specific, infrequent cases K also in what word order they consider basic in this or that language or group of related languages, their results largely correspond: this is unanimously reported, for example, by Croft (1990, 86), Tomlin (1986, 18K20), Comrie (1981, 81), and others. The distribution of six word order combinations in the languages of the world, arranged in order of descending frequency and obtained from material based on 402 languages, is according to Tomlin (1986, 22) as follows: Table 42.1: The frequency of the combinations of S, V, O in percentages according to Tomlin (1986, 22) The frequencies of basic constituent orders in a representative sample of the languages of the world Constituent Order
Number of Languages
Frequency in Final Sample (per cent)
SOV OSV SVO OVS VSO VOS
180 0 168 5 37 12
44.78 0.00 41.79 1.24 9.20 2.99
Totals
402
100.00
Tomlin’s data, arranged in order of decreasing frequency, result in this series:
SOV Z SVO OVSO OVOS Z OVS OOSV. The equations between the pairs of word order variants mean that the statistical tests which Tomlin made showed non-significant frequency differences between them. These data indicate that in most languages of the world, the basic word order is either SOV or SVO and, furthermore, that in most languages of the world S precedes O. The same sequence of word order types, with minimum percentage differences, is reported by Siewierska (1998b, 489) on the basis of extensive data from individual “macroareas” and the number of languages within them: SOV 40 % O SVO 33 % O VSO 14 % O VOS 3 % O OVS 2 % O OSV 1 %. Similarly Steel (1978, 601), using a different sample of languages, found that the word orders SOV and SVO were relatively frequent, VSO and VOS less frequent, and OVS and OSV almost did not occur. By comparing his data from 218 languages in five areas with Tomlin’s data, Nichols (1992, 94) arrived at the same conclusions. The author explains that she ‘took from Tomlin all word order classifications differing from mine and substituted them for my entries. The result was “only a slight exaggeration of the trends in my overall example of areal distribution of word order” (Nichols 1992, 94). Instead of the traditional six word order types, Dryer (1997, 69 ff.) suggested an alternative typology based on two binary parameters OV vs. VO and SV vs. VS. These two separate 2-way parameters define four types: VS & VO, SV & VO, SV & OV, and VS & OV. Dryer’s typology (1997, 69 ff.) the allows classification of many languages which presented difficulties when classified in terms of traditional typology because his classification is not dependent on the transitive sentence type whose actual frequency in languages may be very low, and it has other, additional advantages (Dryer gives the total of eight fundamental arguments in favour of his alternative typology). Today, the position of Verb is no longer considered to be such a universal (and so absolutely “useful”) typological indicator as traditional typology assumed it to be, say, in the sixties. The word order properties of the nominal group, also, lead to very general correlations, and in some cases, it seems, they are even more universal. So today, these are the focus of as much attention in
602
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Table 42.2: Proportion of genera containing languages that are NGen K Dryer (1998, 302) Proportion of genera containing languages that are NGen OV SVO V-initial
Africa
Eurasia
SE Asia & Oc
Aus-NewGui
NAmer
SAmer
Average
.21 .82 1.00
.12 .63 1.00
.17 .69 .75
.11 .00 .00
.00 .50 .85
.00 .00 .60
.10 .44 .70
word order typology as the interaction of word order with other grammatical features. For instance, Dryer (1998, 302) demonstrates K see Table 42.2 K that the postposition of Gen after the governing N is (with one exception) more frequent in V-initial languages (third line of the table) than in SVO languages (second line of the table) and, moreover, that in these languages it is more frequent than in OV languages (first line of the table). Percentages in each column of the table are increasing vertically. In another study, Dryer (1988) examined the word position of negative morphemes using material based on 35 languages. He showed that they tend not to be separated from the verb by the subject or object, they tend not to interrupt the verb C object unit, and they tend to precede the verb (Dryer 1988, 112). Dryer explains this by the unusual communicative properties of negative morphemes: they carry a large communicative load (an important part of the message) K and so it is natural that the sentence will be more comprehensible if they are not postponed until after the verb (Dryer 1988, 102). The correlations between head vs. dependent marking and word order were studied by Nichols (1992). She found that V-initial order and unknown order or lack of any basic order pattern together favour head marking; V-medial and V-final order together favour dependent marking. These correlations are independent of geography and represent universal tendencies. Nichols (1992, 105 ff.) verified these correlations by statistical tests and proposed their functional explanation: the clause element which carries the essential information about grammatical relations in the clause has a tendency to occur in initial position and so establishes the grammatical organization of the clause at the outset.
6.
Basic variants vs. alternative variants
The languages of the world differ from each other in the degree to which their word order is free or fixed (bound), i. e. admitting
or not admitting variants in addition to basic word order. We may ask which of the possible variants are the most wide-spread alternatives of the basic word order in the languages of the world and which, on the contrary, are the least common and what is the classification of languages when based on the number of alternatives (permutations) attested in them K in other words on their flexibility. The results of quantitative examinations made by various authors show K more or less concurrently K that, in much the same way as the basic word order patterns, even alternative variants may be divided into: (1) very common variants, i. e. those which occur in more than half of the languages with a given basic word order, (2) usual variants which occur in at least one half of the languages, (3) less usual variants attested in somewhat less than half of the languages, (4) uncommon variants, occurring in only a very small number of languages, and (5) non-existent variants, those virtually unattested (in the examined sample of languages). For instance, Steel (1978, 601), drawing on data from 63 languages, finds that in languages of the VOS type the alternative variants VSO and SVO are very common (that means, they occur in over half of the languages in a particular type), while in languages of the VSO types the very common alternative variant is the variant VOS, the common alternative variant is SVO (occurring in half of the languages of a given type) and the unusual variants are the alternatives OVS, OSV, SOV and SVi (SVi and ViS are sentences with intransitive V). These occur in substantially less than half of the languages K see Table 42.3. The difference between the distribution of alternative word order patterns and the distribution of the basic word order patterns in the languages of the world is that the distribution of alternative patterns is much more even. Siewierska (1998b, 492) reports the following frequencies of six patterns as patterns alternating with the basic ones in 171 languages:
603
42. Word order variation Table 42.3: Frequencies of alternative word order variants according to Steel (1978, 601) very common
VOS
VSO
SOV
VSO SVO
VOS
OSV
SVO
SVO
common not uncommon uncommon
nonexistent
OVS OSV SOV SVi
OVS VOS VSO ViS
SVO
ViS VOS VSO SOV OSV OVS
SOV OSV OVS
Table 42.4: Flexibility of word order variables in % according to Bakker (1998, 388) (R Z recipient, Rel Z relative clause)
V/O V/R Adj/N Pro/N Gen/N Rel/N Num/N Adpos Dem/N Aux/V Def/N Indef/N Mean
flexibility
number of languages
0.73 0.56 0.52 0.50 0.39 0.26 0.20 0.15 0.13 0.10 0.08 0.00 0.30
86 128 135 129 135 130 133 134 135 123 48 38
OSV 46 % OSVO 45 %OOVS 34 %O SOV 32 %OVOS 27 %OVSO 25 %. The percentages mean that in 46 % of all examined languages the variant OSV occurs as an alternative variant in some of the other types of basic word order, in 45 % the variant SVO occurs as an alternative variant in some of the other types of basic word order, etc. The difference between the frequency of the most common and the least common variant is only 2 : 1, while the difference between the highest and the lowest frequency of the same patterns as the basic word order patterns is 4 : 1, according to the same author. Different word order patterns (“variables”), defined at the level of the sentence as well as at the level of the NP, differ in their flexibility. The results obtained so far show (Bakker 1998, 388; Siewierska/Rijkhoff/Bakker, 1998, 783 ff.) that the variables may be arranged according to the degree of their flexibility, i. e. according to the number of languages which admit alternative variants, as shown in descending order in Table 42.4. It is evident from the table that the highest index of flexibility is exhibited by V/ O, admitting variation in 73 % of 86 languages, by contrast a low flexibility is found, for example, in the definite article, admitting variation in only 8 % of 48 languages, and finally quite inflexible is the indefinite article for there is no language allowing two positions. Naturally, the number of languages in which the authors find flexibility will differ in particular word order variants for not all languages have, for example, articles.
Word order flexibility has to be differentiated from word order consistency: the word order of a language is more consistent the more frequent is one of the two basic word order types in it, i. e., either the dependent / governing element or the governing / dependent element. There are certain correlations between word order flexibility and word order consistency: languages with a high degree of consistency tend to have low flexibility and, conversely, languages with a low degree of consistency usually have high flexibility (Bakker 1998, 383 ff.). Nevertheless, various modifiers (i. e. syntactic adjectives) tend to behave inconsistently in relation to basic word order. For example, if a language has the word order OV, it should also have the word order modifier / noun, but it often happens to have a reverse word order. Similarly, if the position of O with regard to V is flexible, the position of S is also flexible, but it is not true the other way around (Givón 1988, 253).
7.
Word order coefficients as typological measures of sentence structure properties
The idea that languages with so-called centralized syntax have the majority of sentences with the predicator standing in the middle, while in languages with so-called polarized syntax most sentences have their predicator at the beginning or at the end of the sentence is the basis of the so-called measure of centrality (Andreev 1967; Altmann/
604
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Lehfeldt 1973, 119 ff.). According to Altmann/Lehfeldt (1973) the measure of centrality Z is defined as Z Z 1K
/kKl/ Kδ kCl
(1)
where k is the highest ordinal number of the word following the predicator and l the highest ordinal number of the word in front of the predicator, with words being indexed as: al ... a3, a2, a1 Predicator a1, a2, a3 ... ak. The parameter δ Z 0, if k C l is even, and δ Z 1, if k C l is odd. For example, for the sentence Die Katze sprang auf das Dach with the order a2, a1, Predicator a1, a2, a3, the resultant value is Z Z 0.167. For the purposes of cross-linguistic comparison, the authors recommend the measure of average centrality Z (Maß der durchschnittlichen Zentralisiertheit), which is calculated on the basis of a certain number of sentences r : ¯ Z Z
1
r
∑ Zi r iZ1
(2)
Of similar importance for cross-linguistic study is the so-called measure of left orientation (Maß der Linksorientiertheit), proposed by Thümmel (1988). Its calculation involves a complex mathematical procedure, based on the quantitative differences between abstract (deep-level) syntactic structure in terms of immediate-constituent analysis and the actual sequence of clause elements in the surface structure of the sentence. The values of calculated coefficients range in the interval 0 to 1.
8.
Quantification of universal (functional) word order principles
The linguistic explanation of the empirically ascertained frequency hierarchy of word order types and phenomena is to be looked for in the area of cross-linguistic, general functional principles by which word order is governed (cf. Nichols 1992; Dryer 1988; Dryer 1989; Myhill 1992; Myhill 1997; Myhill 1998; and others). These principles are formulated by different authors in different terms, and sometimes they differ even in their degree of universality. Among the most important principles is Hawkins’ integrated performance theory of order and constituency,
whose foundations were first formulated in 1983 and elaborated in more detail in Hawkins (1994; 1998; 2000) and Hawkins/Cutler (1988). His theory was applied and further developed by Hoffman (1999). In his formulation of this general word order principle, Hawkins (1994, 57 ff.; 1998, 730 ff.; 2000) posits that we as producers create a sentence (and recognise it as recipients) one element after another from left to right by preferring such linear orderings as to make it possible to produce or identify syntactic groupings and other immediate constituents (IC) as rapidly and efficiently as possible. For instance, if we have the following sentence (Hawkins 1994, 57) in variants (a) I gave the valuable book that was extremely difficult to find to Mary and (b) I gave to Mary the valuable book that was extremely difficult to find, variant (b) will be decoded more quickly than variant (a). It is generally true that different orderings of elements result in more or less rapid IC recognition. The general pragmatic principle on the basis of which the recognition takes place is called by Hawkins the Early Immediate Constituents (EIC) principle and regarded as a uniform (and the only) general principle of ordering that holds not only for rearrangement phenomena (as in the above example), but for basic word orders as well, in all languages throughout grammar and throughout language performance as well. Hawkins (1994, 77K78) defines the EIC principle in the following way: “The human parser prefers linear orders that maximize the IC-to-non-IC ratios of constituent recognition domains. Orders with the most optimal ratios will be preferred over their non-optimal counterparts in the unmarked case; orders with nonoptimal ratios will be more or equally preferred in direct proportion to the magnitude of their ratios. For finer discriminations, ICto-non-IC ratios can be measured left-toright.” The IC-to-non-IC ratio for a constituent recognition domain (CRD) is calculated “by dividing the number of ICs in the domain by the total number of non-ICs (or words alone) in that domain, expressing the result as a percentage” (Hawkins 1994, 76K77). (CRD Z the set of terminal and non-terminal nodes that must be parsed in order to recognize mother node M and all ICs of M.) For the above sentence the values of IC-to-word and IC-to-non-IC ratios are as follows (Hawkins 1994, 75):
605
42. Word order variation Table 42.5: IC-to-word and IC-to-non-IC ratios according to Hawkins (1994, 75) (a) (b)
IC-to-word ratio
IC-to-non-IC ratio
3/11 Z 27.3 % 3/4 Z 75 %
3/28 Z 10.7 % 3/8 Z 37.5 %
This predicts the preference for (b) over (a). Hawkins then checks the validity of his performance theory using data from typologically different languages, offers cross-linguistic surveys, and verifies various predictions with respect to performance and grammar. He offers evidence to prove that the higher the value of some EIC, the greater the number of languages in which the respective word order may be expected and, conversely, the lower the value of EIC, the more marked the word order is, and so the less we may expect its occurrence among the languages of the world. The correlation between functional and frequency hierarchies in word order in the languages of the world is confirmed in the writings of many different authors. For instance, Tomlin (1986) defines “ideal” word order as the interaction of three principles: (a) the sentence is introduced by its theme, (b) O of transitive V is syntactically and semantically in closer relationship to V than the S of the given sentence, (c) a personal, or animate NP precedes a non-personal (inanimate) NP in the sentence. He then empirically documents that in the two most frequent types of word order, all three principles are applied to the maximum degree, and in this sense these types come the closest to “ideal” word order. In the less frequent types of word order, the number of principles employed is smaller. The functional and frequency hierarchies are in correspondence. Schematically, the relation is 3 Z 3 O 2 O 1 Z 1 O 0 (Tomlin 1986, 126), which Tomlin supports by quantitative data. Similarly Myhill’s study of word order functions (Myhill 1992), based on the material drawn from Papago, Ute, Biblical Hebrew, Tzotzil, Chorti, Spanish and Rumanian, shows there is a necessary correlation between the frequency of each word order type in a given language and the factors affecting the choice of one order or another on a particular occasion in that language (Myhill 1992, 164). For example, the correlation between VS order and sequencing is a typological property of VS languages; the
frequency of SV order with non-presentatives and intransitive predicates increases from Tzotzil to Spanish to Romanian, and the frequency of SV order with verbs with presentative meaning similarly increases from Tzotzil to Spanish (see Table 42.6; from left to right): Table 42.6: Frequency of SV order with verbs with presentative meaning according to Myhill (1992) (Frequency of SV order as a per cent) Tzotzil Spanish Romanian Overall Non-presentatives All intransitives Presentatives
18 21 16 15
56 58 47 37
69 73 67 33
As indicated by Myhill’s other quantitative data, a similar situation obtains in all of the examined languages the presence of an independent overt (non-clitic) object favours SV order, and as far as the discourse status of subject and object is concerned, there is a universal correlation between initial position and contrastive and marked topics (Myhill 1992, 207 ff.).
9.
Literature (a selection)
Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. München: Wilhelm Fink Verlag. Andreev, N. D. (1967), Statistiko-kombinatornyje metody v teoretičeskom i prikladnom jazykovedenii. Leningrad: Nauka. Bakker, Dik (1998), Flexibility and consistency in word order patterns in the languages of Europe. In: Siewierska 1998a, 383K419. Bell, Alan (1978), Language Samples. In: Greenberg/Ferguson/Moravcsik 1978a, 123K56. Comrie, Bernard (1981), Language Universals and linguistic typology. Oxford: Blackwell. Croft, William (1990), Typology and universals. Cambridge: Cambridge University Press. Dryer, Matthew S. (1988), Universals in negative position. In: Hammond/Moravcsik/Wirth 1988, 93K115. Dryer, Matthew S. (1989), Discourse-governed word order and word order typology. In: Belgian Journal of Linguistics 4, 69K90. Dryer, Matthew S. (1992), The Greenbergian word order correlations. In: Language 68, 81K 138. Dryer, Matthew S. (1997), On the six-way word order typology. In: Studies in language 21, 69K 103.
606
IX. Gebiete und Phänomene: Typologie / Fields and phenomena: typology
Dryer, Matthew S. (1998), Aspects of word order in the languages of Europe. In: Siewierska 1998a, 283K319. Firbas, Jan (1992), Functional sentence perspective in written and spoken communication. Cambridge: Cambridge University Press. Givón, Talmy (1988), The pragmatics of word-order: predictability, importance and attention. In: Hammond/Moravcsik/Wirth 1988, 243K284. Greenberg, Joseph H. (1966), Some universals of grammar with particular reference to the order of meaningful elements. In: Universals of grammar. (ed. J. H. Greenberg). Cambridge et al.: MIT Press, 73K113. Greenberg, Joseph H. (1978), Typology and crosslinguistic generalizations. In: Greenberg/Ferguson/Moravcsik 1978a, 33K59. Greenberg, Joseph H./Ferguson, Charles A./Moravcsik, Edith A. (eds.), Universals of human language, vol. 1, Method & Theory. Stanford: Stanford University Press, 1978a. Greenberg, Joseph H./Ferguson, Charles A./Moravcsik, Edith A. (eds.), Universals of human language, vol. 4, Syntax. Stanford: Stanford University Press, 1978b. Hammond, Michael/Moravcsik, Edith A./Wirth, Jessica R. (eds.), Studies in syntactic typology. Amsterdam: John Benjamins, 1988. Hawkins, John A. (1983), Word order universals. San Diego et al.: Academic Press. Hawkins, John A. (1994), A performance theory of order and constituency. Cambridge: Cambridge University Press. Hawkins, John A. (1998), Some issues in a performance theory of word order. In: Siewierska 1998a, 729K781. Hawkins, John A. (2000), The relative order of prepositional phrases in English: Going beyond Manner K Place K Time. In: Language variation and change 11. Cambridge: Cambridge University Press, 231K266. Hawkins, John A./Cutler, A. (1988), Psycholinguistic factors in morphological asymmetry. In: Explaining language universals. (ed. J.A. Hawkins). Oxford: Basil Blackwell, 280K317.
Hoffmann, Christiane (1999), Word order and the principle of „Early Immediate Constituents“ (EIC). In: Journal of quantitative linguistics vol. 6, 108K116. Mithun, Marianne (1987), Is basic word order universal? In: Coherence and grounding in discourse. (ed. Russel S. Tomlin). Amsterdam et al.: John Benjamins, 281K328. Mithun, Marianne (1992), Is basic word order universal? In: Payne 1992a, 15K61. Mithun, Marianne (1995), Morphological and prosodic shaping word order. In: Word order in discourse. (eds. P. Downing/M. Noonan). Amsterdam et al.: John Benjamins, 387K423. Myhill, John (1992), Typological discourse analysis. Oxford et al.: Blackwell. Nichols, Johanna (1992), Linguistic diversity in space and time. Chicago et al.: The University of Chicago Press. Payne, Doris L. (ed.), Pragmatics of word order flexibility. Amsterdam et al.: John Benjamins, 1992a. Payne, Doris L. (1992b), Nonidentifiable information and pragmatic order rules in ’O’odham. In: Payne 1992a, 137K166. Siewierska, Anna (ed.), Constituent order in the languages of Europe. Berlin et al.: Mouton de Gruyter, 1998a. Siewierska, Anna (1998b), Variation in major constituent order; A global and a European perspective. In: Siewierska 1998a, 475K551. Siewierska, Anna/Rijkhoff, Jan/Bakker, Dik (1998), Appendix K 12 word order variables in the languages of Europe. In: Siewierska 1998a, 783K812. Steel, S. (1978), Word order Variation: A typological Study. In: Greenberg/Ferguson/Moravcsik 1978b, 585K624. Tomlin, Russel S. (1986). Basic Word Order. Functional principles. London et al.: Croom Helm. Thümmel, Wolf (1988), Reihenfolgenbeziehungen in der syntaktischen Sprachtypologie. In: Glottometrika 9 (ed. K.-P. Schulz). Bochum: Brockmeyer, 59K104.
Ludmila Uhlířová, Praha (Czech Republic)
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony 43. Diachronie: Grammatik 1. 2. 3. 4. 5. 6.
Einleitung Analogischer Wandel Frequenzbedingter unregelmäßiger Lautwandel Differenzierung und Frequenz Sprachwandel und Quantität Literatur (in Auswahl)
1.
Einleitung
Um die Rolle der Frequenz im Sprachwandel zu verstehen, muss man diachronische Schlüsse aus drei sehr einfachen synchronischen Feststellungen ziehen, die folgendermaßen lauten: (1) Das, was öfter gehört und gesagt wird, wird im Gedächtnis besser behalten als das, was seltener gesagt oder gehört wird. (2) Die öfter gebrauchten Sprachelemente sind meistens weniger umfangreich als die seltener gebrauchten. (3) Die öfter gebrauchten Sprachelemente sind meistens differenzierter als die seltener gebrauchten.
2.
Analogischer Wandel
Die erste Feststellung ist so evident, dass es nicht nötig ist, sie mit Beispielen zu illustrieren. Wenn man von den allerwenigsten Mitgliedern der Sprachgemeinschaft (manchen Schriftstellern und Wissenschaftlern), die bewusst Neubildungen prägen, absieht, sucht jeder Mensch genau so zu sprechen wie seine Nächsten, um nicht missverstanden oder ausgelacht zu werden. Wenn jede Sprache trotzdem evoluiert, so geschieht dies infolge der jedem menschlichen Handeln anhaftenden Unvollkommenheit: cum duo faciunt idem, non est idem. Das menschliche Gedächtnis versagt manchmal, und das, was man selten sagt oder hört, kann Veränderungen erfahren oder gar verschwinden, woraus wichtige Schlüsse für die analogische Entwicklung gezogen werden können. Wenn man den Wandel von zwei Morphemen, Wörtern oder Wortgruppen vergleicht,
stellt man die folgenden vier Möglichkeiten fest: (1) ein Element bleibt bestehen, während das andere verschwindet; (2) ein Element bewahrt seinen archaischen Charakter, während das andere eine analogische Entwicklung erfährt; (3) ein Element verursacht die Umgestaltung des anderen; (4) ein Element ersetzt das andere. Die Entwicklung von Morphemen, Wörtern und Wortgruppen, mag man sie vom Standpunkt der Flexion, der Wortbildung oder der Syntax aus betrachten, wird von denselben Gesetzen der Analogie regiert (unter dem Terminus Gesetz ist hier nicht der wissenschaftstheoretisch strenge Gesetzesbegriff zu verstehen), wobei die drei folgenden frequenzbedingt sind: Erstes Gesetz. Bei den Gegenüberstellungen: (a) kürzere Morpheme K längere Morpheme, (b) kürzere Wörter K längere Wörter, (c) Wörter K Wortgruppen, (1) bleiben die ersteren häufiger bestehen als die letzteren, (2) bewahren die ersteren häufiger einen archaischen Charakter als die letzteren, (3) verursachen die ersteren die Umgestaltung der letzteren häufiger als umgekehrt. Und nun ein paar Beispiele, meistens aus der französischen Flexion, Wortbildung und Syntax. Flexion. Falls ein Unterschied zwischen der Flexion eines einfachen Verbs und der eines zusammengesetzten Verbs besteht, weist das letztere meistens eine Neuerung (in der Endung oder im Stamm) auf: frz. dites ! lat. dīcitis ist älter als médisez, vis ! vīsī älter als pourvus, sied ! sedet älter als sursoit und verrai ! vidēre habeō älter als prévoirai. Die längere Endung der 1. Person Plural des afrz. Konjunktivs -iens ! -iāmus wurde nach der kürzeren Endung des Indikativs
608
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
-ons zu -ions umgestaltet, vgl. chantiens O chantions. Die längere Form des afrz. Fut. vendrai ! venīre habeō wurde nach der kürzeren Form des Präsens vient ! venit zu viendrai umgestaltet. Wortbildung. Voyage ist das Resultat einer Umgestaltung des Derivats afrz. veage ! viāticum nach voie ! viam. Der Stamm der meisten zusammengesetzten Verben wurde nach dem der einfachen Verben umgestaltet: retinet wurde zu retient unter Einfluss von tient ! tenet, wie die Tonstelle, der Vokalismus und das Vorhandensein von t (das intervokalisch normalerweise verstummt) zeigen. Syntax. Die kürzere Wortgruppe avenue Leclerc, wo der Familienname allein gebraucht wird, hat einen archaischeren Charakter als die längere Wortgruppe avenue du Général Leclerc, wo dem Familiennamen ein Titel vorausgeht und den Gebrauch von Präposition und Artikel notwendig macht. Zweites Gesetz. Was die mehr gebrauchten und die weniger gebrauchten Formen anbelangt, z. B. die (a) (b) (c) (d) (e) (f) (1) (2) (3)
des Singulars K der anderen Numeri, des Indikativs K der anderen Modi, des Präsens K der anderen Tempora, der 3. Person K der anderen Personen, der niedrigeren Numeralia K der höheren Numeralia, der Kardinalia K der Ordinalia, bleiben die ersteren häufiger bestehen als die anderen, bewahren die ersteren einen archaischen Charakter häufiger als die anderen, verursachen die ersteren die Umgestaltung der anderen häufiger als umgekehrt.
Und nun ein paar Beispiele. (a) Im Altfranzösischen gab es zwei Kasus: Akkusativ und Nominativ. Spuren des Nom. Singular haben sich im Neufranzösischen bis heute erhalten, z. B. fils ! fīlius, während der Nom. Plural restlos verschwand. Der Plural afrz. ches ist im Neufranzösischen zu chefs geworden, d. h. der Stamm des Plurals wurde nach dem des Singulars umgestaltet. (b) Der Indikativ chantez setzt regelmäßig lat. cantātis fort, während der Konjunktiv cantētis O afrz. chantoiz durch ein
(c)
(d)
(e)
(f)
analogisches chantiez ersetzt wurde. Der Imper. vien ! venī wurde durch viens ersetzt, dessen Endung in Analogie nach dem Indikativ viens ! venīs gebildet wurde. Der Stamm aller Formen des Imperf. Konjunktiv wurde nach dem des Perfekt Indikativ umgestaltet, z. B. wurde fēcissēs unter Einfluss von fis zu fisses. Das Präsens hat sich im Französischen erhalten, während das Futur verschwunden ist. Die alte Endung des Imperf. -oi ! -ēbam ist unter Einfluss von Formen des Präsens wie puis, crois zu -ois (O-ais) geworden, vgl. habēbam O avais. Der Stamm des Part. Perfekt lēctum unterlag dem Einfluss des Präsens legō, woher *lectum O afrz. lit. Die Perfekte vom Typus *vēndedit (für vēndidit) O vendiet erhielten sich im Altfranzösischen nur in der 3. Person, während die der anderen Personen durch die Perfekte vom Typus dormīvī beeinflusst wurden. In der heutigen Umgangssprache wird oft die 1. Person Plural durch on C 3. Person Singular ersetzt, z. B. on est statt nous sommes. Das niedrigere Numerale trente stammt von trīgintā, während das höhere Numerale quatre-vingts eine Neuerung ist. Das Numerale dix-neuf, das ūndēvīgintī ersetzte, wurde aus den niedrigeren Numeralien dix und neuf gebildet. Im Rumänischen sagt man trei oameni „drei Männer“, aber treizeci de oameni „dreißig Männer“. Die Syntax des niedrigeren trei setzt den lat. Gebrauch fort (trēs hominēs), während die Syntax des höheren treizeci eine Neuerung (slavischen Ursprungs) ist. Das Kardinale six setzt lat. sex fort, während das Ordinale sixième gegenüber sextus eine Neuerung bildet. Das Ordinale huitie`me, das octāvus ersetzte, wurde unter Einfluss des Kard. huit ! octō gebildet. Die Kardinalia ersetzten manchmal die Ordinalia, z. B. chapitre un.
Drittes Gesetz. Was folgende Formen anbelangt: (a) die Lokalkasus der geographischen Namen K dieselben Kasus der Gattungsnamen, (b) die Nichtlokalkasus der Gattungsnamen K dieselben Kasus der geographischen Namen,
43. Diachronie: Grammatik
(c) die Gattungsnamen K die Personennamen, bewahren die ersteren häufiger einen archaischen Charakter als die letzteren. Und nun ein paar Beispiele: (a) Der alte Lokativ erhielt sich in manchen Ortsnamen, z. B. in it. Firenze ! Flōrentiae, ohne eine Spur in den Gattungsnamen zu hinterlassen. Man sagt einerseits l’école und la France, aber andererseits il vient de l’école gegenüber il vient de France. Der Gebrauch des geographischen Namens in einer Lokalkonstruktion (de France ohne Artikel) ist archaischer als der des Gattungsnamens. (b) Die Nominativform des Gattungsnamens poln. grodzisko „Burg“ ist älter als die des Ortsnamens Grodzisk. (c) Der Plural eines Gattungsnamens wie les chevaux ist älter als der des Familiennamens les Cheval. 2.1. Schwund des Duals in indogermanischen Sprachen Alle diese Gesetze erklären sich durch die Frequenz, denn es ist augenscheinlich, dass kürzere Morpheme oder einzelne Wörter mehr gebraucht werden als längere Wörter bzw. Wortgruppen. Dasselbe gilt für Gattungs- und Familiennamen: z. B. wird cheval viel häufiger gebraucht als Cheval. Man sieht also, dass der analogische Wandel asymmetrisch ist und von der Frequenz abhängt: je weniger ein Sprachelement gebraucht wird, desto schneller ist seine analogische Entwicklung. Selbst manche berühmte Sprachwissenschaftler sind sich darüber nicht im klaren. Z. B. erklärte Meillet den Schwund des Duals in den meisten indogermanischen Sprachen durch eine Veränderung in der Mentalität der sich dieser Sprachen bedienenden Völker, er glaubte an einen Zusammenhang zwischen dem Schwund des Duals und dem Fortschritt der Zivilisation. Die Tatsache jedoch, dass der Dual schneller verschwindet als der Plural, der übrigens in manchen indogermanischen Sprachen (z. B. im Französischen) auch zu verschwinden beginnt, erklärt sich in Wirklichkeit durch Frequenzunterschiede: der Singular wird mehr gebraucht als der Plural, und der Plural wird häufiger gebraucht als der Dual. Deswegen ist es nicht verwunderlich, dass die Formen des Singulars sich
609 leichter erhalten als die des Plurals und die des Plurals leichter als die des Duals. Die Frequenzunterschiede zwischen den Numeri erinnern an die zwischen den Tempora wie Präsens, Perfekt und Plusquamperfekt, von denen das erste am meisten, das zweite weniger und das dritte am wenigsten gebraucht wird. Es genügt, sich dies zu vergegenwärtigen, um zu verstehen, warum das Plusquamperfekt in den meisten romanischen Sprachen verschwand, während sich das Perfekt überall erhielt (wenn man die geschriebene und nicht die gesprochene Sprache betrachtet). An Beziehungen zwischen Dual und Mentalität oder Zivilisation zu glauben, wäre ebenso naiv, wie einen Zusammenhang zwischen Mentalität oder Zivilisation und Plusquamperfekt zu postulieren. Und nun ein Beispiel, um zu zeigen, wie die Kenntnis der Rolle der Frequenz im analogischen Wandel es erleichtert, ein konkretes Problem der historischen Grammatik des Italienischen zu lösen. 2.2. Italienische Plurale vom Typus amiche Seit alters her sind die Romanisten der Ansicht, dass in den italienischen Pluralen vom Typus amiche die Endung -e von der lateinischen Endung der 1. Deklination -ae stamme. Andererseits sind in der letzten Zeit viele Sprachwissenschaftler, u. a. Reichenkron (1939), Gerola (1950), Politzer (1952), Aebischer (1960), Margueron (1961), Colussi (1961), Väänänen (1967) und Tekavčić (1972) überzeugt, dass der Typus amiche den Typus amīcās fortsetzt. Unter den Argumenten, die die letztere Meinung unterstützen, sind zwei, die eine besondere Beachtung verdienen: (1) in den aus verschiedenen Teilen der Romania stammenden spätlateinischen Texten weisen die Feminina im Nom. Plural sehr oft -as statt -ae auf, während eine parallele Ersetzung von -i durch -os in den Maskulina recht selten stattfindet; (2) die italienischen Feminina mit einem Stamm auf -c, -g weisen im Plural immer ch, gh (amiche, deleghe) auf, während man in den Maskulina mit demselben Stamm manchmal eine Palatalisierung von c, g (amici, magi) beobachtet. Was die spätlateinischen Nom. Plural auf -as anbelangt, ist ihre Herkunft nicht klar, wie aus den folgenden Erwägungen von Rohlfs (1949) hervorgeht: „Die Verallgemeinerung von illas capras im Sinne eines Plurals (Nom. und Akk.) wurde von MeyerLübke aufgefasst als eine Folge der Flexi-
610
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
onslosigkeit im Singular des Femininums [...] Andere Forscher erklären den Plural capras aus der allgemeinen Tendenz der Vulgärsprache, den häufigeren Akkusativ statt des Nominativs zu verwenden [...] Wäre es dies, dann versteht man nicht, warum nicht auch asini dieser Tendenz zu asinos folgte (altfranz. li asne). Mit der Begründung, dass ein sehr altes Beispiel für diesen Vorgang in der Gallia Cisalpina zu lokalisieren ist [...], hat man vermutet, dass die gallische Flexion, die das s als Kasusmerkmal auch im Nominativ des femininen Plurals hatte, den Ersatz von caprae durch capras begünstigt hatte [...] Andere suchen den Ausgangspunkt im Oskischen [...] Tatsache bleibt, dass frühe Belege für diese Erscheinung auch in anderen Landschaften nachzuweisen sind, vgl. aus Pannonien hic quescunt duas matres duas filias [...], aus Dalmatien liberti libertasque ponantur [...], aus Rom collegas posuerunt [...], aus Lusitanien filias meas posuerunt [...]“ (Rohlfs 1949, 57). Unter diesen Hypothesen ist eine sogleich zu beseitigen, und zwar die des oskischen Ursprungs der Endung -as. Man weiß, dass die Endungen äußerst selten entlehnt werden. Das Rumänische, das Dante, hätte er es gekannt, lingua da genannt haben würde, erfuhr einen großen slavischen Einfluss, indem es Tausende von Wörtern entlehnte, und doch weist es kaum zwei slavische Endungen (die des Vok. -e und -o) auf, ganz davon zu schweigen, dass die meisten rumänischen Sprachwissenschaftler nur eine die-
ser Endungen für fremd halten. Wenn also die überall in der Romania belegte Endung -as wirklich oskischer Herkunft wäre, müßte man mindestens Hunderte von oskischen Lehnwörtern in allen romanischen Sprachen finden, was nicht der Fall ist. In Wirklichkeit kann dieses Problem dank der Kenntnis der Gesetze der analogischen Entwicklung gelöst werden. Der analogische Wandel ist asymmetrisch: die Maskulina, die häufiger gebraucht werden als die Feminina, weisen weniger analogische Veränderungen auf als die Feminina, wie dies aus der folgenden von Sas (1937, 502; 508) für Gallien zusammengestellten Tabelle 43.1 zu ersehen ist. Es folgt daraus, dass (1) in allen von Sas untersuchten Texten die Maskulina der 2. Deklination mehr als die Feminina der 1. Deklination gebraucht werden; (2) in allen Fällen, wo in dieser Hinsicht ein Unterschied besteht, widersetzen sich die Maskulina dem analogischen Wandel besser als die Feminina. Man findet einen ähnlichen Zustand in den italienischen Urkunden aus dem 8. Jh., die von Politzer (1952, 273) untersucht wurden: Feminina: Insgesamt: 126; -ae: 42; -a(s): 84; Prozent mit -ae: 33 % Maskulina: Insgesamt: 365; -i: 186; -es: 113; -os (-us): 66; Prozent mit -i: 51 %
Tabelle 43.1: Endungen des Nom. Plural
Peregrinatio ad loca sancta Lex Salica Gregor von Tours Urkunden (625K692) Urkunden (693K717) Liber historiae Francorum Formulae Andecavenses Urkunden (750K770) Formulae Marculfi Urkunden (771K800)
Insgesamt
Nom. Plural auf -ae
130
129
selten 33 16
Prozent
Insgesamt
Nom. Plural auf -i
Prozent
99 %
312
312
100 %
selten 33 5
selten 100 % 31 %
56 164 36
54 164 35
98 % 100 % 98 %
13
5
39 %
61
57
93 %
28
26
93 %
161
161
100 %
K
K
K
23
22
96 %
K
K
K
39
38
97 %
48 6
10 2
124 56
124 55
100 % 98 %
20 % 33 %
611
43. Diachronie: Grammatik
Es ergibt sich daraus, dass auch in Italien die Maskulina, die mehr als die Feminina gebraucht werden, sich besser der Analogie widersetzen, die darauf abzielt, die Endung des Nom. Plural durch die des Akk. Plural abzulösen. Das ist eben eine einfache Erklärung der Tatsache, dass auf verschiedenen Gebieten, die sich „de la mer Noire jusqu’en Espagne et en Gaule“ (Mihăescu 1959, 152) erstreckten, der Ersatz von -ae durch -as leichter stattfand als der von -i durch -os. Mutatis mutandis gilt dieselbe Erklärung für den Unterschied zwischen amici und amiche. Wenn heute alle Feminina vom Typus amica, delega im Plural ch, gh aufweisen, während eine Alternation in den Maskulina (amici, asparagi) manchmal vorkommt, so geschieht dies deswegen, weil die Maskulina häufiger als die Feminina gebraucht werden und sich daher leichter der analogischen Nivellierung widersetzen. Der beste Beweis dafür ist die Tatsache, dass die alte Sprache Alternation auch in den Feminina kannte, vgl. amice bei Jacopone oder piage bei Dante (vgl. Rohlfs 1949, 65). Schließlich kommt man zu dem Schluss, dass kein Grund besteht, die traditionelle Ansicht in Frage zu stellen, wonach die Plurale vom Typus amiche die Endung -ae aufweisen. 2.3. Primäre und sekundäre Endungen Und nun ein Beispiel, das zeigt, wie die Kenntnis der Analogiegesetze auch ein Problem der vergleichenden Grammatik der indogermanischen Sprachen zu lösen vermag. Es ist bekannt, dass die Anfänge einer Wissenschaft oft von Mystizismus eingehüllt sind. Dies galt auch für die vergleichende Grammatik, die in der ersten Hälfte des 19. Jahrhunderts entstand. Man stellte sich damals vor, dass es in der Entwicklung der indogermanischen Sprachen zwei Epochen gab: die vorgeschichtliche, eine Art sprachliches goldenes Zeitalter, wo die Ursprache sich nur vervollkommnete, und die geschichtliche Epoche, wo die indogermanischen Sprachen eine Zersetzung erfahren haben. Diese ebenso pessimistische wie mystische Konzeption wird heute als überholt betrachtet, doch kann man sich fragen, ob alle Komparatisten sich im klaren darüber sind, dass es nie eine sprachliche aurea aetas gab und dass die Entwicklung der Sprachen in der vorgeschichtlichen Periode durch dieselben Gesetze regiert wurde wie
in der historischen Periode. Wenn man Arbeiten aus dem Gebiet der vergleichenden Grammatik liest, hat man oft den Eindruck, dass ihre Verfasser, obwohl sie es niemals expressis verbis sagen, überzeugt sind, dass Vorgänge, die niemals in einer historisch belegten Sprache stattgefunden haben, in der vorgeschichtlichen Epoche doch möglich waren. Um sich mit einem einzigen Beispiel zu begnügen, mag erwähnt werden, dass es in einem Artikel von Safarewicz (1963) heißt, „la conclusion, tirée déjà auparavant par J. Kuryłowicz et par Ch. Stang, en est que les désinences dites secondaires sont, quant à leur origine, plus anciennes; les désinences dites primaires sont, au contraire, élargies par -i“ (Safarewicz 1963, 109). Diese Ansicht ist umso erstaunlicher, als man heutzutage den Junggrammatikern eine „atomistische Betrachtungsweise“ vorwirft und nie zu betonen aufhört, dass die Spracherscheinungen auf eine komplexe Art und Weise untersucht werden müssen. Es scheint, dass auf dem Gebiet der vergleichenden Grammatik eine komplexe Betrachtungsweise darin bestehen sollte, Geschichte und Vorgeschichte nicht zu trennen; im Gegenteil sollte man immer die mit Sternchen versehenen Formen mit den belegten vergleichen, da sie ja alle Glieder ein und derselben Entwicklungsreihe sind. Da die primären Endungen meistens als Präsensmorpheme fungieren, während die sekundären Endungen zum Ausdruck anderer Tempora dienen, ist es aufschlussreich, die analogische Entwicklung der Personalformen des Präsens und die der Personalformen der anderen Tempora in drei historisch belegten Sprachen, dem Französischen, dem Italienischen und dem Spanischen, zu untersuchen. Die analogischen Formen werden mit Kreuzen versehen. (1) Formen des Präsens Präsens des Indikativs: cantō, chanteC, canto, canto cantās, chantes, cantiC, cantas cantat, chante, canta, canta cantāmus, chantons, cantiamoC, cantamos cantātis, chantez, cantate, cantáis cantant, chantent, cantanoC, cantan Präsens des Konjunktivs: cantem, chanteC, cantiC, cante cantēs, chantesC, cantiC, cantes cantet, chanteC, cantiC, cante
612
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
cantēmus, chantionsC, cantiamoC, cantemos cantētis, chantiezC, cantiateC, cantéis cantent, chantent, cantinoC, canten Präsens des Imperativs: cantā, chante, canta, canta cantāte, chantezC, cantate, cantad (2) Formen der anderen Tempora Imperfekt des Indikativs: cantābam, chantaisC, cantavoC, cantaba cantābās, chantaisC, cantaviC, cantabas cantābat, chantaitC, cantava, cantaba cantābāmus, chantionsC, cantavamo, cantábamosC cantābātis, chantiezC, cantavate, cantabais cantābant, chantaientC, cantavanoC, cantaban Keine der Formen cantārem, cantārēs, cantāret, cantārēmus, cantārētis, cantārent erhielt sich in den in Frage kommenden Sprachen. Perfekt des Indikativs: cantāvī, chantai, cantai, canté cantāvistī, chantasC, cantastiC, cantasteC cantāvit, chanta, canto`, cantó cantāvimus, chantâmesC, cantammo, cantamos cantāvistis, chantâtesC, cantasteC, cantasteisC cantāvērunt, chante`rentC, cantaronoC, cantaronC Perfekt des Konjunktivs: Keine der Formen cantāverim, cantāveris, cantāverit, cantāverimus, cantāveritis, cantāverint erhielt sich in den in Frage kommenden Sprachen. Plusquamperfekt des Indikativs: cantāveram, cantara cantāverās, cantaras cantāverat, cantara cantāverāmus, cantáramosC cantāverātis, cantaraisC cantāverant, cantaran Plusquamperfekt des Konjunktivs: cantāvissem, chantasseC, cantassiC, cantaseC cantāvissēs, chantassesC, cantassiC, cantasesC
cantāvisset, chantâtC, cantassiC, cantaseC cantāvissēmus, chantassionsC, cantassimoC, cantásemosC cantāvissētis, chantassiezC, cantasteC, cantaseisC cantāvissent, chantassentC, cantasseroC, cantasenC Futur des Indikativs: Keine der Formen cantābō, cantābis, cantābit, cantābimus, cantābitis, cantābunt erhielt sich in den in Frage kommenden Sprachen. Futur des Imperativs: Keine der Formen cantātō, cantātō, cantātōte, cantantō erhielt sich in den in Frage kommenden Sprachen. Futurum exactum: cantāverō, cantareC cantāveris, cantares cantāverit, cantareC cantāverimus, cantáremosC cantāveritis, cantareisC cantāverint, cantaren Zuerst sei bemerkt, dass manche lateinische Formen in den romanischen Sprachen verschwunden sind. Es fällt auf, dass alle Formen des Präsens sich erhielten, während die der anderen Tempora teilweise verschwanden: Formen des Präsens: Latein: 14, Französisch: 14, Italienisch: 14, Spanisch: 14. Prozent der erhaltenen Formen: Französisch: 100 %, Italienisch: 100 %, Spanisch: 100 %. Formen der anderen Tempora: Latein: 52, Französisch: 18, Italienisch: 18, Spanisch: 30. Prozent der erhaltenen Formen: Französisch: 35 %, Italienisch: 35 %, Spanisch: 58 %. Was die analogische Entwicklung betrifft, ist es bemerkenswert, dass es weniger analogische Veränderungen im Präsens gibt als in den anderen Tempora: Analogische Veränderungen im Präsens: Französisch: 7, Italienisch: 9, Spanisch: K. Prozent analogischer Formen: Französisch: 50 %, Italienisch: 64 %, Spanisch: K.
43. Diachronie: Grammatik
Analogische Veränderungen in den anderen Tempora: Französisch: 16, Italienisch: 12, Spanisch: 17. Prozent analogischer Formen: Französisch: 89 %, Italienisch: 67 %, Spanisch: 57 %. Schließlich ist es interessant festzustellen, in wieviel Fällen die Formen der anderen Tempora unter Einfluss des Präsens umgestaltet wurden und in wieviel Fällen ein umgekehrter Vorgang stattfand: Französisch: Die Endung der 1. Person Plural des Imperf. Indikativ -ions ist ein Resultat der Umgestaltung nach der des Präsens Indikativ -ons. In der 1. Person Singular des Plusquamperfekt Konjunktiv (-asse) wurde -e unter Einfluß der 1. Person des Präsens Konjunktiv eingeführt. Dasselbe gilt für die 2. Person Singular des Plusquamperfekt Konjunktiv (-asses) und die 2. Person Singular des Präsens Konjunktiv (-es). Die Endung der 1. Person Plural des Plusquamperfekt Konjunktiv -assions entstand unter dem Einfluss derjenigen des Präsens Konjunktiv -ions. Dasselbe gilt für die 2. Person Plural des Plusquamperfekt Konjunktiv -assiez und die des Präsens Konjunktiv -iez. Italienisch: Die Endung der 1. Person Singular des Imperf. Indikativ -avo ist ein Resultat der Umgestaltung nach der des Präsens Indikativ -o. Dasselbe gilt für die 2. Person Singular des Imperf. Indikativ -avi und die des Präsens Indikativ -i. Dasselbe gilt für die 3. Person Plural des Imperf. Indikativ -avano und die des Präsens Indikativ -ano (die meisten Forscher nehmen an, der Auslaut -o sei zuerst ins Präsens Indikativ sono für sunt eingeführt, in Analogie nach sono für sum). Dasselbe gilt für die Endung der 3. Person Plural des Perfekt Indikativ -arono. Die Endung der 1. Person Singular des Plusquamperfekt Konjunktiv -assi entstand unter Einfluss der des Präsens Konjunktiv -i. Dasselbe gilt für die Endung der 2. Person Singular des Plusquamperfekt Konjunktiv -assi und die des Präsens Konjunktiv -i. Spanisch: Die Endung der 1. Person des Plusquamperfekt Konjunktiv -ase entstand unter Einfluss der des Präsens Konjunktiv -e. Dasselbe gilt für die Endung der 3. Person des Plusquamperfekt Konjunktiv -ase und die des Präsens Konjunktiv -e.
613 Vom statistischen Gesichtspunkt aus stellen sich diese Daten folgendermaßen dar: Umgestaltungen des Präsens nach den anderen Tempora: Französisch: K, Italienisch: K, Spanisch: K. Umgestalung der anderen Tempora nach dem Präsens: Französisch: 5, Italienisch: 6, Spanisch: 2. Man sieht also, dass sich in den drei in Frage kommenden romanischen Sprachen die Formen des Präsens besser widersetzen als die der anderen Tempora, wenn es sich um Schwund, analogische Veränderungen im allgemeinen und Umgestaltungen unter Einfluss anderer Tempora im besonderen handelt. Wenn die Dinge so stehen, gibt es keinen Grund für eine Revision der traditionellen Ansicht über das chronologische Verhältnis zwischen den primären und sekundären Endungen. Um das Gegenteil zu beweisen, wäre es notwendig zu zeigen, dass das unter 2. erwähnte Analogiegesetz II falsch ist (d. h. dass es Sprachen gibt, wo die weniger gebrauchten Formen meistens langsamer evoluieren als die mehr gebrauchten, oder einen Grund finden, weshalb die Entwicklung des Urindogermanischen von der aller historisch belegten Sprachen verschieden sein musste). Zum Schluss noch eine Bemerkung. Man weiß, dass der Unterschied zwischen den primären und sekundären Endungen im Singular sowie in der 3. Person Plural deutlich ist, während er es in den übrigen Formen nicht ist. Man kann zwei Hypothesen vorschlagen, um diesen Tatbestand zu erklären. (1) In der vorgeschichtlichen Epoche gab es mehr Formen, die einen Unterschied zwischen den primären und sekundären Endungen aufwiesen. Wenn aber in der geschichtlichen Periode dieser Unterschied nur im Singular und in der 3. Person Plural deutlich ist, so erklärt sich dies dadurch, dass der Singular und die 3. Person Plural sich langsamer entwickelten als die übrigen, weniger gebrauchten Formen des Paradigmas. (2) Der historisch belegte Tatbestand unterscheidet sich nicht von dem vorgeschichtlichen, was sich durch das unter 4. behandelte Gesetz erklärt, wonach die weniger gebrauchten Sprachelemente meistens weniger differenziert sind als die mehr gebrauchten.
614
3.
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Frequenzbedingter unregelmäßiger Lautwandel
Das Gesetz, wonach die mehr gebrauchten Sprachelemente meistens weniger umfangreich als die weniger gebrauchten sind, wurde von Zipf (1935, V) formuliert (vgl. Art. 10) und kann mit den folgenden Beispielen aus verschiedenen Sprachgebieten illustriert werden. Phonetik: die stimmlosen p, t, k werden mehr gebraucht als die stimmhaften b, d, g (wobei z. B. b Z p C Stimmhaftigkeit). Graphie: die kleinen Buchstaben werden öfter gebraucht also die großen. Wortbildung: die Komposita wie Großstadt werden weniger gebraucht als die Simplizia wie Stadt. Flexion: die Präsensendungen sind meistens kürzer als die der anderen Tempora, vgl. zeichn-e, -est, -et, -en, -et, -en und zeichnete, -etest, -ete, -eten, -etet, -eten. Syntax: die am meisten gebrauchten Verben werden mit dem Infinitiv ohne zu verbunden, während bei den anderen der Gebrauch der Präposition notwendig ist, vgl. er will reisen, aber er beabsichtigt zu reisen. Wortschatz: die Personalpronomina werden häufiger gebraucht als die meisten Substantive und ich, du oder er sind kürzer als Vater, Mutter oder Kind. Dieses Zipfsche Gesetz hat einen synchronischen Charakter, aber eine für die Diachronie sehr wichtige Schlussfolgerung kann daraus abgeleitet werden, und zwar die Theorie des unregelmäßigen frequenzbedingten Lautwandels. Dieser Begriff ist nicht neu. Es wäre nicht leicht zu sagen, wer der erste war, der auf den Gedanken kam, dass eine anomale Lautentwicklung durch die Gebrauchshäufigkeit bedingt sein kann. Doch betrachtete schon Diez (1846) frz. sire ! senior als „durch häufigen Gebrauch verkürzt“ (Diez 1846, 12). Etwas später stellte Pott (1852) fest, dass it. andare, sp. andar und frz. aller von lat. ambulāre stammen, „mit zwar ungewöhnlichen, aber durch Häufigkeit des Gebrauchs von diesem Worte gerechtfertigten Buchstabenwechseln“ (Pott 1852, 315). Ihnen folgten andere Gelehrte des 19. Jahrhunderts, u. a. Schuchardt und in der ersten Periode seiner Tätigkeit MeyerLübke. Aber im 20. Jahrhundert ist der Begriff des unregelmäßigen frequenzbedingten Lautwandels beinahe in Vergessenheit geraten. Nur die allerwenigsten Linguisten wie z. B. Lüdtke (1962), Lloyd (1987), Shaterian (1990), Werner (1993) oder Picard (1997) erwähnen ihn noch.
Obwohl der Begriff des unregelmäßigen frequenzbedingten Lautwandels sehr alt ist (nach Fenk-Oczlon (1989, 92) war er arabischen Grammatikern schon im Mittelalter bekannt), betrachtete man bisher den unregelmäßigen frequenzbedingten Lautwandel als etwas Sporadisches, das nur den Wortschatz betrifft, während tatsächlich dieser Lautwandel auch Reduktionen in den Morphemen anbelangt (insbesondere den Flexionsmorphemen, von denen einige noch mehr gebraucht werden als die häufigsten Wörter). In der Tat ist der unregelmäßige frequenzbedingte Lautwandel neben dem normalen Lautwandel und der analogischen Entwicklung der dritte wesentliche Faktor des Sprachwandels, weil in einem beliebigen Text aus einer beliebigen Sprache ungefähr ein Drittel der Wörter einen unregelmäßigen frequenzbedingten Lautwandel aufweist. Als Beispiel kann ein Fragment aus einer Fabel La Fontaines angeführt werden, wo alle Wörter, die einen unregelmäßigen frequenzbedingten Lautwandel erfuhren, in Kursivschrift gedruckt sind: „Le Renard s’en saisit, et dit: Mon bon Monsieur, apprenez que tout flatteur vit aux dépens de celui qui l’écoute. Cette leçon vaut bien un fromage, sans doute. Le Corbeau honteux et confus jura, mais un peu tard, qu’on ne l’y prendrait plus.“ In Kürze kann die Theorie des unregelmäßigen frequenzbedingten Lautwandels folgendermaßen dargestellt werden. Gemäß dem erwähnten Zipfschen Gesetz sind die mehr gebrauchten Sprachelemente (u. a. Morpheme, Wörter und Wortgruppen) weniger umfangreich als die weniger gebrauchten. Es besteht eine Art Gleichgewicht zwischen dem Umfang und der Frequenz der Sprachelemente: je mehr ein Element gebraucht wird, desto kleiner ist es und umgekehrt. Dieses Gleichgewicht kann aber gestört werden, da die Sprache unausgesetzt evoluiert, da sich alles in der Sprache ständig verändert, u. a. auch die Länge und die Frequenz der Wörter. Es genügt, ein paar französische Wörter mit deren lateinischen Etyma zu vergleichen, um zu sehen, dass sich die Länge der Wörter infolge des regelmäßigen Lautwandels auf sehr verschiedene Weise verändern kann: mē (2 Phoneme) O moi (3 Phoneme) K Vergrößerung um 50 %; sī (2) O si (2) K keine Veränderung; bene (4) O bien (3) K Verminderung um 25 %;
615
43. Diachronie: Grammatik
lupum (5) O loup (2) K Verminderung um 60 %; Augustum (8) O août (1) K Verminderung um 88 %. Dasselbe gilt für die Frequenz. Es erübrigt sich, Beispiele anzuführen, um zu zeigen, dass ein im Altertum sehr gebräuchliches Wort es im Mittelalter nicht mehr war, oder dass die Frequenz eines im Mittelalter wenig gebrauchten Wortes in der Neuzeit gestiegen ist. Um das Wesen des unregelmäßigen frequenzbedingten Lautwandels zu begreifen, genügt es, die folgende Frage zu beantworten: Wenn die Länge und die Frequenz einzelner Wörter sich ständig und unterschiedlich verändert, wie ist es dann möglich, dass das Zipfsche Gesetz, wonach, je mehr ein Sprachelement gebraucht wird, desto kleiner es ist, für alle Sprachen und alle Perioden ihrer Entwicklung gilt? Die Antwort ist einfach: es müssen Kompensationsprozesse vorkommen. Wenn ein Wort im Verhältnis zu seiner Frequenz zu kurz wird, wird es durch ein längeres ersetzt, z. B. wurde lat. auris durch das Deminutiv frz. oreille ersetzt, apis durch das Lehnwort abeille, hodiē durch die Wortgruppe aujourd’hui usw. Ebenso wird ein Morphem, wenn es im Verhältnis zu seiner Frequenz zu kurz wird, durch ein längeres ersetzt. Ein Beispiel: im lat. Paradigma condūc-ō, -is, -it, -imus, -itis, -unt gab es ein beinahe normales Verhältnis zwischen der Länge der Endungen und deren Frequenz: die Endungen des Singulars waren kürzer als die des Plurals, und die Endung der 3. Person Plural war kürzer als die Endungen der 1. und 2. Person Plural (anormal war nur condūc-ō gegenüber condūc-it). Dieses Gleichgewicht zwischen der Länge der Formen des Paradigmas und deren Frequenz wurde aber durch den regelmäßigen Lautwandel bedroht, der condūcō, condūcis, condūcit, condūcitis und condūcunt zu ein und derselben Form verkürzt hätte (vgl. digitōs O doigts). Deswegen wurde condūcunt durch conduisent, condūcitis durch conduisez und condūcimus durch conduisons ersetzt. Auf diese Weise wurde das Gleichgewicht zwischen der Länge und der Frequenz der Formen wiederhergestellt; die Formen des Singulars (conduis, conduis, conduit) sind kürzer als die des Plurals, während die Form der 3. Person Plural conduisent kürzer ist, als es die Formen der übrigen Personen conduisons und conduisez sind. Die Analogie sorgt
also dafür, dass Morpheme, die im Verhältnis zu ihrer Frequenz zu kurz geworden sind, durch längere Morpheme ersetzt werden. Was geschieht aber, wenn ein Wort oder eine Wortgruppe im Verhältnis zu seiner oder ihrer Frequenz zu lang ist? Die Wortgruppe oder das Wort wird verkürzt, z. B. wird die Wortgruppe chemin de fer métropolitain zum Wort métropolitain, und dieses wird zu métro verkürzt. Die meisten Linguisten sehen ein, dass die Reduktionen vom Typus télévision O télé oder faculté O fac der Frequenz zuzuschreiben sind. Viele sind geneigt, auch unregelmäßigere Reduktionen vom Typus monseigneur O monsieur als frequenzbedingt zu betrachten. Aber den meisten Sprachforschern leuchtet es nicht ein, dass der unregelmäßige frequenzbedingte Lautwandel auch in vielen anderen Wörtern (z. B. cela O ça, dē O de) und selbst in den Morphemen (cantāvit O chanta) stattgefunden hat. Doch ist auf den genauen Parallelismus hinzuweisen zwischen einerseits der Ersetzung von zu kurzen Wörtern durch längere (apem O afrz. ef durch abeille) und von zu kurzen Morphemen durch längere (vgl. die Endung in conduisez mit dem lautgerechten *conduiz) und andererseits der Reduktion von zu langen Wörtern (monseigneur O monsieur) und von zu langen Morphemen (vgl. de-vait mit dem lautgerechten *dev-oive ! dēb-ēbat). Es gibt sechs Kriterien, die erkennen lassen, dass man es mit dem unregelmäßigen frequenzbedingten Lautwandel zu tun hat: (1) Wenn es für die gegebene Sprache und die gegebene Periode ein Frequenzwörterbuch gibt, kann man es benutzen, da die meisten Wörter, die eine frequenzbedingte Reduktion erfahren haben, sich im Frequenzwörterbuch im ersten Tausend befinden. Z. B. stellt sich im Neufranzösischen die Verteilung der in Frage kommenden Wörter folgendermaßen dar: 1. 2. 3. 4. 5. 6.
Tausend: Tausend: Tausend: Tausend: Tausend: Tausend:
99, 86 %; 9, 8 %; 4, 3 %; 2, 2 %; 1, 1 %; K, K.
Auch andere statistische Daten können von Nutzen sein. Es ist z. B. interessant festzustellen, dass, wenn man alle Beispiele von Jambenkürzung, die sich in der von der Jambenkürzung bei Plautus handelnden Disser-
616
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Tabelle 43.2: Jambenkürzung im Lateinischen Wörter, die gebraucht wurden
Anzahl von Wörtern
mehr als 1000mal 101K1000mal 51K100mal 31K50mal 21K30mal 11K20mal 2K10mal 1mal
1 3 13 16 18 45 273 155
1 3 13 16 16 30 75 13
524
167
tation von Leppermann (1890) befinden, zusammenrechnet, die folgende Zusammenstellung entsteht (Tabelle 43.2). Daraus ergibt sich, dass von 524 Wörtern nur 167 gekürzt worden sind, während 68 % der von Plautus verwendeten jambischen Wörter keine Kürzung aufweisen. Also ist es unmöglich, das, was man Jambenkürzung nennt, mit regelmäßigen Lautveränderungen zu vergleichen, die K wie etwa die Kürzung von Vokalen nach der Formel vocalis ante vocalem corripitur oder die Dehnung von Vokalen vor ns, nf K in 100 % oder beinahe 100 % der Fälle stattgefunden haben. In Wirklichkeit ist die sogenannte Jambenkürzung im Lateinischen eine von der Frequenz verursachte phonetische Veränderung. (2) Neben dem unregelmäßigen frequenzbedingten Lautwandel gibt es eine andere anormale Entwicklung: Assimilationen, Dissimilationen, Metathesen, Expressivformen usw. Charakteristisch für diesen unregelmäßigen Lautwandel ist die Tatsache, dass er in verschiedenen Sprachen in verschiedenen Wörtern stattfindet. Chercher ! cercher weist eine Assimilation auf, faible ! flēbilem eine Dissimilation, troubler ! turbulāre eine Metathese, während h in herse als expressiv gilt. Aber es wäre schwer, in einer indogermanischen Sprache ein ,suchen‘ bedeutendes Wort zu finden, das eine Assimilation aufweisen würde, ein ,schwach‘ bedeutendes Wort mit Dissimilation oder ein die Egge bezeichnendes Wort mit einem expressiven Phonem. Kurzum, es besteht kein Parallelismus zwischen den Unregelmäßigkeiten wie Assimilationen, Dissimilationen, Metathesen usw., die sich in verschiedenen Sprachen ereignen, während der unregelmäßige frequenzbedingte Lautwandel auf eine mehr oder weniger parallele Weise stattfin-
Anzahl von gekürzten Wörtern
Prozent von gekürzten Wörtern 100 % 100 % 100 % 100 % 89 % 67 % 27 % 8%
det, was sich durch die Tatsache erklärt, dass die am häufigsten gebrauchten Wörter in allen Sprachgemeinschaften ungefähr dieselben sind. Die Verwandtschaftsnamen, die sehr oft gebraucht werden, weisen Reduktionen in verschiedenen Sprachen auf. Z. B. haben frz. pe`re (gegenüber pierre ! petram) und kat. pare (gegenüber pedra ! petram) eine Reduktion der tr-Gruppe erfahren. Im Spanischen findet man neben dem schriftsprachlichen regelmäßigen padre volkstümliche verkürzte Formen paire, pae, pay, pa’. Ein unregelmäßiges pai besteht auch im Portugiesischen. Frz. me`re und kat. mare sind unregelmäßig. Dasselbe gilt für aspan. maire, maere, may, port. mãe, toskan. mae, ma’, Aksl. mati ! *mātēr weist eine Reduktion des Öffnungsgrades des Endvokales auf, der zu *ě hätte werden sollen. Außerdem wird dieser Endvokal in vielen slavischen Sprachen ausgestoßen, vgl. poln. mać, russ. mat’ usw. Was die romanischen von frāter, frātrem stammenden Wörter betrifft, sind frz. fre`re, span. fray, frey, port. frei, it. frat’, fra unregelmäßig. Urslav. bratrъ hat in den meisten slavischen Sprachen ein r verloren, vgl. russ. brat. Im Litauischen ist das Deminutiv brotėrelis zu brolis verkürzt worden. (3) Wenn Morphem, Wort oder Wortgruppe in einer gegebenen Sprache in einer doppelten, regelmäßigen und unregelmäßigen Form erscheint, ist es für den unregelmäßigen frequenzbedingten Lautwandel bezeichnend, dass die unregelmäßige Form meistens häufiger verwendet wird als die regelmäßige. Wenn man vergleicht: frz. aller und ambler, monsieur und monseigneur, la und elle, les und eux, les und elles, des und d’eux, des und d’elles, aux und à eux, aux und à
43. Diachronie: Grammatik
elles, me und moi, te und toi, se und soi, ne und non, que und quoi, notre und nôtre, votre und vôtre, nos und nôtres, vos und vôtres, so kann man sich leicht überzeugen, dass die ersteren Formen, die unregelmäßig sind, häufiger gebraucht werden als die letzteren, die normal sind. Dasselbe gilt für Morpheme: in der am häufigsten verwendeten 1. Konjugation verstummte das r im Infinitivsuffix, z. B. chante(r), während es sich in den anderen, seltener gebrauchten Suffixen -oir, -re, -ir erhalten hat. Im Rumänischen weisen die selten gebrauchten Verbalsubstantive vom Typus cînt-are, ved-ere, zic-ere, ven-ire eine normale Entwicklung auf, während die häufig verwendeten Infinitive wie cînt-a, ved-ea, zic-e, ven-i eine Verkürzung des Suffixes erfahren haben. Im Spanischen weisen die am meisten gebrauchten Part. Perfekt vom Typus cantado eine reduzierte Aussprache des d auf, während dasselbe Phonem in den anderen, weniger gebrauchten Partizipien normal ausgesprochen wird. Das lat. Numerale duo, das eine Dualform ist, hat eine Verkürzung der Endung erfahren, während dieselbe Endung in den seltener verwendeten amb-ō und oct-ō die alte Länge bewahrt hat. Dasselbe gilt im Griechischen einerseits für .δο und andererseits für µφω und κτ. Es ist evident, dass Simplizia meistens mehr gebraucht werden als Derivate und Komposita; deswegen kommt es manchmal vor, dass der Stamm im Simplex eine reduzierte Form aufweist, während das Derivat oder das Kompositum ganz regelmäßig ist, vgl. engl. have, has, had, aber behave, behaves, behaved, lat. ājō, aber adagium, frz. pe`re, aber parrain, poln. brat ,Bruder‘ ! *bratrъ, aber braterski ,brüderlich‘, sollen, aber Schuld. (4) Wenn der unregelmäßige frequenzbedingte Lautwandel in einem Paradigma vorkommt, finden die Reduktionen in den mehr gebrauchten Formen häufiger statt als in den weniger gebrauchten. Es ist aufschlussreich, im Italienischen die Entwicklung des Präsens Indikativ habeō, habēs usw. mit der des Präsens Konjunktiv habeam, habeās usw. zu vergleichen: unter den Formen ho, hai, ha, abbiamo, avete, hanno sind ho, hai, ha, hanno reduziert, was sich dadurch erklärt, dass der Singular häufiger gebraucht wird als der Plural und die 3. Person häufiger verwendet wird als die anderen; die Formen des Präsens Konjunktiv abbia, abbia, abbia, abbiamo, abbiate, abbiano sind alle regelmäßig,
617 was sich dadurch erklärt, dass der Konjunktiv seltener gebraucht wird als der Indikativ. Was das Lateinische anbelangt, war die Entwicklung des Dat. Singular in den o-Stämmen unregelmäßig (*-ōi O -ō) und in den āStämmen regelmäßig (*-āi O -ae), was sich dadurch erklärt, dass die o-Stämme mehr gebraucht wurden als die ā-Stämme. Es ist kein Zufall, dass ein ähnlicher Unterschied auch in manchen anderen idg. Sprachen besteht, vgl. got. daga, aber gibai, aksl. rabu, aber ženě, lit. vyrui, aber žmonai. Noch ein Beispiel aus dem Lateinischen: in dem oft gebrauchten Nom. Singular tabula weist die Endung eine unregelmäßige Verkürzung auf, während der seltener gebrauchte Abl. Singular tabul-ā die alte Länge bewahrt hat. Etwas Ähnliches ist im Gotischen und im Althochdeutschen vorgekommen: Nominativ Singular: Indogermanisch: *-ā, Gotisch: gibaC, Althochdeutsch: gebaC; Akkusativ Singular: Indogermanisch: *-ām, Gotisch: gibaC, Althochdeutsch: gebaC; Genitiv Singular: Indogermanisch: *-ās, Gotisch: gibōs, Althochdeutsch: geba, gebuC; Dativ Singular: Indogermanisch: *-āi, Gotisch: gibái, Althochdeutsch: geba, gebuC; Nominativ Plural: Indogermanisch: *-ās, Gotisch: gibōs, Althochdeutsch: gebāC; Akkusativ Plural: Indogermanisch: *-āns, Gotisch: gibōs, Althochdeutsch: gebāC; Genetiv Plural: Indogermanisch: *-ōm, Gotisch: gibō, Althochdeutsch: gebōno; Dativ Plural: Indogermanisch: *-āmis, Gotisch: gibōm, Althochdeutsch: gebōm. Die mit C versehenen Formen weisen einen unregelmäßigen frequenzbedingten Lautwandel auf. Es fällt auf, dass sowohl im Gotischen als auch im Althochdeutschen nur die häufiger gebrauchten Formen eine unregelmäßige Reduktion von *ā (das normalerweise zu ō wird) aufweisen. (5) Falls für eine gegebene Sprache sowohl ein Frequenzwörterbuch als auch ein rückläufiges Wörterbuch vorhanden sind, ist es lehrreich, Serien von Wörtern zu untersuchen, die mit demselben oder denselben Buchstaben beginnen bzw. auf denselben oder dieselben Buchstaben ausgehen. Hier sind ein paar Beispiele für solche Wortserien im Englischen:
618
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Im Englischen gibt es 16 einsilbige schwache Verben auf -ay, z.B. play, unter denen nur eines unregelmäßige Reduktionen aufweist, und zwar say (says, said), wobei wichtig ist, dass say das häufigste Verb auf -ay ist. Es gibt 9 Wörter auf -een, z. B. been, unter denen nur eines eine reduzierte Aussprache haben kann, und zwar been, wobei interessant ist, dass been das häufigste Verb auf -een ist. Es gibt ca. 200 Feminina auf -ess, z. B. princess, unter denen nur ein Femininum eine Reduktion erfahren hat, und zwar mistress O Mrs., wobei Mrs. das häufigste Femininum auf -ess ist. Es gibt 34 einsilbige Wörter auf -f, z. B. if, unter denen nur ein Wort eine unregelmäßige Sonorisierung des auslautenden Konsonanten aufweist, und zwar of, wobei of das häufigste Wort auf -f ist. Es gibt 34 Wörter auf -ill, z. B. still, unter denen nur ein Wort eine reduzierte Aussprache haben kann, und zwar will, wobei will das häufigste Wort auf -ill ist. Es gibt 15 Wörter, die auf eine Spirans C -in auslauten, z. B. coffin, unter denen nur zwei eine Reduktion erlitten, und zwar cousin und basin, wobei cousin and basin vom Standpunkt der Frequenz aus die erste und die zweite Stelle einnehmen. Es gibt 12 einsilbige Wörter auf -ine, z. B. line, unter denen nur eines eine Reduktion erfahren hat, und zwar mine O my, wobei my häufiger gebraucht wird als alle Wörter auf -ine. Es gibt ca. 700 Ableitungen auf -iness, z. B. happiness, unter denen nur eine gekürzt wurde, und zwar business, wobei business die häufigste Ableitung auf -iness ist. Es gibt 36 Wörter auf -ire, z.B. fire, unter denen nur eines eine unregelmäßige Reduktion erfuhr, und zwar sire O sir, wobei sich sir vom Standpunkt der Frequenz aus an zweiter Stelle befindet. Es gibt 11 einsilbige Wörter auf -one, z. B. tone, unter denen nur eines eine Monophthongierung erlitten hat, und zwar gone, wobei gone das häufigste Wort auf -one ist. Es gibt 9 einsilbige Wörter auf -our, unter denen nur eines eine Reduktion von -our zu * aufweisen kann, und zwar your, wobei your das häufigste Wort auf -our ist. Es gibt 6 Wörter auf -over, z. B. clover, unter denen nur eines eine reduzierte Aussprache haben kann, und zwar over O o’er, wobei unter diesen Wörtern over das häufigste ist.
Es gibt 7 Zahlwörter auf -teen, z. B. thirteen, aber nur das Numerale ten, das vom etymologischen Standpunkt aus mit -teen identisch ist, hat eine Reduktion erfahren, wobei ten häufiger verwendet wird als alle Zahlwörter auf -teen. Es gibt 35 Wörter auf -ther, z. B. father, unter denen nur eines unregelmäßig gekürzt wurde, und zwar with ! aengl. wither, und with wird häufiger gebraucht als alle Wörter auf -ther. Es gibt 6 Komposita mit unbetontem alim ersten Glied, z. B. already. Unter diesen Bildungen gibt es nur eine, deren Vokal in alzu * reduziert wurde, und zwar alone, wobei alone das häufigste Kompositum auf al- ist. Es gibt 34 Präterita auf be-, z. B. believed. Unter diesen Formen gab es nur eine, deren Präfix manchmal schwand, und zwar began O gan. Es fällt auf, dass began das häufigste Präteritum auf be- ist. Es gibt 15 Wörter auf count-, z. B. county, unter denen nur eines eine Reduktion erfahren hat, und zwar country, das das häufigste Wort auf count- ist. Es gibt mehr als 1000 Wörter germanischen Ursprungs auf h-, unter denen nur eines in offizieller Rechtschreibung h- eingebüßt hat, und zwar it ! hit, wobei it häufiger gebraucht wird als alle Wörter, deren h- erhalten geblieben ist. Es gibt 18 Wörter auf spr-, z. B. spring. Zu diesen Wörtern gehörte altenglisch noch sprecan, dessen Anlaut eine Reduktion erfahren hat, vgl. das heutige speak. Bemerkenswert ist, dass speak häufiger verwendet wird als alle Wörter auf spr-. Es gibt 62 Wörter auf sw-, z. B. sweet. Altenglisch waren solche Wörter zahlreicher, denn so, such und sister begannen auch mit sw-. Unter den Wörtern, die jetzt oder einst mit sw- anlauteten, befindet sich vom Standpunkt der Frequenz aus so an erster Stelle, such an zweiter, sister an vierter und sword an 19. Stelle, wobei sicher ist, dass sword in alter Zeit häufiger gebraucht wurde als heutzutage. Die meisten Wörter auf th- haben bis jetzt eine stimmlose Aussprache des Anlautes bewahrt, z. B. think, während die übrigen Wörter eine unregelmäßige Sonorisierung aufweisen, vgl. that. Wenn man alle Wörter auf th- berücksichtigt, stellt sich heraus, dass die Mittelfrequenz der Wörter mit unregelmäßigem stimmhaften th- beinahe 9000 beträgt, während die der Wörter mit regelmäßigem stimmlosen th- kaum ca. 300 ist.
43. Diachronie: Grammatik
Es gibt 13 Derivate von two: twelve, twice, twilight usw. Die ursprüngliche Aussprache von tw- ist in allen Derivaten erhalten geblieben, während das Numerale two eine Reduktion des Anlautes aufweist, wobei two häufiger verwendet wird als die Derivate. Die dargestellten statistischen Daten sind ein Beweis mehr, dass zwischen unregelmäßigen phonetischen Reduktionen und hoher Frequenz ein Zusammenhang besteht. (6) Das letzte Argument bezieht sich auf die Sprachgeographie. Wenn man zwei (oder mehr) Formen mit frequenzbedingtem unregelmäßigen Lautwandel vergleicht, stellt man fest, dass der Bereich, in dem die häufigere Form vorkommt, meistens größer ist als der Bereich, in dem die seltenere Form vorliegt. Beispielsweise verbreitete sich die unregelmäßige Kontraktion im häufiger gebrauchten apoln. stojać O stać ,stehen‘ schneller als im selteneren apoln. bojać się O bać się ,sich fürchten‘. Mit anderen Worten: in alter Zeit war das Gebiet von stać größer als das von bać się. Zum Schluß sei bemerkt, dass gegen die Theorie des unregelmäßigen frequenzbedingten Lautwandels hauptsächlich zwei Einwände erhoben werden. Die einen behaupten, viele von den der Frequenz zuzuschreibenden Reduktionen erklären sich durch Unbetontheit. Darauf kann man erwidern, dass die meisten in Frage kommenden Reduktionen gar nichts mit der Entwicklung der unbetonten Silben zu tun haben. Es genügt, die belegten Formen mit denen zu vergleichen, die man erwarten würde, wenn sie wirklich unbetont wären: illum mūrum O le mur, aber *illummūrum O *elmur O *eumur, illam mātrem O la me`re, aber *illammātrem O *elleme`re, casam mē O chez moi, aber *casammē O *che`semoi, nōn cantat O ne chante, aber *nōncantat O *nonchante, ego tremulō O je tremble, aber *egotremulō O *étremble, ecce istum mūrum O ce mur, aber *ecceistummūrum O *écêmur usw. Man darf nicht sagen, dass ein Wort nie seine Betonung verlieren kann. Solche Fälle kommen tatsächlich manchmal vor, z. B. muss in der Gruppe dēbēre habet das erste Wort den Ton eingebüßt haben, damit die Gruppe zu devra wird. Es geht aber nicht an, die Entwicklung von illum zu le durch Tonschwund zu erklären. Außerdem ist es geradezu unlogisch zu behaupten, illōrum sei in unbetonter Stellung zu leur geworden,
619 wenn man weiß, dass sich nur betontes ō zu eu wandeln kann. Die anderen behaupten, die der Frequenz zuzuschreibenden Veränderungen erklären sich durch die syntaktische Funktion der in Frage kommenden Elemente. Um die Schwäche dieses Arguments zu beweisen, genügt es, das Paradigma des italienischen Hilfsverbs avere zu betrachten: hoC, haiC, haC, abbiamo, avete, hannoC; avevo, avevi, aveva, avevamo, avevate, avevano; ebbi, avesti, ebbe, avemmo, aveste, ebbero; abbia, abbia, abbia, abbiamo, abbiate, abbiano; avessi, avessi, avesse, avessimo, aveste, avessero; avrò, avrai, avrà, avremo, avrete, avranno; avrei, avresti, avrebbe, avremmo, avreste, avrebbero; avere, avendo. Wenn man die Behandlung von lat. hab- in diesen 44 Formen betrachtet, sieht man, dass es nur in 4 (mit C versehenen) Formen eine Reduktion gegeben hat. Es gibt also zwei Argumente gegen die Annahme, dass sich diese Reduktionen durch die syntaktische Funktion dieses Verbs erklären: (a) All diese Formen können als Hilfsformen verwendet werden, aber, möge man avere als Hilfsverb gebrauchen oder nicht (z. B. ho un amico), diese Formen bleiben dieselben. (b) Unter diesen 44 Hilfsformen von avere gibt es lediglich 4 (also weniger als 10 %), die eine Reduktion des Stammes aufweisen. Dagegen erklärt die Theorie des unregelmäßigen frequenzbedingten Lautwandels sehr einfach, warum gerade nur ho, hai, ha und hanno eine Reduktion des Stammes aufweisen, und zwar: (1) das Präsens wird häufiger gebraucht als die anderen Tempora, (2) dasselbe gilt für den Indikativ und die anderen Modi, (3) dasselbe gilt für die 3. Person und die anderen Personen, (4) dasselbe gilt für den Singular und den Plural. Dass dies keineswegs ein Zufall ist, beweist die Tatsache, dass die Entwicklung von habēre in den übrigen romanischen Sprachen sehr ähnlich ist. Und nun ein Beispiel, um zu zeigen, wie die Kenntnis der Theorie des unregelmäßigen frequenzbedingten Lautwandels bisher ungelöste Probleme zu lösen vermag. 3.1. Der Lautwandel oi O ai im Französischen Frz. oi, im 16. Jh. wie [oę] ausgesprochen, erfuhr in manchen Fällen eine Reduktion zu [ę]. Später wird [oę] zu [wę] O [wa], wäh-
620
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
rend [ę], nachher ai geschrieben, bis heute in den folgenden Fällen erhalten bleibt: (1) in den Endungen des Imparfait und des Conditionnel, z. B. chant-ait, chanter-ait; (2) in dem Suffix der geographischen Adjektive vom Typus franç-ais; (3) in den Suffixen -aie und -ay der Gattungs- und Eigennamen wie frên-aie, Rouvr-ay; (4) in dem Stamm der Substantive claie, craie, dais, falaise, frai (Postverbale von *froicier), frais, fressure, glaise, harnais, marais, métayer, monnaie, raie, rets, saie, tonnerre, verre, der Adjektive épais, faible, frais, raide sowie der Verben connaître, délayer, effrayer, frayer und paraître. Seit dem 16. Jh. hat man viel über die sonderbare doppelte Entwicklung von frz. oi geschrieben. Ein Verfasser widmete diesem Problem selbst ein Buch (Schogt 1960). Die folgenden Hypothesen wurden aufgestellt: (a) Die meisten Grammatiker des 16. Jh., unter denen Th. de Be`ze der erste zu sein schien (Schogt 1960, 97), glaubten, [ę] sei dem Einfluss des italianisierten Hofes zuzuschreiben, vgl. frz. avait und it. aveva, frz. français und it. francese. (b) Dauzat (1939, 116) stellte die Hypothese auf, dass die Aussprache des Suffixes -ais unter dem Einfluss der graphischen Form des englischen Suffixes -ese entstehen konnte, vgl. japonais und engl. Japanese. (c) Dubois (auch Sylvius genannt), Grammatiker des 16. Jh., schrieb die Entwicklung von oi zu [ę] dem Einfluss des normannischen Dialektes zu. Dieser Einfluss wird u. a. auch von Cohen (1947, 190) angenommen. (d) Anderswo äußerte Dauzat (1926, 72) die Ansicht, die meisten [ę]-Formen seien in der Pariser Volkssprache entstanden. (e) Darmesteter und Hatzfeld (1934) erklärten die Abschwächung von [oę] zu [ę] folgendermaßen: „[..]il devenait impossible de prononcer prioit, noyoit; au lieu de dire il prioue`t, il noue`youe`t, on dit: il prie`t, il noye`t, et l’analogie amena la prononciation il lise`t, il fese`t.“ (Darmesteter/Hatzfeld 1934, 212). (f) Pope (1966, 68K69) meinte, die Reduktion von [oę] zu [ę] sei in manchen Fällen vorgekommen, um der Homonymie vorzubeugen.
(g) Manche Sprachforscher, z. B. MeyerLübke (1913, 81), glaubten, die Entwicklung [oę] O [ę] sei durch vorhergehende Phoneme bedingt worden, z. B. [oę] sollte sich nach einem Konsonanten C l (anglais) regelmäßig zu [ę] wandeln. (h) Andere Sprachwissenschaftler, u. a. Suchier (1904K1906, 745), stellten sich vor, der Lautwandel [oę] O [ę] hinge von darauffolgenden Phonemen ab, [oę] sollte sich z. B. vor s (fran-çais) normalerweise zu [ę] entwickeln. (i) Schwan und Behrens (1909, 123) waren überzeugt, dass Paris eine mittlere Stellung zwischen den Ostdialekten (wo ei O oi) und den Westdialekten (wo ei O e) einnahm, so dass die Formen vom Typus monnaie ebenso regelmäßig sind wie die vom Typus moi. (j) Haudricourt (1948) meint, die ai-Formen (z. B. faible) seien im Französischen normal, während die oi-Formen (z.B. toi) aus dem Champagner Dialekt entlehnt seien. Es ist nicht nötig, diese Ansichten einer Kritik zu unterziehen, weil, wie Schogt (1960) feststellt: „Ce qui frappe le plus dans la lecture de toutes ces explications [...], c’est qu’il n’y en a pas une seule qui ne soit combattue ou mise en doute par une autre“ (Schogt 1960, 28). Es lohnt sich doch zu bemerken, dass es unmöglich ist, sich mit der Hypothese einverstanden zu erklären, wonach die ai-Formen im Französischen regelmäßig seien, während die oi-Formen mundartlicher Herkunft wären. Diese Behauptung kann nicht mit der Chronologie in Einklang gebracht werden. Alle Grammatiker des 16. Jh. bezeichnen die Aussprache von oi wie [ę] als eine Neuerung. Die Lösung dieses alten Problems ist sehr einfach: der Lautwandel oi O [oę] O [wę] O [wa] ist normal, während sich die Abschwächung von [oę] zu [ę] durch einen unregelmäßigen frequenzbedingten Lautwandel erklärt. Die folgenden Argumente unterstützen diese Behauptung. (1) Auf ein paar Seiten einer Zeitung waren belegt: 52mal das Suffix -ai- ! -ē(-bam, -bās usw.) des Imparfait und des Conditionnel: agissait, ajoutait, allait, apprêtait, attiraient, aurait 2, avait 10, dénombrait, désignerait, devrait, enregistrait, espérait, étaient 5, était 6, explo-
621
43. Diachronie: Grammatik Tabelle 43.3: Reduktion von -oi zu ai 52mal belegtes Suffix 15mal belegtes Suffix 6 bis 1mal belegte Wörter
Insgesamt
Anzahl von ai-Formen
Prozent von ai-Formen
52 15 54
52 12 4
100 % 80 % 7%
saient, fallait, finirait, jouissaient, lisait, parlait, précédait, rapportait, répliquait, savait, serait 2, suffirait, suivait, trouvaient, venait 2, vaudraient, voyait; 15mal das Suffix -ais/-ois: français (françaises) 6, polonais 5, hollandais, chinois 3; 6mal das Wort trois (troisie`me); 4mal das Wort avoir; 3mal die Wörter connaît (connaisseur), soixante; 2mal die Wörter paraît (paraîtra), Antoine, croissante, fois, mois, moyen(s), noir(s), toile; 1mal die Wörter épais, marais, croire, croisie`re, déployée, Dubois, envoyé, espoir, étoile, exploité, gloire, laboratoire, moitié, pourquoi, préhistoire, prévoir, reçoit, royal, soir, soit, témoignages, victoire. Der Zusammenhang zwischen der Reduktion von oi zu ai und der Frequenz ist augenscheinlich, wie die folgenden Zahlen belegen (Tabelle 43.3). (2) Da unter den eine Abschwächung von oi zu ai aufweisenden Wörtern die Formen des Imparf. und des Cond. am zahlreichsten sind, ist es nützlich zu erwähnen, dass die Formen des Imparf. (z. B. dēb-ēbat O devait) auch andere unregelmäßige Reduktionen erfuhren, und zwar den Schwund des intervokalischen b (das normalerweise zu v wird). sowie den Schwund des nachtonigen a (das sich regelmäßig zu e wandelt). Die Formen des Cond. (z. B. dēbēre habēbat O devr-ait) weisen darüber hinaus einen unregelmäßigen Schwund von hab- auf. Wie gesagt, unter den ai statt oi aufweisenden Wörtern sind die Formen des Imparf. und des Cond. am zahlreichsten. Von diesem Standpunkt aus befinden sich die geographischen Adjektive auf -ais an zweiter Stelle. Nun ist es interessant festzustellen, dass die anormale Entwicklung des Suffixes -ais auch in anderen Sprachen Parallelen hat. Man weiß, dass das Suffix -ais meistens lateinischer Herkunft ist, aber in français oder anglais handelt es sich um ein von germ. -isk stammendes Morphem. Es ist wichtig, darauf hinzuweisen, dass dieses Suf-
fix auch in den germanischen Sprachen eine doppelte Entwicklung aufweist, die an das Nebeneinander von -ois und -ais erinnert, vgl. französisch, dänisch, aber deut-sch, oder engl. Dan-ish, Swed-ish, aber Wel-sh, Scot-ch, Dut-ch, Fren-ch.
4.
Differenzierung und Frequenz
Das Gesetz, wonach die häufiger gebrauchten Sprachelemente meistens differenzierter sind als die seltener gebrauchten, kann mit den folgenden Beispielen illustriert werden. Phonetik: falls in einer Sprache die Anzahl von stimmlosen und stimmhaften Konsonanten nicht die gleiche ist, sind die stimmlosen meistens zahlreicher, d. h. differenzierter, als die stimmhaften, z. B. entspricht dem dt. z kein stimmhafter Konsonant. Graphie: falls in einer Sprache die großen Buchstaben nicht genau den kleinen entsprechen, kommt es meistens vor, dass die großen weniger differenziert sind, z. B. entsprechen den kleinen ß und ss nur die großen SS. Wortbildung: von einem oft gebrauchten Wort wie Mann werden viel mehr Derivate und Komposita gebildet als von einem selten gebrauchten wie Radar (anders gesagt, die Wortfamilie von Mann ist differenzierter als die von Radar). Flexion: die Konjugation des Verbs sein, das im Deutschen am häufigsten gebraucht wird, ist komplizierter (oder differenzierter) als die irgendeines anderen Verbs. Syntax: die Personalpronomina, deren Durchschnittsfrequenz höher ist als die der Substantive, werden mit den Verben in allen drei Personen gebraucht, während die Substantive nur mit den Verben in der 3. Person verwendet werden können (anders gesagt, der Gebrauch der Personalpronomina ist differenzierter als der der Substantive). Wortschatz: ein häufig gebrauchtes Wort hat mehr Bedeutungen als ein selten verwendetes Wort, d. h. die Bedeutung eines häufig gebrauchten Wortes ist differenzierter als die eines selten gebrauchten Wortes. Aus diesem synchronischen Gesetz (Mańczak 1966) kann das folgende diachronische
622
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Gesetz abgeleitet werden: in den meisten Fällen steigt oder sinkt die Differenzierung einer Sprachkategorie, je nachdem deren Frequenz zu- oder abnimmt. Und nun ein Beispiel, um zu zeigen, wie dieses Gesetz in der Praxis angewandt werden kann. Am Anfang des 20. Jahrhunderts veröffentlichte Meillet einen berühmt gewordenen Artikel Comment les mots changent de sens (nachgedruckt in Meillet 1948, 230K 271), in dem er u. a. die folgende These Meringers (1905) wiederaufgenommen hat: „Ein Wort erweitert seine Bedeutung, wenn es vom engern in einen weiteren Verkehrskreis tritt; es verengert sich, wenn es vom weiteren in den engeren tritt“ (Meringer 1905, 232). Meillet illustriert diese These mit den folgenden Beispielen. Vom etymologischen Gesichtspunkt aus heißt frz. arriver ,am Ufer anlegen‘, d. h. *ad-rīpāre, und diese Bedeutung hat sich bis heute in port. arribar bewahrt, aber für einen Matrosen ist ,am Ufer anlegen‘ mit ,am Ende einer Reise sein‘ identisch: wenn das Wort also aus der Matrosensprache in die Gemeinsprache übergeht, bekommt es die Bedeutung von frz. arriver. Frz. arracher setzt ein altes *exrādīcāre ,die Wurzel herausziehen‘ fort; in der Bauernsprache wird das Wort im konkreten Sinn gebraucht; wenn es aus der Bauernsprache in die Gemeinsprache gelangt, verschwindet der Begriff der Wurzel und bleibt nur der Begriff des Herausziehens bestehen. Frz. équiper, aus der Matrosensprache der normandischen oder pikardischen Küste entlehnt, heißt ,ein Schiff mit allem Nötigen versehen‘; wenn das Wort aus der Matrosensprache in die Gemeinsprache gelangt, bedeutet es nur ,versehen‘: in der Bedeutung des Ausdruckes équipement militaire gibt es nichts, was an die germanische Bezeichnung des Schiffes erinnern würde. Während diese Wörter als Beispiele für den Übertritt von einem engeren in einen weiteren Verkehrskreis dienen sollen, wird die semantische Entwicklung von Wörtern, die vom weiteren in den engeren Verkehrskreis treten, durch den Wandel von pōnere, cubāre, trahere und mūtāre illustriert, die im Französischen der Bauern ihre Bedeutung einengten, indem sie zu pondre, couver, traire, muer wurden. Die von Meillet anerkannte These, wonach ein Zusammenhang zwischen der mehr oder weniger weiten Bedeutung eines Wortes und der Größe einer Sprachgemeinschaft bestehen würde, ist nie in Frage ge-
stellt worden. Doch findet man, wenn man den Artikel Meillets aufmerksam liest, dort Stellen, mit denen man nicht ohne weiteres einverstanden sein kann. Hier ist ein Beispiel: „Un mot peut porter toutes les marques phonétiques et morphologiques auxquelles on reconnaît un mot non emprunté; il peut même avoir subsisté sans interruption dans la langue, et être néanmoins au fond un mot emprunté, si, pendant un temps plus ou moins long, il n’a fait partie de la langue commune et s’il a été employé seulement dans des groupes sociaux particuliers [...] c’est sans doute pour n’avoir subsisté que dans le langage rural que des mots latins comme ponere [...], cubare [...], trahere [...], mutare [...] ont [...] fourni au français actuel pondre, couver, traire, muer [...] A prendre le terme dans un sens strict [...], les mots français pondre, etc., sont encore des mots empruntés, bien qu’ils n’aient peut-être jamais cessé d’exister à Paris et qu’ils aient tous les caracte`res phonétiques et morphologiques de mots français.“ Es ist unmöglich, diesen Gedankengang zu billigen. Alle Romanisten betrachten pondre, couver, traire und muer nicht als Lehnwörter, sondern als einheimische Wörter, aus dem einfachen Grunde, weil sie nie aufhörten, in Paris gebraucht zu werden, wie ihre Lautgestalt bezeugt. Ein Wort wie foin ,Heu‘, obwohl es dieselbe Unregelmäßigkeit aufweist wie moins ,weniger‘, kann für ein aus der Mundart entlehntes Wort gehalten werden, während pondre, couver, traire und muer einen ebenso schriftsprachlichen Charakter haben wie cheval, vache, veau, porc, grain, herbe, semer, mener und viele andere landwirtschaftliche Ausdrücke. Wenn aber Meillet selbst den Ausdruck „Lehnwort“ gebraucht, lohnt es sich, die Bedeutungsentwicklung der Wörter, die alle einstimmig für Lehnwörter halten, zu untersuchen, um sich zu überzeugen, ob es wahr ist, dass ein Wort seine Bedeutung erweitert, wenn es von der kleineren in eine größere Sprachgemeinschaft tritt. Hier sind ein paar aufs Geratewohl aus dem Wörterbuch von Sachs und Villatte gewählte Artikel, die Wörter betreffen, die aus dem Französischen ins Deutsche entlehnt wurden (Bemerkungen, die mit der Bedeutung nichts zu tun haben, wurden ausgelassen): chauffeur (1) (ouvrier) Heizer, Feuermann. (2) chauffeurs (de pieds) Fußbrenner (fr. Räuber zur Zeit der ersten Revolution,
43. Diachronie: Grammatik
die ihre Opfer an den Füßen brannten). (3) chauffeur (d’automobile) Führer eines Automobils; auch Fahrer eines durch Heizkraft getriebenen Rades. Chauffeur (Kraftwagenführer) chauffeur. chaussée (1) (au bord d’une rivie`re) (Wasser-, Fluß-) Damm, Deich. (2) (chemin) Dammweg, Kunststraße, Chaussee; chaussée de rondins Knüppeldamm; les (ou l’administration des) ponts et chaussées die Verwaltung der Brücken und Wege; école des ponts et chaussées Zivilingenieur-, Wegebau-schule; ingénieur des ponts et chaussées Straßenbauingenieur, Wegebaumeister. (3) (Fahr-, Straßen-) Damm; faire une chaussée eine Straße anlegen. (4) langgestreckte Klippe. Chaussee chaussée, grande route, route (empierrée). Die Artikel frz. équipage und dt. Equipage, frz. génie und dt. Genie, frz. hôtel und dt. Hotel sehen ähnlich aus. Man sieht, dass all diese französischen Wörter, die vom Deutschen entlehnt wurden, eine Verengung ihrer Bedeutung erfuhren. Es erübrigt sich, mehr Beispiele zu erwähnen, weil alle (oder beinahe alle) französischen Lehnwörter im Deutschen dasselbe Schicksal geteilt haben. Diese Tatsache widerspricht der These, dass „ein Wort seine Bedeutung erweitert, wenn es vom engern in einen weiteren Verkehrskreis tritt“, weil die deutsche Sprachgemeinschaft zahlreicher ist als die französische. Man könnte entgegnen, dass viele französische Lehnwörter im Deutschen ziemlich alt sind und aus den Zeiten stammen, in denen die französische Sprachgemeinschaft zahlreicher war als die Bevölkerung der deutschsprachigen Länder. Aber dieses Argument wäre wertlos, da die französischen Wörter ihre Bedeutung immer (oder beinahe immer) verengen, wenn sie ins Ausland wandern, mögen sie in eine weitere Sprachgemeinschaft (wie die englische oder russische) oder in eine engere (wie die ungarische oder rumänische) treten. Und dies gilt nicht nur für das Französische, sondern für alle Sprachen der Welt: überall und immer (oder beinahe immer) haben die Lehnwörter, woher sie auch stammen mögen, eine engere Bedeutung als in der Herkunftssprache. Es gibt also keinen Zusammenhang zwischen der semantischen Entwicklung der Lehnwörter, die fast immer in einer Bedeutungsverengung besteht, und der Größe der das Lehnwort übernehmenden Sprachgemeinschaft. Andererseits ist es
623 unmöglich, die Bedeutungsverengung, die in pōnere O pondre, cūbare O couver, trahere O traire, mūtāre O muer stattgefunden hat, durch die Behauptung zu erklären, dass man hier angeblich mit Lehnwörtern zu tun hat; in der Tat ist kein Zweifel darüber möglich, dass pondre, couver, traire und muer einheimische Wörter sind. Man muss also anderswo den Grund des Bedeutungswandels dieser Wörter suchen. Tatsächlich erklären sich all diese Fälle durch das Gesetz, wonach die Differenzierung einer Sprachkategorie von ihrer Frequenz abhängt. Damit ein Wort seine Bedeutung erweitert, ist es keineswegs nötig (wie es Meringer und Meillet glaubten), dass es von einem engeren in einen weiteren Verkehrskreis tritt; damit es seinen Sinn verengt, ist es ebenso nicht nötig, dass es vom weiteren Verkehrskreis in den engeren tritt. Damit ein Wort seine Bedeutung erweitert, genügt es in Wirklichkeit, dass seine Gebrauchshäufigkeit steigt; das war eben der Fall bei Wörtern wie arriver, arracher, équiper, équipage oder équipement. Andererseits haben die Lehnwörter meistens weniger Bedeutungen in der Sprache, die sie entlehnt hat, als in der Herkunftssprache. Dies geschieht deswegen, weil die Lehnwörter gewöhnlich in der sie aufnehmenden Sprache seltener gebraucht werden als in der Herkunftssprache. Auch der Frequenzabfall erklärt die Bedeutungsverengung der französischen Wörter, die pōnere, cubāre, trahere und mūtāre fortsetzen. Diese Erklärung macht die unwahrscheinliche Hypothese überflüssig, wonach die echt französischen Wörter pondre, couver, traire und muer Lehnwörter wären, ganz davon zu schweigen, dass, anders als heute, wo die sich der Gemeinsprache bedienende Sozialgruppe größer ist als diejenige, die sich mit der Landwirtschaft befasst, die Lage in der Vergangenheit, wo die Bauern die Mehrzahl der Bevölkerung Frankreichs bildeten, umgekehrt war. Zum Schluss sei darauf hingewiesen, dass man in der jetzigen Sprachwissenschaft (einschließlich der historischen Grammatik) oft mit dem Begriff „System“ übertreibt. In Wirklichkeit gibt es im Sprachwandel nicht nur Symmetrie, sondern auch Asymmetrie: die Entwicklung von zwei Wörtern oder irgendwelchen Sprachkategorien (z. B. stimmlosen und stimmhaften Konsonanten, Singular und Plural) kann parallel sein, aber mindestens ebenso oft ist sie es nicht. Viele
624
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Forscher (zumal Komparatisten) sind überzeugt, dass dem Sprachzustand A der Sprachzustand B folgen muss, aber dies ist keineswegs der Fall; in der Tat, dem Zustand A kann B, C, D, E usw. oder Z folgen. Deswegen sind aus dem Latein Hunderte von romanischen Mundarten entstanden, deswegen kann man die Entwicklung einer Sprache nicht voraussehen. Es ist gerade die Frequenz, die begreiflich macht, warum der Sprachwandel so asystematisch ist: es kommt darauf an, dass irgendeine (d. h. phonetische, morphologische, syntaktische oder semantische) Entwicklung irgendeines Sprachelements u. a. auch von seiner Frequenz abhängt.
5.
Sprachwandel und Quantität
Der Begriff „Frequenz“ ist in dem weiteren Begriff „Quantität“ enthalten. Obwohl es in den meisten Fällen dem Sprachwissenschaftler genügt, die Frequenz zu berücksichtigen, ist es manchmal nötig, zur Quantität zu greifen. Z. B. ist der Unterschied zwischen Synchronie und Diachronie nicht qualitativ (wie Saussure glaubte), sondern quantitativ (hat aber mit der Frequenz nichts zu tun). Wenn man feststellt, (1) dass man im Latein konjugierte cant-ō, -ās, -at, -āmus, -ātis, -ant, (2) dass man im Altfranzösischen konjugierte chant, -es, -et, -ons, -ez, -ent, (3) dass man heute konjugiert chant-e, -es, -e, -ons, -ez, -ent, handelt es sich um drei synchronische Feststellungen. Aber es genügt, diese drei Feststellungen zu vereinen: cantō cantās cantat cantāmus cantātis cantant
chant chantes chantet chantons chantez chantent
chante chantes chante chantons chantez chantent
um eine diachronische Feststellung zu erhalten. Und nun ein Beispiel, das zeigt, dass nicht nur Frequenz, sondern überhaupt Quantität Probleme des Sprachwandels zu lösen vermag. Die Herkunft des urslavischen Anlaut-*ch ist rätselhaft. Manche Forscher sehen darin eine Fortsetzung von idg. *ks, andere betrachten es als einen expressiven Laut, während noch andere es für ein Phonem dunklen Ursprungs halten. Zuletzt stellte darüber Gołąb eine neue Hypothese auf, wonach die
urslavischen Wörter auf *ch- iranischer Herkunft sein sollten. Man muss diese neue Hypothese für falsch erklären, wenn man den Prozentsatz von Wörtern betrachtet, die in verschiedenen Sprachen mit ch oder ähnlichen Lauten beginnen. In den romanischen Sprachen verstummte lat. h, aber im Französischen erschienen Wörter germanischen Ursprungs auf h- und im Rumänischen ähnliche Wörter slavischer Herkunft. Brunot (1933, 125K 129), der vom germanischen Einfluss auf das Französische spricht, erwähnt 172 Wörter germanischen Ursprungs, von denen 28, d. h. 16 %, mit h anfangen. Der Index zur Arbeit Rosettis (1954, 80K86) über den slavischen Einfluss auf das Rumänische umfasst 1068 dakorumänische Wörter, von denen 21, d. h. 2 %, mit h beginnen. Dieser Prozentsatz wäre höher, wenn man aus dem Index rumänische Wörter nichtslavischer Herkunft eliminieren würde. Der Index zum Buch Siatkowskis (1970, 219K248) über tschechische Lehnwörter im Polnischen zählt 29 Seiten, von denen die Wörter auf h- 1,5 Seiten (5 %) zählen. Auch hier wäre der Prozentsatz etwas höher, wenn man daraus Wörter, die keine Lehnwörter sind, ausschließen würde. Der Index zur Arbeit von Hrabec (1949, 153K159) über ostslavische Wörter im Polnischen hat 6 Seiten, von denen die mit h- beginnenden Wörter 1/4 Seite (4 %) besetzen. Auch 4 % (1,25 Seiten) bilden die Wörter auf h- und ch- im Index zur Arbeit Korbuts (1935, 139K173) über deutsche Lehnwörter im Polnischen, der insgesamt 34 Seiten zählt. Nachdem festgestellt wurde, wie hoch der Prozentsatz der Lehnwörter von dem in Frage kommenden Typus in verschiedenen Sprachen ist, ist es interessant zu erfahren, was für ein Verhältnis zwischen den urslavischen Wörtern auf *ch-, die nach Gołąbs Meinung iranischer Herkunft sind, und den übrigen iranischen Lehnwörtern besteht. Dies ist keineswegs eine leichte Aufgabe, weil sich verschiedene Sprachforscher über die Anzahl von iranischen Lehnwörtern im Urslavischen nicht einig sind. Vasmer (1916, 173K176) betrachtete die folgenden 9 Wörter als entlehnt aus dem Iranischen: bogъ, čaša, choměstorъ, chъmelь, chvostъ, kotъ (kotьcь), sobaka, sъto, toporъ. Rozwadowski (1914K1915) glaubte kaum, dass es iranische Lehnwörter im Urslavischen gab, erwähnte aber 7 Wörter, die als solche verdächtigt werden dürften: sobaka, *korgujь,
625
43. Diachronie: Grammatik
kord, vatra, črъtogъ, čaša, toporъ. Meillet (1926) beschränkte den iranischen Einfluss auf ein einziges Wort (toporъ). Lehr-Spławiński (1946, 46K47) war derselben Meinung. Dagegen erwähnt Zaliznjak (1962) 16 urslavische Wörter iranischen Ursprungs: *ašterъ, čaša, črъtogъ, choměstorъ, *chъmelь, *gunja, *korgujь, mědь, mogyla, *rajь, ravьnъ, rota, sъto, toporъ, *vatra, vina und Stanislav (1967) 7: bogъ, čaša, chъmelь, chvostъ, sobaka, sъto, toporъ. Ein aus allen diesen Daten berechnetes arithmetisches Mittel beträgt 7. Außerdem muss man feststellen, dass es nicht leicht ist zu bestimmen, wie viele iranische Wörter auf *ch- es der Ansicht Gołąbs nach im Urslavischen gab. Im Résumé seines Vortrages erwähnt er (1973a) 10 Lehnwörter, im vollen Text (1973b) 13: xajati, xoxati, *xolstъ, xotěti, xovati, *xrę(d)no˛ti (*xlę(d)no˛ti), xvala, xvaliti, xvějati, xvoja, xvostъ, xynoø ti, xula. Doch aller Wahrscheinlichkeit nach glaubt Gołąb an mehr als 13 Wörter iranischen Ursprungs, wenn er schreibt: „In the following paragraphs of this paper I analyze a number of Common Slavic words with the initial x- which I consider Iranian loanwords. I discuss chiefly those words for which Iranian etymology is proposed for the first time.“ Obwohl es möglich ist, dass es nach Gołąb mehr als 13 iranische Lehnwörter auf *ch- im Urslavischen gegeben hat, begnügen wir uns mit 13. Weil der Verfasser in seinem Vortrag die nicht mit *ch- beginnenden iranischen Lehnwörter nicht behandelt, nehmen wir das oben berechnete arithmetische Mittel an, und zwar 7. Falls diese Schätzungen zutreffen, stellt sich heraus, dass Gołąbs Ansicht nach von 20 iranischen Lehnwörtern im Urslavischen 13 (d. h. 65 %) mit *chanlauteten. Wenn man berücksichtigt, dass im Französischen, Rumänischen und Polnischen der Prozentsatz von Lehnwörtern auf h- oder ch- zwischen 2 % und 16 % schwankt, muss man 65 % als eine unerwartete Anzahl bezeichnen. Darüber hinaus ist es wichtig hinzuzufügen, dass in dem altiranischen Wörterbuch Bartholomaes, das insgesamt 1880 Spalten zählt, die mit h oder x beginnenden Wörter 163 Spalten (9 %) einnehmen. Selbstverständlich ist der niedrige Prozentsatz von h- und x- im Altiranischen (9 %) mit dem hohen Prozentsatz von x- in den angeblichen iranischen Lehnwörtern im Urslavischen (65 %) unvereinbar.
Gegen die Hypothese Gołąbs kann noch ein anderes Argument beigebracht werden. Unter den 13 angeblichen iranischen Lehnwörtern im Urslavischen gibt es 8 Verben (62 %), was eine unerwartete Anzahl bildet, wenn man bedenkt, dass unter rund 100 keltischen Lehnwörtern im Altfranzösischen kaum ein paar Verben sind. Unter ca. 100 Wörtern ungarischer Herkunft im Polnischen gibt es nur 2 oder 3 Verben. Aufschlussreich sind auch Daten, die man aufgrund des Indexes zum Wörterbuch Kluges (1960, 901K917) festsetzen kann (Tabelle 43.4): Tabelle 43.4: Lehnwörter im Deutschen Lehnwörter
Substan- Verben tive
Adjektive
Baltische 2 Tibetanische 2 Assyrische 3 Magyarische 5 Australische und 5 polynesische Baskische 6 Chinesische 6 Japanische 7 Afrikanische 13 Ägyptische 14 Nordische 17 Keltische 18 Spanische 22 Malaiische 22 Indische 29 Amerikanische 50 Persisch-türkische 56 Slavische 98 Arabische 115
K K K K 1
K K K K K
K K K K K K K K K 1 K 1 2 4
K K K K K K 2 K K 1 K K K 1
490
9
4
Wieder einmal ist der niedrige Prozentsatz von Verben unter den aus verschiedensten Sprachen entlehnten Wörtern im Deutschen (2 %) mit dem hohen Prozentsatz von Verben unter den angeblichen iranischen Lehnwörtern im Urslavischen (62 %) unvereinbar. Die einzige Folgerung, die man aus all diesen Vergleichen ziehen kann, ist die, dass die Hypothese Gołąbs, wonach die mit *chbeginnenden urslavischen Wörter dem iranischen Einfluß zuzuschreiben wären, falsch ist.
6.
Literatur (in Auswahl)
Aebischer, Paul (1960), La finale -e du féminin pluriel italien. Essai de stratigraphie linguistique. In: Studi linguistici italiani 1, 5K58.
626
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Brunot, Ferdinand (1933), Histoire de la langue française des origines à 1900. T. 1. Paris: Colin. Cohen, Marcel (1947), Histoire d’une langue: le français. Paris: Hier et Aujourd’hui. Colussi, C. (1961), Rez. zu Studi linguistici italiani. In: Neuphilologische Mitteilungen 62. Darmesteter, A./Hatzfeld, A. (1934), Le seizie`me sie`cle en France. Paris: Delagrave. Dauzat, Albert (1926), La langue française, sa vie, son évolution. Paris: Stock. Dauzat, Albert (1939), Tableau de la langue française. Paris: Payot. Diez, Friedrich (1846), Altromanische Sprachdenkmale. Bonn. Fenk-Oczlon, Gertraud (1989), Geläufigkeit als Determinante von phonologischen Backgrounding-Prozessen. In: Papiere zur Linguistik 40, 91K103. Gerola, B. (1950), Il nominativo plurale in -ās nel latino e il plurale romanzo. In: Symbolae philologicae Gotoburgenses, 327K354. Gołąb, Zbigniew (1973a), The Initial x- in Common Slavic. In: VII Międzynarodowy Kongres Slawistów. Streszczenia referatów. Warszawa, 30K32. Gołąb, Zbigniew (1973b), The Initial x- in Common Slavic. In: American Contributions to the Seventh International Congress of Slavists, 129K156. Haudricourt, André (1948), Proble`mes de phonologie diachronique (français ei O oi). In: Lingua 1, 209K218. Hrabec, Stefan (1949), Elementy kresowe w języku niektórych pisarzy polskich XVI i XVII w. Toruń: Tow. Naukowe. Kluge, Friedrich (1960), Etymologisches Wörterbuch der deutschen Sprache. 18. Aufl. Berlin: de Gruyter. Korbut, Gabriel (1935), Niemczyzna w języku polskim. Warszawa: Otty. Lehr-Spławiński, Tadeusz (1946), O pochodzeniu i praojczyźnie Słowian. Poznań: Instytut Zachodni. Leppermann, H. (1890), De correptione vocabulorum, quae apud Plautum in senariis atque septenariis iambicis et trochaicis invenitur. Münster. Lloyd, Paul (1987), From Latin to Spanish, Memoirs of the American Philosophical Society. Philadelphia: American Philosophical Society. Lüdtke, Helmut (1962), Zu bündnerrom. błer ,viel‘ ! MILLIARIUM. In: Vox Romanica 21, 108K111. Mańczak, Witold (1966), La nature du supplétivisme. In: Linguistics 28, 82K89. Mańczak, Witold (1987), Frequenzbedingter unregelmäßiger Lautwandel in den germanischen Sprachen. Wrocław: Ossolineum. Margueron, Claude (1961), Rez. zu Studi linguistici italiani. In: Revue des Études Italiennes 8.
Meillet, Antoine (1926), Le vocabulaire slave et le vocabulaire indo-iranien. In: Revue des Études Slaves 6. Meillet, Antoine (1948), Linguistique historique et linguistique générale. Paris: Champion. Meringer, R. (1905), Wörter und Sachen. In: Indogermanische Forschungen 18, 204K296. Meyer-Lübke, Wilhelm (1913), Historische Grammatik der französischen Sprache, Teil 1. Heidelberg: Winter. Mihăescu, Haralambie (1959), Quelques remarques sur le latin des provinces danubiennes de l’empire romain. In: Recueil d’études romanes publié à l’occasion du 9e Congre`s international de linguistique romane à Lisbonne. Bucureşti: Ed. Acad. RPR. Picard, Marc (1997), On the effects of frequencyinduced phonological change. In: Diachronica 14, 109K117. Politzer, Robert (1952), On the Origin of the Italian Plurals. In: Romanic Review 43, 272K281. Pope, M. K. (1966), From Latin to Modern French with Especial Consideration of Anglo-Norman Phonology and Morphology. Manchester: Univ. Press. Pott, A. F. (1852), Plattlateinisch und Romanisch. In: Zeitschrift für vergleichende Sprachforschung 1. Reichenkron, Günter (1939), Beiträge zur romanischen Lautlehre. Jena: Gronau. Rohlfs, Gerhard (1949), Historische Grammatik der italienischen Sprache. Bd. 2. Bern: Francke. Rosetti, Alexandru (1954), Influenţa limbilor slave meridionale asupra limbii române (sec. VIKXII). Bucureşti: Edit. Acad. RPR. Rozwadowski, Jan (1914K1915), Stosunki leksykalne między językami słowiańskimi a irańskimi. In: Rocznik Orientalistyczny 1, 95K110. Safarewicz, Jan (1963), Sur les désinences verbales en grec et en latin. In: Eos 53, 107K115. Sas, L. F. (1937), The Noun Declension System in the Merovingian Latin. Paris. Schogt, Henry (1960), Les causes de la double issue de e fermé tonique libre en français. Amsterdam: van Dorschot. Schwan, E./Behrens, D. (1909), Grammatik des Altfranzösischen. Leipzig: Reisland. Shaterian, A. (1990), Rez. zu Mańczak 1987. In: Diachronica 7, 121K127. Siatkowski, Janusz (1970), Bohemizmy fonetyczne w języku polskim. Bd. 2. Wrocław: Ossolineum. Stanislav, Jan (1967), Dejiny slovenského jazyka. Bratislava: SAV. Suchier, Hermann (1904K1906), Die französische und provenzalische Sprache. In: Grundriß der romanischen Philologie (Hrsg. Gustav Gröber). Bd. 1. 2. Aufl. Straßburg: Trübner, 712K840.
627
44. Das Piotrowski-Gesetz Tekavčić, Pavao (1972), Grammatica storica dell’italiano. Bd. 1. Bologna: il Mulino. Väänänen, Veikko (1967), Introduction au latin vulgaire. 2. Aufl. Paris: Klincksieck. Vasmer, Max (1916), Kritisches und Antikritisches zur neueren slavischen Etymologie. In: Rocznik Slawistyczny 6. Werner, Otmar (1993), Schwache Verben ohne Dental-Suffix im Friesischen, Färöischen und in Nynorsk. In: Sprachwandel und Sprachgeschichte.
Festschrift für H. Lüdtke zum 65. Geburtstag (Hrsg. Jürgen Schmidt-Radefeld). Tübingen: Narr, 221K237. Zaliznjak, A. A. (1962), Problemy slavjano-iranskich jazykovych otnošenij drevnejšego perioda. In: Voprosy jazykoznanija 6. Zipf, G. K. (1935), The Psycho-Biology of Language. Cambridge/Mass.: Harvard University Press.
Witold Mańczak, Krakau (Polen)
44. Das Piotrowski-Gesetz 1. 2. 3. 4. 5. 6. 7. 8. 9.
Zur Genese des Begriffs Unvollständige Ausbreitung Rückläufige Anpassungsprozesse Exkurs: Differentialgleichungen erster Ordnung mit getrennten Veränderlichen Vor- und Rückwärtsentwicklung Kritik des Piotrowski-Gesetzes Konsequenzen für die Datenerhebung Zusammenfassung Literatur (in Auswahl)
1.
Zur Genese des Begriffs
Abb. 44.1: Graph der Funktion p (t) in Gleichung (2)
Das Piotrowski-Gesetz macht eine Aussage über den quantitativen Verlauf der Ausbreitung neuer sprachlicher Formen in einer Sprachgemeinschaft. Verschiedene Autoren haben bereits in den 60er Jahren qualitative Vermutungen über den s-förmigen zeitlichen Verlauf sprachlicher Veränderungen geäußert. Sie gingen davon aus, dass eine Veränderung langsam anfängt, sich beschleunigt sobald sie akzeptiert wird und schließlich wieder abebbt, wenn sie auf Sprecher stößt, die sie ablehnen. Piotrowskaja und Piotrowski (1974) verwendeten zwei verschiedene Funktionen, um die Änderung des Anteils der endungslosen Genitivformen im Russischen im Zeitverlauf zu beschreiben, den Arcustangens p (t) Z
1 π
arctan µ (t K t1) C
1 2
(1)
und den hyperbolischen Tangens p (t) Z
1 2
tanh µ (t K t1) C
1 2
(2)
Diese Funktionen besitzen beide einen sförmigen Verlauf (Abb. 44.1). Der Parameter t1 gibt dabei den Zeitpunkt an, zu dem der Anteil der neuen endungslosen Formen
an den Genitivformen insgesamt 50 % beträgt. Altmann (1983) erklärt die Ausbreitung neuer sprachlicher Formen durch einen interaktionistischen Ansatz: Sprachliche Neubildungen breiten sich in der Sprachgemeinschaft aus, indem die Mitglieder der Sprachgemeinschaft miteinander kommunizieren und so die Neubildung weitergeben, ähnlich wie sich ein Virus in einer Population ausbreiten kann, weil die Individuen miteinander in Kontakt treten und so das Virus weiterverbreiten: Die zu einem Zeitpunkt bereits infizierten Individuen besitzen das Potenzial, weitere Individuen zu infizieren, während die bislang noch nicht infizierten die Möglichkeit besitzen, infiziert zu werden. Daraus wird gefolgert K und diese Folgerung wird in Paragraph 6 problematisiert K, dass die Geschwindigkeit, mit der sich neue Formen in der Sprachgemeinschaft ausbreiten, proportional zu dem Anteil der alten und neuen Formen ist (Altmann/von Buttlar/Rott u. a. 1983). Sie formalisieren diesen Sachverhalt durch die Differentialgleichung p#(t) Z r $ p (t) (1 K p (t))
(3)
628
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
bei der p (t) den Anteil neuer Formen und (1 K p (t)) den Anteil alter Formen angibt. Der Proportionalitätsfaktor r ist positiv, und die linke Seite der Gleichung bezeichnet die Zunahme des Anteils neuer Formen zum Zeitpunkt t. Gleichung (3) ist eine Differentialgleichung, deren Lösungsmenge durch p (t) Z
1 1 C a $ eKrt
(4)
gegeben ist, wie man durch Einsetzen in (3) nachprüfen kann. Der Parameter a ist eine frei wählbare positive Zahl, durch die der Graph der Funktion auf der Zeitachse verschoben wird (für a Z 1 nimmt der Anteil der neuen Formen p (t) an der Stelle t Z 0 gerade den Wert ½ an). Der Parameter r wirkt sich auf die Steilheit der Funktion p (t) aus. Bei großem r verläuft der Ausbreitungsprozess sehr abrupt, während ein kleiner Wert von r zu einem ausgeglichenen und gleichmäßigen Anstieg führt.
schen wurde neuer (1983)
2.
Überprüfung standhalten. Daher dieses Modell über die Ausbreitung sprachlicher Formen von Altmann als Piotrowski-Gesetz bezeichnet.
Unvollständige Ausbreitung
Altmann erweitert das Piotrowski-Gesetz in verschiedener Hinsicht, so dass auch unvollständige oder rückläufige Ausbreitungsprozesse erklärt werden können. Im Falle des unvollständigen Ersetzungsprozesses von alten durch neue Formen setzte Altmann (1983) noch einen weiteren Parameter ein. In diesem Fall werden die alten Formen nur teilweise durch neue ersetzt. Der asymptotische Anteil der Ersetzungen wird durch den Parameter c quantifiziert. Nimmt dieser Parameter z. B. den Wert 1/2 an, so wird schließlich nur die Hälfte der alten Formen durch neue ersetzt. Bei einem Parameterwert von c Z 1 ist die Ersetzung vollständig wie in Gleichung (3) und (4). Für den Fall der unvollständigen Ersetzung stellt Altmann (1983) die Differentialgleichung p#(t) Z r $ p (t) (c K p (t))
(5)
auf, die die Lösungen p (t) Z
Abb. 44.2: Funktion p (t) für a Z 1 und verschiedene Werte von r.
Gleichung (3) wurde bereits zu Beginn dieses Jahrhunderts von Epidemiologen verwendet, um die Ausbreitungsdynamik einer biologischen Population mit begrenztem Lebensraum zu modellieren (vgl. Goel/Richter-Dyn 1974). Dabei gibt p (t) jeweils die Größe der Population in Abhängigkeit von der Zeit an. Es zeigte sich, dass Gleichung (4) verschiedene Phänomene des Sprachwandels erklären konnte (vgl. Altmann/von Buttlar/Rott u. a. 1983; Best 1983; Best/ Kohlhase 1983 b; Kohlhase 1983; Imsiepen 1983). Wenn man in Gleichung (2) den Wert t1 gleich ln (a) / r setzt, stimmt Gleichung (4) mit der von Piotrowskaja und Piotrowski verwendeten Gleichung (2) überein. Die Gleichungen (2), (3) und (4) erfüllen damit die Eigenschaften eines Sprachgesetzes (vgl. Altmann 1993); denn es handelt sich um Aussagen, die einerseits theoretisch deduzierbar sind und andererseits der empiri-
c 1 C a $ eKr$c$t
(6)
besitzt, wobei c, a und r wieder positive reelle Zahlen sind. Der Parameter c liegt im Intervall (0; 1] und gibt den asymptotischen Anteil der neuen Formen an, wenn die Zeitvariable t gegen unendlich strebt. Im Falle c Z 1 ist Gleichung (5) mit Gleichung (3) identisch. Die Werte der Parameter c und r in Gleichung (6) können durch verschiedene Einflussgrößen erklärt werden (vgl. Leopold 1998, 106 ff.).
3.
Rückläufige Anpassungsprozesse
Die Herleitung der Differentialgleichung (3) geht davon aus, dass der Zuwachs an neuen Formen sowohl zu dem bereits erreichten Anteil neuer Formen, also auch zu dem Anteil der alten Formen proportional ist. Damit wird impliziert, dass der Parameter r stets positiv sein muss. Denn ein negativer Parameter r würde auf eine wenig plausible Modellvorstellung verweisen, nach der die Verwendung einer sprachlichen Form zu deren Rückgang führt. Dies widerspricht der ursprünglichen Idee des Piotrowski-Geset-
629
44. Das Piotrowski-Gesetz
zes, nach der die Ausbreitung einer Form durch die Interaktion der Individuen einer Sprachgemeinschaft geschieht. Es ist jedoch dennoch möglich, den Ansatz des Piotrowski-Gesetzes auf negative Werte von r zu erweitern, und damit eine Abnahme von Formen zu modellieren. Hierzu ist allerdings eine weitere Annahme nötig, die sich auf das Paradigma der synergetischen Linguistik stützt (vgl. Art. Nr. 53). Sprachliche Formen besitzen in der Regel funktionale Äquivalente. D. h. es gibt andere Formen oder Kodierungsmethoden, die dieselbe Funktion im Sprachsystem ausüben. Ein rückläufiger Anpassungsprozess einer sprachlichen Form w kann deshalb dadurch erklärt werden, dass sich zu w äquivalente Formen K ob es eine oder mehrere sind, ist für die hier verfolgte Fragestellung ohne Belang K, gemäß Gleichung (3) in der Sprachgemeinschaft ausbreiten. Diese Formen verdrängen nach und nach die Form w und führen zu deren abnehmender Verwendung. Die Annahme eines negativen Parameters r in Gleichung (3), (4), (5) und (6) ist formalwissenschaftlich kein Problem; die Lösung der Differentialgleichungen erfolgt völlig analog. Eine klarere Lösung mit eindeutigerer Modellvorstellung ergibt sich jedoch, wenn man, wie oben ausgeführt, je nach Vorzeichen von r verschiedene Ausbreitungsprozesse von funktional äquivalenten Formen annimmt. Dies gilt umso mehr, wenn man bedenkt, dass Zu- und Abnahme einer Form auf unterschiedliche Systembedürfnisse (vgl. Art. Nr. 53) zurückgehen können, und es sich daher um unterschiedliche Prozesse mit unterschiedlichen Geschwindigkeiten handeln kann.
4.
Exkurs: Differentialgleichungen erster Ordnung mit getrennten Veränderlichen
Die (erste) Ableitung p#(t) einer mathematischen Funktion p (t) bezeichnet die Änderung des Funktionswertes p (t) an der Stelle t in Folge einer infinitesimalen Änderung des Argumentwertes t. Anschaulich kann p#(t) als Steigung der Funktion p (t) and der Stelle t interpretieren. Unter entsprechenden Glattheitsvoraussetzungen an die Funktion p K sie darf, bildlich gesprochen keine Knicke besitzen K kann die Bildung der Ableitung iteriert werden. So bezeichnet die
zweite Ableitung p##(t) die Änderung der Änderung von p (t) und so fort. Differentialgleichungen erster Ordnung setzen den Wert einer Funktion zu deren erster Ableitung in Beziehung. Differentialgleichungen höherer Ordnung enthalten auch Ableitungen höherer Ordnung.
Abb. 44.3: Funktion mit Ableitung und Stammfunktion
Die bis hierher erwähnten Differentialgleichungen fallen sämtlich in eine besonders einfache Klasse von Differentialgleichungen. Sie zählen zu den so genannten Differentialgleichungen erster Ordnung mit getrennten Variablen. Diese lassen sich schreiben in der Form p#(t) Z r (t) $ g (p (t))
(7)
Unter gewissen Voraussetzungen (vgl. Walter 1990, 2) ergeben sich die Lösungen von Gleichung (7) durch Auflösung der Gleichung p
G (p) Z
t
∫ g (q) Z∫r (s) ds Z R (t) p0
dq
(8)
t0
nach p, wobei das Wertepaar (p0, t0) einen frei vorgebbaren Anfangswert bezeichnet (in unserem Falle ist dies der Anteil neuer Formen, der zu einem bestimmten Zeitpunkt erreicht wird). Die von Altmann (1983) vorgeschlagenen Verallgemeinerungen des Piotrowski-Geset-
Abb. 44.4: Differentialgleichung (3) und deren Lösung p (t) in Gleichung (4).
630
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
zes basieren darauf, dass statt eines konstanten Parameters r in Gleichung (3) eine zeitlich veränderliche Funktion r (t) verwendet wird. Auf diese Weise wird die Möglichkeit berücksichtigt, dass sich die für die Ausbreitung einer neuen Form verantwortlichen Systembedürfnisse im Zeitverlauf ändern. Die im Zusammenhang mit dem PiotrowskiGesetz wichtigen Differentialgleichungen fallen daher unter den folgenden Spezialfall von Gleichung (7): p (t) Z r (t) $ p (t) (c K p (t))
(9)
Die Funktion g (p) in Gleichung (7) ist in diesem Fall g (p) Z p (c K p), und die Stammfunktion auf der linken Seite von Gleichung (8) ergibt sich als
∫ p (c K p) Z c ln |c K p| 1
dp
p
(10)
wie man in Integraltafeln nachschlagen kann. Löst man die rechte Seite von Gleichung (10) nach p auf, so erhält man als Lösungen der Differentialgleichung (9): p (t) Z
c 1 C aeKcR (t)
(11)
Die Funktion R (t) ist eine Stammfunktion von r (t). Der Parameter c spielt die gleiche Rolle wie in Gleichung (6) und liegt wieder im Intervall (0; 1]. Der Parameter a ist positiv und ergibt sich aus einem vorgebbaren Anteil neuer Formen zu einem bestimmten Zeitpunkt. Er lokalisiert den Graphen auf der Zeitachse und muss empirisch ermittelt werden. Die Differentialgleichung (9) sagt nur etwas über den Verlauf eines Ausbreitungsprozesses aus, aber nichts darüber, zu welchem Zeitpunkt sich alte und neue Formen die Waage halten.
r (t) Z β K γt ,
Vor- und Rückwärtsentwicklung
Ausgehend von den Überlegungen in den vorangegangenen Abschnitten kann man nun die Funktion r (t) in Gleichung (9) bzw. deren Stammfunktion R (t) in Gleichung (11) so wählen, dass sie Modellvorstellungen über die Ausbreitung oder Abnahme einer sprachlichen Form reflektiert. Eine einfache Hypothese ist zum Beispiel: Die Ausbreitungsgeschwindigkeit einer Form w fällt proportional zu der Zeitdauer, über die der Anpassungsprozess läuft, bis dieser schließlich zum Erliegen kommt. Dies wird formalisiert durch
β γ
(12)
β
ist der Ausbreitungsproγ zess zum Stillstand gekommen. Eine funktional äquivalente Form v beginnt sich zu diesem Zeitpunkt auszubreiten, und die Geschwindigkeit dieses zweiten Ausbreitungsβ* prozesses wächst vom Zeitpunkt t Z an γ* linear. Dies wird formalisiert durch
Im Zeitpunkt t Z
r (t) Z β K γt ,
tR
β* . γ*
(13)
Unter der Annahme, dass die Ausbreitungsgeschwindigkeit der betrachteten Form w genau so schnell fällt, wie die der funktional äquivalenten Form v steigt, stimmen ß und ß* sowie γ und γ* überein. Die Gleichungen (12) und (13) lassen sich dann zusammenfassen. Gerade dies hat Altmann (1983, 61) getan, und er gelangt so zu der Differentialgleichung p#(t)Z (β K γt) p (t) (1Kp (t)) ,
(14)
die die Lösungen p (t) Z
1
(15)
2
1 C aeKβ tCγt
besitzt. Diese Funktion konnte von Imsiepen jedoch nur mit mäßigem Erfolg an die Zu- und Abnahme der e-Epithese bei starken Verben des Deutschen angepasst werden (Imsiepen 1983, 133). Imsiepen verwendet daher eine weitere von Altmann vorgeschlagene Formel 1
p (t) Z
5.
t%
(
1 γ
K β tK e γt
1Ce
)
(16)
um die Entwicklung der e-Epithese im Deutschen zu beschreiben (Imsiepen 1983, 133 f.). Diese Gleichung kann aus der Differentialgleichung p#(t) Z (β K e γt) p (t) (1 K (t))
(17)
hergeleitet werden. Die Funktion in Gleichung (16) erwies sich als besser geeignet, um den zeitlichen Verlauf der Daten zu erklären. Die Differentialgleichung (17) enthält die Funktion r (t) Z β K e γt und entspricht einer Modellvorstellung, nach der die Ausbreitung einer Form w immer lang-
631
44. Das Piotrowski-Gesetz
samer wird und schließlich im Zeitpunkt ln β zum Erliegen kommt. Nach diesem γ Zeitpunkt breitet sich eine zu w funktional äquivalente Form mit ständig zunehmender Geschwindigkeit aus, so dass die Form w sehr schnell ausstirbt.
Zu- und Abnahme einer Form getrennt erklärt werden können. Kandidaten für r (t) könnten sein r (t) Z eKγt γ r (t) Z t
(18) (19)
oder r (t) Z
Abb. 44.5: Graph der Funktion r (t) Z β K e γt
Der hier dargestellte Ansatz, die Zu- und Abnahme einer sprachlichen Einheit mit einer einzigen Funktion zu beschreiben, ist jedoch wenig transparent. Eine deutlichere Formulierung mit besser motivierter Modellvorstellung ergibt sich, wenn man die Hypothesen über die Zunahme einer sprachlichen Form von der über deren Abnahme trennt (siehe Paragraph 3.). Denn Zunahme und Abnahme einer sprachlichen Form gehen in der Regel auf unterschiedliche Systembedürfnisse zurück. Es handelt sich daher im Allgemeinen um zeitliche Prozesse mit unterschiedlichen Geschwindigkeiten. Im Falle der e-Epithese (vgl. Imsiepen 1983) kann der Ausbreitungsprozess auf ein Bedürfnis nach Reduktion von Komplexität morphologischer Regeln zurückgeführt werden, während der Rückgang, also die Ausbreitung von Formen ohne epithetisches e durch ein Bedürfnis nach Reduktion von Artikulationsaufwand erklärt werden kann. Theoretisch gibt es unendlich viele Funktionen, die in Gleichung (9) und (11) für r (t) (Die Funktion r (t) ist die erste Ableitung von R (t) und quantifiziert die Ausbreitungsdynamik zum Zeitpunkt t.) eingesetzt werden können (vgl. Abb. 44.2). Es ist daher schwer zu entscheiden, ob eine bestimmte Funktion r (t) die empirischen Befunde korrekt widerspiegelt. Allerdings sollte man, falls man den Proportionalitätsfaktor in Gleichung (3) als Funktion der Zeit ansetzen will, die Funktion r (t) so wählen, dass sie keinen Vorzeichenwechsel enthält, damit
γ 1 C t2
,
wobei sich die entsprechenden Lösungen jeweils durch Einsetzen in Gleichung (11) ergeben. Die ersten beiden Funktionen würden die kontinuierliche Abnahme eines den Sprachwandel bewirkenden Systembedürfnisses modellieren. Die letzte Funktion ist ein Modell für einen Sprachwandel, der um die Zeit t Z 0 herum besonders forciert wird, weil er etwa einem in dieser Zeit besonders bestehendem Systembedürfnis entgegenkommt. Allerdings ist es fraglich, ob es jemals überhaupt möglich sein wird, die Parameter des PG deduktiv zu bestimmen, da viele Entitäten der Sprache einen direkten Bezug zu der außersprachlichen Realität (z. B. zu der Kultur) haben, die sich schwer quantifizieren lässt und außerhalb der wissenschaftlichen Kompetenz des Linguisten liegt (Altmann 1983, 88).
6.
Kritik des Piotrowski-Gesetzes
Das Piotrowski-Gesetz geht in der differentialanalytischen Interpretation von Altmann (siehe Paragraph 1) auf ein aus der Epidemiologie entlehntes interaktionistisches Konzept zurück. Dabei wird der Mechanismus, der bewirkt, dass der Zuwachs proportional zu den alten und den neuen Formen ist, nicht expliziert. Dies könnte z. B. durch ein stochastisches Modell wie eine Verzweigungskette (vgl. Leopold 1999) geschehen. Die Differentialgleichung (3) besitzt daher den wissenschaftstheoretischen Status einer intuitiven Heuristik, die allerdings der empirischen Überprüfung standhält. Unklar bleibt noch, wie die Zeitachse der Funktion p (t) definiert ist, wenn die Ausbreitung einer neuen Form dadurch geschieht, dass die Individuen der Sprachgemeinschaft miteinander kommunizieren und so die Neubildung einander weitergeben. Außerdem ist der Wertebereich der Funktion p (t) nicht geklärt.
632
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Die Zeitskala des Piotrowski-Gesetzes kann folgendermaßen präzisiert werden: Jedes Mal dann, wenn ein Kommunikationsbedürfnis besteht, das durch eine Funktion befriedigt wird, die von einem Ausdruck w erfüllt werden kann, ergibt sich die Gelegenheit, den Ausdruck w anzuwenden. Jede Anwendungsgelegenheit (vgl. Leopold 1998, 38) eines Ausdrucks ist eine Möglichkeit, diesen Ausdruck zu verwenden und kann damit zur Inventarisierung durch jene Individuen führen, die den Ausdruck vorher nicht verwendet haben. Die Anwendungsgelegenheiten definieren somit eine Zeitskala von Ausbreitungsprozessen sprachlicher Formen. Für Einheiten mit vielen Anwendungsgelegenheiten verläuft die Zeit sehr schnell. Solche Einheiten können sich mit einer höheren Geschwindigkeit ausbreiten als Einheiten mit wenig Anwendungsgelegenheiten. Damit wird eine Zeitskala impliziert, die nicht notwendigerweise mit der physikalischen Zeit übereinstimmt. (Leopold 1998, 103 f.) Bezüglich des Wertebereiches von p (t) stellt sich die folgende Frage: Ist die Bildmenge der Funktion p (t) durch den Anteil der Individuen der Sprachgemeinschaft, die die neue Form verwenden, gegeben oder durch den Anteil an den Anwendungsgelegenheiten? Die Beantwortung der Frage nach dem Wertebereich von p (t) ist eng verknüpft mit der Frage nach der Asymptote des Anpassungsprozesses. Bilden die Individuen der Sprachgemeinschaft den Wertebereich von p (t) so ist eine Ausbreitung dann vollständig, wenn alle Individuen die Neubildung verwenden. Ist der Wertebereich von p (t) hingegen der Anteil der Anwendungsgelegenheiten, so ist die Ausbreitung erst dann vollständig, wenn alle Individuen der Sprachgemeinschaft sie zu allen Anwendungsgelegenheiten benutzen; in diesem Falle gibt es keine Synonyme.
7.
Konsequenzen für die Datenerhebung
Dagegen, dass die Werte von p (t) als Anteil von Individuen einer Sprachgemeinschaft interpretieren kann, spricht, dass Kohlhase (1983) in Texten des Chronisten Heinrich Deichsler K also in den Texten eines einzigen Individuums K eine Ausbreitung neuer Formen (wurde) gegenüber alten (ward) gemäß Gleichung (3) nachweisen konnte. Al-
lerdings ist die Übereinstimmung mit dem Piotrowski-Gesetz sehr schlecht. Im ersten Moment erscheint es fraglich, wodurch die Differentialgleichung (3) erklärt werden kann, wenn nicht durch die Interaktion der Mitglieder der Sprachgemeinschaft. Kohlhase erklärt seinen Befund jedoch dadurch, dass ein einzelnes Individuum K sofern es sich nicht bewusst kontrolliert K sein eigenes Sprachverhalten ebenso ändert wie die Sprachgemeinschaft, in der es lebt. Die Frage nach dem Wertebereich von p (t) kann zum gegenwärtigen Zeitpunkt nicht beantwortet werden. Es kann sich dabei um den Anteil der Individuen einer Sprachgemeinschaft handeln. Man kann den Wertebereich von p (t) aber auch als Anteil der in Frage stehenden Form an ihren Anwendungsgelegenheiten insgesamt verstehen. Eine dritte Möglichkeit, einen Ausbreitungsprozess zu interpretieren, ergibt sich durch die verschiedenen Kontext- oder Stilbereiche, in denen eine Form verwendet werden kann. Bezüglich der Interpretation des Wertebereichs von p (t) besteht dringender Forschungsbedarf. Sie ist nicht nur für das Verständnis von Ausbreitungsprozessen entscheidend, sondern sie determiniert auch die Art der Daten, die für eine empirische Validierung verwendet werden sollten. Im ersten hier angesprochenen Fall (Anteil von Individuen als Wertebereich) braucht man ein Korpus, in dem möglichst viele Individuen zu Wort kommen. Im zweiten Fall (Anteil an den Anwendungsgelegenheiten) genügen Texte eines einzigen Individuums. Im letzten Fall wird ein Korpus benötigt, dass aus Texten verschiedener Kontext- und Stilbereiche besteht.
8.
Zusammenfassung
Unter dem Piotrowski-Gesetz wird ein aus der Epidemiologie entlehntes Modell verstanden, das den zeitlichen Verlauf der Ausbreitung neuer sprachlicher Formen beschreibt. Es gibt empirische Befunde (vgl. Best/Kohlhase 1983a), die das Modell stützen. Daher kann es nach Altmann (1983) als Gesetz bezeichnet werden. Das PiotrowskiGesetz hat Verallgemeinerungen durch Altmann (1983) erfahren, die seinen Gültigkeitsbereich auf unvollständige und rückläufige Ausbreitungsprozesse ausdehnen. Sowohl auf der deduktiven, wie auch auf der induktiven Seite besteht weiterer Forschungsbedarf bezüglich des Piotrowski-Gesetzes.
633
45. Genealogische Verwandtschaft
9.
Literatur (in Auswahl)
Altmann, Gabriel (1983), Das Piotrowski-Gesetz und seine Verallgemeinerungen. In: Best/Kohlhase 1983a, 59K90. Altmann, Gabriel (1993), Science and Linguistics, In: Contributions to Quantitative Linguistics, Proceedings of the First International Conference on Quantitative Linguistics (QUALICO), Trier, 1991. (Hrsg. Reinhard Köhler/Burghard B. Rieger). Dordrecht: Kluwer, 3K10. Altmann, Gabriel/von Buttlar, H./Rott, W./ Strauss, U. (1983), A law of language change. In: Historical Linguistics. (Hrsg. B. Brainerd). Bochum: Brockmeyer. Best, Karl-Heinz (1983), Zum morphologischen Wandel einiger deutscher Verben. In: Best/Kohlhase 1983a, 107K118. Best, Karl-Heinz/Kohlhase, Jörg (Hrsg.), Exakte Sprachwandelforschung. Göttingen: Herodot, 1983a. Best, Karl-Heinz/Kohlhase, Jörg (1983b), Der Wandel von ward zu wurde. In: Best/Kohlhase 1983a, 91K102. Goel, Narenda S./Richter-Dyn, Nira (1974), Stochastic models in biology. New York u. a.: Academic Press.
Imsiepen, Ulrike (1983), Die e-Epithese bei starken Verben im Deutschen. In: Best/Kohlhase 1983a, 119K160. Kohlhase, Jörg (1983), Die Entwicklung von ward zu wurde beim Nürnberger Chronisten Heinrich Deichsler. Als ein Nachtrag zum Vorigen. In: Best/Kohlhase 1983a, 103K106. Leopold, Edda (1998), Stochastische Modellierung lexikalischer Evolutionsprozesse. Hamburg: Dr. Kovač. Leopold, Edda (1999), Chaotische Dynamik im Internet? Zur Geometrie von Kommunikationssystemen. In: Akten des 32. Linguistischen Kolloquiums. (Hrsg. H. O. Spillmann/I. Warnke). Frankfurt am Main: Peter Lang, 238K247. Piotrowskaja, A. A./Piotrowski, R. G. (1974), Matematičeskie modeli diachronii i tekstoobrazovanija. In: Statistica reči i avtomatičeskij analiz teksta, Leningrad: Nauka, 361K400. Walter, Wolfgang (1990), Gewöhnliche Differentialgleichungen. Berlin u. a.: Springer.
Edda Leopold, Sankt Augustin (Deutschland)
45. Genealogische Verwandtschaft 1. 2. 3. 4. 5. 6.
Wann sind Sprachen „verwandt“? Datenbewertung Beziehungsmaße Strukturierung genealogischer Abhängigkeiten Schlussbetrachtung Literatur (in Auswahl)
Sobald einige Sprachen bekannt werden, taucht unvermeidlich die Frage nach den Beziehungen zwischen ihnen auf, v. a., ob und wie sie miteinander verwandt sind. Diese Frage lässt sich für den einfachsten Fall dreier Sprachen etwa wie in Abb. 45.1 veranschaulichen: Seit den 30er Jahren werden hierzu auch quantitative Methoden herangezogen. Die Arbeiten unterscheiden sich nach (1) der Operationalisierung des Begriffs „genealogische Verwandtschaft“; (2) Kategorie, Art und Umfang der herangezogenen linguistischen Daten; (3) den angewandten quantitativen Verfahren (unser Schwerpunkt); (4) den Versuchen zur graphischen Darstellung der gefundenen Abhängigkeiten.
L1 L1,2,3 = belegte Sprachen ?
?
Y? ?
L2
X Y? ?
X, Y = mögliche Protosprachen
?
?
Y? ?
?
L3
Abb. 45.1: Verwandtschaftsmöglichkeiten dreier Sprachen
1.
Wann sind Sprachen „verwandt“?
Wir bezeichnen Sprachen als verwandt, wenn sie von einer gemeinsamen Muttersprache abstammen. Doch die Operationalisierung dieser schlichten Realdefinition, d. h. die Frage, woran denn dies zu messen ist (des adäquaten Maßstabs), bleibt strittig. Viele meinen es zu wissen: natürlich über die Ähnlichkeit. Mit einer solch durchschau-
634
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
sich drei Subsystemen zuordnen, die sich hinsichtlich Verfügbarkeit, genealogischer Relevanz sowie Folgerung und Gefahren für die quantitative Auswertung wie folgt unterscheiden:
Abb. 45.2: Herkunftskategorien der Daten dreier verwandter Sprachen
bar naiven Vorstellung begnügen sich leider immer noch allzu viele. Danach zählte der Wal zu den Fischen, und noch in unserem Jh. konnte natürlich der Mensch nicht mit dem Affen „verwandt“ sein. Diese Problematik zwischen phänotypischen (Ähnlichkeits-) vs. phylogenetischen (stammesgeschichtlichen) Beziehungen ist in der BioGenetik schon lange erkannt (vgl. Sokal 1966), doch bis heute nicht überzeugend gelöst (vgl. Bateman/Goddard/O’Grady u. a. 1990, 7). Daran schließt sich die Frage der Ausgliederungsreihenfolge und möglicher gemeinsamer Zwischenglieder, die gern aufgrund sog. „gemeinsamer Neuerungen“ entschieden wird (vgl. Abb. 45.2); doch die Definition dieser Neuerungen kann sehr oft nicht befriedigen.
2.
Datenbewertung
2.1. Linguistische Daten Die Daten sind selten für unsere Zielsetzung gewählt, sondern entspringen oft anderen Arbeitsfeldern, erscheinen deshalb in regional spezialisierten Zeitschriften und sind für Forschungen schwer auffindbar. Doch alle verwendeten linguistischen Daten lassen
2.1.1. Phonemisches Subsystem Es ist mittlerweile für sehr viele Sprachen der Welt zugänglich. Wandelbeziehungen oder Frequenz der Phoneme lassen sich leicht mathematisieren. Aber dieses Subsystem ist nach jedermanns Alltagserfahrung sehr substratgebunden, verändert genealogische Spuren. Selbst bei völliger Adaption einer neuen Sprache bleiben Aussprachetendenzen der Substratschicht erhalten, zumal in Zeiten, die keine ständige Korrektur durch normierende Medien kannten. Dazu sind parallele Entwicklungen so häufig, dass aus ihnen nicht ohne weiteres auf Verwandtschaft geschlossen werden darf. Deshalb müssen hierauf beruhende genealogische Berechnungen erheblicher Skepsis begegnen (z.B. der sog. „U-Penn tree“ von Ringe/ Warnow/Taylor 2002, oder der „Sheffield tree“, vgl. McMahon 2002). 2.1.2. Lexikalisches Subsystem Es ist nach Umfang und etymologischer Durchdringung der Sprachfamilien sehr unterschiedlich verfügbar: Oft liegen nur begriffsorientierte Testlisten vor, selten auf der Basis eines etymologischen Wörterbuches (s. 2.2). Absolute Voraussetzung für quantitative lexematische Vergleiche ist die Beachtung der jeweiligen Lautgesetze, die ja eine genealogische Verwandtschaft überhaupt erst beweisen! Kognate ist hierbei ein üblicher Arbeitsbegriff für die Übereinstimmung von Formen, die als von einer gemeinsamen Vorform stammend angenommen werden, leider oft, ohne dass dies im strengen Sinn erwiesen ist. Da das Lexikon den Kommunikationsinhalt einer Sprache bestimmt, entscheidet es damit letztlich über ihre Abgrenzung, sagt aber nicht ohne weiteres etwas über die genealogische Verwandtschaft aus. 2.1.3. Grammatisches Subsystem Es ist nach überwiegender Ansicht die für die Bestimmung genealogischer Verwandtschaft entscheidende Grundlage (vgl. Teeter 1963, 644; Anttila 1989, 319; 172 zu Grenzfällen). Nun liegen Grammatiken zwar für fast alle Schriftsprachen vor, aber kaum für die übrigen (selbst für das Idg. fehlt eine
635
45. Genealogische Verwandtschaft
moderne umfassende vergleichende Grammatik). Dies Subsystem wurde bisher mit quantitativen Methoden selten herangezogen. 2.2. Statistische Anforderungen (1) Voraussetzung aller Statistik ist, dass die Daten von der Sache her, hier also genealogisch, relevant sind, was leider immer wieder übersehen wird; so müssen Merkmale homolog (hier etymologisch auf die Muttersprache rückführbar) sein. Dazu ist erstens erforderlich, die drei Subsysteme wegen ihrer sehr unterschiedlichen Aussagekraft in Untersuchungen grundsätzlich klar zu trennen; zweitens muss die Herkunft der Merkmale genau bestimmt werden. Die möglichen Herkunftskategorien von Daten dreier Sprachen fasst Abb. 45.2 quantitativ zusammen (die Pfeile deuten Entlehnungen an). Fehler in der etymologischen Kategorisierung der Daten führen zu falschen genealogischen Relationen; darüber hinaus erhöhen kaum erkennbare Zufallstreffer die Anzahl der Kognaten (s. 3.1.2), nicht erweisbare Einzel-Erbwörter dagegen vermindern ihre Zahl. (2) Um statistisch signifikant zu sein, müssen Daten von ausreichendem Umfang sein. Schon Doerfer (1972, 1) bemängelte, dass für die 60 Klassifikationen der Turksprachen stets nur „ein paar zusammengeraffte“ statt aller Charakteristika der Sprachen herangezogen worden seien. Die Forderung ist natürlich überzogen, realistisch erscheinen Testlisten mit den üblichen 100 bis 200 Merkmalen in diesen Fällen ausreichend, ein paar Isoglossen oder mutmaßliche Neuerungen aber sicher nicht. (3) Um repräsentativ zu sein, müssen alle Elemente die gleiche Ersetzungswahrscheinlichkeit haben. In der Linguistik ist diese Bedingung schwer erfüllbar: Ist es doch bisher nicht einmal gelungen, sich auch nur auf 200 Begriffe einer universalen Testliste zu einigen; diese wäre dann zwar nicht zufällig ausgewählt, doch wäre die Datenbasis zumindest für alle Sprachen gleich. (4) Einige Autoren fordern, dass die Merkmale der Testliste voneinander kombinatorisch unabhängig sein müssten, d.h. sich gegenseitig nicht ausschließen dürften. Beispiel: In Abb. 45.3 dürfe das in n1, n2, n3 aufspaltende Merkmal /k/ nur einmal aufgeführt werden, da hier die drei Ausprägungen in einer Sprache nicht nebeneinander auftreten. Dabei wird verkannt, dass es ja für die Merkmale in jeder Sprache fast immer irgendeine Ausprä-
gung gibt, die Daten also komplementär/ multinominal skaliert und damit für viele Algorithmen nicht mehr brauchbar wären. 2.3. Die Urliste Das herangezogene linguistische Ausgangsmaterial ist in eine Urliste einzutragen, in der quantitativen Linguistik am verbreitetsten etwa wie Abb. 45.3. Merkmale
Sprachen L1
L2
L3
n1: /k/ = /k/
X
–
–
n2: /k/ > /s/
–
X
–
´ n3: /k/ > /s/
–
–
X
n4:
X
X
–
2
2
1
∑ ,k‘
Abb. 45.3: Urliste (hier mit Merkmalaufspaltung)
Sie enthält üblicherweise die Spalten der Untersuchungsklassen, hier also Sprachgruppierungen ‚L‘, sowie ‚N‘ Zeilen der Merkmale ‚n‘ (Variablen/Elemente der Subsysteme/‘features’/‘characters’). Deren Ausprägungen/Werte/Status füllen als Rohdaten die Kreuzungsfelder: Bei unserer genealogischen Fragestellung darf eine binominale Skalierung der Daten nur für die Frage „Erbwort? ja : nein“ erscheinen. In allen anderen Fällen haben wir es mit multinominalen Ausprägungen der Merkmale zu tun, die nicht als positiv oder negativ zu markieren sind, sondern mit Kennbuchstaben oder -ziffern. Terminologisch ist eine Urliste keine Matrix im engeren Sinne (s. 3.3).
3.
Beziehungsmaße
Technisch folgt K ausgenommen bei qualitativer Baumkonstruktion gem. 4.1.2 K die nach Beziehungsmaßen suchende quantitative Analyse. 3.1. Synchrone Beziehungsmaße 3.1.1. Ähnlichkeitsmaße Bis heute deuten Anwender quantitativer Verfahren eine genealogische Verwandtschaft über Beziehungsmaße aus Ähnlichkeiten zwischen den untersuchten Sprachen. Dabei wird übersehen, dass das Ausmaß dieser Ähnlichkeiten gerade nicht vom
636
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
„Erbgang“ der betrachteten Zweige abhängt, sondern von vielen nichtgenealogischen intervenierenden Variablen. Die Ergebnisse können daher nur synchrone Ähnlichkeiten ausdrücken, niemals jedoch genealogische, diachrone Tiefe. Jedes gute Statistiklehrbuch weist deutlich darauf hin, dass Korrelationen niemals einen kausalen Bezug begründen! Dieser muss vorher von der Sache her eindeutig bestimmt sein. Und gerade sog. (da großzügig interpretierte) „empirische Beweise“ täuschen immer wieder ForscherInnen, die da meinen, mit unangemessenen Korrelationen Verwandtschaftsbeweise erbringen zu können. Aus Gründen der langen Tradition dieses Irrweges seien jedoch die angewandten Methoden zusammengefasst dargestellt. Man geht bei diesen Ähnlichkeitsberechnungen im Allgemeinen wie folgt vor: Für jede mögliche Sprachenpaarung werden alle erdenklichen Summen (‘contingencies’) in einer sog. 2 ! 2-Felder-Tafel, etwa wie Abb. 45.4, zusammengefasst.
gewandt und die Ergebnisse einander gegenübergestellt. Es fiel auf, dass sich zwar die erhaltenen Zahlenwerte unterschieden, wenig aber die Rangfolge der Zusammenhänge. In den folgenden Jahrzehnten wurden zur Berechnung der Ähnlichkeitsbeziehungen immer weitere Korrelations- und Assoziationsmaße herangezogen, die wir nun kurz K terminologisch auf das a,b,c,d-System vereinheitlicht K zusammenfassen: (1) Die Kreuzprodukt-Differenz im Zähler zeigt Pearsons Tetrachorische Relation ‚r‘ Z Kontingenz-Koeffizient ‚C‘: CZ
ad K bc O (a C b) (c C d) (a C c) (b C d)
Er ist aus dem Produkt-Moment-Korrelationskoeffizienten für den Spezialfall nominal skalierter Daten abgeleitet und ergibt, je nachdem, welches Produkt größer ist, Werte zwischen K1 ! C ! C1. Negative Werte resultieren hier aus dem Überwiegen der Ungleichheiten und stellen einfach eine unterdurchschnittliche Beziehung dar, im Gegensatz zur Interpretation als „entgegengesetzte“ Beziehung bei kardinal-parametrischen Daten! Ebenfalls die KreuzproduktDifferenz im Zähler zeigen die eigentlichen Assoziations-Koeffizienten, z. B. der nach Yule, der kaum unterschiedliche Ergebnisse liefert, aber bei 0-Eingabe G1 ergibt (umgehbar durch Konstantenaddition): Q2 Z
Abb. 45.4: 4-Felder-Tafel (mit alternativ verbreiteten Terminologien)
Darin bildet Sprache Li den X-Eingang mit ihren Ausprägungssummen „ja“ bzw. „nein“, Lj dagegen den Y-Eingang. Feld ‚a‘ erhält die (positiven) ‘agreements’, d. h. die Summe der in beiden Sprachen übereinstimmenden Merkmale, ‚b‘ nur in Li, ‚c‘ nur in Lj, ‚d‘ in keiner von beiden Sprachen. Zusätzlich werden die Quer- oder sog. „Randsummen“ eingetragen. Die erste quantitative Arbeit dieser Art legten Kroeber/Chrétien (1937, 83 ff.) vor (übrigens ohne eindeutig genealogischen Anspruch!). Ihre Auswahl von 74 phonemischen und grammatischen Merkmalen für 9 idg. Sprachen zeigt ein hohes wissenschaftliches Niveau (zur Beanstandung der kombinatorischen Unabhängigkeit s. 2.2. (4)). Es wurden verschiedene Assoziationsmaße an-
(1)
ad K bc ad C bc
(2)
(2) Ähnlichkeitskoeffizienten gibt es mit oder ohne gemeinsame Abwesenheiten ‚d‘: Mit ‚d‘ erprobten Kroeber/Chrétien (1937, 99) Übereinstimmungen zu Nicht-plusÜbereinstimmungen nach Sokal-Mitchener: SSM Z
aCd aCdCbCc
(3)
Die Bedeutung der negativen Übereinstimmungen ‚d‘ wird immer wieder diskutiert. Ein Beispiel aus der Biologie klärt dies Problem: Das Merkmal „Federn vorhanden“ unterscheidet die Vögel von den Säugern, bei der Differenzierung der Säuger aber kann es problemlos entfallen. In korrekten linguistischen Daten (s. 2.2) gibt es allerdings kaum negative Übereinstimmungen ‚d‘, sondern nur unterschiedliche Ausprägungen! Davies/Ross (1975, 28) bringen noch als Sij (Jaccard 1908):
637
45. Genealogische Verwandtschaft
SJ Z
rij
a Z aCbCc
ni C nj K rij
Z Sij
(4)
(3) Weiter erprobten Kroeber/Chrétien (1937, 101 f.) die einseitigen a / (a C b) bzw. a / (a C c) Terme, die noch kombiniert werden müssen, entweder als geometrisches Mittel ‚G‘:, sG Z
a O (a C b) (a C c)
Z
rij Oni nj
Z cij
(5)
welches Ellegård (1959, 143) mit rn als eigene entscheidende Erkenntnis bezeichnet; Davies/Ross (1975, 28) nennen es cij; oder als arithmetisches Mittel ‚A‘: sA Z
2a Z (a C b) C (a C c)
2rij ni C n j
Z c#ij
(6)
(4) Die diachron gut belegten Daten der Romania lassen sich weiter in archaische vs. neue differenzieren. Dies nutzt Kristophson (1990, 68 ff.) für folgende Entfernungsberechnung zwischen romanischen Sprachen (terminologisch angepasst; d Z gemeinsame Neuerungen): DK Z
(3 (b C c) K d C 40) 120
(7)
Die bisher letzte große Arbeit mit Ähnlichkeitsprozenten, leider auf der Basis rezenter Lexemkorpora, ist Dyen/Kruskal/Black (1992); zu deren Rahmendiagramm s. 4.4. Damit verlassen wir die von falschen Voraussetzungen ausgehenden Ähnlichkeitsmethoden. Dass diese nicht an der Empirie gescheitert sind, liegt natürlich daran, dass es keine verlässlichen vorgeschichtlichen Vergleichsdaten gibt, man also relativ viel behaupten und „bestätigt“ sehen kann. 3.1.2. Wahrscheinlichkeitsmaße Wahrscheinlichkeitsberechnungen dienen hier zwei Zielsetzungen: zum einen der Fortführung der Ähnlichkeitshypothese; nur, dass Ähnlichkeiten nicht mehr direkt verglichen werden, sondern ab Überschreiten eines Zufallsniveaus zugleich als Gradmesser genealogischer Verwandtschaft verstanden werden. Leider werden Ähnlichkeiten allein nicht aussagefähiger, wenn man ihre Wahrscheinlichkeiten berechnet. Zwar kann man Sprachen, deren Kognatenzahl die zufällig zu erwartende signifikant übersteigt, als verwandt betrachten, doch auf den Grad der genealogischen Verwandtschaft darf daraus
nicht geschlossen werden. Einige Autoren berufen sich auf Erfahrungen der Bio-Genetik. Doch die dort als konstant angenommenen Prozesse sind auf Sprachen nicht einfach übertragbar. Kein Linguist wird die Annahme unterstützen, dass Wörter zufällig aus einem Phonemtopf „erwürfelt“ würden und Phonemsysteme auch nicht. Zum anderen dienen sie der Falsifizierung allzu leichtfertiger Verwandtschaftsbehauptungen: Das bekannte Bemühen, die genealogische Verwandtschaft möglichst vieler, auch kaum erforschter Sprachen durch wenige, unscharf definierte Kognaten zu erschließen, fordert geradezu eine statistisch exakte Überprüfung heraus, ob solche Übereinstimmungen nicht auf reinem Zufall beruhen könnten. Doerfer (1973, 43) schätzte, zwischen beliebigen Sprachen der Welt nach den Maßstäben jener „glottogonischen Omnikomparatisten“ ca. 100K250 Übereinstimmungen finden zu können, und schon deshalb seien diese eben reiner Zufall. Mit empirischen Auszählungen arbeitete Bender (1969, 519 ff.). Er zählte in 100-er Testlisten von 21 als unverwandt angenommenen Sprachen durchschnittlich w 0,36 Zufallsübereinstimmungen, ergibt hochgerechnet 9 aus einem Wortschatz von 2500. Unter großzügigeren Maßstäben ergaben sich durchschnittlich 3,4 Übereinstimmungen, die auf w 85 in 2500 führen. Oswalt (1991) führte computerunterstützte Zählungen durch, wozu er die Konsonanten C1, C2 der Wortanfänge mit einem Zahlenschlüssel nach Artikulationsort und -art 2-stellig aufbereitet und die Kognatenpaare nach konsistenten Kriterien zählen lässt; das ergibt die Basiswerte; die zufällig möglichen gewinnt er durch 99 weitere Zählungen nach jedesmaligem Versetzen der Listen um 1 Merkmalsreihe. Dieses Verfahren lieferte ca. 2 Übereinstimmungen je 100er-Liste. Weitere Arbeiten zur Ermittlung dieser Wahrscheinlichkeiten gehen von unterschiedlichen Ansätzen und Formeln aus, die teilweise unverständlich dargestellt, teilweise gar falsch sind: (1) Zunächst liegt es nahe, Sprachen paarweise zu vergleichen und zu fragen, wie oft Merkmale zwischen zwei Testlisten zufällig übereinstimmen, z.B., allein wie oft der Anfangskonsonant /t-/ zufällig auf dieselbe Merkmalszeile fallen würde. Da jede Zeile nur einmal belegt werden soll, entspricht
638
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
dieser Vorgang dem stochastischen Modell einer Ziehung ohne Zurücklegen und folgt daher der hypergeometrischen Zufallsverteilung. Die Wahrscheinlichkeit P, mit der die Ausprägung k1 eines Merkmals, z. B. der Konsonant /t-/, zufällig x Z a-mal in derselben Zeile erscheint, ergibt sich nach
Hg (X Z a K N, k1, k2) Z
( )( ) () k1 a
N K k1 k2 K a
N k2
(8)
Beispiel: Kommt in einer Testliste mit N Z 100 Merkmalen das /t-/ k1 Z 10-mal vor, so ergeben sich für die 2. Liste eine a-malige /
mit P Z
1 2 3 4 5 Übereinstimmung /
0.41 0.2 0.05 0.007 0.0006 Wahrscheinlichkeit
(vgl. Ross 1950, 26 für idg. „Wurzeln“; Ringe 1996 v. a. für Einzelkonsonanten). (2) Andererseits können wir ein Merkmal über mehrere Sprachen vergleichen und fragen, in wievielen eine Übereinstimmung zu erwarten ist. Stochastisch liegen dann mehrere Ziehungen mit Zurücklegen vor. (2a) Hier gilt zunächst die binomiale Zufallsverteilung. Wir benötigen wiederum die empirische Häufigkeit p des jeweils zu prüfenden Phonems in den einzelnen Sprachen. Dann gilt für x Zufallsübereinstimmungen dieses Phonems die Wahrscheinlichkeit
()
n x Bn (X Z x K n; p) Z p $ (1 K p)nKx x
(9)
Diese Verteilung eignet sich zur Beurteilung der in letzter Zeit modern gewordenen so genannten „Massenvergleiche“, die voraussetzen, dass bei Zuziehung von immer mehr Sprachen Zufallstreffer immer unwahrscheinlicher würden (vgl. Greenberg 1987; dagegen: Ringe 1996, 135 ff.). Doch ist das Gegenteil der Fall: Die Wahrscheinlichkeit P, dass ein mit der (einfachheitshalber gleichen) Einzelwahrscheinlichkeit p Z 0.05 auftretender Anfangskonsonant in n Sprachen auch nur x Z 2 mal zufällig auf dieselbe Zeile einer Testliste fällt, beträgt nach Formel (9)
in n Sprachen:
P(n, 2) Z
5 2$5 4$5 6$5 8$5
0.021 0.075 0.183 0.259 0.278 (Z13.2-fach)
Ringe argumentiert, dass erst mit Überschreiten eines hohen Signifikanzniveaus eine Verwandtschaft solcher Sprachen angenommen werden könne. Die Methode ließe sich, selbst wenn Lautgesetze noch nicht ausreichend vorhanden sind, mathematisch durch Gewichtung nach Lexemlänge erheblich verbessern. Dies kann aber bestenfalls einen ersten Hinweis geben, erweist sich doch eine Verwandtschaft weniger durch solche Übereinstimmungen als vielmehr durch die Regelmäßigkeit der Abweichungen! Oswalt (1976, 93 ff.) konzentriert sich auf die Signifikanz der 2 : 1-Beziehungen zwischen drei Sprachen unter der binomialen Zufallsverteilung und stellt die Ergebnisse als Seiten eines Dreiecks dar; relativ gleichseitige Dreiecke sprechen dann gegen eine Untergliederung, spitzere dagegen für engere Beziehungen zwischen zwei von den drei Sprachen K also eine schlichte Veranschaulichung von Ähnlichkeitssignifikanzen zwischen drei Sprachen. (2b) Sinkt bei n O 10 beobachteten Fällen die Häufigkeit p der Zufallskognaten ! 0,05, z. B. bei fernverwandten Sprachen, ist die Poisson-Verteilung geeignet. Typisch für sie ist der Term λ Z n p. Die Wahrscheinlichkeit ist dann Po (X Z x K λ) Z
(l x eKλ) x!
(10)
Hiermit errechnete Bender (1969, 528) aus empirischen Daten, dass bei ca. 2 Kognaten je Testliste mit 95 %iger, mit 99 %iger Wahrscheinlichkeit ab 3 Kognaten nicht mehr von Zufall ausgegangen werden könne. (2c) Geht man von der umgekehrten Frage aus, wie viele Testlisten durchsucht werden müssen, um zufällig eine bestimmte Kognatenzahl zu erreichen, ist die geometrische Verteilung anzuwenden (vgl. Justeson/Stephens 1980, 41). (3) Liegen für eine Bedeutung mehrere Synonyme und umgekehrt vor (z. B. in Buck 1949), kann man die Wahrscheinlichkeiten der Kreuzrelationen zwischen diesen berechnen, statt nur in Spalten oder Zeilen zu arbeiten (vgl. Sankoff 1969, 108 ff.).
639
45. Genealogische Verwandtschaft
Zusammenfassend bleibt festzuhalten, dass mit 1 bis 3 % Zufallsübereinstimmungen zu rechnen ist, deren Anzahl im Einzelfall entscheidend von den Phonemfrequenzen, der Lexemlänge sowie der Strenge der phonologischen und semantischen Maßstäbe abhängt. Deswegen sind die Ergebnisse all dieser Arbeiten schwer vergleichbar. 3.2. Diachrone Beziehungsmaße 3.2.1. Zeitschätzer Seit den 50er Jahren wogen die Diskussionen um die Glottochronologie. Bei Recherchen wirkt sich erschwerend aus, dass nicht durchgehend zwischen Lexikostatistik, d.h. dem allgemeineren Begriff, und dem der Glottochronologie, d.h. der Berechnung angeblich quasi naturgesetzlicher Zerfallsraten, unterschieden wird. Mit einem solchen Ansatz wurde versucht, z.B. das Alter der Besiedlung Amerikas zu bestimmen, was jedoch durch neuere Untersuchungen nicht bestätigt werden konnte (vgl. Nettle 1999). Bekanntlich unterliegen Sprachwandel ständig sehr unterschiedlichen, unvorhersehbaren und damit nicht berechenbaren (!) geschichtlichen Einflüssen. Eine Alternative bietet die Beobachtung, dass alte bzw. Erbwörter in ihren Sprachen häufiger, „produktiver“ sind. Unter dieser Hypothese werden zwei Sprachen als verwandt angenommen, wenn in beiden (Häufigkeits-)Lexika der Anteil der gemeinsamen Wörter mit sinkender Frequenz monoton abnimmt (vgl. Arapov/Cherc 1983, III). Die Hypothese scheint in engem zeitlichen Rahmen gültig zu sein, während der Lexemaustausch in größeren Zeiträumen eher einer log-sin-Kurve zu folgen scheint (vgl. Altmann/v.Buttlar/Rott u. a. 1983, 105 ff.). 3.2.2. Trennhöhenschätzer Wie gezeigt, sind die bisherigen Ansätze falsch, wenn sie entweder auf der Ähnlichkeitshypothese beruhen oder physikalische Prozesse unzulässig auf die Linguistik übertragen. Es gibt in der Stochastik jedoch eine Methode, die zufällige, aber eben zeitunabhängige (!) Ersetzungen auszuwerten vermag: Bereits in einem kritischen Diskussionsbeitrag zu Ross (1950, 41 f.) schlug der Statistiker D. G. Kendall vor, man solle, statt Signifikanzen zu berechnen, besser nach einem statistischen Wert suchen, der größer ist bei früher und kleiner bei späterer Trennung, nämlich der Anzahl der dabei noch
gemeinsamen Erbwörter! Ein Schätzer für diese „Trennungsmenge“ E (N) sei die Formel: E (N)1C2 Z
n1 n2
(11)
n12
(n1, n2 bezeichnen die Summen der Erbwörter von je zwei Sprachenpaaren, n12 die Übereinstimmungen zwischen diesen). Dabei ergab sich, dass Germanisch und Griechisch sich als erste getrennt haben, sehr spät dagegen Armenisch von Albanisch. Nicht zuletzt wegen falscher Annahmen über Randbedingungen fand diese in der Wildbiologie, Epidemiologie, Wahlforschung, Bevölkerungsstatistik und quantitativen Ökonomie mittlerweile gut erforschte Methodik in der Linguistik bisher keine weitere Anwendung. Noch Davies/Ross (1975, 30; 40) unterstellen weiter irgendwelche Zerfallsraten; als ob das zugrundeliegende stochastische Urnenmodell zeitabhängig wäre! Dieser Ansatz lässt sich über weitere Verfahren zu einem neuen Ausgliederungsdiagramm ausbauen (vgl. Holm 2000). Dazu wird mittels des Maximum-LikelihoodSchätzers für die Grundgesamtheit einer hypergeometrischen Zufallsverteilung die im Zeitraum der Trennung vorauszusetzende Proto-Lexemzahl für jede mögliche Sprachenpaarung berechnet. In der Capture/Recapture-Methodik wird dieser Schätzer für N aus zwei unabhängigen Stichproben der Petersen-Lincoln-Schätzer genannt, in unserer Notation (vgl. Abb. 4): E (N)ij Z
ki kj
(12)
aij
Natürlich muss man sich auch hier über die auftretende Streuung klar sein. Der Schätzer für die Varianz lautet (vgl. z. B. Wolter 1986, 343): ˆ)Z Vaˆr (N
k1 k2 $ (k1 K a) (k2 K a) a3
(13)
Dabei mildert Formel (12) ‚k‘-Fehler im Zähler z. T. durch entsprechende ‚a‘ im Nenner. Gegenüber den in Ross (1950) herangezogenen stehen jetzt etwas neuere Daten bereit, und zwar in Form einer Urliste, die als Merkmale alle etymologischen Rekonstrukte aus Pokorny (1959) beinhalten (Bird 1982; die Ausgabe 1993 ist wegen Heranziehung weniger zuverlässiger Daten nicht akzeptierbar). Die enthaltenen 14 Sprachzweige ergeben nach Durchrechnung mit
640
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Abb. 45.5: Historische Nähe der idg. NW-Sprachen
Formel (12) eine symmetrische Matrix mit 91 Paarungen aller geschätzten Lexembasen E (N) zur Zeit der Aufspaltung. Die höchsten Werte kennzeichnen darin die am frühesten getrennten Partner. Mit leicht abgewandelten Paarverknüpfungs-Verfahren (s. 4.1.1) ergeben sich folgende zunächst etwas widersprüchliche Reihenfolgen: Nach dem engsten Nachbarn, also den spätesten Trennungen, reihen sich: Ill, Phr/Dak, Ana, Tok, Arm, Alb, Ira, Ind, Ita, Kel, Sla, Bal, Gri, Grm; im umgekehrten Weg, also beginnend mit den höchsten Werten der am frühesten getrennten Sprachen aber: Gri, Grm, Ind, Bal, Sla, Kel, Ira, Arm, Ita, Ana, Phr/Dak, Ill, Alb, Tok. Dies ergäbe unterschiedliche Stammbäume, weil diese Reduzierungsmethoden eben nur sog. Punktschätzungen liefern. Dazu kommen mögliche Datenfehler; die Beziehungen können in vielerlei Hinsicht kontaminiert sein, z. B. durch Konvergenzerscheinungen und Lehnwörter. Also erlauben diese Methoden nur einen ersten Einstieg. Diese vorläufigen Ergebnisse lassen sich durch eine neue Analysemethode verfeinern, die statt nur der unilateralen Beziehung das Trennungsverhalten (1) aller potentiellen Nachbarn heranzieht, jedoch (2) exklusive der möglicherweise durch Entlehnungen kontaminierten Endbeziehung jedes Berechnungspaares. Dieses exklusive Bündelungsmaß „Bx“ gibt gewissermaßen die Vorgeschichte der jeweiligen Paarung
wider. Ihr mathematisches Kriterium ist nicht die Parallelität, sondern die absolute Nähe dieser Verhaltensbündel. Dazu wählt man in der E (N)-Matrix nacheinander ein Sprachenpaar Lij, lösche deren lateralen Daten; bilde die Differenz ihrer (hier 12) übrigen Trennbasen E (N), setze diese absolut, und bilde das arithmetische Mittel. Man trage das so erhaltene exklusive Bündelungsmaß Bx in eine neue Matrix; sortiere die Sprachen nach ihrem historisch ähnlichsten Z Bx-Nachbarn und lasse sie als Graphik ausgeben. So ergibt sich beispielsweise für die idg. Nordwestsprachen eine historische Nachbarschaft wie Abb. 45.5, gleichzeitig ein entwicklungsgeschichtlich begründetes Kriterium für die sog. „Plättung“ der y-Achse des Stammbaumes Abb. 45.8 (s. 4.1). 3.3. Beziehungszahlenmatrix Die berechneten Maße werden in einer neuen, sog. L ! L-Matrix zusammengefasst. Sie enthält sowohl in den Spalten als auch in den Zeilen die untersuchten Sprachen, in den Schnittfeldern die Beziehungsmaße.
4.
Strukturierung genealogischer Abhängigkeiten
Den erforderlichen „krönenden“ Abschluss bildet die graphische Herausarbeitung der gefundenen Abhängigkeiten.
45. Genealogische Verwandtschaft
4.1. Baumdarstellungen Der erste Sprachenstammbaum findet sich bei Schleicher (s. Arens 1969, 264). Goebl (1983) meinte, dass die Darstellungsarten Stammbaum und Welle jeweils ihre eigene Berechtigung hätten, ohne allerdings den Unterschied zwischen Ähnlichkeit und Verwandtschaft zu berücksichtigen. Prinzipiell mögliche Stammbäume für 3 Sprachen waren in Abb. 45.1 kombiniert. Nun stellen Stammbäume sprachliche Verwandtschaft zwar sinnfällig, jedoch auch sehr simplifiziert dar, z. B. bezüglich der Dauer oder Vielfalt der Beziehungen, ferner ihre Beschränkung auf ein unilineares „Jungfernzeugungs-Modell“ K gehören doch zu einer genealogischen Ahnentafel väterliche und mütterliche Vorfahren, auf Sprachen übertragen also die Strata, wie im Französischen das gallische Substrat und die germanischen Superstrata. Sog. wurzellose Bäume stellen naturgemäß keinen genealogischen Zusammenhang dar und gehören nicht hierher. Uns interessieren dagegen die sog. Wurzelbäume, die auf zwei grundlegend unterschiedliche Arten konstruiert werden können: 4.1.1. Quantitative Konstruktion Diese Konstruktionsgruppe setzt voraus, dass die Daten der Urliste in quantitative Beziehungsmaße transferiert wurden (s. 3.), und wird deshalb manchmal einengend „Distanzmethode“ genannt. Stammbäume können hieraus z. B. durch sukzessive hierarchische Paarverschmelzung der Sprachen gewonnen werden. Man beginnt beim als am engsten zusammenstehend definierten Sprachenpaar (also je nach Daten der geringsten Unähnlichkeit oder höchsten Ähnlichkeit). Zur Bildung weiterer Paare gibt es unterschiedliche Verfahren, z. B.: (1) Mit der Verknüpfung der nächsten Nachbarn (,single linkage‘) bleiben die jeweils nächsten Werte beider Zweige erhalten. Die Methode wurde wegen ihrer Einfachheit häufig angewandt, ist jedoch störanfällig bei Datenfehlern und schlecht separierten Gruppen, wie sie uns gerade in der Lexikostatistik häufig begegnen. (2) Bei der Verknüpfung der fernsten Nachbarn (,complete linkage‘) bleiben die jeweils fernsten Werte der zu verknüpfenden Zweige erhalten, was die näheren einschließt. (3) Die Verknüpfung über den Durchschnitt (,average linkage‘) wird am häufigsten in der ungewichteten Form ange-
641 wandt (,Unweighted Pair-Group Method with Arithmetic mean Z UPGMA‘); sie gleicht Fehler aus, setzt jedoch unrealistische Ersetzungsraten voraus. Entsprechend gibt es die Gewichtungsvariante ,WPGMA‘. (4) Die Fehlerquadratmethode nach Ward liefert gute Ergebnisse nur bei etwa gleich großen und überschneidungsfreien Clustern, verlangt zudem aufwendige Berechnungen. Man wiederholt diese Techniken, bis die letzte Sprache eingegliedert ist. Obwohl sich die entstehenden Bäume meist unterscheiden, enden alle wiederum mit denselben Gliedern (ausführlich s. Sneath/Sokal 1973, 216 ff.). Zu linguistischen Anwendungen vgl. Embleton (1991, 370 f.). Nun sind die Zweige leider (wie bei einem ‚Mobile‘) um ihre Knoten drehbar, d. h. die Nachbarschaft der Endglieder muss zusätzlich definiert werden, z. B. durch die Bx-Methode (vgl. 3.2.2). Es wurde auch versucht, den Stammbaum quasi aus der (nicht genealogisch orientierten) Isoglossendarstellung herauswachsen zu lassen, was aber schnell unübersichtlich wird (vgl. Southworth 1964). Ein häufiger methodischer Fehler ist, aus reinen Ähnlichkeitsdistanzen Scheinstammbäume, sog. „Phänogramme“, zu konstruieren, die genealogische Abhängigkeiten nur vortäuschen. Da diese quantitativen Methoden zwar schnell sind, aber prinzipbedingt nur verzerrte und kaum optimale Bäume liefern, eignen sie sich stets nur als Einstieg für weitere Analysen. 4.1.2. Qualitative Konstruktion Dies ist die traditionelle Methode der historisch-vergleichenden Forschung (vgl. Hoenigswald/Wiener 1987, xi.), wobei leider oft bereits eine einzige Isoglossenspaltung einer Sprachenaufspaltung gleichgesetzt wird. Auf breiterer Datenbasis suchen graphentheoretische Methoden den optimalen Baum zu ermitteln, der mit einem Minimum von Wandlungen / Ersetzungen (sog. ,Parsimony‘ Prinzip) auskommt. Die Methode liefert keine Zweiglängen oder Abstände der Verzweigungspunkte; zur Bestimmung der Wurzel sind zusätzliche Annahmen nötig. Abb. 45.6 verdeutlicht nur die Grundidee. Die oberste Merkmalreihe, n1, liefert das ‚genus proximum‘, welches alle Sprachen verbindet und zugleich die Ausgangsverzweigung (den Quellknoten) bildet, weil jede andere Position einen mehrfach gleichartigen und daher weniger wahrscheinlichen
642
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
Abb. 45.6: Qualitative Baumkonstruktion
Wandel voraussetzen würde. Die zweite Merkmalreihe, n2, liefert mit unterschiedlicher Verbreitung die ‚differentia specifica‘: Sie trennt Sprache L1 von den beiden anderen, die damit gleichzeitig verbunden werden. Merkmalreihe n3 schließlich zeigt, dass es sich um 3 verschiedene Sprachen handelt. Für in der Realität immer auftretende konkurrierende Merkmalreihen sei n4 ein Beispiel, welches die L1 mit L2 verbindet und gegen L3 abgrenzen würde. Hier verfahren die Methoden unterschiedlich; letztlich beruhen aber alle auf Proportionalität und damit der irreführenden Ähnlichkeitshypothese. Eine eingehende Beschreibung liefert Gleason (1959, 22 ff.) am Beispiel von 5 Lexemen aus 4 Bantusprachen. Sein Vorschlag, ausschließliche Paarübereinstimmungen K da besonders charakteristisch K sehr hoch zu bewerten, verkennt die dann besonders große Gefahr von Entlehnungen und Zufallsübereinstimmungen! Eine umfangreiche konkrete Anwendung der Methode leisteten Krishnamurti/Moses/ Danforth (1983) über die Dualität originaler zu gewandelten Phonemen von 65 Etyma aus 6 dravidischen Sprachen. Eine graphentheoretische Darstellung dieser und weiterer Konstruktionsmethoden findet sich z. B. bei Klemm (1995). Die Methode des sog. „medianen Netzwerks“ vermag konkurrierende Entwicklungen leiterartig gewichtet darzustellen (vgl. Bandelt/Forster/Sykes u. a. 1995). Unter einem eigenen Optimalitäts-Algorithmus versuchen Ringe/Warnow/Taylor (2002), mit z. Z. ca. 300 eigenen multinominalen Daten aus 24 auch ausgestorbenen idg. Sprachen einen Verzweigungsgraph zu konstruieren, der über das als am frühesten ausgegliedert angenommene (!) Anatolisch gewurzelt wurde. Die Ergebnisse sind bisher nicht eindeutig, v. a. hinsichtlich Germanisch und Albanisch.
Für beide Konstruktionsklassen gibt es immer wieder neue Computerprogramme zur Baumoptimierung, v. a. für molekulargenetische Zwecke; doch dort eingebaute Algorithmen sind den linguistischen Bedingungen nicht angemessen: Z. B. werden die erforderlichen Unterscheidungen zwischen Erbwörtern (Symplesiomorphien) und Neuerungen (Synapomorphien) nicht vorgenommen oder erkannt; Reversionen sind in der Evolution häufig, in Sprachen nicht; Entlehnungen dagegen zwischen letzteren häufig, zwischen Spezies definitionsgemäß nicht; u. v. a. Z. B. geben die drei folgenden Arbeiten einfach die im Internet digital frei verfügbare Datenliste von Dyen et al. 1992 in fertige Programmbündel aus der Biosystematik ein: A. und R. McMahon (2003) vergleichen die Ergebnisse der Neighbor-Joining-Methode mit denen aus zwei Optimalitäts-Algorithmen, die mit Albanisch (!) gewurzelt wurden; sie sind kaum besser als die alten von Dyen/Kruskal/Black (1992). Gray/ Atkinson (2003) schließen unzulässig aus unterschiedlichen Ersetzungsmengen auf Ersetzungsraten, und da muss natürlich das Hethitische am längsten zurückliegen und zugleich die idg. Urheimat anzeigen (vgl. dazu 3.2.1). Rexová/Frynta/Zrzavý (2003) vergleichen drei Modifikationen der DyenListe, u. a. eine binominale nach Durchläufen eines Parsimony-Programmes, und erhalten drei voneinander abweichende Variationen, deren Unterschiede unerklärt bleiben. 4.2. Multi-Distanz-Darstellungen Mit mehreren Methoden wird versucht, die virtuell-multidimensionalen Entfernungen zwischen Sprachen in der Ebene abzubilden: z. B. mit den verschiedenen Haupt-Koordinaten-Methoden (,Principal Coordinates Analysis‘, vgl. Davies/Ross 1975, 35; 38). Sie arbeiten ähnlich verzerrend wie die noch weitergehende sog. Multi-Dimensionale Skalierung (vgl. Art. 39). Eine bedingte genealogische Aussagefähigkeit hängt von den verwendeten Beziehungsmaßen ab, doch werden prinzipbedingt konservative, real oft peripher gelegene „Saum-Sprachen“ ins Zentrum gerückt. Wer sich also über eine annähernde Deckung mit tatsächlichen Wohnsitzen freut, missinterpretiert diese Verfahren gründlich. 4.3. Erhaltung aller Matrixdaten Natürlich gibt es durchaus Methoden, die ohne Datenreduktion auskommen. Die
643
45. Genealogische Verwandtschaft
meisten Statistikprogramme können heute die Daten einer Matrix als Volldiagramm ausgeben. Dies ist die korrekteste Darstellung überhaupt und muss die Basis für alle weiteren Überlegungen sein. Nur so kann man Strukturen optisch erfassen und wird vor oft unsinnigen Clusterverfahren bewahrt (warnend z. B. Everitt 1993, 148). (1) Eine Möglichkeit der Hervorhebung bietet die Rahmung. In einem geordneten Volldiagramm fallen meist schon optisch Gruppierungen von Maßzahlen auf, die z. B. zwei Sprachen auf „älterem“ Niveau verbinden, prinzipiell etwa wie Abb. 45.7:
Abb. 45.9: Sterndiagramme
Abb. 45.7: Volldiagramm mit Rahmungen
Solche Gruppierungen repräsentieren bei korrekten Vorarbeiten mögliche Protosprachen, die dann eingerahmt werden. Die Gruppenzugehörigkeit sollte nach konsistenten Vorgaben bestimmt werden (vgl. Dyen/Kruskal/Black 1992 [3]).
Abb. 45.8: Volldiagramm mit Baumkontur
(2) Alternativ bietet sich die Baumkontur des Volldiagramms an. Voraussetzung ist eine vorherige Anordnungsoptimierung nach 3.2.2. Ein Beispiel mit den zu E (N) hoch gerechneten Daten (vgl. Holm 2000) für die NW-idg. Sprachen gibt Abb. 45.8, in der alle Trennungen gut sichtbar bleiben. (3) Dieselben Daten (bis ca. 20 Variablen) lassen sich weiter durch sog. Sterndiagramme vollständig darstellen: (4) Eine noch bessere Darstellung der zeitlichen Ausgliederung unter Berücksichti-
644
X. Gebiete und Phänomene: Diachronie / Fields and phenomena: diachrony
gung der gegenseitigen Abhängigkeiten lässt sich heuristisch durch eine Serie von Kreisgraphiken mit ihren Überschneidungsmöglichkeiten erzielen (vgl. Holm 2000, 87 ff.), noch besser als Dia-Folge (s. www. hjholm.de). An diesen Beispielen wird deutlich, wie viele Daten bei einfachen Stammbaumkonstruktionen verloren gehen.
5.
Schlussbetrachtung
Viele Linguisten reizt es, Daten ihrer Forschungsregion im Hinblick auf genealogische Verwandtschaft quantitativ zu analysieren. Derart ambitionierte Leser sollten durch die Darstellung bisheriger Arbeiten sowie verbreiteter Fehler befähigt werden, solche Arbeiten zu beurteilen oder selbst voranzubringen. Es ist legitim, grammatische, lexikalische oder phonemische Gemeinsamkeiten zu quantifizieren. Es muss aber gefordert werden, die Ergebnisse nicht unzulässig zu verallgemeinern; denn Mathematik kann nur Daten und Beziehungen exakt ausdrücken; ob diese logisch kausal sind, steht außerhalb ihrer Möglichkeiten. Für Kritik und Anregungen danke ich den Professoren Peter Schlobinski, Berthold Schneider, Gerhard Doerfer, Hans-Jürgen Bandelt und Stefan Zimmer.
6.
Literatur (in Auswahl)
Altmann, G./v. Buttlar, H./Rott, W./Strauß, U. (1983), A law of change in language. In: Historical Linguistics (Hrsg. B. Brainerd). Quantitative Linguistics 18. Bochum: Brockmeyer, 104K15. Anttila, Raimo (1989), Historical and Comparative Linguistics. [Current Issues in Linguistic Theory 6]. Amsterdam u.a.: John Benjamins. Arapov, M. V./Cherc M. M./Köhler, R./Schmidt, P. (1983), Mathematische Methoden in der historischen Linguistik. [Quantitative Linguistics 17]. Bochum: Brockmeyer. Arens, Hans (3.1974), Sprachwissenschaft. Freiburg: Albers. Bandelt, H.-J./Forster, P./Sykes, B. C./Richards, M.B. (1995), Mitochondrial Portraits of Human Populations Using Median Networks. In: Genetics 141, 743K53. Bateman, R./Goddard, I./O’Grady, R./Funk, V. A./Mooi, R./Kress, W. J./Cannell, P., (1990), Speaking of Forked Tongues. The Feasibility of Reconciling Human Phylogeny and the History of Language. In: Current Anthropology 31 (4), 420K 26.
Bender, Marvin L. (1969), Chance CVC correspondences in unrelated languages. In: Language 45 (3), 519K31. Bird, Norman (1982), The Distribution of IndoEuropean Root Morphemes (A Checklist for Philologists). Wiesbaden: Harrassowitz. Buck, Carl D. (1949), A dictionary of selected synonyms in the principal Indo-European languages. Chicago: University of Chicago Press. Davies, Paul/Ross, Alan S. C. (1975), ,Close relationship‘ in the Uralian languages. In: Finnischugrische Forschungen 41, 25K48. Doerfer, Gerhard (1972), Bemerkungen zur linguistischen Klasssifikation. In: Indogermanische Forschungen 76, 1K14. Doerfer, Gerhard (1973), Lautgesetz und Zufall; Betrachtungen zum Omnicomparatismus. [Innsbrucker Beiträge zur Sprachwissenschaft 10]. Innsbruck. Dyen, I./Kruskal, J. B./Black, P. (1992), An Indoeuropean Classification: A Lexicostatistical Experiment. In: Transactions of the American Philosophical Society 82 (5). Philadelphia. Ellegård, Alvar (1959), Statistical Measurement of Linguistic Relationship. In: Language 35, 131K56. Embleton, Sheila M. (1991), Mathematical Methods of Genetic Classification. In: Sprung from some common source. (Eds. S. M. Lamb/E. D. Mitchell). Stanford, CA: Stanford University Press, 365K88. Everitt, Brian S. (3.1993), Cluster Analysis. London: Arnold. Gleason, Henry A., Jr. (1959), Counting and Calculating for Historical Reconstruction. In: Anthropological Linguistics 1 (2), 22K32. Goebl, Hans (1983), „Stammbaum“ und „Welle“, Vergleichende Betrachtungen aus numerisch-taxonomischer Sicht. In: Zeitschrift für Sprachwissenschaft 2, 3K44. Gray, R. D./Atkinson, Q. D. (2003), Languagetree divergence times support the Anatolian theory of Indo-European origin. In: Nature 426, 435K439. Greenberg, Joseph H. (1987), Language in the Americas. Stanford, CA: Stanford University Press. Hoenigswald, H. M./Wiener, L. F. (Eds), Biological Metaphor and Cladistic Classification. Philadelphia: University of Pennsylvania Press, 1987. Holm, Hans J. (2000), On the Genealogy of the Indo- European Main Branches, Implementing the Separation Base Method. In: Journal of Quantitative Linguistics 7 (2), 73K94. Holm, Hans J. (2003), The proportionality trap, or: What is wrong with lexicostatistical subgrouping? In: Indogermanische Forschungen 108, 38K 46.
45. Genealogische Verwandtschaft Justeson, J. S./Stephens, L. D. (1980), Chance Cognation: A Probabilistic Model and Decision Procedure for Historical Inference. In: Papers of the 4th International Conference on Historical Linguistics 37. (Ed. E. C. Traugott). Amsterdam: Benjamins, 9K46. Klemm, Elmar (1995), Das Problem der Distanzbindungen in der hierarchischen Clusteranalyse. Frankfurt: Lang. Krishnamurti, B./Moses, L./Danforth, D. G. (1983), Unchanged Cognates as a Criterion in Linguistic Subgrouping. In: Language 59 (3), 541K 68. Kristophson, J. (1990 (89)), Gliederung einer Sprachfamilie (hier der Romania) mit Hilfe eines numerischen Kalküls. In: Glottometrika 11. (Hrsg. L. Hřebiček). Bochum: Brockmeyer, 68K94. Kroeber, A. L./Chrétien, C. D. (1937), Quantitative Classification of Indo-European Languages. In: Language13(II), 83K103. McMahon, April (2001), Quantitative methods in language classification. In: www.shef.ac.uk/english/ language/quantling/index.html. University of Sheffield. McMahon, April & Robert (2003), Finding Families: Quantitative methods in language classification. In: Transactions of the Philological Society 101-1, 7K55. Nettle, Daniel (1999), Linguistic diversity of the Americas can be reconciled with a recent colonization. In: Proceedings of the National Academy of Sciences USA 96 (6), 3325K9. Oswalt, Robert L. (1976), The Binomial Probability Distribution and the Subgrouping of Language Triads. In: Cahiers de l’Institut de Linguistique de Louvain 3 (5K6), 93K99. Oswalt, Robert L. (1991), A Method for Assessing Distant Linguistic Relationships. In: Sprung from some common source. (Eds. S. M. Lamb/E. D. Mitchell). Stanford, CA: Stanford University Press, 389K404.
645 Pokorny, Julius (1959), Indogermanisches etymologisches Wörterbuch. 2 Bde. Bern, München: Francke. Rexová, K./Frynta, D./Zrzavý, J. (2003), Cladistic analysis of languages: Indo-European classification based on lexicostatistical data. In: Cladistics 19, 120K127. Ringe, Donald A. Jr. (1996), The Mathematics of ,Amerind‘. In: Diachronica 13, 135K54. Ringe, D./Warnow, T./Taylor, A. (2002), Indo-European and computational cladistics. In: Transactions of the Philological Society London 100. Oxford u. a.: Blackwell, 59K129. Ross, Alan S. C. (1950), Philological Probability Problems. In: Journal of the Royal Statistical Society, Ser. B12, 19K59. Sankoff, David (1969), Historical Linguistics as Stochastic Process. Unpublished PhD Thesis, McGill University. Montreal, Cda. (Als UMI verfügbar). Sneath. P. H. A./Sokal, R. R. (1973), Numerical Taxonomy. The Principle and Practice of Numerical Classification. San Francisco: W. H. Freeman & Co. Sokal, Robert R. (1966), Numerical Taxonomy. In: Scientific American 215 (Dec), 106K16. Southworth, Franklin C. (1964), Family-tree diagrams. In: Language 40, 557K65. Swofford, D. L./Olsen, G. J./Waddell, P. J./Hillis, D. M. (2. 1996), Phylogenetic inference. In: D. M. Hillis/C. Moritz/B. K. Mable (eds.), Molecular Systematics, Sunderland, MA: Sinauer, 407K543. Teeter, Karl V. (1963), Lexicostatistics and genetic relationhip. In: Language 39 (4), 638K48. Wolter, Kirk M. (1986), Some Coverage Error Models for Census Data. In: Journal of the American Statistical Association 81K2 (394), 338K46.
Hans J. Holm, Hannover (Deutschland)
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws 46. Diversification processes 1. 2. 3. 4. 5. 6. 7.
Introduction Origin Character Effect Modelling Interaction of classes Literature (a selection)
1.
Introduction
Diversification processes take their course in language in such a way that the attribute space of an entity expands in one or more dimensions, for example a morpheme gets enriched by new allomorphs, a word gets enriched by new meanings, etc. This process is well known in biology, since without it there would be no variety in the organic nature. The diversification process encompasses a whole class of language processes known under different names in different domains, e. g. allophony, allomorphy, allosemy, rule variation, dialectal and sociolectal variation, style, homonymy, connotation, grammatical classes, and many others. It is so basic that it is perhaps responsible for language evolution, dialect formation, class building, etc. (cf. Köhler 1991). A great variety of grammatical diversification phenomena can be found in Rothe (1991a) or concerning the word in Altmann (1996); concrete investigation can be found in Rothe (1986; 1991b), Beőthy/Altmann (1984a; 1984b), Altmann (1985a; 1985b; 1992), Altmann/Best/Kind (1987), Geršić/Altmann (1988), and Best (1997b). This process together with the process of unification working in the opposite direction has been introduced in linguistics by G. K. Zipf (1949) and one calls them Zipfian processes. The model capturing the steady state of the process is called in semantics Beőthy’s law, in dialectology Goebl’s law, in the wordfrequency domain Zipf-Mandelbrot’s law, in lexicology Martin’s law, etc. A survey of a certain kind of possible models can be found in Altmann (1991). The investigation of this process shows that many phenomena in linguistics can be brought to a common de-
nominator, a fact playing an important role both in modelling as well as in explanation and theory building (cf. art. no. 55). Simple examples of diversification can be seen in Table 46.1. The study of diversification starts from three very general assumptions which are the very base of modelling: The classes made up by diversification form a decreasing rank-frequency distribution or another (not necessarily monotonous) discrete distribution according to whether the classes represent a nominal or a numerical variable respectively. The classes of the diversified entity are linked by mutual influence. The diversified property (i. e. the emerging dimension) is linked with at least one other property of the same entity. Table 46.1: Diversification of word classes (I) in a German text according to Best (1994) and that of word length (II) in Lessing’s letters according to Dittrich (1996) I
II
Category
Rank x fx
Word length x fx
Verb Noun Pronoun Adverb Article Conjunction Adjective Preposition
1 2 3 4 5 6 7 8
1 2 3 4 5 6
168 151 121 105 85 79 74 47
454 240 120 25 8 4
The first assumption says that if an entity diversifies in one direction, the frequencies of the resulting classes are not equal but can be ordered according to decreasing frequency. Some examples: the frequencies of the individual word forms of a lexeme, the frequencies of different meanings of a word, the frequencies of individual case endings of a paradigm in case of nominal variables, or word length, sentence length, etc. in the case of numerical variables have different frequencies but there is always some underlying regularity. If this hypothesis is correct, then it can serve as a criterion distinguishing
46. Diversification processes
different classifications: a linguistic classification is “good”, “useful” or “theoretically prolific” if the taxa follow a “decent” rankfrequency distribution in the case of nominal variables, or another distribution in the case of numerical variables. The second assumption says that the individual classes of the diversified entity are not completely independent of each other. This is plausible if we regard e. g. word classes whose grammatical dependences are the object of a whole discipline. The classes do not merely “complement” each other, they evoke or avoid one another mutually. This is the background of modelling based upon these dependences (see below). The third assumption says that the random variable coming into existence by diversification does not develop independently but in agreement with other properties of the same entity, thus giving rise to control cycles. This is the main content of synergetic linguistics (cf. art. No. 53). These three assumptions, both in their general as well as their special forms relating to some entities, enable us to search for laws in language, in text, in grammar, in semantics, etc. Thus diversification seems to be one of the most general processes in language and its evolution since everything underlies variation, and everything changes.
2.
Origin
The diversification of an entity can start on different grounds. The following classification is neither complete nor should it give the impression that it is always possible to unequivocally isolate and identify its causes. (a) Random fluctuation which is evident especially with the articulation of sounds. Any articulation of a sound is different, even if one eliminates the influence of the phonic environment and ensures good experimental conditions. It is not possible to keep all properties (formants, pitch, volume, place and kind of articulation, accent, tone) consciously invariant at the same time, so a random drift or fluctuation is always present. Speaking is an activity of living organisms, which are always exposed to fluctuation. As a matter of fact, all “speech errors” belong to this category. Random fluctuation is continuously eliminated by the unification process, so that here an incessant birth-and-
647 death process is going on. Many diversification phenomena can therefore be modelled by means of birth-and-death processes and embedded in a theory. (b) Environmentally conditioned variation. The form or the meaning of an entity is modified according to the environment in which it is situated. Each sound is modified by coarticulation producing new allophones. The meaning of a word is modified according to its environment in the sentence. (c) Conscious change. Under certain circumstances it is possible to diversify a feature in language consciously. If one changes a norm, the old forms prevail for a time. With emotional or aesthetic expression, with creative innovation, with styling a text, etc. variation is always more or less conscious. The same holds with borrowing of foreign words if native words exist in parallel or with translating the meaning of a word to another giving rise to synonymy, etc. (d) Self-regulative triggering of the process whose causes lie still deeper and which is well known especially in diachronic linguistics. For example a gradual penetration of a sound into the critical (distinctive) domain of another sound can evoke the diversification of the target sound (split, allophone building, etc., cf. Boretzky 1977). The selfregulation also triggers the reverse unification process in all places where diversification took place but not necessarily on the same level. Another phenomenon of this kind is the emergence of functional equivalents, e. g. the emergence of tones in tone languages (tone diversification) having the same function as the diversification of word length in other languages. This is the contents of assumption (3). (e) System modification. Language itself does not do anything, everything in it is made by man, who is constantly forced to modify it in order to be able to communicate new experience. Most changes lead merely to a modification of rigid courses or distributions that can be called attractors. A system modification can be either ad-hoc or permanent. An ad-hoc modification is usual in texts where an author wants to introduce an idiosyncrasy. Such modifications present themselves as singular points in a model or as unique deviations from a model. In texts, especially artistic ones, they are necessary as a means of expressivity, of introducing a
648
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
novelty, etc. A permanent modification forces us epistemologically to model the given phenomenon in another way (cf. Chapter 5.). (f) Köhlerian requirements (cf. art. no. 53) (Köhler 1986; 1987; 1989; 1990; 1991): (i) The trend for minimal coding and decoding effort. The speaker always has the tendency to make coding as easy as possible. This trend is usually spontaneous and not basically always present. The speaker wants to reduce the number and the complexity of sounds; the hearer wants to increase them or to make them more complex (cf. Zipf 1935). The speaker increases polysemy; the hearer wants to reduce it. (ii) Sufficient redundancy in language is a means for reducing the effort of the hearer (decoding effort). It works against the “laziness” of the speaker and is usually diversifying. For example agreement, which is in most cases quite redundant with respect to the content, protects K among other functions K the message against noise in that the same function or category is expressed two or more times in the sentence. Synonymy, which is as a matter of fact redundant, helps in storing the meaning in the brain and in explicating the message. The requirement for minimization of production effort works in the opposite direction: it leads to simplification of complex sounds, shortening of long words, etc. Since redundancy reduces uncertainty, it works against the increase of entropy. Thus in inventories of units it works rather as a unifying force. (iii) The coding requirement comes into existence by the necessity of conveying incessantly new contents, leading in turn to creativity in the domain of the lexicon. On the other hand, a large inventory causes a great memory load; thus the speaker has a need for minimizing the inventory. (iv) Context economy vs. context specificity enlarge or reduce the number of contexts in which a word occurs. Here the control of meaning in specific contexts and in all possible contexts takes place. (v) Invariance vs. flexibility of the relation between expression and meaning effect the synonymy of words. The require-
ment for invariance reduces the building of synonymy, that for flexibility enlarges it. It is not always unambiguous which factor initiated the given process; usually several factors were effective at the same time. However, modelling is not particularly difficult since some factors operate in the same direction with constant force and can be added. Usually simple difference and differential equations do in order to capture the result of a process. The process starts sometime with each entity in each domain and once underway it evokes in turn the reverse process of unification as well as K in case it is excessive K at least one control cycle by means of which the self-regulation must begin to operate. The interaction of the diversification and the unification process leads to a steadystate distribution that has frequently been investigated and tested in linguistics.
3.
Character
Once underway this process influences both the units concerned and other processes and evokes many changes. It operates as a background mechanism behind observable phenomena. One can set up hypotheses about it, which K if empirically and theoretically well grounded K can be declared law hypotheses. That means that one can use it for explanation of linguistic phenomena. Every diversification process evokes a unification process operating on the same entity and working against the total decay of the phenomenon. Thus the unification process is rather morphostatic, maintaining the given order, while the diversification process is rather morphotransformatory, changing the given order, e. g. reshaping the order or enlarging its complexity, or even morpholytic, destroying an order (Guntern 1982). For example the relative unity (steady state) of an individual language can be destroyed by the diversification of words, of grammar, etc. and split into dialects. The unification process can also be performed consciously, in an organized way, in order to maintain the given order, e. g. by an authority (language planning, language politics). Diversification is usually anamorphic since it changes an order into another one of higher complexity, while unification, if it is transformatory, is katamorphic, bringing
649
46. Diversification processes
about lower complexity. However, the resulting complexity need not emerge at the same level. Diversification itself can trigger other analogous processes. Well known are morphological diversifications coming into existence by phonological diversifications and vice versa, morphological unification by phonetic unifications. The higher complexity appears then at the syntactic level. If e. g. conjugation endings coincide then either their meaning diversifies or one must introduce other means for differentiating the meaning. Sometimes it is the viewpoint, the level, deciding whether a process is considered as diversifying or unifying.
4.
Effect
Diversification satisfies some needs (cf. Köhler 1987) and influences many language entities and their properties. Every effect causes other processes to go and their interaction must lead to self-regulation. Here are some examples. In the conceptual domain it brings about the classification of observations into things, processes, states, properties, etc. which in many languages are even marked morphologically. The classical word classes belong to this category, different lexical groups (cf. Tuldava 1997), etc. In the lexical domain it enlarges the inventory of words leading possibly to decrease of polysemy and increase of synonymy of words. In most languages word length becomes a variable K if we assume that it was originally constant (e. g. one syllable). In the semantic domain diversification enlarges polysemy and associative richness (connotation) of words. In the grammatical domain it enlarges the polyfunctionality (polysemy) of affixes, of grammatical categories, and of syntactic constructions. If affixes do not become polyfunctional, their inventory must increase. The inventory of sentence types and syntactic constructions diversifies by increasing the number of alternative rules. In the phonological domain the phoneme inventory diversifies but it is held in equilibrium by unification of sounds (cf. Lehfeldt 1975). In the pragmatic domain the environments of the word diversify, i. e. the polytex-
tuality increases and this in turn leads to the increase of polysemy. In the stylistic domain the synonymy of words and grammatical categories increases, leading in turn to the increase of polytextuality. In all domains either a point of saturation will be achieved, that can be constant for a long time, or a steady-state, that oscillates insignificantly.
5.
Modelling
5.1. Simple distributions The simplest way of modelling the distributions K in the first approximation K according to assumption (1) in section 1. is to start from the hypothetical ontogenesis of this process and to justify it by assumption (2). From or aside the class whose probability of occurrence “at the beginning” was 1, a second class emerges which, however, develops proportionally to the first class, i. e. the two classes share the probability of occurrence given by the ratio P2 Z a P1
(1)
If the “class” is a qualitative (nominal, categorial) variable, e. g. word class, then X is the rank of the class; if it is numerical, e. g. word length measured in some units, then X is a discrete (numerical) variable. While developing the third and further classes the proportionality can remain constant as in (1) but usually factors mentioned in chapter 2. come into action and the constant a develops into a function f (x) of the variable X consisting of two parts f (x) Z
g (x) h (x)
(2)
(cf. Köhler/Altmann 1996). Here g (x) is the share of the speaker, the effect of his/her creativity diversifiying the classes, and h (x) is the share of the hearer, of the community, which is conservative and must hinder the speaker in developing too strong a creativity in order to secure undisturbed communication. The diversification model then has the form Px Z f (x) PxK1.
(3)
The function f (x) can be different for different phenomena, even for the same phenomenon in different languages, and can undergo change in the same way as anything
650
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
else in language. This does not contradict the claim that a law is a general statement holding for a regularity in all languages since our statement Px Z f (x) PxK1 is an abstract, uninterpreted law formula (Bunge 1967, 49) in which f (x) must get concrete meaning on the basis of initial or subsidiary conditions. The convergence which is a part of selfregulation is formed as follows: (i) If f (x) Z a as in (1) then the convergence for lim Px Z 0 is secured with
(iii) Let f (x) Z
Let us show three examples that have already been used for modelling (cf. Best 1997b).
Px Z
Px Z a
P1, 1
N
1Z
∑ axK1 P1 Z 1 K a P1, xZ1
from which P1 Z 1 K a and finally Px Z (1 K a) a xK1 follows. This is the geometric distribution (cf. Sigurd 1968). (ii) Let f (x) Z a / x, then we obtain from Px Z
a x
stepwise Px Z
x!
1
P1
N
ax
∑ a xZ1 x!
P1 Z
1 a
(e a K 1) P1
first P1 Z a / (e a K 1) and finally Px Z
()
P1 .
Summing and rearranging the formula we obtain 1Z
( )( ) [( ) ] n
q
∑ np xZ1 q
p
Z np
q
n x
p
q
x
P1
n
C 1 K 1 P1 ,
from which (because q Z 1 K p) first P1 Z
n p qn K 1
and finally
(1Kqn)
()
n x nKx p q x
, x Z 1, 2, ... , n 1 K qn follows. This is the positive binomial distribution (cf. Uhlířová 1996; Altmann/Erat/ Hřebíček 1996). (iv) Table 46.2 shows the ranking of the classification of new compounds of the “noun plus noun” type in German as ascertained by Raether/Rothe (1991). The authors use the approach kCxK1 q, f (x) Z x
ax
, x Z 1, 2, ... ,
x! (e aK1)
representing the positive (Z 0-truncated) Poisson distribution (cf. Laass 1996).
(
)
k x kCxK1 p q , x Z 1, 2, 3, ... x 1 K pk The ranking of the classification and the theoretical values computed according to this distribution can be found in Table 46.2. Since class x Z 1 plays a special empirical and theoretical role, Hřebíček (e. g. 1996) combined this fact with Menzerath’s law (cf. art. no. 47) and argued as follows: There is a proportionality between the class x Z 1 and all other classes that can be expressed as P1 wx Px
Px Z
and since 1Z
x!
whose application in (3) for x Z 1, 2, ... leads to the positive (i. e. zero-truncated) negative binomial distribution
PxK1
a xK1
, then the step-
xK1
q
Px Z
so that
q
(n K 1) (n K 2) ... (n K x C 1) p
(i) If 0 ! a ! 1, then the solution of (1) is xK1
x
wise solution yields
x/N
0 ! a ! 1. (ii) If f (x) is as in (2) then h (x) O g (x) otherwise Px diverges. (iii) If x Z 1, 2, ... , n, i. e. if n is finite then P1 is the normalizing constant securing 0 ! Px ! 1 for all x.
nKxC1p
651
46. Diversification processes
or still better in logarithmic form as ln P1 K ln Px Z ln c (ln x), where the right hand side represents f (x). The reverse transformation yields Table 46.2: Fitting the positive negative binominal distribution to the classification of nominal compounds in German (Raether/Rothe 1991) Category
Rank x
Concrete aim Obligatory prepositional attribute Place Concrete quality Cause/Creator Abstract aim Instrument Origin Time interval Direction Conrete part Circumstance State
fx
NPx
1 2
60 54
60.11 47.43
3 4 5 6 7 8 9 10 11 12 13
29 20 19 15 8 6 5 3 1 1 1
35.04 25.02 17.48 12.04 8.21 5.55 3.73 2.50 1.66 1.10 2.13
2 k Z 1.4708, p Z 0.3613, X 10 Z 5.27, P Z 0.87
() P1
1
ln x
Px
Z c.
(4)
Since the left hand side cannot be constant with all x, Hřebíček replaces c by the “Menzerathian” function Axb. Thus from (4) we obtain
() P1
ln x
b
ZAx .
(5) a
Solving (5) for Px and setting A Z e we obtain P1 xK (aCb ln x).
(6)
This is called Zipf-Alekseev law (cf. Alekseev 1978). It is adequate for capturing different diversification forms. Some authors (cf. Hammerl 1991) emphasize still more the status of the frequency of the first class by modification and obtain
{
Table 46.3: Fitting the Zipf-Alekseev distribution to the associations of “high” in Palermo/Jenkins (1964) (according to Altmann 1992) x
fx
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
129 16 14 12 6 5 4 4 3 3 3 2 2 2 2 2 2 2
1 K α,
xZ1
K(aCb ln x)
αx
T
,
x Z 2, 3, ... , n
(7)
n
where T Z ∑ xK(a C b ln j) is the normalizing jZ2
constant. As an illustration we show in Table 46.3 and Table 46.4 the fitting of this distribution to the ranking of word associations
NPx 129.00 17.28 11.86 8.92 7.10 5.86 4.96 4.29 3.76 3.34 2.99 2.70 2.46 2.25 2.08 1.92 1.78 1.66
x
fx
NPx
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1.56 1.46 1.37 1.30 1.23 1.16 1.10 1.05 1.00 0.95 0.91 0.87 0.84 0.80 0.77 0.74 0.71
a Z 0.8013, b Z 0.0737, n Z 35, α Z 0.5560, 2 Z 3.60, P z 1.00 X 25
Wimmer/Altmann (1996a) used the “Menzerathian proportionality” directly and using the approach Px Z
1
Px
Px Z
of the word “high” (4th grade, male) in Palermo/Jenkins (1994). For fitting of other distributions to this data see Horvath (1963), Haight (1966).
a xb
PxK1 ,
x Z 1, 2, ...
(8)
they came to the Conway-Maxwell-Poisson distribution Px Z
Cax (x! )b
,
x Z 1, 2, ...
(9)
with C as normalizing constant. Formula (9) could be corroborated in some cases for word length diversification (cf. Nemcová/ Altmann 1994; Kim/Altmann 1996). Several empirical tests have, however, shown that (9) does not play the assumed fundamental role claimed by Wimmer and Altmann. Nevertheless, in a two-dimensional case it is preliminarily the only model of the diversification of syllable types (cf. Zörnig/Altmann 1993). The oldest of all diversification models is the so-called Zipf-Mandelbrot’s law which has been derived in different ways (cf. art. no. 30; art. no. 50), depending on the means of argumentation (cf. Mandelbrot 1953;
652
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Mandelbrot 1962; Miller 1957; Orlov/Boroda/Nadarejšvili 1982; Guiter/Arapov 1983; Chitashvili/Baayen 1993; Baayen 2001) and has the form Px Z
K (x C a)c
,
x Z 1, 2, ...
(10)
It can easily be seen that (10) as a curve (not as a distribution) is a generalization of Menzerath’s law. As a distribution it is a very simple special case of (3) where for f (x) Z (x C a K 1)c / (x C a)c the convergence condition (ii) holds. If one considers (10) as a curve, sets up the corresponding differential equation and transforms it in a difference equation, then solving it one obtains a further diversification model, the Waring distribution (cf. Altmann 1993). In this way one can set up a number of diversification models (cf. Altmann 1991; Wimmer/Köhler/Grotjahn et al. 1994; Köhler/Altmann 1996; Wimmer/Altmann 1996a, in which one also finds generalizations, and especially Wimmer/Altmann cf. art. no. 55). The best known models have been applied to the rank distribution of word classes (Best 1997a; Ziegler 1998; Ziegler 2001), for word length (cf. art. no. 19), for sentence length (cf. art. no. 22), for word associations (Altmann 1992; Hřebíček 1996), for word frequencies (Orlov/Boroda/Nadarejšvili 1982), and for phoneme frequencies (Altmann 1993). Martindale/Gusein-Zade/McKenzie et al. (1996) show some special cases of (10) and test them in many languages. A generalization of these cases can be found in Zörnig/Altmann (1995). 5.2. Modified distributions The change of conditions in a language, which necessarily emerges with time, can lead to modifications, usually to complications. The first step is always a change of frequencies in one of the classes to the “disadvantage” of those in another one. If the variable is nominal, this plays no role because two classes simply exchange their rank positions and the form of the distribution remains unchanged. The situation is different with numerical variables. Here, on the above mentioned grounds, first a small shift of frequencies from one class to another occurs, i. e. a portion of the frequencies from class x Z c moves to class c Z x K 1 and we obtain PcK1, new Z PcK1, old C α
Pc, new Z Pc, old K α where 0 ! α ! 1 so that 0 ! Pnew ! 1. Modifications of this kind are well known from statistics. In the domain of word length they were introduced by Uhlířová (1996) for Czech and could be applied to other languages too (cf. Wimmer/Witkovský/Altmann 1999). With regard to the model they represent an anomaly but in reality it is a usual development. If the number of anomalies of this kind increases, we say that the entity wanders to another attractor. The increase of local conditions leads in the end to the change of f (x) in the model. This is exemplified e. g. for Italian in Gaeta (1994) or for the divergence of the Romance languages in Altmann/Best/Wimmer (1997). 5.3. Generalized distributions A slightly more complex case leading to a further generalization and containing the majority of the above mentioned approaches as special cases has been proposed by Wimmer/Köhler/Grotjahn et al. (1994; cf. also Wimmer/Altmann 1996a). It uses another weighting of classes. In the approach x
Px Z f (x) ∑ h (j) PxKj
(11)
jZ1
h (j) is the weighting function that can be itself a probability distribution, f (x) is again the proportionality function as in (3) and the probability of class x results as a weighted sum of all lower classes. Equations like (11) represent difference equations of xth order and are not always easy to solve. However, in the case of frequently used distributions there is a number of ready solutions at our disposal (cf. Charalambides 1977; Charalambides 1984; Panjer 1981; Sundt/Jewell 1981; Willmot/Sundt 1989; Johnson/Kotz/Kemp 1992; Wimmer/Altmann 1996a). For the case that f (x) Z a / x leading in (3) to the Poisson distribution, Wimmer/Altmann (1996a) show a solution by means of probability generating functions. Let Px Z
a
x
∑ h (j) PxKj x jZ1
(12)
and let h (j) Z j Tj where Tj is an arbitrary probability distribution, i. e. Px Z
a
x
∑ j Tj PxKj. x jZ1
(13)
We define the probability generating function as
653
46. Diversification processes
G (t) Z ∑ Px t x
(14)
x
[x/2]
Px Z
whose first derivation is G# (t) Z ∑ x Px t xK1.
(15)
x
Multiplying (13) with x t xK1 and summing for all x we obtain N
∑ x Px t xK1 xZ1
∑ Tj PxKj t xK1 , xZ1 jZ1
(16)
from which after reordering of the right hand side N
N
jZ1
xZj
G# (t) Z a ∑ j Tj t jK1 ∑ PxKj t xKj
(17)
Z a H# (t) G (t) follows, where H (t) is the probability generating function of the distribution Tj. Separating the variables in (17), i. e. G (t)
Z a H# (t)
and integrating one obtains G (t) Z e a H (t)Cc.
(18)
Since G (1) Z H (1) Z 1 from (18) follows that c Z -a, and we obtain G (t) Z e a [H (t)K1] ,
(19)
representing the probability generating function of the generalized Poisson distribution (cf. Feller 1962; Wimmer/Altmann 1996b; Wimmer/Altmann 1999). The probabilities can be derived from (19) by stepwise derivation, i. e. as Px Z
1 x!
[
d x G (t) dt x
]
.
tZ0
As an example of weighting we use the “two-point” distribution Πj Z
{
1Kβ, β,
( )
Ka xKi xKi e a βi (1 K β)xK21 , (x K i)! i x Z 0, 1, 2, ...
In 1-displaced form this distribution has been used by Dieckmann/Judt (1996) for modelling the diversification of word length in French texts as shown in Table 46.5 using one text (Stéphane Simon, Projeté à vingt me`tres. France Soir 7. 5. 1993, p. 4).
x
N
Z a∑
G# (t)
∑ iZ0
jZ1 jZ2
whose probability generating function is H (t) Z (1 K β) t C β t 2 . Inserting this in (19) we obtain 2
G (t) Z e a [(1Kβ) tCβ t K1]. By stepwise derivation according to t one finally obtains the Hirata-Poisson or Hermite distribution
Table 46.5: Fitting the Hirata-Poisson distribution to word length in French (Dieckmann/Judt 1996) x
fx
NPx
1 2 3 4 5
426 168 88 28 5
427.25 167.83 85.12 24.80S 10.00R
a Z 0.5149, β Z 0.2371, X 12 Z 0.19, P Z 0.66
5.4. Partial sums distributions Up to this point all special cases of (3) have been used, one seldom used (11), but this case leads automatically to the “reverse” argumentation. If in (3) a class develops proportionally to the preceding class, i. e. P2 w P1, P3 w P2 , then Px w f (P0, P1, ... PxK1). But in the course of development the equilibrium can be established also in the “opposite” way, namely as Px w f (PxC1, PxC2, ...) where f (.) is a function of the sum. In this way partial sums distributions arise that can be well founded for ranking problems: if a new class arises, then the proportion of the preceding classes reduces automatically, i. e. the lower classes “adapt themselves” to the number and frequency of higher classes. This can easily be seen on the rank-frequency distribution of phonemes: the more phonemes are in the inventory the flatter is the rank-frequency distribution, i. e. the smaller the proportion of phonemes occupying the lower ranks. Now since Px is the sum of higher classes; it is a different variable. Thus from a distribution Px* we obtain further ones by partial summation and weighting. Wimmer/Altmann (2001a) show four summation schemes from which the forms Px Z
1
N
∑ Pj*, µ#* jZx
x Z 1, 2, 3, ...
(12a)
Pj* , jZx j
x Z 1, 2, 3, ...
(12b)
1
N
Px Z ∑
654
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Px Z
N 1 Pj*, * µ#1 K 1 jZxC1
∑
Px Z
eKa
x Z 1, 2, 3, ... (12c)
Px Z
1
P*
N
j , * ∑ jK1 jZxC1 1KP 1
N
aj
∑ , eKa C a K 1 jZxC1 j! x Z 1, 2, 3, ... (13c)
Px Z
eKa
N
aj
, ∑ 1 K eKa K aeKa jZxC1 j! (j K 1)
x Z 1, 2, 3, ... (12d)
x Z 1, 2, 3, ... (13d)
result according to whether one sums from x or from xC1 and where µ#*1 is the first moment of the distribution of X*. The scheme leading to form (12a) can be set up as follows
For several models of this type see Kemp, A. W./Kemp, C. D. (1969), Kemp, A. W./ Kemp, C. D. (1975), Johnson/Kotz/Kemp (1992), Wimmer/Altmann (2000, 2001a).
P1 Z P1* C P2* C P3* C P4* C ... P2* C P3* C P4* C ...
P2 Z
P3* C P4* C ... P3 Z ..................................................... Since the left hand side must yield Σ Px Z 1 and the right hand side is P1* C 2 P2* C 3 P3* C ... Z
∑ j Pj* Z µ#1*
jR1
i. e. it represents the first moment of the original variable X*, the right side must be normalized so that one divides each row by µ#*1. Thus (12a) follows. In the second scheme each Pj* is divided by j whereby the right side sums to 1 and (12b) follows, etc. Such a special distribution corresponding to (12b) starting from the discrete uniform distribution has already been proposed by Good (1969) (cf. also Martindale/GuseinZade/McKenzie et al. 1996), namely Px Z
1
n
1
∑ , n jZx j
x Z 1, 2, ... , n.
Let us illustrate the resulting partial sums distributions starting from the original (parent) positive Poisson distribution given as P*j Z
eKa a j j! (1 K eKa)
,
j Z 1, 2, 3, ...
Using scheme (12) we obtain the following distributions N
a jK1
jZx
j!
Px Z eKa ∑
,
5.5. Stochastic processes The basic stochastic process for modelling diversification is the birth-and-death process which can be set up and solved in the following way. Let the birth-rate (Z diversification rate) in class x be λx and the death-rate (Z unification rate) µx where these quantities can be constant or functions of x. If we assume that the phenomenon is always in steady state K which can always be assumed for language phenomena K then the number of departures from one class must be equal to those of entries. For class x Z 0 this means λ0 P0 Z µ1 P1 ,
because this state can only be left by a birth in class x Z 0 and entered only by a death in class x Z 1. For higher classes/states we have (λ1 C µ1) P1 Z λ0 P0 C µ2 P2 (21) (λ2 C µ2) P2 Z λ1 P1 C µ3 P3 .................................................. (λx C µx) Px Z λxK1 PxK1 C µxC1 PxC1 i. e. the process departs from state x Z 1 when either something is given birth with rate λ1 or something dies with rate µ1; it enters into the state x Z 1 when either something is given birth in class x Z 0 or something dies in class x Z 2, etc. Two or more births or deaths at the same time have probability 0. The left hand side of these equations always shows the departure from state x; the right hand side shows the entry in state x. The solution of these equations is simple. The first line, i. e. (20) yields
x Z 1, 2, 3, ... (13a) e
Ka
Px Z
N
a
j
∑ , 1 K eKa jZx j! j x Z 1, 2, 3, ... (13b)
(20)
P1 Z
λ0 µ1
P0.
If one adds (20) to the first line of (21) one obtains
655
46. Diversification processes
P2 Z
λ1 µ2
P1
and so on, in general Px Z
λxK1
PxK1 µx λxK1 λxK2
PxK2 µx µxK1 ................................. λ0 λ1 ... λxK1 P0 , Z µ1 µ2 ... µx Z
(22)
x Z 1, 2, ...
Since ΣPx Z 1, we obtain by adding the individual Px N
∑ P1 Z 1 Z P0 C P0xZ1 ∑
λ0 λ1 ... λxK1 µ1 µ2 ... µx
,
from which P0 Z
N
1 C∑
1 λ0 λ1 ... λxK1
xZ1
µ1 µ2 ... µx
follows. Let us illustrate the procedure by deriving the hyper-Poisson distribution from this process, which according to Best (1997b) plays a basic role with word length distributions. Since the recurrence formula of the hyper-Poisson distribution is Px Z
a bCxK1
PxK1
we see that λx Z a is a constant (i. e. the speaker diversifies with a constant force) while µx Z b C x K 1 (i. e. the controlling, unifying force is the greater the greater x). The process can be set up as follows a P0 Z bP1 (a C b) P1 Z a P0 C (b C 1) P2 (a C b C 1) P2 Z a P1 C (b C 2) P3 ................................................................................ (a C b C x K 1) Px Z a PxK1 C (b C x) PxC1 ................................................................................ The result that can be obtained more easily from the recurrence formula is Px Z
a x P0
, b (b C 1) (b C 2) ... (b C x K 1) x Z 0, 1, 2, ...
and 1
1
P0 Z 1C
a2
a b
C
b (bC1)
Z C ...
The use of this process is for the time being restricted in linguistics but we expect that it will be exploited more frequently if theories will be built. Altmann (1985b) uses it for dialectal diversification, namely for modelling the distribution of lexical variants on maps of a dialect atlas (based on Goebl 1984) and by means of birth and death rates λx Z a C bx and µx Z cx obtains the negative binomial distribution. Wimmer/Altmann (1995) use (with morphological diversification) the approach λx Z (a C cx) / [b C (n K x C 1) c] and µx Z x / (n K x C 1) for modelling the morphological productivity of stems and obtain the Pólya or negative hypergeometric distribution.
F1 (1; b; a)
where 1F1 (.) is the confluent hypergeometric function.
6.
Interaction of classes
When testing hypothesis (2) it is reasonable to consider merely nominal classes. Though present-day computers allow us to process enormous amounts of data, one of the aims of modelling is the reduction of the mass of data. Thus one should launch this adventure only if the number of classes is not too great. Here the problem is to discover the net of mutual influences, dependences, associations, correlations, etc. One can choose the deductive way and set up and test the net of inter-relations starting from the hypothetical ontogenesis or start from data and proceed stepwise to ever broader generalizations. In the deductive approach we again start from the assumption that besides the first original class at the beginning the next one emerges which completes, accompanies, partially substitutes etc. the first one, which means that the two classes are linked in a special way, e. g. in the form A / B, B / A, A 4 B. The next class coming into existence by diversification can bring considerable complications. Though deductively merely one possibility is given, inductively one must test the following hypotheses: AJB C, A J B J C, AJB ED C
AL B C A L BJC A L B AL B ED EL C C
considering each time both directions of the arrows, all loops, and all possible placings of the double arrow. Any further element enlarges the number of hypotheses so that us-
656
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
ing an inductive procedure only a very good software can keep pace. But even with deductive procedures we soon meet difficulties: (i) There are no classes that would be absolutely equal for all languages, or they can be set up with many subsidiary conditions. Thus we can assume that in different languages or texts there will be idiosyncrasies impeding setting up hypotheses or system building. Depending on boundary conditions in individual texts, genres and languages, some system components disappear, and other ones will be added (cf. Csányi 1989; Kampis 1991). (ii) The usual software considers merely linear relations whose existence can be assumed but not satisfactorily corroborated. This somewhat pessimistic view should not deter us from research in this direction since the resulting nets considered as systems can be used at least for the characterization of texts, genres, and styles. Further it can help to elaborate the conditions under which nets for special classes are built, and this in turn can be relevant for psycholinguistics, theory of culture, literary science, language development, etc. For the first experiments cf. Best (1998), Wimmer/Altmann (2001b). The same holds for assumption/hypothesis (3) in chapter 1 studied by synergetic linguistics (cf. art. no. 53).
7.
Literature (a selection)
Altmann, Gabriel/Best, Karl-Heinz/Kind, Bernd (1987), Eine Verallgemeinerung des Gesetzes der semantischen Diversifikation. In: Glottometrika 8. (Ed. I. Fickermann). Bochum: Brockmeyer, 130K 139. Altmann, Gabriel/Best, Karl-Heinz/Wimmer, Gejza (1997), Wortlänge in romanischen Sprachen. In: Semiotische Prozesse und natürliche Sprache. Festschrift für Udo L. Figge zum 60. Geburtstag. (Eds. A. Gather/H. Werner). Stuttgart: Steiner, 1K13. Altmann, Gabriel/Erat, Erkan/Hřebíček, Luděk (1996), Word length distribution in Turkish texts. In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 195K204. Baayen, R. Harald (2001), Word frequency distributions. Dordrecht: Kluwer. Beőthy, Erzsébeth/Altmann, Gabriel (1984a), The diversification of meaning of Hungarian verbal prefixes. II. ki-. In: Finnisch-Ugrische Mitteilungen 8, 29K37. Beőthy, Erzsébeth/Altmann, Gabriel (1984b), Semantic diversification of Hungarian verbal prefixes. III. “föl-”, “el-”, “be-”. In: Glottometrika 7. (Ed. U. Rothe). Bochum: Brockmeyer, 45K56. Best, Karl-Heinz (1994), Word class frequency in contemporary German short prose texts. In: Journal of Quantitative Linguistics 1, 144K147. Best, Karl-Heinz (1997a), Zur Wortartenhäufigkeit in Texten deutscher Kurzprosa der Gegenwart. In: Glottometrika 16. (Ed. K.-H. Best). Trier: WVT, 276K285. Best, Karl-Heinz (1997b), Zum Stand der Untersuchungen zu Wort- und Satzlängen. In: Third International Conference on Quantitative Linguistics. Helsinki, 172K176.
Alekseev, Pavel M. (1978), O nelinejnych formulirovkach zakona Cipfa. In: Statistika reči i avtomatičeskij analiz teksta. (Ed. R. G. Piotrovskij). Moskva/Leningrad: Naučnyj sovet po kompleksnoj probleme “Kibernetika” AN SSSR, 53K65. Altmann, Gabriel (1985a), Semantische Diversifikation. In: Folia Linguistica 19, 177K200.
Best, Karl-Heinz (1998), Zur Interaktion der Wortarten in Texten. In: Papiere zur Linguistik 58, 83K95.
Altmann, Gabriel (1985b), Die Entstehung diatopischer Varianten. Ein stochastisches Modell. In: Zeitschrift für Sprachwissenschaft 4, 139K155.
Charalambides, Charalambos (1977), On the generalized discrete distributions and the Bell polynomials. In: Sankhyā B 39, 36K44.
Altmann, Gabriel (1991), Modelling diversification phenomena in language. In: Rothe 1991, 33K46.
Charalambides, Charalambos (1984), Probabilities and moments of generalized discrete distributions using finite difference equations. In: Communications in Statistics K Theory and Methods 13, 3225K3241.
Altmann, Gabriel (1992), Two models of word association data. In: Glottometrika 13. (Ed. B. Rieger). Bochum: Brockmeyer, 105K120. Altmann, Gabriel (Ed.), Glottometrika 14. Bochum: Brockmeyer, 1993. Altmann, Gabriel (1996), Diversification processes of the word. In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 102K111.
Boretzky, Norbert (1977), Einführung in die historische Linguistik. Reinbek: Rowohlt. Bunge, Mario (1967), Scientific research I. Berlin: Springer.
Chitashvili, Reza J./Baayen, R. Harald (1993), Word frequency distributions. In: Quantitative Textanalysis. (Eds. L. Hřebíček/G. Altmann). Trier: WVT, 54K135. Csányi, Vilmos (1989), Evolutionary systems: a general theory. Durham: Duke University Press.
46. Diversification processes Dieckmann, Sandra/Judt, Birga (1996), Untersuchung zur Wortlängenverteilung in französischen Pressetexten und Erzählungen. In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 158K165. Dittrich, Heike (1996), Word length frequency in the letters of G. E. Lessing. In: Journal of Quantitative Linguistics 3, 260K264. Feller, William (1962), An introduction to probability theory and its applications. New York: Wiley. Gaeta, Livio (1994), Wortlängenverteilung in italienischen Texten. In: Zeitschrift für empirische Textforschung 1, 44K48. Geršić, Slavko/Altmann, Gabriel (1988), Ein Modell für die Variabilität der Vokaldauer. In: Glottometrika 9. (Ed. K. P. Schulz). Bochum: Brockmeyer, 49K58. Goebl, Hans (1984), Dialektometrische Studien I. Tübingen: Narr. Good, Irving J. (1969), Statistics of language. In: Encyclopedia of information, linguistics and control. (Eds. A. R. Meethoun/R. A. Hudson). Oxford: Pergamon, 567K581. Guiter, Henri/Arapov, Michail V. (Eds.), Studies on Zipf’s law. Bochum: Brockmeyer, 1983. Guntern, Gottlieb (1982), Auto-organization in human systems. In: Behavioral Science 27, 323K 337. Haight, Frank A. (1966), Some statistical problems in connection with word association data. In: Journal of Mathematical Psychology 3, 217K233. Hammerl, Rolf (1991), Untersuchungen zur Struktur der Lexik. Aufbau eines lexikalischen Basismodells. Trier: WVT. Horvath, William J. (1963), A stochastic model for word association tests. In: Psychological review 70, 361K364. Hřebíček, Luděk (1996), Word associations and text. In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 96K101. Johnson, Samuel/Kotz, Norman L./Kemp, Adrienne W. (1992), Univariate discrete distributions. New York: Wiley. Kampis, George (1991), Self-modifying systems in biology and cognitive science. Oxford: Pergamon Press. Kemp, Adrienne W./Kemp, C. David (1969), Some distributions arising from an inventory decision problem. In: Bulletin of the International Statistical institute 43, 367K369. Kemp, Adrienne W./Kemp, C. David (1975), Models for Gaussian hypergeometric distributions. In: Statistical distributions in scientific work, vol. 1. (Eds. G. P. Patil/S. Kotz/J. K. Ord). Dordrecht: Reidel, 31K40. Kim, Icheon/Altmann, Gabriel (1996), Zur Wortlänge in koreanischen Texten. In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 205K213.
657 Köhler, Reinhard (1986), Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, Reinhard (1987), Systems theoretical linguistics. In: Theoretical Linguistics 14, 241K257. Köhler, Reinhard (1989), Linguistische Analyseebenen, Hierarchisierung und Erklärung im Modell der sprachlichen Selbstregulation. In: Glottometrika 11. (Ed. L. Hřebíček). Bochum: Brockmeyer, 1K18. Köhler, Reinhard (1990), Elemente der synergetischen Linguistik. In: Glottometrika 12. (Ed. R. Hammerl). Bochum: Brockmeyer, 179K187. Köhler, Reinhard (1991), Diversification of coding methods in grammar. In: Diversification processes in language: Grammar. (Ed. U. Rothe). Hagen: Rottman, 47K55. Köhler, Reinhard/Altmann, Gabriel (1996), “Language Forces” and synergetic modelling of language phenomena. In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 62K76. Laass, Françoise (1996), Zur Häufigkeit der Wortlängen in deutschen Lesebuchtexten. In: Glottometrika 15, 181K194. Lehfeldt, Werner (1975), Die Verteilung der Phonemzahl in den natürlichen Sprachen. In: Phonetica 31, 274K287. Mandelbrot, Benoit (1953), An information theory of the statistical structure of language. In: Communication theory. (Ed. W. E. Jackson). New York: Academic Press, 503K512. Mandelbrot, Benoit (1962), On the theory of word frequencies and on related Markovian models of discourse. In: Structure of language and its mathematical aspects. (Ed. R. Jakobson). Providence R. I.: American Mathematical Society, 109K219. Martindale, Colin/Gusein-Zade, S. M./McKenzie, Dean/Borodovsky, Mark Yu. (1996), Comparison of equations describing the ranked frequency distributions of graphemes and phonemes. In: Journal of Quantitative Linguistics 3, 106K112. Miller, George A. (1957), Some effects of intermittent silence. In: American Journal of Psychology 70, 311K314. Nemcová, Emília/Altmann, Gabriel (1994), Zur Wortlänge in slowakischen Texten. In: Zeitschrift für empirische Textforschung 1, 40K43. Orlov, Jurij K./Boroda, Moisei G./Nadarejšvili, Isabella Š. (1982), Sprache, Text, Kunst. Quantitative Analysen. Bochum: Brockmeyer. Palermo, D. S./Jenkins, J. J. (1964), Word association norms. Grade school through college. Minneapolis: University of Minnesota Press. Panjer, Harry H. (1981), Recursive evaluation of compound distributions. In: Astin Bulletin 12, 22K26. Raether, Anette/Rothe, Ursula (1991), Diversifikation der deutschen Komposita “Substantiv plus Substantiv”. In: Rothe 1991b, 85K91.
658
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Rothe, Ursula (1986), Die Semantik des textuellen ‘et’. Frankfurt et al.: Lang. Rothe, Ursula (1991a), Diversification processes in language. An Introduction. In: Rothe 1989b, 1K 32. Rothe, Ursula (Ed.), Diversification processes in language: Grammar. Hagen: Rottmann, 1991b. Sigurd, Bengt (1968), Rank-frequency distribution of phonemes. In: Phonetica 18, 1K15. Sundt, Björn/Jewell, William S. (1981), Further results on recursive evaluation of compound distributions. In: Astin Bulletin 12, 27K39. Tuldava, Juhan (1997), Probleme und Methoden der quantitativ-systemischen Untersuchung der Lexik. Trier: WVT. Uhlířová, Ludmila ( 1996), How long are words in Czech? In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 134K146. Willmot, Gordon E./Sundt, Björn (1989), On evaluation of Delaporte distribution and related distributions. In: Scandinavian Actuarial Journal, 101K113. Wimmer, Gejza/Altmann, Gabriel (1995), A model of morphological productivity. In: Journal of Quantitative Linguistics 2, 212K216. Wimmer, Gejza/Altmann, Gabriel (1996a), The theory of word length: some results and generalizations. In: Glottometrika 15. (Ed. P. Schmidt). Trier: WVT, 112K133. Wimmer, Gejza/Altmann, Gabriel (1996b), The multiple Poisson distribution, its characterization and a variety of forms. In: Biometrical Journal 8, 995K1011. Wimmer, Gejza/Altmann, Gabriel (1999), Thesaurus of univariate discrete probability distributions. Essen: Stamm. Wimmer, Gejza/Altmann, Gabriel (2000), On the generalization of the STER distribution applied to generalized hypergeometric parents. In: Acta Universitatis Olomoucensis Facultas Rerum Naturalium, Mathematica 39, 215K247.
Wimmer, Gejza/Altmann, Gabriel (2001a), Models of rank-frequency distributions in language and music. In: Text as a linguistic paradigm: levels, constituents, constructs. Festschrift in honour of Ludek Hřebíček. (Eds. L. Uhlířová/G. Wimmer/G. Altmann et al.). Trier: WVT, 10K20. Wimmer, Gejza/Altmann, Gabriel (2001b), Some statistical investigations concerning word classes. In: Glottometrics 1, 109K123. Wimmer, Gejza/Köhler, Reinhard/Grotjahn, Rüdiger/Altmann, Gabriel (1994), Towards a theory of word length distribution. In: Journnal of Quantitative Linguistics 1, 98K105. Wimmer, Gejza/Witkovský, Viktor/Altmann, Gabriel (1999), Modification of probability distributions applied to word length research. In: Journal of Quantitative Linguistics 6, 257K268. Ziegler, Arne (1998), Word class frequencies in Brasilian-Portuguese press texts. In: Journal of Quantitative Linguistics 5, 269K280. Ziegler, Arne (2001), Word class frequencies in Portuguese press texts. In: Text as a linguistic paradigm: levels, constituents, constructs. Festschrift in honour of Ludek Hřebíček. (Eds. L. Uhlířová/G. Wimmer/G. Altmann et al.). Trier: WVT, 295K 312. Zipf, George K. (1935), The psycho-biology of language. An introduction to dynamic philology. Boston: Houghton Mifflin. Zipf, George K. (1949), Human behavior and the principle of least effort. Cambridge, Mass.: Addison-Wesley. Zörnig, Peter/Altmann, Gabriel (1993), A model for the distribution of syllable types. In: Glottometrika 14. (Ed. G. Altmann). Trier: WVT, 190K196. Zörnig, Peter/Altmann, Gabriel (1995), Unified representation of Zipf distributions. In: Computational Statistics & Data Analysis 19, 461K473.
Gabriel Altmann, Lüdenscheid (Germany)
659
47. Das Menzerathsche Gesetz
47. Das Menzerathsche Gesetz 1. 2. 3. 4.
8. 9. 10.
Einleitung Geschichtlicher Abriss Ein linguistisches Gesetz Die Formalisierung der Beobachtungen Menzeraths Altmanns Hypothesen Die empirischen Arbeiten Das Menzerathsche Gesetz außerhalb der Linguistik Die Interpretationen Schlussbetrachtung Literatur (in Auswahl)
1.
Einleitung
5. 6. 7.
Das Menzerathsche Gesetz beschreibt die Beziehung zwischen der Größe eines sprachlichen Konstrukts und der Größe seiner Konstituenten. Dabei werden nur zählund messbare K also quantifizierbare K Aspekte des Konstrukts und seiner Konstituenten berücksichtigt. Für diese quantifizierbaren Merkmale, besonders die Größe oder Länge einer sprachlichen Einheit, stellt das Menzerathsche Gesetz einen formalen Beschreibungsapparat sowie erste Interpretationsansätze für die zugrunde liegenden psychologischen und sprachlichen Mechanismen zur Verfügung. Die Funktionen, mit deren Hilfe die Beziehung zwischen Konstrukt und Konstituenten beschrieben werden können, werden im Abschnitt 4 näher beschrieben. Darin wird auch dargestellt, welche Beobachtungen und Überlegungen zu diesen Formeln geführt haben und warum. Die Begriffe Konstrukt und Konstituente lassen sich durch eine Vielzahl konkreter sprachlicher Einheiten K Phonem, Morphem, Silbe, Wort, Satz usw. K operationalisieren. In Abschnitt 5 wird daher ein Überblick über die Hypothesen gegeben, die sich aus dem Menzerathschen Gesetz ableiten lassen. Das Menzerathsche Gesetz stand in den letzten 20 Jahren im Fokus intensiver Forschungsarbeit der quantitativ orientierten Linguistik und das starke Interesse ist bis heute keineswegs abgeflaut. Dieses starke Interesse spiegelt sich vor allem in der großen Zahl an empirischen Untersuchungen, die in Abschnitt 6 vorgestellt werden sollen, wider. Den Interpretationsansätzen, die die zugrunde liegenden psychologischen und sprachlichen Mechanismen zu erklären versuchen, ist Abschnitt 8 gewidmet. Doch zunächst soll ein kurzer geschichtli-
cher Überblick über die Entwicklung gegeben werden, die zum Menzerathschen Gesetz geführt hat.
2.
Geschichtlicher Abriss
2.1. Vorläufer Bei quantitativ orientierten Forschungsarbeiten müssen oft sehr umfangreiche Datenmengen ausgewertet werden, was meist äußerst mühsam war, bevor die Verbreitung und allgemeine Zugänglichkeit von technischen Hilfsmitteln, wie etwa der Computer hier Erleichterung brachten. Dennoch finden wir in der Literatur bereits Untersuchungen vom Ende des 19. und Anfang des 20. Jahrhunderts, die in engem Zusammenhang zum Menzerathschen Gesetz zu sehen sind, und in denen K z. T. ohne die angesprochenen Hilfsmittel K schon erste interessante Beobachtungen beschrieben werden. Am leichtesten und vielleicht auch am intuitivsten ist es, das im Menzerathschen Gesetz beschriebene Phänomen auf der phonetischen Ebene zu erkennen. In einem einfachen und gut nachvollziehbaren Experiment kann man sich das verdeutlichen. Zählt man beim Gehen seine Schritte, so fällt auf, dass man sowohl die kleinen als auch die großen Zahlen in einer Zeit- oder besser in einer Schritteinheit unterbringen kann, obwohl die größeren Zahlen aus mehr Silben bestehen. Diese Beobachtung überprüft A. Grégoire 1899 mit Hilfe experimenteller Messungen. In seiner Veröffentlichung beschreibt er das Phänomen anhand des Französischen und stellt dabei u. a. fest, dass der Vokal /a/ in einem Wort wie pâtisserie wesentlich kürzer gesprochen wird als etwa in pâte oder pâté, obwohl es sich qualitativ um den gleichen Laut handelt. Er führt für das beobachtete Phänomen die Bezeichnung Kompressionseffekt ein und legt damit den Grundstein für weitere experimentalphonetische Forschungsarbeiten zu diesem Thema (vgl. hierzu die Veröffentlichungen von E. A. Meyer (1904) und von L. Roudet (1910)). Obwohl immer wieder Untersuchungen zum Kompressionseffekt veröffentlicht werden, können weder das Phänomen selbst noch die Bedingungen, unter denen es auftritt, umfassend geklärt werden. Bemühungen um eine Interpretation oder etwa um
660
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
eine Formalisierung der Beobachtungen sind in diesen frühen Veröffentlichungen genau so wenig zu finden wie das Bewusstsein dafür, dass das Phänomen über die Phonetik hinaus auf anderen linguistischen Analyseebenen Gültigkeit haben könnte. Dennoch sollte das Verdienst, das diesen Arbeiten zukommt, keinesfalls unterschätzt werden. 2.2. Menzeraths Beobachtung Den ersten Interpretationsversuch und darüber hinaus die Feststellung, dass die Gültigkeit nicht auf den phonetischen Bereich beschränkt ist, verdanken wir dem Psychologen und Phonetiker P. Menzerath. Er veröffentlicht 1928 eine Forschungsarbeit zum Spanischen, in der er auf den Zusammenhang zwischen Lautdauer und dem Lautganzen hinweist. Die Beobachtungen, die er als Quantitätsgesetz bezeichnet, bestätigen die etwa bei Grégoire bereits beschriebenen Erkenntnisse. Demnach wird ein Laut dann kürzer gesprochen, wenn das Wort oder die Silbe, in der er auftritt, länger bzw. lautreicher ist. Neben dem Quantitätsgesetz umfasst seine Arbeit weiter Gesetze, denen ein Sprecher bei der Sprachproduktion unbewusst folgt und die daher die Sprachvorgänge beschreiben können sollen. Neben
dieser Untersuchung Menzeraths ist seine Veröffentlichung „Die Architektonik des deutschen Wortschatzes“ von 1954 von wesentlicher Bedeutung. Das Ziel dieser Arbeit ist eine Untersuchung des Wortschatzes mit Hilfe statistischer Methoden. Menzerath klassifiziert hierzu 20453 Wörter anhand der Anzahl ihrer Silben. Eine enorme Leistung vor allem, wenn man sich bewusst macht, dass er kaum auf technische Hilfsmittel zurückgreifen kann. Den untersuchten Ausschnitt unterteilt er in Gruppen (1-Silber, 2-Silber bis 9-Silber). Dabei wird jedes Wort einer dieser Gruppen zugeordnet, je nachdem aus wie vielen Silben es sich zusammensetzt. Auf der Grundlage dieser Klassifikation nimmt Menzerath verschiedene statistische Untersuchungen vor, die sehr interessante Erkenntnisse zur Struktur des Wortschatzes ergeben. Im Folgenden soll allerdings nur auf die Aspekte eingegangen werden, die für das hier diskutierte Thema relevant sind. Tabelle 47.1, die K wie auch Abbildung 47.1 K aus der Arbeit von Menzerath (1954, 99) übernommen wurde, zeigt deutlich, dass ein Zusammenhang zwischen der Anzahl der Laute und der Anzahl der Silben besteht. Diesen Zusammenhang formuliert Menzerath wie folgt:
Tab. 47.1: Relative Häufigkeit der deutschen Wortgruppen in % (übernommen aus Menzerath 1954, 99) Lautzahl n
Silbenzahl z in % 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
0.04 0.55 3.15 4.70 2.15 0.34 0.01
2
0.02 0.49 6.1 7.3 7.9 6.4 2.1 0.45 0.12
3
0.03 1.25 5.4 9.0 9.3 5.5 2.75 0.77 0.14 0.02 0.005
4
0.11 1.0 3.15 4.3 4.4 2.8 1.3 0.48 0.21 0.03 0.02
5
0.05 0.06 0.21 0.82 0.98 0.98 0.75 0.40 0.22 0.07 0.01
6
0.02 0.05 0.15 0.25 0.24 0.14 0.10 0.05 0.02 0.01 0.01
7
8
0.005 0.02 0.04 0.04 0.05 0.01 0.01 0.01 0.01
0.02 0.005 0.01 0.00 0.01 0.005
9
0.005 0.005 0.000 0.005 0.01
661
47. Das Menzerathsche Gesetz
0
1
2
3
4
5
6
7
8
9
3 4 1 2
5
6
9 10 7 8
11
7 18 16 1 4 15 1 3 12 1
Abb. 47.1: Typenhäufigkeitsgebirge des deutschen Wortschatzes mit z Z Silbenzahl und n Z Lautzahl (entnommen aus Menzerath 1954, 100)
„Die relative Lautzahl nimmt mit steigender Silbenzahl ab, oder mit anderer Formel gesagt: je mehr Silben ein Wort hat, um so (relativ) kürzer (lautärmer) ist es.“ (Menzerath 1954, 100)
Menzerath interpretiert die Ergebnisse, die in Tabelle 47.1 und Abbildung 47.1 dargestellt sind, psychologisch. Er vermutet, dass dem beobachteten Phänomen eine Regel zugrunde liegt, die sich sowohl auf verschiedenen Ebenen als auch in unterschiedlichen Sprachen wieder finden lassen sollte. Menzerath führt die Bezeichnung Sparsamkeitsregel dafür ein und erklärt seine Beobachtung damit, dass das sprachliche Konstrukt K sei es Silbe oder Wort etc. K für Produzent und Rezipient überschaubar bleiben müsse. „[.] je größer das Ganze, um so kleiner die Teile!“ (Menzerath 1954, 101). Diese Formulierung spielt bis heute eine zentrale Rolle. Mit ihr kann in kurzen K wenn auch vereinfachenden K Worten der Kerngehalt des Menzerathschen Gesetzes beschrieben werden. Dass diese Formel auch außerhalb der Linguistik ihre Berechtigung zu haben scheint, ist in den letzten Jahren immer wieder deutlich zu Tage getreten. Daher verwundert es nicht, dass das genannte Zitat über die Grenzen der Sprachwissenschaft hinaus Bedeutung hat. Obwohl diese sehr eingängige Form wohl als das Kondensat aus Menzeraths Beobachtungen angesehen werden kann, sollte es nicht darüber hinweg täuschen, dass Menzerath in seiner Veröffentlichung von 1954 auch eine Art Arbeitsauftrag für die weitere Forschung erteilt. So weist er ausdrücklich darauf hin, wie nötig es ist, seine Ergebnisse auf andere Gebiete zu übertragen, in anderen Sprachen zu testen, eine psychologische bzw. linguistische Interpretation zu finden und nicht zuletzt eine mathematische For-
malisierung dafür aufzustellen. Man könnte meinen, Menzerath habe damit den Weg, der zu gehen ist, deutlich aufgezeichnet. Dennoch dauert es fast 30 Jahre, bis in seinem Sinn mathematische Darstellungen entwickelt und weitere Untersuchungen in Angriff genommen werden.
3.
Ein linguistisches Gesetz
Wie die von ihm gewählte Bezeichnung Quantitätsgesetz für seine Beobachtung zeigt, geht es Menzerath besonders um das Finden und Aufstellen von linguistischen Gesetzen. Daher sollen an dieser Stelle einige kurze Bemerkungen zum Stellenwert eines wissenschaftlichen und vor allem eines linguistischen Gesetzes eingeschoben werden. Dass im Rahmen wissenschaftlicher Beschäftigung das Gesetz eine wesentliche Rolle spielt, ist allgemein bekannt. Ein Blick auf die Traditionen der Linguistik zeigt jedoch, dass häufig keine klare Trennlinie zwischen Regel und Gesetz gezogen wird. Im Rahmen einer linguistischen Theorie, die immer mit dem Ziel entwickelt wird, Erklärungen zu liefern, kann jedoch die Regel nur eine sehr untergeordnete Rolle einnehmen. Idealerweise sollte ganz darauf verzichtet werden. Der Linguist und Mathematiker G. Altmann (1978) weist in „Towards a Theory of Language“ ausdrücklich darauf hin, dass im Rahmen einer linguistischen Theorie ausschließlich mit Gesetzen gearbeitet werden sollte. Die Begründung liegt auf der Hand: Regeln können lediglich Beschreibungen jedoch keine Erklärungen für ein Phänomen liefern. Damit sind sie als Teil einer Theorie vollkommen ungeeignet. Die erklärenden Elemente einer Theorie sind
662
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
daher vielmehr die Gesetze. Dabei spielt es keine Rolle, ob es sich um deterministische Gesetze handelt oder um stochastische. Wesentlich ist nur, dass sie bestimmten Kriterien entsprechen. So sollte ein Gesetz der Form y Z f (x1, x2, ..., xn)
(1)
genügen, wobei y eine bestimmte linguistische Eigenschaft ist. x1, x2, ...,xn stehen für Eigenschaften, die über die Funktion f mit y verknüpft sind. Ausgehend von dem Gedanken des einheitlichen Baus der Sprache muss darüber hinaus der funktionale Zusammenhang f auf allen Ebenen gelten. Die verschiedenen sprach- und ebenenspezifischen Randbedingungen sorgen zwar für unterschiedliche Ausprägungen der Funktion K dabei spricht man auch von einem Kurvenbündel K jedoch nicht für das Außerkrafttreten des Gesetzes. Es liegt auf der Hand, dass dafür alle linguistischen Eigenschaften messbar sein müssen. Für die Frage nach der Messbarkeit und der Quantifizierbarkeit linguistischer Einheiten sei auf die entsprechende Literatur verwiesen. Mit Hilfe des Hempel-Oppenheim-Schemas und allen Eigenschaften x1, x2, ..., xn kann so für eine gegebene Sprache die untersuchte Größe y bestimmt werden. Wie aber gelangt man zu einem Gesetz in der beschriebenen Form? Dieser Schritt ist sicherlich einer der schwierigsten. Zu unterscheiden ist dabei die induktive und die eher deduktiv orientierte Vorgehensweise. Der Forschungsprozess, der zum Menzerathschen Gesetz geführt hat, zeichnete sich durch ein eher deduktives Vorgehen aus. Die Beobachtung eines bestimmten Phänomens K vergleiche dazu den Abschnitt 2 K führt zu einer allgemeinen Formulierung, die als Kondensat der Beobachtungen angesehen werden kann. Auf der Grundlage dieser allgemeinen Form kann nun nach einer mathematischen Gleichung gesucht werden. Eine solche präzise Beschreibung des funktionalen Zusammenhangs ermöglicht es wiederum, Hypothesen abzuleiten, die im Rahmen empirischer Untersuchungen K also z. B. für verschiedene linguistische Analyseebenen und in möglichst vielen unterschiedlichen Sprachen K hinsichtlich ihrer Validität überprüft werden können. Diese Stadien der Arbeit entsprechen einem sinnvollen Vorgehen innerhalb des wissenschaftlichen Forschungsprozesses im Allgemeinen, sie spiegeln aber auch die Entwicklung des Menzerathschen Gesetzes auf einmalige Weise wider.
4.
Die Formalisierung der Beobachtungen Menzeraths
Auf der Grundlage der Arbeiten Menzeraths veröffentlicht G. Altmann 1980 eine mathematische Form und nennt sie das Menzerathsche Gesetz. Zunächst bringt er Menzeraths Beobachtungen in eine etwas weniger allgemeine Formulierung, wobei er auf die in der Linguistik üblichere Terminologie zurückgreift: „The longer a language construct the shorter its components (constituents).” (Altmann 1980, 1)
Dies zugrunde legend bemühte sich Altmann um eine mathematische Form. In einem ersten Schritt geht er davon aus, es mit einer konstanten Abnahmerate zu tun zu haben. Für diesen speziellen Fall stellt er folgende Gleichung auf: y#
(2)
Z Kc
y
Die relative Veränderung einer Funktion wird ausgedrückt, indem man die Funktion y selbst zu ihrer ersten Ableitung y' ins Verhältnis setzt. Das entspricht der linken Seite von Gleichung (2). Da es sich hierbei um eine konstante Veränderung handelt, steht auf der rechten Seite der Gleichung die Konstante, die in diesem Fall K wir haben es mit einer Abnahme zu tun K negativ sein muss. Die Lösung für eine derartige Differentialgleichung erhält man, indem man integriert.
∫ y Z ∫Kc y#
(3)
Durch Integrieren ergibt sich die folgende Gleichung: ln y Z Kcx C a
(4)
die noch etwas vereinfacht werden kann: (5)
y Z a eKcx
Unter Berücksichtigung eines möglichen systematischen Störeinflusses, der die Funktion überlagern könnte, hält Altmann es für notwenig und sinnvoll, ein weiteres Glied in der ersten Differentialgleichung anzufügen. Dadurch können auch kompliziertere Fälle, bei denen die Kurve nicht K wie Gleichung (5) K monoton fallend ist, beschrieben werden. In diesem Fall sieht die Differentialgleichung so aus: b
y# y
Z Kc C
x
(6)
663
47. Das Menzerathsche Gesetz
Dabei steht das Glied
b
für einen der Kür-
x zungsrate entgegenwirkenden Faktor. Die Lösung erhält man wiederum durch Integrieren: y Z a x b eKcx
(7)
Diese Kurve ist dort monoton fallend, wo Kb O x ist. Das heißt, in bestimmten Bereic chen steigt die Kurve. Man beachte, dass das nicht unbedingt mit dem Menzerathschen Gesetz im Widerspruch stehen muss. Bis jetzt noch unerforschte Faktoren könnten die Kürzungstendenz, die in der Regel beobachtet wird, überlagern. Diese Tatsache ist weniger ein Grund, das Gesetz zu verwerfen, als viel mehr Veranlassung nach genau diesen systematisch überlagernden Tendenzen zu suchen. Unsystematische Überlagerungen der Funktion werden durch die K in einem stochastischen Gesetz wie diesem K übliche Bearbeitung großer Datenmengen neutralisiert. Neben den beiden vorher genannten Gleichungen erhalten wir durch Setzen von c Z 0 eine weitere: y Z a xb
(8)
Dabei steht nicht c für die Kürzungstendenz, sondern b. Folglich nimmt b in diesem Fall nur negative Werte an. Die zugrunde liegende Differentialgleichung muss dementsprechend wie folgt aussehen: b
y#
(9)
Z y
x
Die Kürzungsrate ist hier nicht konstant, wie etwa in Formel (2), sondern verhält sich umgekehrt proportional zur Konstruktgröße x. Als Ergebnis von Altmanns Überlegungen erhält man somit drei mögliche Formeln für das Menzerathsche Gesetz. Dabei ist Gleichung (7) die allgemeine Form. Bei Gleichung (5) und (8) handelt es sich jeweils um einen Spezialfall. Eine tabellarische Auflistung der drei Möglichkeiten soll helfen, die Unterschiede zu verdeutlichen. Tab. 47.2: Die möglichen Gleichungen des Menzerathschen Gesetzes (entnommen aus Altmann 1980, 3) bZ0
y Z a eKcx
bs0
cZ0 cs0
y Z a xb y Z a x b eKcx
In allen Gleichungen gilt, dass y für die Konstituentenlänge steht und x die Konstruktlänge bezeichnet. Die Parameter a, b und c sind in allen Fällen Konstanten, die für unterschiedliche Sprachen, auf verschiedenen Analyseebenen und je nach Text K abhängig etwa von Stil und Genre etc. K verschiedene Werte annehmen können. Vereinfachend betrachtet Altmann K im Rahmen dieser Formalisierung K die Daten als stetig, was zumindest für den Bereich der Phonetik, hier wird z. B. in Millisekunden gemessen, zutreffend ist. Sicherlich muss man den Einwand gelten lassen, dass man es häufiger K beispielsweise in der Syntax K mit diskreten und kaum mit stetigen Daten zu tun hat. Wie aus Abschnitt 6 ersichtlich wird, kann dieses Problem durch die Verwendung von Mittelwerten umgangen werden. Mit den Funktionen (5), (7) und (8) erhält man jeweils ein Kurvenbündel. Der konkrete Kurvenverlauf hängt davon ab, welche Werte die Parameter a, b und c annehmen und damit von welchen Randbedingungen im speziellen Fall auszugehen ist. Über die Interpretation der Parameter besteht noch kein Konsens. Es bleiben in diesem Zusammenhang einige Fragen zu klären. Darum mag es auch nicht verwundern, dass auch noch keine Einigkeit darüber erzielt werden konnte, welche der genannten Formeln wann zur Beschreibung von Daten eingesetzt werden soll. Wie aus Abschnitt 6 deutlich wird, hat sich allerdings die Mehrheit der Forscher, die Arbeiten zum Menzerathschen Gesetz veröffentlich haben, für Gleichung (8) entschieden. Ohne jedoch eine Interpretation für alle drei Parameter zu haben, ist es nicht unproblematisch, eine der beiden Vereinfachungen zu benutzen. Gleichung (8) setzt voraus, wie aus Tabelle 47.2 leicht ersichtlich ist, dass für den Parameter c Z 0 gilt. Fehlt eine Interpretation von c, so wird es schwierig zu begründen, warum im untersuchten Fall dieser Parameter den Wert 0 annehmen sollte.
5.
Altmanns Hypothesen
Altmann (1980) leitet auf der Grundlage seiner mathematischen Formalisierung verschiedene Hypothesen ab (vgl. hierzu die Ausführungen im Abschnitt 3). Diese sollen im Folgenden vorgestellt werden. Die Begriffe Konstrukt und Konstituente, die Altmann als Ausgangspunkte für seine Gesetzesformel wählt, lassen sich auf verschie-
664
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws Hypothese 6: Arens’sche Regel Hypothese 7: Menzerath textuell
Menzerathsches Gesetz Hypothese 8: Bedeutungskomplexität verkürzung
Hypothese 1: 1: Hypothese Lautverkürzung
Hypothese 2: Silbenverkürzung
Hypothese 3: Morphemverkürzung
Hypothese 1a: Lautveränderung
Hypothese 2a: Konsonantenreduktion
Hypothese 3a: Kompositumbildung
Hypothese 1b: Sprachstabilität
Hypothese 2b: Vokalepenthese
Hypothese 3b: Wurzelverkürzung
Hypothese 4: Phrasenverkürzung
Hypothese 5: Clauseverkürzung
Hypothese 5a: Wortverlängerung
Hypothese 3c: partielle Reduplikation
Abb. 47.2: Übersicht der auf der Grundlage der Formalisierung abgeleiteten Hypothesen (vgl. Altmann/ Schwibbe 1989, 13)
dene Arten interpretieren. Grundsätzlich ist es möglich, das Menzerathsche Gesetz auf ganz unterschiedliche sprachliche Einheiten K wie Laut, Morphem, Satz etc. K anzuwenden. So könnte ein Konstrukt ein Wort sein, dessen Konstituenten dann etwa die Silben sind. Eine empirische Untersuchung würde in diesem Fall überprüfen, ob die Beziehung zwischen der Länge eines Wortes und der Länge seiner Silben dem Menzerathschen Gesetz folgt. Welche linguistische Einheit man als Konstrukt bzw. als Konstituente wählt, ist grundsätzlich nicht beschränkt. Allerdings sollte man beachten, dass es sich immer um die direkten und nicht um indirekte Konstituenten handelt. Ein Satz sollte möglichst mit seinen Teilsätzen und nicht mit seinen Wörtern in Beziehung gebracht werden. Das Überspringen einer Ebene führt in der Regel zur Verschleierung des Zusammenhangs und in manchen Fällen sogar zu dessen Umkehrung. Die von Altmann (1980) aufgestellten Hypothesen sind in Abbildung 47.2 dargestellt. Einige von ihnen lassen sich, ohne größere, unlösbare Probleme aufzuwerfen, anhand von einzelnen Sprachen überprüfen,
andere hingegen durch den Vergleich von verschiedenen Sprachen oder den Vergleich älterer mit neueren Sprachstufen, was sich beides häufig als sehr schwierig gestaltet. Nicht alle Hypothesen können daher gleich gut überprüft werden. Abbildung 47.2 ist die Erweiterung eines Schemas aus Altmann/ Schwibbe (1989, 13). Aufgrund der Tatsache, dass sich einige Hypothesen erst im Laufe der Zeit durch die empirischen Forschungsarbeiten ergeben haben (Hypothesen 6 bis 8), wurde es nötig, das ursprüngliche Schema entsprechend zu erweitern. Die oberste Zeile in Abbildung 47.2 zeigt die Hypothesen, die direkt aus den Beobachtungen abgeleitet werden können, die der mathematischen Gleichung zugrunde liegen. Aus dieser oberen Ebene ergeben sich weitere Annahmen, die in Zeile zwei (bzw. drei) dargestellt sind. Hypothesen 6 bis 8 sind nicht im ursprünglichen Schema von Altmann enthalten, es hat sich allerdings durch die Forschungsarbeit der letzten Jahre herauskristallisiert, dass auch diese Ableitungen gelten. Aus diesem Grund wurde das ursprüngliche Schema entsprechend geändert. Hypothese 3c kann sowohl
47. Das Menzerathsche Gesetz
aus Hypothesen 2 als auch aus Hypothese 3 hergeleitet werden. Die strichpunktierte Linie der Hypothesen 5 und 5a zur Arens’schen Regel deutet die enge Verbindung dieser drei Ableitungen an (vgl. hierzu Abschnitt 6). Hypothese 1: Mit zunehmender Wortlänge nimmt die Lautdauer ab. Wie bei allen anderen Hypothesen ist auch hier mit dem Einfluss von Störfaktoren, wie etwa dem Einfluss der Wortart, der Position im Satz und der Satzlänge, zu rechnen. Wie aus Abbildung 47.2 ersichtlich lassen sich aus Hypothese 1 zwei weitere ableiten. Unter diachronischer Betrachtung sind längere Wörter anfälliger gegenüber phonetischen Veränderungen (Hypothese 1a). Die Begründung hierfür ist in Hypothese 1 zu suchen. Unterliegen Laute in längeren Wörtern einer Verkürzungstendenz, so dürften sie auch einer stärkeren Veränderungstendenz unterliegen. In der historischen Sprachwissenschaft sind derartige Phänome bereits bekannt, jedoch kaum mit Hilfe quantitativer Methoden untersucht worden. Diese stärkere Veränderungstendenz längerer Wörter sollte auch eine Auswirkung auf Sprachen haben, die sich durch eine größere mittlere Wortlänge auszeichnen. So sollten in diesen Sprachen innerhalb eines bestimmten Zeitraums mehr lautliche Veränderungen beobachtbar sein (Hypothese 1b). Das zu überprüfen, ist allerdings äußerst kompliziert, da die Einflüsse, die neben dem Menzerathschen Gesetz am Werk sind, sich kaum isolieren lassen. Hypothese 2: Mit zunehmender Wortlänge nimmt die Silbenlänge ab. Hierbei sind zwei Aspekte zu berücksichtigen, denn die Länge einer Silbe kann einerseits von ihren Phonemen (Aspekt 1) aber andererseits auch von der tatsächlichen Dauer (Aspekt 2), nämlich der (verkürzten) Dauer ihrer Laute, abhängen. Natürlich ergeben sich auch hier wieder einige abgeleitete Annahmen. Hypothese 2a besagt, dass durch die Verlängerung eines Wortes, z. B. durch das Anhängen von Affixen, sich die Anzahl der Laute, vorzugsweise Konsonanten, reduziert. Ein derartiges Phänomen konnte bereits in mehreren Sprachen beobachtet werden. Zur Beantwortung der Frage, in wieweit andere Faktoren K etwa Bedeutung oder Verwendungshäufigkeit K die Länge eines Wortes beeinflussen, sei auf die entsprechenden Artikel
665 (vgl. Art. 1, 23, 53) in diesem Handbuch verwiesen. Hypothese 2b kann als Variante zu 2a gesehen werden. Die Verkürzung wird dabei nicht durch Konsonantenreduktion sondern durch Vokalepenthese erzielt. Hypothese 3: In Analogie zu Hypothese 2 steht die Annahme, dass mit zunehmender Wortlänge auch die Morphemlänge abnimmt. Die Ableitungen hierzu sind: (1) Zur Bildung von Komposita werden häufiger kurze Morpheme verwendet. Daher sollten sich mehr Zusammensetzungen finden lassen, die aus kurzen Morphemen gebildet sind (Hypothese 3a). (2) Ebenso muss Hypothese 3 auch in umgekehrter Richtung angewendet gelten, nämlich dass längere Wörter aus kürzeren Einheiten zusammengesetzt sind (Hypothese 3b). (3) Aus Hypothese 2 und 3 folgt, dass partielle Reduplikation K also die Eliminierung eines Konsonanten bei Verlängerung eines Wortes K öfter auftritt als volle Reduplikation (Hypothese 3c). Wie schon an anderer Stelle muss auch hier darauf hingewiesen werden, dass es nicht ganz einfach sein dürfte, das empirisch zu überprüfen. So kennen einige Sprachen nur die volle Reduplikation. Diese Tatsache darf allerdings nicht dazu verleiten, Hypothese 3c voreilig zu verwerfen. Hypothese 4: Mit zunehmender Phrasenlänge nimmt die Wortlänge ab bzw. anders herum formuliert, mit zunehmender Wortlänge, wird die Phrase kürzer. Bei dieser Hypothese wie auch besonders bei den folgenden ist mit überlagernden Störfaktoren zu rechnen. Das Genre, der Stil und die Verwendung von fachsprachlichen Begriffen spielen dabei eine entscheidende Rolle. Gerade in diesem Bereich wird häufig die Hoffnung geäußert, dass mit Hilfe der Parameter K also über den jeweiligen Verlauf der Funktion K des Menzerathschen Gesetzes Rückschlüsse auf Stil, Genre etc. möglich werden könnten. Auf diesen Aspekt soll später nochmals eingegangen werden. Hypothese 5: Mit zunehmender Satzlänge nimmt die Teilsatzlänge K in der Literatur oft auch Clause genannt K ab. Aus den bisherigen Annahmen und Hypothese 5 kann
666
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
noch eine weitere Konsequenz abgeleitet werden. Je kürzer nämlich der Teilsatz ist, desto länger sind die Wörter, aus denen er sich zusammensetzt (Hypothese 5a). Hypothese 5 und 5a stehen in engen Zusammenhang mit Hypothese 6. Diese Verbindung ist in Abbildung 47.2 durch die strichpunktierte Linie angedeutet. Die Gründe, die auf den verschiedenen Ebenen für die beschriebene Verkürzungstendenz sorgen, sind bis zum jetzigen Zeitpunkt noch weitgehend unerforscht. In der Literatur finden sich Spekulationen in die verschiedensten Richtungen. Vor allem auf die Aspekte Verständlichkeit und Überschaubarkeit der sprachlichen Einheiten wird in diesem Zusammenhang immer wieder hingewiesen. In Abschnitt 8 soll daher näher auf mögliche Interpretationsansätze eingegangen werden. Im Rahmen umfangreicher empirischer Untersuchungen wurde und wird noch immer die Validität dieser Hypothesen überprüft. Neben den von Altmann (1980) veröffentlichten Ableitungen hat es immer wieder Untersuchungen gegeben, in denen das Menzerathsche Gesetz auf andere Bereiche übertragen wird. Daher können den oben genannten Hypothesen 1 bis 5 weitere hinzugefügt werden. Hypothese 6: Als Arens’sche Regel ist folgender Zusammenhang bekannt: „Je länger der Satz, d. h., je kürzer die Teilsätze, desto länger die Wörter.“ (Altmann/Schwibbe 1989, 12). Das ist eigentlich eine Verknüpfung der Hypothesen 5 und 5a. Lässt man jedoch den mittleren Teil K nämlich die Aussage über die Verkürzung der Teilsätze K weg, so ergibt sich der Zusammenhang: je länger der Satz, desto länger die Wörter, was auf den ersten Blick im Widerspruch zum Menzerathschen Gesetz steht. Anhand dieses Beispiels wird besonders plastisch, warum man sich vor dem Überspringen von ganzen Ebenen hüten sollte. Wären hier voreilige Schlüsse gezogen worden, hätte dieser Effekt als dem Menzerathschen Gesetz entgegenstehend beurteilt werden können. Hypothese 7: Auch im textuellen Bereich sollte das Menzerathsche Gesetz überprüfbar sein. Leider ist es nicht ganz einfach, Hypothese 7 in einen kurzen Satz zu bringen, da eine Aussage wie: je länger der Text, desto kürzer sind seine Sätze, kaum ernst
genommen werden kann. Denn was ist eigentlich ein Text? Wie aus Tabelle 47.3 ersichtlich wird, hat sich bis jetzt ausschließlich L. Hřebíček mit dieser von ihm stammenden Ableitung zum Menzerathschen Gesetz befasst. Auf die Frage, welche Einheiten er als Konstrukt und Konstituenten wählt und wie er versucht, die Bestimmung dieser textuellen Einheiten zu operationalisieren, wird genauer in Abschnitt 6 eingegangen. Die bis hierher beschriebenen Hypothesen legen die Vermutung nahe, das Menzerathsche Gesetz sei auf den formalen Bereich der Sprache beschränkt. Doch nicht nur auf der Ausdrucks- sondern auch auf der Inhaltsseite wird das Gesetz angewendet und überprüft. Wie aus Abschnitt 6 ersichtlich, gibt es in diesem Bereich zahlreiche empirische Untersuchungen, bei denen große Datenmengen ausgewertet werden. Hypothese 8: Je kürzer das Wort, desto größer ist die Bedeutungsmenge, oder anders herum ausgedrückt: je weniger Bedeutungen, desto länger das Wort. Es kann also sowohl die Bedeutungsanzahl als auch die Länge als unabhängige Variable angesehen werden. Gerade in diesem Bereich sind Wechselwirkungen mit anderen in der Linguistik bekannten Gesetzen, wie beispielsweise dem Zipfschen Gesetz, zu erwarten. Daher sei auch hier zur besseren Orientierung auf die entsprechenden Artikel (vgl. Art. 10, 16, 26, 48, 50, 55) verwiesen. Neben den genannten Hypothesen sind viele weitere denkbar. So wären zusätzliche Untersuchungen im Bereich der Semantik prinzipiell möglich. Allerdings verursachen bei derartigen Forschungsarbeiten die methodischen Fragen K beispielsweise die Operationalisierbarkeit der Bedeutungsermittlung K erhebliche Schwierigkeiten. Dennoch sind den Übertragungsvarianten des Gesetzes auf andere Bereiche, auch außerhalb der Linguistik, kaum Grenzen gesetzt. Verschiedene Untersuchungen haben ergeben, dass das Menzerathsche Gesetz ebenfalls in der Musik sowie in sozialen Systemen und in der Genetik seine Berechtigung haben könnte. Einige der empirischen Arbeiten, die verschiedene der oben genannten Hypothesen auf ihre Validität hin überprüfen, werden in den folgenden Abschnitten 6 und 7 vorgestellt. Natürlich darf man nicht vergessen, dass bei jeder dieser Untersuchungen nicht nur die jeweilige Hypothese auf dem Prüf-
47. Das Menzerathsche Gesetz
stand steht, sondern in gewisser Hinsicht auch das Menzerathsche Gesetz selbst. Die Falsifikation einer dieser Hypothesen bedeutet jedoch nicht, dass das Gesetz falsch oder nicht anwendbar ist. Zunächst muss geklärt werden, warum eine der Hypothesen nicht zutrifft. Es muss nach eventuell überlagernden Störfaktoren gefahndet werden, bevor eine Hypothese verworfen werden kann. Doch auch im Fall, dass keine störenden Einflüsse auszumachen sind, wird nicht das gesamte Gesetz verworfen, sondern wird schlicht die Ableitung dieser Hypothese als falsch oder besser unzutreffend akzeptiert. Erst wenn sich allerdings die Hinweise gegen viele der abgeleiteten Hypothesen häufen, kann daran gedacht werden, das Menzerathsche Gesetz selbst in Frage zu stellen. Wie aus dem folgenden Abschnitt jedoch ersichtlich ist, hat es bis zum jetzigen Zeitpunkt schon eine große Anzahl von Untersuchungen der unterschiedlichsten Forschergruppen gegeben, die in ihren empirischen Arbeiten verschiedene der genannten Hypothesen bestätigen können.
6.
Die empirischen Arbeiten
Eine Übersicht über alle der Autorin bekannten Forschungsarbeiten, in denen eine oder mehrere der angesprochenen Hypothesen überprüft werden, gibt Tabelle 47.3. Wie zu erkennen ist, sind noch einige Leerstellen zu füllen. D. h., nicht in allen Bereichen wurde das Menzerathsche Gesetz in gleichem Umfang getestet. Neben einem Überblick über die verschiedenen Untersuchungen soll der folgende Abschnitt auch einen Eindruck davon vermitteln, welche Fragen und Probleme sich auftun können und welche Vorgehensweisen in den Arbeiten gewählt wurden. Die Beschäftigung mit den verschiedenen Publikationen zum Menzerathschen Gesetz kann eine äußerst spannende Aufgaben sein, da ein weites Spektrum von Sprachen, Sprachebenen, Textsorten, Sprech- bzw. Produktionssituationen wie auch Autoren abgedeckt wird. Auch die Gegenüberstellung der unterschiedlichen Parameter mehrerer Sprachen, Textsorten etc. legt häufig interessante Phänomene offen. Gerade die Nähe der sich ergebenden Kurvenverläufe ist ein wichtiges Forschungsergebnis. Denn über Ergebnisse dieser Art könnten langfristig gesehen Bereiche, in denen sich die Parameterwerte für bestimmte Textsorten, Sprachen usw. bewegen, einge-
667 grenzt werden. Die Möglichkeiten unter anderem auch im Bezug auf technische Anwendungen, die Informationen dieser Art bieten, sind kaum abzuschätzen. Natürlich können im Rahmen dieses Artikels kaum alle Untersuchungen vorgestellt werden, die in Tabelle 47.3 aufgelistet sind. Um dennoch einen möglichst guten Überblick geben zu können, wird zu jeder Hypothese K so es zu ihr Arbeiten gibt K eine Veröffentlichung vorgestellt. Dabei orientiert sich die Reihenfolge an Tabelle 47.3. S. Geršić und G. Altmann (1980) beschäftigen sich mit Hypothese 1 und daher mit der Frage, ob sich eine Abhängigkeit zwischen der Lautdauer und der Wortlänge für den Batscha-Dialekt des Deutschen feststellen lässt, die dem Menzerathschen Gesetz folgt. Dazu ermitteln sie die Dauer (in Millisekunden) von 488 Wörtern mit Hilfe instrumentalphonetischer Methoden. Wörter, die häufiger als einmal in den Daten vorhanden sind, werden durch das arithmetische Mittel ihrer Werte berücksichtigt. Auf die Messung der Dauer der Einzellaute verzichten Geršić und Altmann. Die Auswertung wird anhand der Durchschnittswerte vorgenommen, da auch nur die durchschnittliche Veränderung der Lautdauer und nicht die einzelner Laute für die hier vorliegende Untersuchung von Interesse ist. Die Werte die Altmann und Geršić dabei ermitteln, sind in Tabelle 47.4 dargestellt. Trotz des Bruchs im Werteverlauf K bei den Werten x Z 2, ..., 5 K scheint ein Trend vorzuliegen, der dem Menzerathschen Gesetz folgt. Den Knick im Kurvenverlauf interpretieren Altmann und Geršić als unbekannten Störeinfluss, hier könnte eventuell die Position des Wortes im Satz eine Rolle spielen. Um eine bessere Anpassung möglichen zu machen und den Einfluss des Störfaktors nicht zu stark zum Tragen kommen zu lassen, entscheiden sie sich für eine zweigeteilte Anpassung der Daten an das Menzerathsche Gesetz. Das wird auch anhand der berechneten Werte, also Spalte drei der Tabelle, deutlich. Die daraus resultierenden Kurvenverläufe sind in Abbildung 47.3 dargestellt. Auf der Grundlage der empirischen Daten können die Parameter der Funktion berechnet werden. Altmann und Geršić nutzen zur Anpassung für den ersten Bereich Formel (7). Im zweiten Teil der Kurve gehen sie von b Z 0 aus und verwenden daher Formel (5). Für die zwei Kurven ergeben sich daher folgende Gleichungen:
668
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Tab. 47.3: Übersicht der Hypothesen und der zugehörigen Veröffentlichungen Hypothese
Veröffentlichung
1 Wortlänge in Lauten (in msec) 1a 1b 2 Wortlänge in Silben 1. Aspekt in msec 2. Aspekt in Phonemen
Geršić/Altmann (1980);
Geršić/Altmann (1980); Hřebíček (1995); Menzerath (1954); Altmann/Schwibbe (1989);
2a 2b 3 Wortlänge in Morphemen in Graphemen in Phonemen 3a 3b 3c 4 5 Satzlänge in Teilsätzen (in Wörtern) 5a 6 Arens 7 Textaggregat in Sätzen (in Wörtern) 8 Wörter in Silben C Bedeutungsanzahl in Buchstaben C Bedeutungsanzahl
Krott (1996); Gerlach (1982); Hřebíček (1995); Krott (1996);
Heups (1983); Schwibbe (1984); Teupenhayn/Altmann (1984); Rothe (1983); Köhler (1982); Altmann (1983); Hřebíček (1995); und andere Sambor (1984); Fickermann/Markner-Jäger/Rothe (1984) Sambor (1984); Fickermann/Markner-Jäger/Rothe (1984)
Tab. 47.4: Wortlänge bezüglich Lautdauer gemessen in Millisekunden für den Batscha-Dialekt des Deutschen (entnommen aus Geršić/Altmann 1980, 118) Wortlänge in Lautzahl
Durchschnittliche Lautdauer
Berechnete Lautdauer
1 2 3 4 5 6 7 8 9 10 11 12 13 14
97,23 71,62 68,74 69,19 66,16 78,06 76,02 73,19 71,16 75,82 69,47 68,15 66,54 64,77
98,81 74,93 68,11 66,67 67,98 77,86 76,17 74,52 72,91 71,33 69,74 68,28 66,80 65,35
y Z 84,20 xK0,63 e 0,16x für x Z 1, 2, .., 55 (10) y Z 88,78 eK0,021881x für x Z 6, 7, .., 14 (11) Obwohl sich eine verhältnismäßig große Übereinstimmung zwischen den empirischen Werten und den Kurvenverläufen er-
90 80 70 60 50 40 30 20 10 0 1
2
3
4
5
6
7
8
9
10
11 12
13 14
Abb. 47.3: Lautdauer L1 in Wörtern der Länge L2 für den Batscha-Dialekt des Deutschen (entnommen aus Geršić und Altmann 1980, 119)
gibt, ist das Ergebnis dieser Untersuchung nicht völlig überzeugend. Dennoch kann man darin eine Bestätigung für Hypothese 1 sehen. Sicherlich werden weitere Arbeiten einen Aufschluss über den beobachteten Störeinfluss liefern können. Darüber hinaus muss man beachten, dass die direkte Konstituente von Wörtern eher die Silbe ist als der Laut und wie schon mehrfach angesprochen wurde, durch Überspringen von Ebenen eine Verschleierung des Zusammenhangs auftreten kann. Neben der Frage nach der Beziehung zwischen Lautdauer und Wortlänge gehen Geršić/Altmann auch Hypothese 2 (Aspekt 1), also dem Verhältnis von
669
47. Das Menzerathsche Gesetz
Silbendauer und Wortlänge, nach. Die Ergebnisse, die sie ermitteln können, sind in Tabelle 47.5 und Abbildung 47.4 dargestellt. Durch die Berechnung der Parameter auf der Grundlage der Messwerte ermitteln Altmann und Geršić folgende Gleichung: y Z 269,96 eK0,087735x
(12)
Mit diesem Ergebnis kann ebenfalls Hypothese 2 als bestätigt gelten. Sicherlich müssen in diesem Bereich jedoch noch weitere Arbeiten durchgeführt werden, die die beiden Hypothesen auch für andere Sprachen überprüfen. Wie bereits im Abschnitt 2 beschrieben wurde, finden sich in der phonetischen Literatur allerdings einige Untersuchungen zu diesen Fragestellungen, die, wenn auch ohne quantitative Methoden durchgeführt, das Menzerathsche Gesetz durchaus stützen. In ihrem Buch „Das Menzerathsche Gesetz in informationsverarbeitenden Systemen“ stellen Altmann/Schwibbe (1989) mehrere Untersuchungen verschiedener Forscher zusammen, die sich mit der Frage nach der Beziehung zwischen der Wortlänge Tab. 47.5: Wortlänge bezüglich Silben in Millisekunden für den Batscha-Dialekt des Deutschen (entnommen aus Geršić/Altmann 1980, 120) Wortlänge in Silbendauer Anzahl der Gemessene Silben Werte in Millisekunden
berechnete Werte in Millisekunden
1 2 3 4 5
247,28 226,51 207,49 190,06 174,09
239,91 240,92 204,28 183,95 177,06
und der Silben- bzw. Phonemzahl beschäftigen. Altmann und Schwibbe überprüfen anhand dieses bereits vorhandenen Datenmaterials und auf der Basis eigener Daten Hypothese 2 (Aspekt 2). In allen Fällen werden dabei die Anzahl der Silben und die Zahl der Phoneme, beide bezogen auf das Wort, ausgewertet. Zur Erhebung der Daten werden entweder Textsammlungen oder Lexika verwendet. Die verschiedenen Datensätze stammen aus ganz unterschiedlichen Sprachen und geben somit einen schönen Überblick über die möglichen Kurvenverläufe und Parameterwerte des Menzerathschen Gesetzes. Für das amerikanische Englisch zitieren Altmann/Schwibbe (1989, 51) Untersuchungen von A. H. Roberts aus dem Jahr 1965, der auf der Grundlage von 10064 ausgewerteten Wörtern die durchschnittlichen Silbenlängen ermittelt hat. Die Ergebnisse sind in Tabelle 47.6 wieder gegeben: Tab. 47.6: Mittlere Silbenlänge im amerikanischen Englisch nach Roberts (1965) (entnommen aus Altmann/Schwibbe 1989, 51) Wortlänge Anzahl mittlere berechnete in Anzahl der Wörter Silbenlänge mittlere der Silben Silbenlänge 1 2 3 4 5 6
2747 3969 2247 874 213 14
4,16 3,11 2,77 2,57 2,42 2,23
4,09 3,19 2,76 2,49 2,30 2,15
4,5 4 3,5
260
3
250
2,5
240
2
230
1,5
220
1
210
0,5
200
0 1
190
2
3
4
5
6
180 170
1
2
3
4
5
Abb. 47.4: Silbendauer L1 in Wörtern der Länge L2 für den Batscha-Dialekt des Deutschen (entnommen aus Geršić/Altmann 1980, 121)
Abb. 47.5: Mittlere Silbenlänge im amerikanischen Englisch (entnommen aus Altmann/ Schwibbe 1989, 52)
Nach Berechnung der Parameter a und b, die Altmann/Schwibbe auf der Grundlage
670
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Tab. 47.7: Mittlere Silbenlänge im Deutschen nach Menzerath (1954) (entnommen aus Altmann/Schwibbe 1989, 53)
Tab. 47.8: Mittlere Silbenlänge im Italienischen nach Rettweiler (1950) (entnommen aus Altmann/Schwibbe 1989, 54)
Wortlänge Anzahl mittlere berechnete in Anzahl der Wörter Silbenlänge mittlere der Silben Silbenlänge
Wortlänge Anzahl mittlere berechnete in Anzahl der Wörter Silbenlänge mittlere der Silben Silbenlänge
1 2 3 4 5 6 7 8
1 2 3 4 5 6 7
2245 6396 6979 3640 920 214 42 11
3,86 2,87 2,57 2,42 2,36 2,32 2,38 2,25
3,65 2,95 2,60 2,38 2,22 2,10 2,01 1,93
93 1832 3873 3648 1259 207 16
2,45 2,49 2,34 2,31 2,20 2,14 2,17
2,66 2,46 2,36 2,29 2,23 2,19 2,15
2,9 2,7 2,5 2,3 2,1 1,9 1,7 1,5
4,5 4 3,5 3 2,5 2
1
2
3
4
5
6
7
1,5
Abb. 47.7: Mittlere Silbenlänge im Italienischen (entnommen aus Altmann/Schwibbe 1989, 54)
1 0,5 0 1
2
3
4
5
6
7
8
Abb. 47.6: Mittlere Silbenlänge im Deutschen (entnommen aus Altmann /Schwibbe 1989, 53)
der von Roberts (1965) veröffentlichten Daten durchführen, ergibt sich mit Formel (8) folgende Funktion: y Z 4,0852 xK0,3578
(13)
Die mit Hilfe dieser Gleichung errechneten theoretischen Werte für die mittlere Silbenlänge sind in Spalte 4 der Tabelle 47.6 angegeben. Sie zeigen eine sehr gute Übereinstimmung zwischen den empirischen und den berechneten Werten. Mit analogen Messdaten (Tabellen 47.7 bis 47.10) und den dazugehörigen Kurvenverläufen (Abbildungen 47.6 bis 47.9) für so unterschiedliche Sprachen wie Deutsch, Italienisch, Serbokroatisch und Indonesisch untermauern Altmann/Schwibbe (1989, 53K56) die Gültigkeit des Menzerathschen Gesetzes. In allen Fällen gilt, dass die Ergebnisse der Anpassungen signifikant sind, und daher das Menzerathsche Gesetz in diesem Bereich durch eine Vielzahl von Datensätzen aus den unterschiedlichsten Sprachen bestä-
Tab. 47.9: Mittlere Silbenlänge im Serbokroatischen nach Gajic (1950) (entnommen aus Altmann/Schwibbe 1989, 55) Wortlänge Anzahl mittlere berechnete in Anzahl der Wörter Silbenlänge mittlere der Silben Silbenlänge 1 2 3 4 5 6 7
717 4038 6060 5066 1239 145 14
3,46 2,67 2,32 2,20 2,11 2,06 2,00
3,27 2,67 2,37 2,18 2,04 1,94 1,85
4 3,5 3 2,5 2 1,5 1
2
3
4
5
6
7
Abb. 47.8: Mittlere Silbenlänge im Serbokroatischen (entnommen aus Altmann/Schwibbe 1989, 55)
671
47. Das Menzerathsche Gesetz Tab. 47.10: Mittlere Silbenlänge im Indonesischen nach Altmann/Schwibbe (1989, 56) Wortlänge Anzahl mittlere berechnete in Anzahl der Wörter Silbenlänge mittlere der Silben Silbenlänge 1 2 3 4 5 6 7 8
70 1099 1380 855 358 88 18 11
2,90 2,42 2,35 2,29 2,29 2,27 2,28 2,17
2,60 2,44 2,36 2,30 2,25 2,22 2,19 2,16
3 2,8 2,6 2,4 2,2 2 1
2
3
4
5
6
7
8
Abb. 47.9: Mittlere Silbenlänge im Indonesischen (entnommen aus Altmann/Schwibbe 1989, 57) Tab. 47.11: Vergleich der Parameter a und b für die fünf verschiedenen Sprachen (entnommen aus Altmann/Schwibbe 1989, 58) Sprache
Parameter a
Parameter b
Englisch Deutsch Serbokroatisch Italienisch Indonesisch
4,09 3,65 3,27 2,66 2,60
0,36 0,31 0,29 0,11 0,09
tigt wird. Für eine intensivere Beschäftigung mit diesen Untersuchungen sei auch auf die bei Altmann/Schwibbe (1989) zitierte Literatur hingewiesen. Äußerst interessant ist der Vergleich der Parameter a und b, der in Tabelle 47.11 dargestellt ist. Altmann/Schwibbe erklären sich die zum Teil nicht unwesentlichen Differenzen zwischen den Werten, man vergleiche dazu den Parameter a des Englischen und des Indonesischen, mit den unterschiedlichen phonotaktischen Regeln der Sprachen. So hängt die Länge der Silbe natürlich auch davon ab, wie welche und wie viele Konsonant-kombinationen in einer Sprache zulässig sind. Damit kann festgehalten werden, dass die Hypothesen 1 und 2 in empirischen Untersuchungen bestätigt werden konnten. Die Berechnungen der F-Tests liefern zum Teil
hochsignifikante Ergebnisse. Da bis zum jetzigen Zeitpunkt noch keine quantitativen Arbeiten zu den Hypothesen 1a und 1b sowie 2a und 2b durchgeführt wurden, ist natürlich keine Aussage über die Validität dieser Annahmen möglich. Im Bereich der Morphologie untersucht R. Gerlach (1982), ob der Zusammenhang zwischen Wort- und Morphemlänge (gemessen in Phonemen) dem Menzerathschen Gesetz entspricht. A. Krott berücksichtigt in ihrer Arbeit (1996), neben der Messung in Phonemen zusätzlich die Messung der Morphlänge in Graphemen. Gerlach (1982) verwendet als Datengrundlage ein 16000 Einträge umfassendes deutsches Wörterbuch. Jedes Stichwort K insgesamt 15011 K wertet er hinsichtlich Anzahl der Morphe und Länge in Phonemen aus. Gerlach weist in diesem Zusammenhang auf die Schwierigkeit der phonologischen Transkription hin. Dabei geht es vor allem um die Frage der Transkription der Affrikaten und Diphthonge, die sowohl als ein wie auch als zwei Laute gezählt werden können. Die Ergebnisse seiner Analyse sind in Tabelle 47.12 und Abbildung 47.10 dargestellt. Abbildung 47.10 wie auch Tabelle 47.12 verdeutlichen, dass K dem Menzerathschen Gesetz entsprechend K mit zunehmender Wortlänge die Morphlänge abnimmt. Gerlach weist aber ausdrücklich noch auf eine weitere Eigenschaft des Kurvenverlaufs hin. Die bereits implizit in der Beschreibung der mathematischen Form in Abschnitt 4 enthalten ist: „Die Abnahmerate ist dabei nicht konstant, sondern verringert sich mit zunehmender Morphzahl“. (Gerlach 1982, 100). Zum besseren Verständnis des beschriebenen Sachverhalts sei auf Formel (6) hingeb wiesen. Das Glied steht dabei für diese x sich verringernde Abnahmerate. Mit den auf der Grundlage der empirischen Daten geschätzten Parametern bestimmt Gerlach die folgende Gleichung: y Z 4,0959 xK0,5568 e 0,0911x
(14)
Wie man sieht, liegt auch hier wieder Formel (7) der Anpassung zugrunde. Dabei steht y für die durchschnittliche Morphemlänge und x für die Wortlänge gemessen in Morphemen. Der Vergleich der berechneten und der empirischen Messwerte K siehe dazu Tabelle 47.12 K zeigt eine signifikante
672
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Tab. 47.12: Wortlänge in Morphe (entnommen aus Gerlach 1982, 100 und 101; die hier gezeigte Tabelle setzt sich aus zwei Tabellen von Seite 100 und 101 in Gerlachs Veröffentlichung zusammen) Wortlänge in Morphen
durchschnittliche Morphlänge
berechnete Werte
1 2 3 4 5 6
4,53 3,25 2,93 2,78 2,65 2,58
4,49 3,34 2,92 2,73 2,64 2,61
5 4,5 4 3,5 3 2,5 2 1
2
3
4
5
6
Abb. 47.10: Abnahme der Morphlänge; x Z Wortlänge in Morphen, y Z Morphdurchschnittslänge (entnommen aus Gerlach 1982, 100)
Übereinstimmung und bestätigt damit sowohl Hypothese 3 als auch die Validität des Menzerathschen Gesetzes in diesem Bereich. Bei der Arbeit von Krott (1996) geht es, ähnlich wie bei Gerlach, um die Frage, ob der funktionale Zusammenhang zwischen Wort- und Morphemlänge mit Hilfe des Menzerathschen Gesetzes beschrieben werden kann. Krott selbst formuliert das folgendermaßen: “The more morphemes a word consists of, the smaller the average length of these morphemes.” (Krott 1996, 29). Sie verwendet für ihre Untersuchung die allgemeine Form K Formel (7) K des Menzerathschen Gesetzes. Da die Länge eines Morphems einerseits in Phonemen andererseits aber auch in Graphemen gemessen werden kann, berücksichtigte Krott beide Fälle. Als Datengrundlage nutzt sie das CELEX, das aus einem englischen Lexikonteil mit 52.447, einem niederländischen mit 124.136 und einem deutschen Teil mit 50.708 Einträgen besteht. Für alle Lemmata stellt das CELEX Informationen zu deren morphologischer Struktur zur Verfügung, worauf Krott für ihre Analyse zurückgreift. Die Ergebnisse sind in den Abbildungen 47.11 und 47.12 dargestellt.
Die Werte, die sich für die Anpassung der Parameter a, b und c ergeben, sind in Tabelle 47.13 abgebildet. Wie bereits bei der Arbeit von Gerlach werden auch hier die empirischen Daten sehr gut durch die theoretischen Funktionsverläufe beschrieben. Dass wir es wieder mit signifikanten Ergebnissen zu tun haben, zeigen ebenfalls die hohen R 2 Werte, die in Spalte sechs der Tabelle 47.13 abgebildet sind. Zu Hypothese 4 wurden bis heute keine Untersuchungen veröffentlicht, wie Tabelle 47.3 zeigt. Dafür wurde Hypothese 5 gleich in mehreren Arbeiten und mit großen Datenmengen überprüft. Da die Veröffentlichungen in diesem Bereich ihr Augenmerk jeweils auf unterschiedliche Aspekte legen, scheint es angebracht, zwei von ihnen zu beschreiben, um einen besseren Überblick zu gewährleisten. In der Arbeit von G. Heups (1983) wie auch in der Veröffentlichung von R. Köhler (1982) geht es um die funktionale Beziehung zwischen der Satz- und der Teilsatzlänge. Heups formuliert den Gegenstand ihrer Untersuchung selbst folgendermaßen: „Je länger ein Satz, gemessen in der Anzahl der Clauses, desto kürzer die Clauses, gemessen in der Wortzahl.“ (Heups 1983, 114). Sie untersucht dafür Daten aus verschiedenen Textklassen. Eine Übersicht über die verwendete Datengrundlage gibt Tabelle 47.14. Wie man sieht wird ein sehr breites Spektrum abgedeckt. Heups löst das Problem der Ermittlung der Teilsätze so: sie definiert den Clause als Teil des Satzes, der ein finites Verb enthält und bestimmt daher die Länge eines Satzes K gemessen in Teilsätzen K anhand der Anzahl der finiten Verben. Die Länge der Clauses ermittelt sie durch die Zahl der Wörter im Umfeld des finiten Verbs. Die Ergebnisse von Heups Auswertungen des Textkorpus sind in Tabelle 47.15 abgebildet. Es sei darauf hingewiesen, dass es sich nicht um absolute sondern um durchschnittliche Werte für die Teilsätze handelt und dass alle Texte unabhängig von ihrer Textklassenzugehörigkeit einbezogen werden. Neben der hier wieder gegebenen Tabelle 47.15, beinhaltet die Arbeit von Heups auch Einzelanalysen der Texte. Mit den Auswertungen der einzelnen Texte und Textklassen beabsichtigt sie vor allem, mögliche Kennwerte ausfindig zu machen, die Anhaltspunkte für Stil und Textsorte sein könnten. Dieser Aspekt ist bereits in Abschnitt 5 an-
673
mean morpheme length (graphemes)
mean morpheme length (graphemes)
mean morpheme length (graphemes)
47. Das Menzerathsche Gesetz 10 9 8 7 6 5 4 3 2 1 0 0
1
0
1
2
3
4
5
6 7 8 9 word length (morphemes)
10
5 6 7 8 word length (morphemes)
9
10 9 8 7 6 5 4 3 2 1 0 0
1
2
3
4
5 6 7 word length (morphemes)
8
10 9 8 7 6 5 4 3 2 1 0
2
3
4
mean morpheme length (graphemes)
10 9 8 7 6 5 4 3 2 1 0
0
1
2
3
4
5 6 7 8 word length (morphemes)
9
0
1
2
3
4
5 6 7 8 word length (morphemes)
9
mean morpheme length (graphemes)
mean morpheme length (graphemes)
Abb. 47.11: Beziehung zwischen Wort- und Morphemlänge (gemessen in Graphemen) im Deutschen (oben links), Englischen (oben rechts) und Niederländischen (unten) (entnommen aus Krott 1996, 31 und 32)
10 9 8 7 6 5 4 3 2 1 0
0
1
2
3
4
5 6 7 word length (morphemes)
8
10 9 8 7 6 5 4 3 2 1 0
Abb. 47.12: Beziehung zwischen der Wort- und der Morphemlänge (gemessen in Phonemen) im Deutschen (oben links), Englischen (oben rechts) und Niederländischen (unten) (entnommen aus Krott 1996, 32)
674
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Tab. 47.13: Übersicht der Parameter für die drei Sprachen (entnommen aus Krott 1996, 31) language
measurement of the morpheme length
a
b
c
R2
German English Dutch
graphemes graphemes graphemes
5,91241 5,26650 5,58ß30
K0,3873 K0,57358 K0,46951
K0,0044 0,11080 0,05729
0,99560 0,99991 0,99759
German English Dutch
phonemes phonemes phonemes
4,96311 4,66227 4,95842
K0,42364 K0,49460 K0,47350
0,00863 0,05836 0,04381
0,99674 0,99986 0,99589
Tab. 47.14: Textsortenauswahl der Veröffentlichung von G. Heups (entnommen aus Heups 1983, 115) Textklasse
Einzeltext
Gesetzestexte (juristische Publikationen)
GG BVerfGG
691 354
1045
Wissenschaftliche Texte (in wiss. Reihen publiziert)
Philologie Chemie BWL
1002 518 516
2036
Zeitungstexte Politik (in öffentlichen Medien publiziert) Feuilleton
1112 1072
2184
490 532
1022
1035 1241 1037 1068
4381
10668
10668
Briefe (Gruß- und Abschiedformeln)
Leserbrief Romanbrief
Romantexte (als Roman erschienen)
Roman Roman Roman Roman
Summe
13 Einzeltexte
19. Jh. 20. Jh. 20.Jh. Triviallit. 20. Jh.
Tab. 47.15: Satzlänge in Clauses gemessen in Wörtern (entnommen aus Heups 1983, 121) Satzlänge Anzahl beobachtete berechnete in Clauses der Sätze Clauselänge Clauselänge 1 2 3 4 5 6 7 8 9 10 11
4047 3302 1808 792 357 166 84 44 21 12 11
12,4122 10,2700 9,5500 9,0319 8,5076 8,0040 7,9201 7,1733 6,8413 7,0833 7,4380
Anzahl der Sätze
12,3638 10,4111 9,4547 8,8560 8,4370 8,1244 7,8816 7,6875 7,5292 7,3983 7,2889
gesprochen worden. Der Blick auf Abbildung 47.13 zeigt eine gute Übereinstimmung des theoretischen Kurvenverlaufs mit den empirischen Daten. Das wird auch durch das signifikante Ergebnis des F-Tests bestätigt. Neben der Überprüfung der Validität
Sätze gesamt pro Textklasse
des Menzerathschen Gesetzes auf Satzebene befasst sich Köhler (1982) in seiner Arbeit außerdem mit der Frage, ob Formel (5) oder (8) der allgemeinen Gleichung (7) vorzuziehen ist. Diese könnte die sich ergebenden Kurvenverläufe genau genug beschreiben und enthielte zudem weniger interpretationsbedürftige Parameter. Die Datengrundlage seiner Untersuchung besteht aus englischen und deutschen Texten, die nach ganz ähnlichen Methoden ausgewertet werden, wie auch Heups sie in ihrer Arbeit anwendet. Köhler weist darauf hin, dass mit diesen Ergebnissen K dargestellt in Tabelle 47.16 und 47.17 K nicht nur Hypothese 5 gestützt wird, sondern auch die Annahme, dass Formel (8) für die Beschreibung des Zusammenhangs ausreichend sei (vgl. die Ergebnisse der F-Tests in Tabelle 47.17 sowie in Abb. 47.14). Da jeder Parameter, der in der Formel eines Gesetzes enthalten ist, interpretiert werden muß, wird in der Regel die einfachste noch ausreichend genaue Form
675
47. Das Menzerathsche Gesetz
4500 4000 3500
14
3000
12
2500
10
2000
8
1500
6
1000
4
500
2
0 1
2
3
4
5
6
7
8
9
10
11
1
2
3
4
5
6
Abb. 47.13: (links) Histogramm zur 1- bis 9-clausigen Satztypenhäufigkeit (H Z absolute Häufigkeit, SL Z Satzlänge in Clauses); (rechts) Clauselänge als Funktion der Satzlänge (beides entnommen aus Heups 1983, 120 und 123)
gewählt. Natürlich lässt sich eine höherparametrige bzw. -gliedrige Funktion sehr gut an empirische Messwerte anpassen. Sie beschreibt aber dadurch nicht automatisch auch das Gesetz besser. Welche Interpretationsvorschläge für die Parameter a, b und c in der Literatur zu finden sind, wird in Abschnitt 8 erläutert. Dort wird auch auf das
eben Angesprochene näher eingegangen. Um zu zeigen, dass die für die Satzebene in seiner Arbeit ermittelten Ergebnisse unabhängig von der Vorgehensweise zur Ermittlung von Konstrukt und Konstituente zu sehen sind, wertet Köhler außerdem die gleiTab. 47.17: Übersicht der Parameter der Anpassungen für die Daten aus Tabelle 16 an Formel (5), (7) und (8) (entnommen aus Köhler 1982, 106)
Tab. 47.16: Satzlänge in Clauses (entnommen aus Köhler 1982, 104 ) Spalte 2 enthält nicht exakt die von Köhler veröffentlichten sondern gerundete Werte
Funktion
abgeschätzte Parameter
Satzlänge in Teilsätzen xi
Teilsatzlänge yi
y Z e α eKcx
αZ cZ
1 2 3 4 5 6
9,7357 8,3773 7,3511 6,7656 6,1467 6,2424
y Z ea xb
α Z 2,287365 c Z K0,268856
3
4
5
6
F1,4 Z 217,81
Y1
Y1
2
2,315954 F1,4 Z 48,988 0,0924002
y Z e α x b eKcx α Z 2,289397 F2,3 Z 82,199 b Z K0,257849 c Z 0,0040292
Y1
1
F-Test Ergebnis
7 X1
1
2
3
4
5
6
7 X1
1
2
3
4
5
6
7 X1
Abb. 47.14: Graphen der Funktionen in Tabelle 17 (entnommen aus Köhler 1982, 107)
676
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
seiner Veröffentlichung genau auf diesen Punkt hin. Er zeigt, dass K unter Berücksichtigung dieser Tatsache K sehr wohl ein Zusammenhang beobachtet wurde, der mit dem Menzerathschen Gesetz im Einklang steht. Wie aus den vorhergehenden Abschnitten erkennbar ist, gilt: je größer der Satz, desto kleiner die Teilsätze. Andererseits aber auch: je größer die Teilsätze, desto kleiner die Wörter K das kann man umdrehen, was bedeutet, bei kleineren Teilsätzen ist mit größeren Wörtern zu rechnen. Verknüpft man beide Aspekte miteinander, so ergibt sich: je länger der Satz, desto kürzer der Teilsatz, woraus sich wiederum längere Wörter folgern lassen. Wie man sieht, wurden hier nur zwei Hypothesen (Hypothese 5 und 5a), die aus dem Menzerathschen Gesetz ableitbar sind, miteinander verknüpft. Der Zusammenhang ist graphisch in Abbildung 47.15 dargestellt. Der formale Beweis dafür ist der Veröffentlichung von Altmann (1983) zu entnehmen. Altmann berechnet für alle drei Formalisierungen K Formeln (7), (8) und (5) K die Parameter. Dabei ergibt sich:
chen Daten noch einmal mit anderen Untersuchungskriterien aus. Dabei ergeben sich ebenfalls hoch signifikante Ergebnisse. Die vorgestellten Beispiele lassen erkennen, dass das Menzerathsche Gesetz für ganz unterschiedliche Sprachen und auf den verschiedensten Analyseebenen seine Berechtigung zu haben scheint. Dennoch sind viele Fragen bis jetzt völlig ungeklärt. Zu tiefer gehenden Studien sei auf die entsprechende Aufstellung der Literatur im Abschnitt 10 sowie in Tabelle 47.3 verwiesen. Diese wurde u. a. in der Hoffnung zusammengetragen, den einen oder anderen Leser zu weiteren interessanten Untersuchungen anzuregen. Wie bereits beschrieben ist Hypothese 6 auch unter dem Namen Arens’sche Regel bekannt. Altmann (1983) schreibt dazu, Arens habe 1965 bei seinen Untersuchungen von literarischen Werken herausgefunden, dass mit steigender Satzlänge, welche er in Wörtern angibt, auch die Wortlänge gemessen in Silben zunimmt. Auf den ersten Blick steht das im völligen Widerspruch zu allem, was in den bisherigen Abschnitten über das Menzerathsche Gesetz erläutert wurde. Denn ein Zusammenhang der besagt: je größer . desto größer scheint eigentlich nicht in Menzeraths Beobachtungen und Altmanns Formalisierung enthalten zu sein. Betrachtet man jedoch, was hierbei Konstrukt und was Konstituente ist, so wird offensichtlich, dass Arens nicht mit der direkten Konstituente des Satzes, das wäre nämlich der Teilsatz, operiert sondern mit einer indirekten. Altmann (1983) weist in
(15) y Z 1,1406 x 0,141224 eK0,001435x mit einem F-Wert von F1,114 Z 123,19 und P Z 3,22*10K29 y Z 1,2183 x 0,108898 (16) mit einem F-Wert von F1,115 Z 241,40 und P ! 10K99 y Z 1,5419 e 0,004233x (17) (F-Wert nicht in der Veröffentlichung enthalten)
Y1 2,00
Y3
Y2
1,90 Y1 1,80 1,70 1,60 1,50 1,40 20
40
60
80
100 X1
Abb. 47.15: Beziehung der Wort- zur Satzlänge in Deutschen Texten (entnommen aus Altmann 1983, 34)
677
47. Das Menzerathsche Gesetz
Wie man sieht, können für die F-Tests in allen Fällen hoch signifikante K für Formel (8) die besten K Ergebnisse ermittelt werden. Da Arens ausschließlich literarische Texte für seine Auswertung verwendet, könnte es von großem Interesse sein K so Altmann K eine ähnliche Untersuchung mit nicht-literarischen Texten erneut durchzuführen, um die Ergebnisse zu vergleichen. Eine Übersicht über die als Datengrundlage verwendeten Texte ist der Veröffentlichung von Altmann 1983 zu entnehmen. Sehr interessant und beeindruckend sind die Arbeiten von L. Hřebíček (1989 und 1995), denn sie befassen sich mit der Überprüfung des Menzerathschen Gesetzes im textuellen Bereich. Hřebíček ermittelt auf der Grundlage einer ausgesprochenen Datenfülle für das Türkische eine große Menge von Funktionsparameterpaaren a und b und damit die Funktionsverläufe für seine Daten. Um einen Eindruck von diesen Arbeiten zu vermitteln, soll hier eine seiner ersten Veröffentlichungen K von 1989 in Glottometrika 11 K vorgestellt werden. Hřebíček zielt dabei auf zwei Aspekte ab. Zunächst sucht er zu zeigen, dass K mit der Überprüfung eines für viele Ebenen bereits bestätigten (universellen) Gesetzes, nämlich dem Menzerathschen Gesetz, auf textueller Ebene K der Text nicht bloß eine abstrakte Vorstellung der Linguistik ist. Andererseits solle natürlich auch dessen Validität überprüft werden. Hřebíček beschreibt seine Vorgehensweise selbst so: “It can be argued that this is a way leading from the law to the level and, at the same time, from the level to the law.” (Hřebíček 1989, 63). Bei der Überprüfung des Menzerathschen Gesetzes in diesem Bereich stellt sich allerdings die Frage, welche linguistischen Einheiten als Konstrukt und als dessen Konstituenten eingesetzt werden können. Hřebíček weist in diesem Zusammenhang die sehr vereinfachte Herangehensweise zurück, die schlicht den Text als Konstrukt annimmt: “In connection with Menzerath-Altmann’s law, text itself cannot be treated as consisting directly of sentences; the supposition that the longer the text the shorter the sentence is unacceptable even in jest.” (Hřebíček 1989, 62). Stattdessen führte er eine Art Zwischenebene ein, die er sign aggregation bzw. vehicle aggregation nennt. Da der Text selbst nicht als Konstrukt in Frage kommt, ist es sinnvoll, eine kleinere Einheit einzuführen, die hier
Textabschnitt heißen soll. Je nachdem welche Kriterien zur Ermittlung dieser Textabschnitte angewendet werden, handelt es sich dabei um sign oder um vehicle aggregations. Eine vehicle aggregation ist eine Menge von auf einander folgenden Sätzen, in denen ein und dieselbe lexikalische Einheit auftritt. Das ist eine Satzfolge, in der ein bestimmtes Wort für ein Referenzobjekt immer wieder aufgegriffen wird. Eine sign aggregation hingegen ist eine Menge von auf einander folgenden Sätzen, in denen auf das gleiche Referenzobjekt mit Hilfe verschiedener lexikalischer Einheiten verwiesen wird. Man vergleiche hierzu die aus der Textlinguistik bekannten Begriffe von Kohäsion und Kohärenz. Wollte man einen solchen Textabschnitt intersubjektiv bestimmen, so müsste man mehrere Versuchspersonen nach sign und vehicle aggregations in Texten suchen lassen. Auf diese etwas umständliche Vorgehensweise verzichtet Hřebíček in seinen Arbeiten. Auf der Grundlage dieser neuen textuellen Ebene formulierte er seine Arbeitshypothese: “The longer the aggregation, the shorter the mean sentence length.” (Hřebíček 1989, 63). Für die Überprüfung dieser Annahme wertet Hřebíček (1989) zwei Texte der türkischen Literatur aus. Er bestimmt dabei allerdings nur sign und keine vehicle aggregations. Die Ergebnisse sind in den Tabellen 47.18 und 47.19 abgebildet. Tab. 47.18: Textaggregat in Sätzen für einen türkischen Prosatext (entnommen aus Hřebíček 1989, 52) w xg
x
g
w
yZ
2 3 4 5 6 9 11 13 15 16 22 23 31 45
48 10 6 4 4 1 1 1 1 2 1 1 1 1
992 355 343 274 283 67 155 128 147 402 209 265 264 396
10,33 11,83 14,29 13,70 11,79 7,44 14,09 9,85 9,80 12,56 9,50 11,52 8,52 8,80
yc Z ax b 12,66 12,17 11,84 11,58 11,38 10,95 10,74 10,56 10,42 10,35 10,04 10,00 9,71 9,37
Darin entspricht x der Länge der aggregations, g der Anzahl der aggregations, w der Summe der Wörter in aggregation g, y der mittleren Länge (in Wörtern) und yc der be-
678
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Tab. 47.19: Textaggregat in Sätzen für einen türkischen Lyriktext (entnommen aus Hřebíček 1989, 54) x
g
w
yZ
2 3 6 7 8 9 14
17 5 1 1 2 1 1
121 46 25 17 46 27 48
3,56 3,07 4,17 2,43 2,88 3,00 3,43
w xg
yc Z axb 3,35 3,29 3,18 3,15 3,13 3,12 3,05
rechneten Länge. Für die Parameter a und b ermittelt Hřebíček folgende Werte: a Z 13,5320 und b Z K0,0965 Hier ermittelt Hřebíček folgende Werte für die Parameter: a Z 3,4640 und b Z K0,0483 Wie der Vergleich der Spalten vier und fünf der Tabellen und der Wilcox-Test zeigt, ergeben sich keine signifikanten Unterschiede zwischen den empirischen und den berechneten Werten. Damit kann auch in diesem Bereich das Menzerathsche Gesetz als bestätigt angesehen werden. Auch hier muss, wie schon aus den anderen bereits beschriebenen Untersuchungen bekannt ist, auf allen Ebenen aber besonders bei größeren sprachlichen Einheiten mit Störfaktoren gerechnet werden, die die Kurvenverläufe überlagern können. Auf diesen Tatbestand weist auch Hřebíček in seiner Veröffentlichung hin. Die Texte unterscheiden sich hinsichtlich ihrer a-Parameterwerte ganz erheblich. Das könnte unter anderem darauf zurück zu führen sein, dass es sich um zwei verschiedene Textsorten, nämlich einen Prosa- und einen Lyriktext, handelt. Eine gesonderte Auswertung der Parameter nach der Textsorte könnte eventuell äußerst interessante Ergebnisse bringen. Weitere, umfangreiche Arbeiten zu diesem Thema umfasst auch Hřebíčeks Buch (1995) „Text levels, language constructs, constituents and the Menzerath-Altmann law“. Nicht viele der in den Abschnitten 5 und 6 vorgestellten Hypothesen können mit einer solchen Menge von Daten und dazu berechneten Parameterwerten aufwarten. Die Veröffentlichungen in den bisherigen Abschnitten haben sich K abgesehen von Hypothese 7, die in gewisser Hinsicht auch
auf semantische Aspekte zurückgreift K ausschließlich auf die Formseite der Sprache bezogen und deren Inhaltsseite unberücksichtigt gelassen. U. Rothe (1983) beschäftigt sich in ihrer Untersuchung mit einem weiteren Aspekt des Menzerathschen Gesetzes, der bisher nur kurz in Abschnitt 5 angesprochen worden ist. „[.] auch die Menge der semantischen Repräsentanten kann als eine Funktion der Länge des Ausdrucks angegeben werden.“ (Rothe 1983, 101). In ihrer Arbeit überprüft sie Hypothese 8 und damit „[.]die Gültigkeit des Menzerathschen Gesetzes unter dem Aspekt der Bezugsetzung der Bedeutungsmenge eines Wortes zu der Wortlänge [.]“ (Rothe 1983, 101) für drei romanische Sprachen K Französisch, Portugiesisch und Spanisch. Um zu verdeutlichen, wie das Menzerathsche Gesetz hier angewendet wird, sollte man sich folgendes bewusst machen: In den bisherigen Untersuchungen wird das Konstrukt mit seinen (formalen) Konstituenten in Beziehung gesetzt. Rothe hingegen setzt das Konstrukt K in diesem Fall das Wort K mit seiner Bedeutungsmenge in Beziehung. An die Stelle der durchschnittlichen Konstituentenlänge, die in den Hypothesen 1 bis 7 unterschiedliche sprachliche Einheiten sein konnten K tritt nun die durchschnittliche Bedeutungsanzahl. Als Datengrundlage verwendet Rothe Lexika der drei Sprachen, aus denen sie jeweils 1000 Wörter entnimmt und hinsichtlich ihrer Länge in Buchstaben und in Silben auswertete. Die sich ergebenden Kurvenverläufe sind in den Abbildungen 47.16 bis 47.21 dargestellt. Die auf der Grundlage des Datenmaterials von Rothe berechneten Parameterwerte sind in den Tabellen 47.20 bis 47.22 zusammengefasst. Wie die signifikanten Ergebnisse der F-Tests deutlich zeigen, beschreibt auch hier das Menzerathsche Gesetz den Zusammenhang gut. Tab. 47.20: Funktion für mittlere Bedeutungszahl nach Silben und Buchstaben (entnommen aus Rothe 1983) Französisch Wortlänge in Silben
Wortlänge in Buchstaben
y Z 5,1956 xK0,830925
y Z 21,4755 xK1,048608
F1,4 Z 112,56
F1,13 Z 135,48
P Z 0,0004
P Z 3*10K8
679
47. Das Menzerathsche Gesetz
Abb. 47.16: Mittlere Bedeutungszahl in Abhängigkeit von der Wortlänge in Buchstaben für das Französische (entnommen aus Rothe 1983, 104)
Ein Aspekt, den Rothe in ihrer Auswertung nicht berücksichtigt, mit dem sich allerdings beispielsweise J. Sambor (1984) in seiner ArTab. 47.21: Funktion für mittlere Bedeutungszahl nach Silben und Buchstaben (entnommen aus Rothe 1983) Portugiesisch
Abb. 47.17: Mittlere Bedeutungszahl in Abhängigkeit von der Wortlänge in Silben für das Französische (entnommen aus Rothe 1983, 105)
Wortlänge in Silben
Wortlänge in Buchstaben
y Z 11,2672 xK1,166537 F1,4 Z 65,34 P Z 0,0013
y Z 28,733 xK1,119780 F1,10 Z 77,14 P Z 0,000005
Abb. 47.18: Mittlere Bedeutungszahl in Abhängigkeit von der Wortlänge in Buchstaben für das Portugiesische (entnommen aus Rothe 1983, 107)
680
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws Tab. 47.22: Funktion für mittlere Bedeutungszahl nach Silben und Buchstaben (entnommen aus Rothe 1983) Spanisch Wortlänge in Silben
Wortlänge in Buchstaben
y Z 14,4673 xK1,333490
y Z 57,3530 xK1,445052
F1,5 Z 128,73
F1,11 Z 270,03
P Z 0,000093
P Z 4*10K9
Abb. 47.19: Mittlere Bedeutungszahl in Abhängigkeit von der Wortlänge in Silben für das Portugiesische (entnommen aus Rothe 1983, 107)
Abb. 47.20: Mittlere Bedeutungszahl in Abhängigkeit von der Wortlänge in Buchstaben für das Spanische (entnommen aus Rothe 1983, 109)
auf das Menzerathsche Gesetz ausgewertet werden. Zudem hat sich gerade in diesem Bereich gezeigt, dass die Parameter c und a untereinander ebenfalls in einem funktionalen Zusammenhang zu stehen scheinen. Diesen Aspekt untersuchen I. Fickermann, G. Markner-Jäger und U. Rothe (1984). U. a. auf ihre Beobachtung wird in Abschnitt 8, also im Zusammenhang mit den Interpretationsansätzen, näher eingegangen.
7. Abb. 47.21: Mittlere Bedeutungszahl in Abhängigkeit von der Wortlänge in Silben für das Spanische (entnommen aus Rothe 1983, 109)
beit befasst, ist die Frage, ob die Wörter in Unterkategorien eingeteilt werden sollte. Man denke etwa an Wortarten. Diese Kategorien könnten dann einzeln im Hinblick
Das Menzerathsche Gesetz außerhalb der Linguistik
Wie bereits angesprochen wurde das Menzerathsche Gesetz auch über die Linguistik hinaus zur Beschreibung von verschiedenen Zusammenhängen z. B. in der Musik und in der Biologie genutzt. So lassen sich etwa Beobachtungen bei der genetischen Informationsübertragung machen, die mit Menzeraths
681
47. Das Menzerathsche Gesetz
Aussage: „je größer das Ganze, desto kleiner die Teile“ im Einklang zu sein scheinen. J. Wilde und M. H. Schwibbe (1989, 92K99) beschreiben Untersuchungen der DNA-Forschung, die folgenden Zusammenhang bestätigen: „Je größer das Konstrukt DNA, umso kleiner sind seine Konstituenten, die Sequenzen.“ (Wilde/Schwibbe 1989, 92K99) Darüber hinaus stellen Wilde/Schwibbe fest, dass auch der Zusammenhang zwischen dem Grad der Spezialisierung einer Spezies und dem Umfang ihrer DNA mit Hilfe des Menzerathschen Gesetzes formalisiert werden kann. Neben den Beobachtungen im Bereich der Genforschung findet sich in Altmann/ Schwibbe (1989) außerdem ein Artikel zur Beschreibung der strukturellen Merkmale von Primatensozietäten. Drin leiten W. Kaumann und M. H. Schwibbe (1989, 100) auf der Grundlage schon vorhandener Untersuchungen folgende Annahmen ab und untersuchen diese vor dem Hintergrund des Menzerathschen Gesetzes. „Je größer eine Population in einem von allen Mitgliedern geteilten Areal, desto kleiner sind die sozialen Einheiten, die diese Population bildet.“ (Kaumann/Schwibbe 1989, 100). Wie man sieht, handelt es sich auch hier wieder um einen Zusammenhang zwischen Konstruktund Konstituentengröße, der dem Menzerathschen Gesetz zu folgen scheint. Aufgrund der Ähnlichkeit der Systeme Musik und Sprache scheint es sinnvoll anzunehmen, dass Gesetze in beiden gleichermaßen gültig sein könnten. M. Boroda und G. Altmann (1991) untersuchen dieser Überlegung folgend die Validität des Menzerathschen Gesetzes in der Musik. “In such a situation it is natural to question whether Menzerath’s law is valid in music, where hierarchical organisation of a composition is one of the leading principles and where length is considered as an important characteristic of a unit.” (Boroda/Altmann 1991, 2). Allerdings besteht in der Musik das K auch aus der Sprachwissenschaft bekannte aber natürlich etwa in der Biologie völlig unbekannte K Problem der Bestimmbarkeit der Einheiten. Ohne eindeutige und intersubjektiv bestimmbare Einheiten lassen sich keine Zusammenhänge zwischen diesen ermitteln. So weisen Boroda/Altmann darauf hin, dass erst in neuesten Arbeiten Kriterien für die Bestimmung von Konstituenten im Bereich des musikalischen Motivs ermittelt
werden konnten (nach Boroda mr-segment und F-motif).
Abb. 47.22: Beispiel für eine mr-segment und Fmotif Segmentierung nach Boroda (entnommen aus Boroda/Altmann 1991, 4)
Damit wird es möglich, die Gültigkeit des Menzerathschen Gesetzes für diesen Bereich zu überprüfen: “The greater the number of F-motifs in a mr-segment is, the smaller in average these F-motifs are”. (Boroda/ Altmann 1991: 3) Diese Hypothese testen Boroda/Altmann sowohl für komponierte Musik als auch für Volkslieder. Sie verwenden dazu Formel (8). Es ergeben sich in allen Fällen signifikante Ergebnisse für die F-Tests. Das Menzerathsche Gesetz kann damit auch für diesen Bereich der Musik als bestätigt gelten. Das breite Anwendungsspektrum des Menzerathschen Gesetzes, das hier erneut deutlich wird, spricht dafür, dass es sich dabei um ein allgemeines Organisationsprinzip handeln könnte. Weitere quantitativ ausgerichtete Forschungsarbeiten in allen Bereichen der Linguistik sowie außerhalb dieser werden sicherlich neue interessante Erkenntnisse im Bezug auf das Menzerathsche Gesetz liefern können.
8.
Die Interpretationen
Die empirischen Untersuchungen, über die in den vorangegangenen Abschnitten referiert wurde, haben sich mit der Überprüfung der von Altmann 1980 aufgestellten Hypothesen befasst oder das Menzerathsche Gesetz auf einen anderen Bereich innerhalb bzw. außerhalb der Linguistik übertragen.
682
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Hier soll nun auf mögliche Interpretationen für die Parameter der Funktion K Gleichung (5), (7) und (8) K eingegangen werden. Darüber hinaus werden in diesem Abschnitt die Arbeiten vorgestellt, die die Erkenntnisse anderer, angrenzender Wissenschaften K wie etwa der Psychologie K mit den Untersuchungen zum Menzerathschen Gesetz vergleichen und möglicherweise mit diesen zu einem größeren Gesamtbild verknüpfen. Der Abschnitt soll daher den Stand der Forschung zu folgenden Fragen aufzeigen: (1) Wie können die Beobachtungen, die im Menzerathschen Gesetz formalisiert und bereits in einer großen Zahl von empirischen Untersuchungen überprüft wurden, in ein System von linguistischen und psychologischen K allgemein vielleicht geisteswissenschaftlichen K Gesetzen eingebunden werden? (2) Welche Gesetze lassen sich in den angrenzenden Wissenschaften finden, die das Menzerathsche Gesetz bestätigen und weitere Erklärungen der Randbedingungen und Einflüsse, die auf es einwirken, liefern könnten? (3) Welche Interpretationen können für die Parameter a, b, und c gefunden werden? (4) Ergeben sich für diese K und damit natürlich auch für die Kurvenverläufe K vielleicht charakteristische Werte für bestimmte linguistische Analyseebenen, Sprachen, Textsorten etc.? Einige Wissenschaftler haben in den letzten Jahren sehr interessante Antworten zu den oben genannten Fragen entwickelt. In diesem Zusammenhang ist u. a. die Arbeit von G. Fenk-Oczlon und A. Fenk (1995) zu nennen, die das Menzerathsche Gesetz aus dem Blickwinkel der Sprachtypologie- und Universalienforschung heraus beurteilen. M. Schwibbe (1989, 84K91) geht in seinem Beitrag auf die psychologischen Aspekte ein und interpretiert dementsprechend das Gesetz aus einer an psychologische Forschungsergebnisse anknüpfenden Sicht heraus. Auch Köhler (1984) diskutiert eine Herangehensweise, die auf Erkenntnissen des Sprachverarbeitungssystems und der Sprachverarbeitungsmechanismen beruht. Doch nicht erst in den letzten Jahren werden Interpretationsvorschläge entworfen, Menzerath versucht schon (1928) und (1954), seine Beobachtungen zu erklären. Er
nimmt an, da das K hier sprachliche K Ganze nicht unendlich anwachsen kann und darf, würden Verkürzungseinflüsse wirksam, die dafür sorgen, dass das Konstrukt überschaubar bleibt. Für dieses Phänomen benutzt er daher den Begriff Sparsamkeitsregel. Im Rahmen ihrer Formalisierung der Beobachtungen Menzeraths weisen Altmann/Schwibbe (1989) darauf hin, dass sie von einer Verbindung zwischen dem principle of least effort, das einen Ausgleich von Verkürzungs- und Verlängerungstendenzen von Sender und Empfänger bewirkt, und dem Menzerathschen Gesetz ausgehen. Bezüglich der Interpretation der Parameter b und c meinen sie, dass einer der beiden den Verkürzungsfaktor, der andere den Einfluss von Störfaktoren erfasst. Eine genauere Zuordnung der Parameter vorzunehmen, halten sie allerdings zu diesem Zeitpunkt 1989 noch nicht für möglich. Der Ansatz, den Schwibbe (1989, 84K91) verfolgt, zielt darauf ab, das Menzerathsche Gesetz als ein „Modell psychischer Informationsverarbeitung“ zu interpretieren. Die psychologische Forschung K vor allem in den Bereichen, die sich mit der Arbeitsweise des Gedächtnisses befassen K liefert immer wieder Erkenntnisse, die der Beobachtung, je größer das Ganze, desto kleiner die Teile, alles andere als widersprechen. Aus diesem Grund geht Schwibbe von folgenden Annahmen aus: (1) Das Kurzzeitgedächtnis K so man von der Existenz einer derartigen Instanz überhaupt ausgehen will K ist hinsichtlich seiner Kapazität beschränkt. (2) Die Verarbeitung von sprachlichem Input vollzieht sich K so seine Ansicht, die mit psychologischen Forschungsergebnissen in Einklang steht K seriell in einer speziellen Sprachverarbeitungseinheit. (3) Für die Übertragung von Informationen, also auch von sprachlichem Input, ist das Nervensystem des menschlichen Körpers zuständig. Dabei gilt einerseits, dass bei zu geringer Anregung durch eine Nachricht diese von den Nerven nicht weiter geleitet wird. Andererseits kommt, wie das auch aus der elektronischen Datenübertragung bekannt ist, zu jeder Information ein Rauschanteil hinzu, der umso größer ist, je mehr Systeme an der Übertragung beteiligt sind. Um sicher zu stellen, dass so wenig Informationen wie
683
47. Das Menzerathsche Gesetz CL 17
15 Suizidabschiedsbriefe
13
11
Normale Privatbriefe
9
7
5 1.2
1.6
2.0
2.4
2.8 SL
Abb. 47.23: Beziehung zwischen der Satz- und Clauselänge (entnommen aus Altmann /Schwibbe 1989, 88)
möglich auf dem Übertragungsweg verloren gehen, ist es günstig, kurze Informationseinheiten zu senden. Diese sind hinsichtlich ihrer Richtigkeit schneller und einfacher zu überprüfen. Daher ist auch eine möglichst hohe Redundanz der sprachlichen Einheit nötig. Bei langen Informationssequenzen muss, um den Signal-Rausch-Abstand auf einem für die Übertragungssicherheit ausreichenden Niveau zu halten, die Nachricht selbst in kürzere Einheiten zerlegt werden oder zumindest zerlegbar sein K so die Vermutung der psycholinguistischen Forschung, auf die Schwibbe sich bei seinem Ansatz stützt. Damit sei also nicht die Verkürzung der Informationssequenz selber für eine höhere Übertragungssicherheit verantwortlich sondern viel mehr die K dem Menzerathschen Gesetz folgenden K kürzer werdenden Informationseinheiten, in die sich diese gliedert. Denn die kleineren Teile der Information lassen sich hinsichtlich Stimmigkeit und Richtigkeit leichter überprüfen, wodurch eine höhere Übertragungssicherheit für die Nachricht erreicht wird. Aus den beschriebenen Annahmen leitet Schwibbe Vermutungen ab, die er anhand von empirischen Untersuchungen an Textmaterial überprüft. Zunächst vergleicht er normale Briefe mit Suizidbriefen. Bei Stress K oder wie hier bei extremer seelischer Belastung K wird die Übertragung des menschlichen Nervensystems verrauschter, somit nimmt die Übertragungssicherheit stark ab. Wenn die oben beschriebenen Annahmen Schwibbes zuträfen, so müssten bei
den unter Stress entstandenen Suizidbriefen kürzere Teilsätzen zu beobachten sein als bei den normalen Briefen, damit dem durch den Stress bedingten stärkeren Rauschen entgegen gewirkt wird. Die Kurven in Abbildung 47.23 lassen diesen Rückschluss zu. Neben dem Vergleich dieser Briefe untersucht Schwibbe auch Unterschiede in der Informationsverarbeitung von älteren und jüngeren Menschen. Dabei ergibt sich, dass die jüngeren Versuchspersonen, wie Abbildung 47.24 zeigt, weniger gut in der Lage sind, mit komplexen Satzstrukturen umzugehen als ältere. Schwibbe geht davon aus, dass mit zunehmendem Alter die Fähigkeit, unvollständig übertragene Informationseinheiten durch Wissen und Erfahrung zu kompensieren, zunimmt. Dadurch sind ältere Versuchspersonen fähig mit komplexeren Teilsatzstrukturen in langen Informationssequenzen umzugehen. Das Menzerathsche Gesetz stellt daher für Schwibbe eine inhaltliche Erweiterung des Zipf-Mandelbrotschen Gesetzes dar. Dieses macht eine Aussage über Ökonomisierungsprinzipien bei der Sprach- bzw. Informationsverarbeitung. Schwibbe beschreibt das selbst folgendermaßen: „Die Segmentierung von Informationssequenzen in strukturell kurze Einheiten ermöglicht sowohl eine ökonomische Bufferung im verarbeitenden System als auch eine Sicherung der Übertragung durch die Repetition nur kurzer Sequenzen.“ (Schwibbe in Altmann/Schwibbe 1989, 91). Er interpretiert damit die Beziehung, die durch das Menzerathsche Gesetz
684
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
CL 12
10 18- jährige 8
6
15- jährige
4
1.2
1.6
2.0
2.4
2.8
3.6
3.6
4.0
Abb. 47.24: Beziehung zwischen der Satz- und der Wortlänge (entnommen aus Altmann/ Schwibbe 1989, 90)
ausgedrückt wird, als einen Prozess, der zur Aufrechterhaltung des richtigen K für die Kommunikationspartner notwendigen K Signal-Rausch-Abstandes nötig ist. Fenk-Oczlon/Fenk (1995) gehen in ihrer Arbeit von der Annahme aus, Sprache sei ein sich selbst organisierendes System, etwa vergleichbar mit einem biologischen Organismus. Diese Idee ist nicht neu, sondern wurde bereits in verschiedenen Veröffentlichungen untersucht und beschrieben. Wie auch der biologische Organismus durch ein bestimmtes Ziel, nämlich die Selbsterhaltung und die Erhaltung der eigenen Art, gesteuert wird, so kann für die Sprache ebenfalls ein Hauptziel angegeben werden. Die zwischenmenschliche Kommunikation soll gewährleistet werden. Aus diesem Grund muss trotz verschiedener sozialer Einflüsse, die auf die einzelnen Menschen einwirken, und der unterschiedlichen genetischen Disposition eine bestimmte Übereinstimmung in sprachlicher Hinsicht sichergestellt werden, so Fenk-Oczlon/Fenk. Daher seien die sprachlichen Mechanismen auf die kognitiven und artikulatorischen Voraussetzungen der Sprachverwender abgestimmt. Wie bereits angesprochen, liegt der Schwerpunkt der Arbeit von Fenk-Oczlon/Fenk auf der Universalienforschung. Damit verfolgen die beiden Forscher Fragen wie etwa: Welche Beschränkungen durch die menschliche Artikulation und Kognition wirken auf die Sprachverwendung aber auch auf die Spra-
che selbst ein? Für ihre Untersuchung gehen sie von einer grundlegenden Annahme aus, die durch Forschungsergebnisse der Psychologie gestützt wird. Die an der Sprachverarbeitung beteiligten Prozessoren K also bestimmte Bereiche des Gehirns K sind beschränkt in ihrer Aufnahmefähigkeit hinsichtlich Zeit und Informationsmenge. Daraus leiten Fenk-Oczlon/Fenk Schlüsse ab, die sich u. a. auf das Menzerathsche Gesetz beziehen. Jeder Sprecher prägt dem von ihm produzierten Lautkontinuum seinen Atemrhythmus (Prosodie, Intonation) auf. Die dadurch entstehenden sprachlichen Einheiten entsprechen in der Regel clausalen Strukturen (clause K etwa Teilsätze, Satzabschnitte siehe dazu Abschnitt 5). Diese Strukturen entsprechen, wie psychologische Forschungsarbeiten gezeigt haben, den Einheiten, die mit Hilfe des angenommenen Sprachprozessors im Gehirn verarbeitet werden. Darüber hinaus nehmen verschiedene Forschergruppen innerhalb der Psychologie, Linguistik und Ethnologie an, dass diese clausalen Strukturen einem universellen Zeittakt angepasst sind. Sie sprechen in diesem Zusammenhang auch von einem Zeitfenster bestimmter Größe hinsichtlich Zeit und übertragener Information. Wie aber sieht nun der genaue Zusammenhang zum Menzerathschen Gesetz aus? Dazu überprüfen Fenk-Oczlon/Fenk Datenmaterial verschiedener Sprachen. Entsprechend ihres Schwerpunktes der Universalienfor-
685
47. Das Menzerathsche Gesetz
Tab. 47.25: Durchschnittliche Silbenzahl von Kernsätzen in 29 verschiedenen Sprachen (entnommen aus Fenk-Oczlon/Fenk 1995, 231) Holländisch 5,05 Französisch 5.3 Chinesisch 5,4 Tschechisch 5,4 Slowakisch 5,4 Hebräisch 5,5 Deutsch 5,5 Isländisch 5,5 Estnisch 5,7 Russisch 5,7 Serbokroatisch 5,8 Englisch 5,8 Ewon. 5,8 Ungarisch 5,9 Arabisch 5,9
Mittelwert Z 6,43 Bamb. 6,45 Türkisch 6,5 Albanisch 6,5 Portugiesisch 6,6 Persisch 6,6 Hindi 6,7 Pen. 6,7 Mazedonisch 6,95
Italienisch 7,5 Griechisch 7,5 Spanisch 7,9
schung entscheiden sie sich für Einheiten, welche die Artikulationsseite sowie die Kognitionsebene in allen Sprachen ihrer Meinung nach am besten repräsentieren: die Silbe und die Proposition (als oben angesprochene clausale Struktur). Die durchschnittlichen Silbenzahlen in den verschiedenen Sprachen gruppieren sich mit geringer Streubreite um einen Mittelwert, wie aus Tabelle 47.25 ersichtlich wird. Das entspricht der Auffassung, clausale Strukturen würden in ein Zeitfenster bestimmter Größe eingepasst. Bemerkenswert ist dabei allerdings ein zweiter Aspekt. Je komplexer die Silbenstruktur der untersuchten Sprache ist, desto silbenärmer ist die Proposition. Eine Verbindung zwischen diesen Erkenntnissen und dem Menzerathschen Gesetz liegt auf der Hand. Die Ergebnisse, die Fenk-Oczlon/Fenk auf der Grundlage ihres Datenmaterials ermitteln, fassen sie in folgenden Punkten zusammen: (1) „Je mehr Silben pro Satz, um so weniger Phoneme pro Silbe. r Z K0,77 (p ! 0,1 %)“ (2) „Je mehr Silben pro Wort, um so weniger Phoneme pro Silbe. r Z K0,45 (p ! 1 %)“ (3) „Je mehr Silben pro Satz, um so mehr Silben pro Wort. r Z C0,38 (p ! 5 %)“ (4) „Je mehr Wörter pro Satz, um so weniger Silben pro Wort. r Z K0,69 (p ! 0,1 %)“ (Fenk-Oczlon/Fenk 1995, 22)
Zwar wird in einigen der Untersuchungen die Frage nach den Parametern aufgeworfen, aber nur in einer geringen Anzahl wird über die empirische Arbeit hinausgehend ein systematischer Interpretationsversuch unternommen.
Anjang 8,2 Koreanisch 8,2
Japanisch 10,2
Köhler (1984) interpretiert das Menzerathsche Gesetz als Resultat des Sprachverarbeitungsmechanismus. Seine Arbeit umfasst darüber hinaus eine Interpretation der Parameter a, b und c. Köhlers Arbeit liegen zwei Annahmen zugrunde: (1) „Die menschliche Sprachverarbeitung ist ein sequenzieller Prozess; d. h. die Ketten der sprachlichen Komponenten werden stets gliedweise verarbeitet.“ (2) „[.] dass für den Sprachverarbeitungsprozess ein Register fester endlicher Größe als ‚Arbeitsspeicher‘ zur Verfügung steht .“ (Köhler 1984, 178)
Zur Verarbeitung einer sprachlichen Einheit werden in diesem, von Köhler als Register bezeichneten, Teilbereich des Gedächtnisses zwei verschiedene Informationen abgespeichert: die sprachliche Einheit selbst und zusätzlich alle Angaben darüber, mit welchen anderen Einheiten diese verknüpft ist und wie diese Verknüpfung aussieht. Abb. 47.25 verdeutlicht diese Vorstellung schematisch. Unter der eben beschriebenen Voraussetzung zieht Köhler folgende Schlüsse: (1) „Es gibt auf jeder Ebene eine Obergrenze für die Länge von Ketten“.
Abb. 47.25: Das Sprachverarbeitungsregister mit A Z Komponente, B Z Strukturinformation (entnommen aus Köhler 1984, 179)
686
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
(2) „Je mehr Komponenten ein Konstrukt hat, desto mehr Strukturinformation wird kumuliert; daher steht umso weniger Kapazität für die Komponenten selbst zur Verfügung. (Köhler in Altmann/Schwibbe 1989, 109).
sprach-, text- und sprachebenenspezifische Größe darstellen. Setzt man in Gleichung (8) x Z 1 ein, so erhält man y Z a. Daraus kann abgeleitet werden, dass b numerisch mit dem empirischen Messwert für ein einelementiges, linguistisches Konstrukt übereinstimmt. Die Gleichung (8) in Abschnitt 3 lässt außerdem K wie Köhler erläutert K eine erste Interpretation für den Parameter a zu. Es handelt sich dabei offensichtlich um einen Kürzungsfaktor. Das oben beschriebene Sprachverarbeitungsmodell legt aber, nach Köhler, noch eine weitere Interpretation für b nahe, . „er ist ein Maß für den Umfang an Strukturinformation, der durchschnittlich für ein einkomponentiges Konstrukt erforderlich ist.“ (Köhler 1984, 180). Ebenso wie für den Parameter a muss also auch für b gelten, dass er sprach-, text- und sprachebenenspezifisch ist. Darüber hinaus ist anzunehmen, dass ein funktionaler Zusammenhang zwischen beiden besteht, der im Grenzfall dem Verlauf einer Geraden folgen könne. Interessante Gedanken zu den Parametern a und b finden sich auch in einigen der vorgestellten empirischen Untersuchungen. So beobachten Fickermann et al. (1984) bei ihrer Arbeit zu Hypothese 8, dass die Werte von a und b in einem funktionalen Zusammenhang stehen müssten. Wie Köhler (1984) gehen sie davon aus, dass im Grenzfall sich eine lineare Beziehung zwischen diesen Parametern einstellen dürfte. Da der Zusammenhang in allen anderen Fällen nichtlinear sein muss, testen sie für verschiedene Funktionen die Beziehung
Da für das Register eine endliche Größe angenommen werden muss, können natürlich auch keine unendlich großen Objekte gespeichert werden. Der Speicherumfang, den die Komponente und die Strukturinformation zusammen in diesem Register einnehmen können, ist also durch einen vorgegebenen Größenrahmen beschränkt. Setzt sich ein sprachliches Konstrukt aus mehr Teilen zusammen, so müssen dementsprechend mehr Strukturinformationen abgelegt werden. Der freie Platz für das Speichern des sprachlichen Konstrukts selbst wird geringer. Andererseits ist davon auszugehen K so Köhler K dass die Strukturinformationsmenge pro hinzukommendes Element abnimmt, je mehr Elemente schon verknüpft worden sind. Köhler beschreibt das selbst so: „Der Zuwachs an für Strukturinformation benötigter Registerkapazität, die während der Bearbeitung einer Komponente verfügbar gehalten werden muss, ist umgekehrt proportional zu der Anzahl der Komponenten.“ (Köhler in Altmann/Schwibbe 1989, 110). Auf der Grundlage dieser Überlegungen kann Köhler eine Gleichung herleiten, die der von Altmann entspricht (vgl. dazu die Gleichungen (2) und (9) in Abschnitt 3). Damit wird auch eine Interpretation der Parameter a und b möglich. Wie sich zeigen lässt, muss der Parameter a eine
0,00
5,00
10,00
15,00
20 ,00
2 5,00
30 ,00
3 5,00
0,00 -0,10 -0,20
Wortlänge in Silben gemessen in Phonemen Wortlänge in Laut gemessen in msec Wortlänge in Silben gemessen in msec Satzlänge in Wörter gemessen in Silben Satzlänge in Teilsätzen gemessen in Wörtern Wortlänge in Silben bezüglich Bedeutungsmenge Wortlänge in Graphemen bezüglich Bedeutungsmenge Wortlänge in Morphemen gemessen in Buchstaben Wortlänge in Morphemen gemessen in Phonemen Textaggregat in Sätzen gemessen in Wörtern
-0,30 -0,40 -0,50
Parameter b
-0,60 -0,70 -0,80 -0,90 -1,00 -1,10 -1,20 -1,30 -1,40 -1,50 Parameter A
Abb. 47.26: Übersicht und Vergleich der Parameter aus allen im Moment zugänglichen empirischen Untersuchungen zum Menzerathschen Gesetz (nach I. Cramer)
687
47. Das Menzerathsche Gesetz
zwischen den Parametern. Die Ergebnisse zeigen ganz deutlich, dass ihre Vermutung, es müsse eine funktionale Beziehung zwischen den Parametern bestehen, richtig ist. In diesem Zusammenhang sei auch auf eine Untersuchung von I. M. Cramer (2004) hingewiesen. Anhand aller zur Verfügung stehenden Untersuchungsergebnisse wurde eine Metaanalyse mit dem Ziel durchgeführt, die Zusammenhänge der Parameter untereinander aber auch in Verbindung mit der jeweiligen Analyseebene aufzuspüren. Ein Blick auf Abbildung 47.26 zeigt, dass sich Cluster für die Parameter der unterschiedlichen linguistischen Analyseebenen ergeben. Bei der multivariaten Varianzanalyse wurden hoch signifikante Ergebnisse ermittelt. Daraus kann man schließen, dass sich die Variabilität der Werte für die Parameter mit der Kategoriezugehörigkeit erklären lässt.
9.
Schlussbetrachtung
Die Beschreibungen der Arbeiten in Abschnitt 6 zeigen, dass das Menzerathsche Gesetz sich in einer großen Anzahl von empirischen Untersuchungen für verschiedene linguistische Analyseebenen und unterschiedliche Sprachen bewährt hat. Wie aus Abschnitt 8 deutlich wird, bestätigen auch Forschungsergebnisse angrenzender Wissenschaften, etwa der Psychologie, das Menzerathsche Gesetz. Dennoch verdeutlicht Abschnitt 8 ebenfalls, dass eine Menge von Fragen unbeantwortet bleibt. Alle hier vorgestellten Interpretationen sind Erklärungsbzw. Deutungsversuche, die weiterer Gedanken bedürfen. Auch sollten die Hypothesen 1 bis 8 in noch mehr Sprachen untersucht werden. Besonders interessant kann es sein, der Frage nach zu gehen, ob sich weitere Hypothesen für Bereiche innerhalb und außerhalb der Linguistik finden lassen. Obwohl ein Gesetz Erklärungen für beobachtete Phänomene liefern soll, wirft das Menzerathsche Gesetz noch fast genau so viele Fragen auf, wie es beantwortet. Welche sprachlichen und psychologischen Mechanismen liegen dem Menzerathschen Gesetz zugrunde? Erst wenn diese Frage zufrieden stellend beantwortet werden kann, ist auch daran zu denken, das Menzerathsche Gesetz mit anderen Gesetzen zu einer linguistischen Theorie zusammenzufassen.
10. Literatur (in Auswahl) Altmann, Gabriel (1978), Towards a theory of language. In: Altmann, G. (Hrsg.), Glottometrika 1. Bochum: Brockmeyer. Altmann, Gabriel (1980), Prolegomena to Menzerath’s law. In: Grotjahn, R. (Hrsg.) Glottometrika 2. Bochum: Brockmeyer. Altmann, Gabriel (1983), H. Arens’ „Verborgene Ordnung“ und das Menzerathsche Gesetz. In: Faust, M. (Hrsg.). Allgemeine Sprachwissenschaft, Sprachtypologie und Textlinguistik, Tübingen: Gustav Narr. Altmann, Gabriel und Schwibbe, Michael H. (1989), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Georg Olms. Boroda, Moisei G. und Altmann, Gabriel (1991), Menzerath’s Law in Musical Texts. In: Boroda, M. G. (Ed.) Musikometrika 3, Bochum: Brockmeyer. Cramer, Irene M. (2004), The Parameters of the Altmann-Menzerath Law. In: Journal Of Quantitative Linguistics (to appear). Fenk-Oczlon, Gertraud und Fenk, August (1995), Selbstorganisation und natürliche Typologie. In: Sprachtypologie und Universalienforschung, Heft 48. Fickermann, I., Markner-Jäger, G. und Rothe, Ute (1984), Wortlänge und Bedeutungskomplexität. In: Köhler, G./Boy, J. (Hrsg.), Glottometrika 6. Bochum: Brockmeyer. Gajic, Dragomir M. (1950), Dissertation: Zur Struktur des serbokroatischen Wortschatzes. Die Typologie der serbokroatischen mehrsilbigen Wörter. Bonn. Gerlach, Rainer (1982), Zur Überprüfung des Menzerathschen Gesetzes im Bereich der Morphologie. In: Lehfeldt, W./Strauss, U. (Hrsg.), Glottometrika 4. Bochum: Brockmeyer. Geršić, Slavko und Altmann, Gabriel (1980), Laut K Silbe KWort und das Menzerathsche Gesetz. Frankfurter Phonetische Beiträge. In: Wodarz, H. W. (Hrsg.), Forum Phoneticum 21. Hamburg: Helmut Buske. Gréogoire, Antoine (1899), Variation de la durée de la syllabe française. In: La parole, 1. Heups, Gabriela (1983), Untersuchungen zum Verhältnis von Satzlänge zu Clauselänge am Beispiel deutscher Texte verschiedener Textklassen. In: Köhler, G./Boy, J. (Hrsg.), Glottometrika 5. Bochum: Brockmeyer. Hřebíček, Ludék (1989), Menzerath-Altmann’s Law on the Semantic Level. In: Hřebíček, L. (Hrsg.), Glottometrika 11. Bochum: Brockmeyer. Hřebíček, Ludék (1995), Text levels: language constructs, constituents and the Menzerath-Altmann law. In: Quantitative linguistics, vol. 56. Trier: WVT.
688
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Kaumann, Werner und Schwibbe, Michael H. (1989), Struktur von Primatensozietäten unter dem Gesichtspunkt der Menzerathschen Regel. In: Altmann, G./Schwibbe, M. H. (1989, 100). Köhler, Reinhard (1982), Das Menzerathsche Gesetz auf Satzebene. In: Lehfeldt, W./Strauss, U. (Hrsg.). Glottometrika 4. Bochum: Brockmeyer. Köhler, Reinhard (1984), Zur Interpretation des Menzerathschen Gesetzes. In: Köhler, G./Boy, J. (Hrsg.), Glottometrika 6. Bochum: Brockmeyer. Krott, Andrea (1996), Some Remarks on the Relation between Word Length and Morpheme Length. In: Journal of Quantitative Linguistics Nr. 3, 29K37. Menzerath, Paul (1928), Über einige phonetische Probleme. Actes du premier congre`s international de linguistes. Leiden: Sijthhoff. Menzerath, Paul (1954), Die Architektonik des deutschen Wortschatzes. Bonn: Dümmler 1954. Meyer, Ernst A. (1904), Zur Vokaldauer im Deutschen. In: Nordiska Studier Tillegnade A. Norken, Upsalla: Appelberg. Rettweiler, Hildegard (1950), Die Stichprobenentnahme bei sprachtypologischen Untersuchungen, als Problem nachgeprüft an der italienischen Sprache. Diss. Bonn. Roberts, A. H. (1965), A statistical linguistic analysis of American English. Mouton: The Hague. In: Altmann/Schwibbe (1989, 51/52).
Rothe, Ulrike (1983), Wortlänge und Bedeutungsmenge: Eine Untersuchung zum Menzerathschen Gesetz an drei romanischen Sprachen. In: Köhler, G./Boy, J. (Hrsg.), Glottometrika 6. Bochum: Brockmeyer 1984. Roudet, L. (1910), Élements de Phonetique générale. Paris: Welter. Sambor, Jadwiga (1984), Menzerath’s Law and the Polysemy of Words. In: Köhler, G./Boy, J. (Hrsg.), Glottometrika 6. Bochum: Brockmeyer. Schwibbe, Michael H. (1984), Text- und wortstatistische Untersuchungen zur Validität der Menzerathschen Regel. In: Köhler, G./Boy, J. (Hrsg.), Glottometrika 6. Bochum: Brockmeyer. Schwibbe, Michael H. (1989), Die Menzerathsche Regel als Modell psychischer Informationsverarbeitung. In: Altmann, G./Schwibbe, M. H. (1989, 84K91). Teupenhayn, R. und Altmann, Gabriel (1984), Clause Length And Menzerath’s Law. In: Köhler, G./Boy, J. (Hrsg.), Glottometrika 6. Bochum: Brockmeyer. Wilde, Joachim und Schwibbe, Michael H. (1989), Organisation von Erbinformation im Hinblick auf die Menzerathsche Regel. In: Altmann, G./ Schwibbe, M. H. (1989), 92K99.
Irene M. Cramer, Saarbrücken (Deutschland)
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung 1. 2. 3.
6. 7. 8.
Einleitung Was sind dynamische Systeme? Grundideen und Grundbegriffe der Katastrophentheorie Generalisierte Katastrophen und Bifurkationsdynamik Kreisprozesse, Chaos und fraktale Strukturen Linguistische Anwendungen Schluss Literatur (in Auswahl)
1.
Einleitung
4. 5.
Die mathematische Linguistik hat sich unter dem Einfluss der analytischen Philosophie und der Entwicklung symbolverarbeitender Computer seit den 50er Jahren intensiv mit logischen und algebraischen Modellen befasst. Das symbolisch-komputionale Paradigma ging davon aus, dass die kognitiven oder sozialen Kontexte für die Symbolverar-
beitung irrelevant seien. Es ging im Wesentlichen darum, ein abstraktes System zu konstruieren, dieses konnte dann in beliebige Kontexte eingebettet werden. Die kognitive Wende (seit den 70er Jahren) veränderte die Situation. Die natürliche Organisation eines kognitiven Systems, speziell des Gehirns, bestimmt auch, welche Art von Systemorganisation geeignet ist. Stellt man die Semantik ins Zentrum (wie in der generativen Semantik und der kognitiven Semantik), so sind die Topologie des Raumes (des Leibes) und die Dynamik der Gegenstände, besonders aber die Handlungsszenarien, von zentraler Bedeutung. Damit rücken als mathematische Subdisziplinen die Topologie, die Analysis und genereller die Theorie dynamischer Systeme in den Blickpunkt der mathematischen Linguistik. Konsequent hat dies René Thom gefordert und exemplarisch ausgeführt (ab 1972).
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
Inzwischen sind nicht nur seine Anregungen vielfach aufgegriffen und weiterentwickelt worden (vgl. Wildgen 1982; 1985; 1994; 1999a), auch das mathematische Gebiet und dessen Anwendungen haben klarere Konturen gewonnen. Dabei sind insbesondere die Allgemeine Bifurkationstheorie (generalisierte Katastrophentheorie) und die Chaostheorie von Interesse. Wir werden diese Gebiete in ihren wichtigsten Eigenschaften darstellen und dann Anwendungspotentiale in der Linguistik skizzieren. Die statistische Dynamik (Synergetik von Haken, Theorie dissipativer Strukturen von Prigogine) muss an anderer Stelle behandelt werden, obwohl eine Reihe hier beschriebener dynamischer Grundprinzipien auch dort relevant sind (vgl. Art. Nr. 53).
2.
Was sind dynamische Systeme?
Die Entwicklung des Hauptstrangs der theoretischen Linguistik seit etwa 1950 hat drei Tabus eingeführt. Linguistische Modelle sind demnach (1) diskret (und nicht kontinuierlich) (2) linear (nichtlineare Systeme kommen nicht in Betracht) (3) deterministisch (statistische Überlegungen und Systemarchitekturen werden marginalisiert). Die dynamischen Systeme, welche wir als Kandidaten für linguistische Modellstrukturen vorstellen, sind dem entgegengesetzt: (a) Die Alternative kontinuierlich oder diskret betrifft in erster Linie das Beschreibungsverfahren, nicht die Systeme selbst. Wenn der Übergang zu diskreten Phänomenen oder das Grenzverhalten und die Stabilität der diskreten Größen das Problem sind, ist es günstig von einer kontinuierlichen Beschreibung auszugehen. Die Stabilitätstheorie und die Katastrophentheorie gehen diesen Weg und können somit zu einer Theorie der Kategorisierung beitragen. (b) Explanativ sind nichtlineare dynamische Systeme höher zu bewerten, da sie den Zusammenhang von Struktur, Strukturgenese und die Prozesse der Selbstorganisation bzw. Selbststabilisierung mit erfassen. Unter speziellen Randbedingungen kann das Verhalten des Systems mit einem linearen dynamischen System approximiert werden.
689
(c) In allen Systemen sind Fluktuationen, stochastische Schwankungen in Rechnung zu stellen; bei gewissen Prozessen (in der Nähe der Instabilität) können diese Fluktuationen sogar strukturbildend werden. Bei der Systemkonstruktion kann dennoch eine deterministische Modellbildung bevorzugt werden. Die synergetischen Modelle beinhalten deterministische und stochastische Konzepte, wobei das deterministische Chaos (vgl. Abschnitt 5.) einen Grenzfall deterministischer Systeme mit sehr irregulärem (nicht periodischem) Verhalten darstellt. Wir wollen die Skala der Systemkandidaten kurz darstellen. Sie geht von der zentralen Eigenschaft, nämlich der Dynamik, aus: Eine extrem komplizierte Vorstellung der Dynamik finden wir bei Laplace (1749K 1827). Seine „Weltlinien“ legen für bestimmte Startbedingungen den Lauf (die „Trajektorie“) der Welt fest. Diese werden beschrieben durch ein System von Differentialgleichungen, welche von der Zeit, von den Raumvariablen und von zeit- und raumabhängigen Kontrollparametern abhängig sind. Durch eine sukzessive Typisierung der Prozesse erhalten die Systeme eine mathematische Form, die eine erfolgversprechende Handhabung ermöglicht. Mögliche Stufen dieser Reduktion sind (vgl. Gilmore 1980, 3 f.): (1) Das dynamische System wird durch eine Menge partieller Differentialgleichungen (ohne Integrale) ausgedrückt. (2) Es gibt nur Zeitableitungen erster Ordnung, und es werden die Nullstellen dieses Systems betrachtet. Wir wollen wir nur solche Systeme betrachten, bei denen Zeitableitungen 1. Ordnung vorkommen, und nennen diese dynamische Systeme. (3) Wenn wir die Abhängigkeit von der realen Zeit eliminieren, so erhalten wir autonome dynamische Systeme. (4) Die in Abschnitt 3. und 4. betrachteten Funktionen sind annähernd wie Kräftefunktionen (Potentiale) zu behandeln. In diesem Falle sprechen wir von Gradientensystemen. Die Minima oder die Attraktoren des Systems bestimmen die Typologie der betrachteten Vorgänge. In Gradientensystemen können wir zwei Typen von Prozessen unterscheiden: Die Kontrolle des Punktes (oder anschaulicher der Kugel) in der epige-
690
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
netischen Landschaft: die schnelle Dynamik. Diese ist durch das Vektorfeld und die Vektorflüsse definiert (vgl. Abschnitt 3.). Die Veränderung der epigenetischen Landschaft in Abhängigkeit von externen Kontrollparametern: die langsame Dynamik. (5) In einer solchen Dynamik kann sich die Landschaft qualitativ oder auch nur quantitativ verändern. Qualitative Veränderungen betreffen den Typ von Extrema (Minima, Sattel, Maxima), ihre Anzahl und instabilen Gleichgewichtspunkte. Globale Systeme mit diesen Eigenschaften nennt man Bifurkationssysteme. (6) Werden Verzweigungen iteriert, erhält man ein sogenanntes Feigenbaum-Szenario, das zu den chaotischen Systemen überleitet. Diese Systeme werden in Abschnitt 5.: Kreisprozesse, Chaos und fraktale Strukturen behandelt. (7) In einem System von Bifurkationen (Verzweigungen) kann man ausschließlich die stabilen und instabilen Fixpunkte in Gradientensystemen und deren lokale Umgebungen betrachten; diesen speziellen Fall behandelt die Katastrophentheorie, deren Grundbegriffe im folgenden Abschnitt eingeführt werden.
3.
Grundideen und Grundbegriffe der Katastrophentheorie
Ausgangspunkt sind geometrische und topologische Grundbegriffe. Das geometrische Basisvokabular ist in Abbildung 48.1 dargestellt. Diese Basisobjekte können im Raum bewegt, verändert (deformiert) oder aufeinander abgebildet werden. Punkt
Linie
Parallelen
Transversale
rell Ax C By Z 0 beschrieben (dies ist ein 1-dimensionaler Unterraum). Wird die Linie im Koordinatensystem parallel verschoben, kommt eine Konstante C ins Spiel, etwa bei C Z 1: Ax C By Z 1; generell gilt Ax C By Z C (man spricht auch von einem affinen Teilraum). Jede gerade Linie kann in den Ursprung zurückversetzt werden, indem für C der Wert 0 gewählt wird; sie wird normalisiert. Die charakteristische Eigenschaft der Geraden: ihre Steigung wird durch die erste Ableitung bestimmt, z. B. y Z ½x; y# Z ½. Die Komplexität der Linie kann gesteigert werden, dabei ist der Exponent ein Maß dieser Komplexität; der Grad bestimmt sich durch den höchsten vorkommenden Exponenten (vgl. Tabelle 48.1). Tab. 48.1: Gleichungen ersten bis vierten Grades (Beispiele) 10x K 3y Z 8 x2 C y2 Z 70 x3 K y C x Z 1 x4 C x2 y2 C 15y3 Z 0
Gleichung Gleichung Gleichung Gleichung
ersten Grades zweiten Grades dritten Grades vierten Grades
Die Gleichungen zweiten Grades beschreiben klassische Kurven, wie den Kreis, die Ellipse, die Parabel, die Hyperbel. Die Gleichungen dritten Grades erlauben uns, eine wichtige qualitative Veränderung zu beobachten. Die allgemeine Gleichung lautet jetzt: y Z A (x3 C Bx). Dabei ist B ein Faktor der qualitativen Bifurkation. Bei positivem B liegt keine kritische Stelle (Maximum, Minimum oder Sattel) vor; bei B Z 0 gibt es einen Sattelpunkt (waagerechte Tangente) und bei B ! 0 (negativ) entstehen ein Maximum und ein Minimum. Dies zeigt Abbildung 48.2. A
Fläche
Linien
Abb. 48.1: Das geometrische Basisvokabular
Die Linie ist das erste interessantere Objekt; sie kann in eine Ebene (die z. B. durch ein kartesisches Koordinatensystem beschrieben wird) eingebettet werden und durch eine lineare Gleichung beschrieben werden. Eine durch den 0-Punkt gehende diagonale Linie wird z. B. durch die Gleichung des Typs: y Z x, y Z ½x; y Z Kx, y Z K½x oder gene-
–2
–1
0
Abb. 48.2: Die Formen der Parabel: y Z A (x3 C B x)
1 B
691
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
Wenn wir der Einfachheit halber A Z 1 setzen und für B die Werte C1, 0, K1 betrachten, können wir die qualitative Veränderung auch rechnerisch erfassen (y# und y$ Z die erste und zweite Ableitung von y): y1 Z x3 C x; y1# Z 3x2 C 1; y1$ Z 6x (B Z C1) y 2 Z x3; y2# Z 3x2; y2$ Z 6x (B Z 0) y3 Z x3 K x; y3# Z 3x2 K 1; y3$ Z 6x (B Z K1)
y''
y'
x
y = x3 – x
x
y' = 3x2 – 1
0
x
y'' = 6x
Abb. 48.3: Die Graphen der Funktion y Z x3 K x und ihrer Ableitungen y# und y$
Diese einfachen Grundmuster sind dynamisch interpretierbar. So ergeben die Parabeln y Z x2 und y Z Kx2 die Prototypen des Ruhepunktes (bei negativer Gradientendynamik) und der Instabilität. Sie sind mit dem Ruhepunkt und dem senkrechten Kipp-Punkt des Pendels vergleichbar, wobei die Ableitung nach t (der Zeit) erfolgt, d. h. y Z dx / dt. Als klassisches Beschreibungsmittel der Kinematik dienen Vektoren und Vektorflüsse (orbits). Abbildung 48.4 zeigt die erste Ableitung für die positive Parabel y Z x2; y# Z 2x, links als Graph in der (y#, x) Ebene und rechts als Bündel von Vektoren, die sich in drei Klassen, Vektorflüsse: den 0-Vektor (im Minimum) und die positiven bzw. negativen Vektorflüsse unterteilen lassen.
1
2 3 x
Vektoren
x
y' = 2x
Die erste Ableitung soll an den kritischen Stellen gleich null (0) sein. Im ersten Fall erhalten wir: 3x2 C 1 Z 0; x2 Z K 1/3; x Z G OK1/3; ; die Wurzel ist imaginär (i Z OK1), d. h. x Z G i/3 O3. Im zweiten Fall ergibt sich: 3x2 Z 0; x2 Z 0; x Z G 0. Nur im dritten Fall haben wir reelle Wurzeln: 3x2 K 1 Z 0; 3x2 Z 1; x2 Z 1/3; x Z G 1/3 O3. Setzen wir die Werte von x in die zweite Ableitung ein, erhalten wir den Typ der Extremstelle: eine positive Konstante für das Minimum, eine negative für das Maximum. Abbildung 48.3 zeigt die entsprechenden Graphen für y3 (B Z K1). y
y'
-3 -2 -1
0
x
Vektoren
Abb. 48.4: Die vektorielle Präsentation der Parabel
An dieser Stelle kann der für die Katastrophentheorie wichtige Begriff der strukturellen Stabilität eingeführt werden. Die betrachteten Gleichungen, die nur die Basis einer großen Familie sind, werden dynamische Systeme genannt. Ein dynamisches System ist strukturell stabil, wenn kleine Störungen es qualitativ (bezogen auf Anzahl und Art der Extrema) nicht verändern. Die Störung lässt sich mathematisch als Addition einer Funktion z mit einer kleinen Konstante ε (oder rechnerisch einfacher auch 2ε) beschreiben. Für den einfachen Fall der quadratischen Parabel konnte Witney die strukturelle Stabilität beweisen. Eine einfache Überlegung macht dies plausibel. Sei y* Z y C z die gestörte Funktion y, so erhalten wir für y Z x2 und z Z 2εx; y* Z x2 C 2εx. Die erste Ableitung: y*# Z 2x C 2εx ergibt als kritische Stelle: 2x C 2εx Z 0; x Z K ε. Dies verschiebt lediglich die Funktion im Koordinatensystem, verändert diese aber nicht qualitativ (vgl. Abbildung 48.5).
y*
y*
x
ε=0
x
ε=2
Abb. 48.5: Die Deformation des Systems: y Z x2 (Das Minimum der verschobenen Parabel liegt bei (ε1 K ε2))
Wie schon die Variation der Konstanten B in y Z A (x3 C Bx) (vgl. Abbildung 48.2) gezeigt hat, gilt die strukturelle Stabilität nicht mehr für die dynamische Systeme mit höhe-
692
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Tab. 48.2: Die elementaren Katastrophen (ohne duale Formen) Keim
Entfaltung 3
VZx V Z x4 V Z x5 V Z x6 V Z x7
3
V Z x C ux V Z x4 C ux2 C vx V Z x5 C ux3 C vx2 C wx V Z x6 C ux4 C vx3 C wx2 C tx V Z x7 C ux5 C vx4 C wx3 C tx2 C sx
Name
Typ
Falte Kuspe Schwalbenschwanz Schmetterling Stern
A2 A3 A4 A5 A6
Tab. 48.3: Berechnung der Bifurkationsmenge (9) der Entfaltung der Kuspe (2) Potential-Funktion Universelle Entfaltung Erste (partielle Ableitung) Katastrophenmenge (Nullstellen der 1. Ableitung) Zweite (partielle) Ableitung Sattel (Nullstellen der 2. Ableitung) Das Ergebnis von (6) wird in (4) eingesetzt Die Gleichung (7) wird quadriert Der Wert für x2 in (6) wird erneut eingesetzt; Bifurkationsmenge
rem Exponent. Anfang der 60er Jahre zeigten Thom und Mather, dass es jedoch Polynome, die sogenannten Entfaltungen dieser Systeme (die jetzt Keime heißen), gibt, die ihrerseits strukturell stabil sind (der Beweis ist allerdings nicht mehr so einfach wie oben). Die Entfaltung macht die einzelnen (nicht degenerierten) Extremwerte sichtbar, die im Keim quasi komprimiert sind. Die Grundliste der einfachen Entfaltungen ist in Tabelle 48.2 gegeben (vgl. Thom 1983 für die englische Übersetzung seiner Aufsätze in den siebziger Jahren). Viele Anwendungen der Katastrophentheorie (vgl. Woodcock/Davis 1991) arbeiten mit der Kuspe als Basis und stellen die realen Prozesse durch Konfigurationen von Wegen in der Bifurkationsmenge der Kuspe dar. Ich gebe die Berechnung der mathematischen Eigenschaften dieses Systems stellvertretend für die Charakterisierung der übrigen elementaren Entfaltungen ausführlicher an. Der Keim (instabiles dynamisches System) hat das Potential (d. h. die Ausgangsfunktion) V Z x4; zur Vereinfachung der rechnerischen Darstellung gehen wir von x4 / 4 aus, da wir wissen, dass die Addition/Subtraktion oder Multiplikation/Division mit Konstanten qualitativ unerheblich ist. Die Entfaltung hat vier Größen (V, x, u, v), ist also ein Körper im vierdimensionalen Raum; wir müssen diese Figur aus zweidi-
V Z x4 / 4 V Z x4 / 4 C ux2 / 2 C vx V# Z x3 C ux C v V# Z x3 C ux C v Z 0
(1) (2) (3) (4)
V$ Z 3x2 C u 3x2 C u Z 0; x2 Z Ku / 3 x3 C ux C v Z 0; x (x2 C u) Z K v; x (Ku / 3 C u) Z Kv; x (2 / 3 u) Z Kv x2(2/3u)2 Z v2 (Ku / 3) (4/9 u2) Z K4u3 / 27 Z v2 27v2 C 4u3 Z 0
(5) (6) (7) (8) (9)
mensionalen Bildern zusammenstellen. Abbildung 48.6 zeigt die Ebene (x, u) nach der Gleichung (6) und die Ebene (u, v) nach der Gleichung (9). x
u u v
Abb. 48.6: Die Graphen der Gleichung (6) links und (9) rechts
Die semi-kubische Parabel: 27v2 C 4u3 Z 0 ist die Bifurkationsmenge mit den Kontrollvariablen u, v; sie enthält die qualitativ wichtigste Information, denn bei Überschreiten der Linien verändert sich die Potentiallandschaft qualitativ. Wenn wir einzelnen Punkten im (u, v)-Raum Bilder der Funktion (V, x) anheften, ergibt sich die Darstellung in Abbildung 48.7. Generelle Eigenschaften der Kuspe sind: (1) Bimodalität. Es gibt zwei im mittleren Bereich der Kuspe konkurrierende Minima.
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
u
v
Abb. 48.7: Der Graph der Potentiale von Gleichung (2) in der Ebene, die in Gleichung (9) beschrieben ist
(2) Divergenz. Wenn das betrachtete System sich nahe dem Kuspenpunkt (u Z v Z 0) in Richtung abnehmender uWerte bewegt, kommt es entweder zu einer Stabilisierung im linken oder im rechten Minimum. Wenn das Verhalten eines realen Systems, bimodale Polarität, Divergenz und eventuell noch Hysteresis als globale Eigenschaften zeigt, so ist die Kuspe eine naheliegende Modellhypothese.
4.
Generalisierte Katastrophen und Bifurkationsdynamik
Bifurkationen bezeichneten zuerst die Aufspaltung von Wegen, dann die Verzweigung von Blutbahnen in der Medizin. Poincaré hat 1884 in einer Abhandlung Sur l’équilibre d’une masse fluide animée d’un mouvement de rotation [Über das Gleichgewicht einer flüssigen Masse, die durch eine Rotationsbewegung animiert ist; Übers. W. W.] den Begriff forme de bifurcation [Bifurkationsform] eingeführt. Ihn interessierte im Kontext seiner Arbeit die Evolution von Gleichgewichten in der Ebene und Punkte, an denen mehrere Singularitäten zusammenstoßen. In Thom (1977) werden in dieser Tradition sehr allgemeine Szenarien für so genannte „generalisierte Katastrophen“ (Thom 1977, 100K107) angegeben. Es kann z. B. eine auf viele Punkte verteilte Ausgangssituation wie
693
bei einem Flusslauf durch Vereinigung in einem einfachen Attraktor (dem großen Strom) gebündelt werden oder ein einfacher Attraktor kann sich verästeln und aus einer Linie wird ein dichtes Netz. Der Blutkreislauf in seinem Übergang zu den Kapillaren ist eine biologische Realisierung dieser Morphologie. Schließlich können verschiedene Katastrophen sich überlagern oder ein Punktattraktor wird zum Kreis, zum Torus aufgebläht usw., d. h. die Dimension des Raumes, in den man den Attraktor einbettet, steigt jeweils um eins (Punkt auf einer Linie: D Z 1; Kreis in einer Fläche: D Z 2; Torus im Raum: D Z 3). Man spricht in diesem Fall von Hopf-Bifurkationen. Die Wiederholung (Iteration) einer Bifurkation kann in den Bereich der Fraktale und des Chaos (vgl. Kapitel 5.) führen. Ein grundlegender Fall der Bifurkationsdynamik liegt vor, wenn wir in einer elementaren Entfaltung Wege betrachten und diese klassifizieren. Die Elementarkatastrophen mit ihrer schnellen Dynamik der Stabilisierung (im Raum [V, x]) und der langsamen Dynamik der Entfaltung (in der Kuspe im Raum [u, v]) stellen ein Lexikon möglicher stabiler und damit, überall, d. h. in beliebigen Kontexten auftretender Prozesse dar. Dabei müssen Konventionen zum Typ der Dynamik vorausgesetzt werden. Man kann eine konservative (perfect delay) oder eine heiße (thermodynamische oder Maxwell-)Dynamik als Grundlage wählen (vgl. für eine sehr ausführliche Behandlung dieses Problems der Klassifikation von Wegen in den Elementarkatastrophen Wildgen 1985). Jede Elementarkatastrophe ist durch Vektorströme, die sich in Abhängigkeit von den Kontrollparametern verändern, charakterisiert. Betrachtet man die in Abbildung 48.8 dargestellten Fibern mit minimal drei, maximal fünf Vektorflüssen (orbits), so kann man die strukturellen Verhältnisse innerhalb der Entfaltung überschaubar darstellen. Die qualitativen Eigenschaften der Elementarkatastrophen können durch DynkinDiagramme dargestellt werden, in denen die Vektorflüsse auf der x-Achse (oder in der x, y-Ebene) und der Typ der Singularität (Attraktor, Repellor) durch ein C, ein K dargestellt werden. Da die Richtung der Vektorflüsse durch den Typ der Singularität festgelegt ist, kann man bei der Schematisierung auch auf die Richtungspfeile verzichten. Wir zeigen zuerst anhand der Entfaltung des so-
694
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws A2 A3
Fünf Klassen von Vektorflüssen
A4
Dual von A3
Dual von A5
A5 A6
Abb. 48.10: Die Dynkin-Diagramme einiger Elementarkatastrophen (Kuspoı¨de)
Drei Klassen von Vektorflüssen
Abb. 48.8: Veränderung der Vektorlandschaft entlang der Kontrollparameter v (oben) und u (unten) in der Kuspe
genannten Schmetterlings, wie die Potentialkurve in ein Dynkin-Diagramm (mit Richtungen) umgesetzt wird, und geben dann für die Kuspoı¨de die Dynkin-Diagramme (ohne Richtungen) an (vgl. Abbildung 48.9). Der Keim des Schmetterlings und seine Entfaltung sind: A5 : V Z x6, Entfaltung V Z x6 C ux4 C vx3 C wx2 C tx.
digt worden. Es soll hier nur das Konstruktionsprinzip erläutert werden. Nimmt man die in Abbildung 48.8 dargestellten Vektorfelder in der Entfaltung der Kuspe, vernachlässigt die Maxima (Repelloren) und markiert die Bifurkationspunkte durch Kreise, erhält man die Schemata, die Thom (1977, 312) „changer“ (wechseln) und „capturer“ (fangen) nennt. In Abbildung 48.11 werden sie so dargestellt, dass der Zusammenhang mit den Vektorfeldern in Abbildung 48.8 deutlich wird. Der Pfeil markiert den Sprung im Falle einer Maxwell-Dynamik (d. h. in das jeweils tiefere Minimum).
Potentialkurve Abb. 48.11: Die archetypischen Morphologien des „Wechsels“ und des „Fangens“
V x
Dynkindiagramm Abb. 48.9: Die komplizierte Entfaltung des Potentials im Schmetterling und die Darstellung im Dynkin-Diagramm
Auf diese Weise können alle Elementarkatastrophen einfach charakterisiert werden. Abbildung 48.10 zeigt die jeweiligen maximalen Konstellationen der einzelnen Elementarkatastrophen (vgl. Tabelle 48.2). Eine schematischere Darstellung der Typen von Wegen erhalten wir nach dem Vorbild der „archetypischen Morphologien“ in Thom (1977, 312), wenn wir nur die Attraktoren, die Bifurkationsstellen und eventuell die Katastrophensprünge von einem (dominanten) Attraktor zum anderen graphisch wiedergeben. Thoms Liste ist in Wildgen (1985, 108K226) überprüft und vervollstän-
Die Grenzen einer dynamischen Modellbildung, die lediglich Attraktoren und Repelloren betrachtet, werden deutlich, wenn die reale (z. B. die evolutionäre oder die historische) Zeit, individuelle Entwicklungen oder räumliche Verteilungen (etwa in der Dialektologie) Gegenstand der Analyse sind. Man muss nun zeitliche und räumliche Parameter in Rechnung stellen, Konvergenz und Divergenz, zyklische Attraktoren und fraktale Geometrien ins Auge fassen. Die erfolgt im folgenden Kapitel.
5.
Kreisprozesse, Chaos und fraktale Strukturen
In vielen Fällen kann die Entwicklung eines Systems nicht nur mit Hilfe der Zeitabhängigkeit nur einer variablen Größe beschrieben werden. Aber auch dann, wenn mehrere, sich gegenseitig beeinflussende Größen
695
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
zur Beschreibung der Dynamik eines Systems erforderlich sind, sind die in den voranstehenden Kapiteln erläuterten Grundbegriffe von zentraler Bedeutung, wenngleich sie sinnvoller Weise um einige weitere Begriffe ergänzt werden sollten. Gehen wir einmal davon aus, dass die zeitliche Veränderung einer das System charakterisierenden Größe x beispielsweise durch die Differentialgleichung 1. Ordnung: dx dt
Z K x3 C x C b
(10)
beschrieben wird, dann ist diese Veränderung K die schnelle Dynamik des Systems K nur durch die eine unabhängige Variable x bestimmt. Stellt man nun dx / dt als Funktion dieser Variablen x dar (vgl. Abbildung 48.12), dann erkennt man leicht, dass es sich hierbei um die Ableitung V# eines Potentials handeln könnte. Wir kennen diese Funktion bereits aus den vorherigen Kapiteln.
dx/dt
/
dx
bzw. die Geschwindigkeit / v dt und die Auslenkung x des Pendels, die erst zusammen eine vollständige Beschreibung der Bewegung des Pendels ermöglichen. Die hierzu gehörige, gewöhnlich verwendete Differentialgleichung ist zweiter Ordnung: p Z mv Z m
d2 x dt 2
Z K kx
(11)
Diese Gleichung kann, wie eingangs gefordert, leicht in ein System von zwei Differentialgleichungen 1. Ordnung umgeschrieben werden: /
dx Zv
dt dv Z K kx
(12)
dt / p Z mv Die beiden Variablen x und / v bzw. / spannen eine Ebene K den Phasenraum des Pendels K auf. Die Bewegung des Pendels verläuft dann entlang eines Kreises K mit dem Ursprung des Koordinatensystems als Zentrum K in dieser Ebene (vgl. Abbildung 48.13).
Geschwindigkeit v oder Impuls p X
Start
Start
Pendel
Start X
Abb. 48.12: Diskrete Trajektorie im eindimensionalen Phasenraum der x-Achse. Die Differenz zwischen den Punkten gibt die Größe des Geschwindigkeitsvektors an, mit der das System, im jeweiligen Punkt sich befindend, zum nächsten Punkt des eindimensionalen Phasenraumes geht.
Die Nullstellen der kubischen Parabel sind die Punkte des Phasenraumes, denen sich das System in seiner schnellen Dynamik entweder nähert (C)-Punkte des Dynkin- Diagrammes oder aus denen es sich entfernt (K)-Punkte des Dynkin-Diagrammes. Will man aber beispielsweise einen Kreisprozess beschreiben, so sind unbedingt mindestens zwei Variablen dazu erforderlich. Bei dem altbekannten Beispiel des idealen mechanischen Pendels sind es der Impuls
Abb. 48.13: Kreis-Trajektorie des Pendels im Orts/ Geschwindigkeits-Phasenraum
Nicht immer gestaltet sich die Beschreibung eines Zwei- oder Mehrvariablensystems so einfach, wie im Fall des idealen Pendels. So hat Lotka bereits 1910 zur Beschreibung eines dissipativen chemischen Systems mit Hilfe zweier abstrakter variabler Konzentrationen x und y das Gleichungssystem entwickelt (vgl. Lotka 1910):
696
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
dx Z H K kxy, dt dy Z kxy K k2 y
ε (13)
dx dt dy
Z K x3 C ax K y;
Z x2 C bx K c K y, dt ε !! 1
dt das einen zyklischen Prozess beschreibt, der aber nicht unbedingt kreisförmig abläuft und der vor allem nur mit positiven Größen beschrieben wird (vgl. Abbildung 48.14). Dieses Gleichungssystem wurde in den 30er Jahren von Volterra (1931) auf biologische Probleme angewendet und fand daraufhin als Lotka-Volterra Modell vielfältigen Eingang in die Literatur, z. B. zur Beschreibung zyklischer, ökologischer Krisen. Ein Beispiel hierfür ist das 1982 von Ebeling herausgegebene Buch über die „Physik der Selbstorganisation und Evolution“ (vgl. Ebeling 1982):
(15)
y
x
dx Z ax K axy dt dy Z kxy K by
(14)
dt 1972 benutzte Müller dieses Modell zur Beschreibung des wissenschaftlichen Schaffensprozesses (vgl. Müller 1972) und M. Peschel und W. Mende stellten 1983 gar die Frage: „Leben wir in einer Lotka-Volterra Welt?“ (vgl. Peschel/Mende 1983).
y
X
Abb. 48.14: Eine zyklische Trajektorie des LotkaVolterra Systems
Kombiniert man nun Differentialgleichungen höheren Grades, wie wir sie bereits kennen gelernt haben, beispielsweise zu dem einfachen System:
Abb. 48.15: Eine auf einen Grenzzyklus einlaufende Trajektorie (rot, fett) und die zugehörigen Nullisoklinen
so erhält man ebenfalls die Beschreibung eins zyklischen Prozesses, der aber K verglichen mit dem oben beschriebenen Kreisprozessen K eine ganz neue, interessante Eigenschaft aufweist. Wird dieser Kreisprozess nämlich gestört, so wird das System immer wieder auf den ursprünglichen Kreisprozess zurückkehren. Alle möglichen Wege K man nennt sie auch Trajektorien K im Phasenraum des Systems werden von diesem Zyklus angezogen. Er ist der Attraktor dieses Systems und wird, da er einen Zyklus darstellt, der für t / N angestrebt wird, auch stabiler Grenzzyklus genannt. Dieser Grenzzyklus ist vergleichbar mit dem stabilen stationären Punkten eines 1-dimensionalen Systems, die in den vorherigen Abschnitten ausführlich diskutiert wurden. Man kann sich die Bewegung des Systems in seinem Phasenraum leicht veranschaulichen, indem man nach der stationären Lösung fragt. Hierzu setzt man beide Differentialgleichungen Null und erhält so ein algebraisches Gleichungssystem, das aus den Nullisoklinen des Differentialgleichungssystems gebildet wird. Diese Nullisoklinen sind uns bereits bekannt (vgl. auch Abbildung 48.15: Eine auf einen Grenzzyklus einlaufende Trajektorie (rot, fett) und die zugehörigen Nullisoklinen). Ändert man in der ku-
697
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
bischen Gleichung z. B. den Parameter a des linearen Terms, so geht der Grenzzyklus am Bifurkationspunkt, wenn a O 0 zu Null wird (d. h. für a Z 0) in einen stabilen Knotenpunkt (Fixpunkt) für a ! 0 über. Man nennt diese Art einer Bifurkation, bei der infolge der Variation des Bifurkationsparameters a ein Grenzzyklus aus einem Knotenpunkt entsteht bzw. umgekehrt sich in diesen verwandelt, eine Hopf-Bifurkation. Schneiden sich die beiden Nullisoklinen nicht zwischen den beiden Extremwerten der kubischen Parabel, sondern links vom Minimum, aber nicht weit entfernt von ihm, so ist das System erregbar. Durch eine kleine externe oder interne Störung bzw. Fluktuation durchläuft das ganze System den Zyklus gerade einmal, um dann wieder in den stabilen, aber erregbaren Grundzustand K dem Schnittpunkt der beiden Nullisoklinen K zurückzukehren. Das ist eine hochinteressante Eigenschaft dieses Systems, mit der man viele reale, erregbare Systeme gut beschreiben kann. Vor allem aber ist diese Erregbarkeit die Voraussetzung für die räumliche Ausbreitung von Erregungswellen, wie z. B. wandernden Pulsen. Eine wirklich neue, vom Grenzzyklus-, Knoten- oder Sattelspunktsverhalten abweichende Dynamik lässt sich erst im 3-dimensionalen kontinuierlichen Phasenraum beobachten, wenn mindestens drei Größen (Variablen) sich in ihrer zeitlichen Entwicklung gegenseitig beeinflussen. Gehen wir zum besseren Verständnis wieder von der Beschreibung des idealen Pendels aus. dx Z K y dt dy Z x
(16)
dt und ergänzen dieses Gleichungssystem durch eine dritte Variable z beispielsweise in der von O. E. Rössler (1979) vorgeschlagenen Form: dx Z K y K z dt dy Z x C ay dt dz Z bx K cz C xz dt
(17)
Die zeitliche Entwicklung von y ist nun durch den Term ay selbst abhängig von dem Wert ihrer eigenen Größe. Diese Abhängigkeit macht das System dissipativ, während das Pendel konservativ ist, da die zeitliche Entwicklung keiner der beiden Variablen von ihrem eigenen Wert abhängt. Diese Dissipation macht die zyklische Pendelbewegung instabil. Sie geht in einen auslaufenden Strudel über (vgl. Abbildung 48.16).
y Spirale
Start
x
Abb. 48.16: Auslaufende spiralige Trajektorie; Dynamik mit instabilem Strudelpunkt (a Z 0,04). Dies entspricht einem Aufschaukeln der Pendelbewegung bei negativer Dämpfung.
dx Z Ky dt dy Z x K ay
(18)
dt Die z-Nullisokline des Rösslerschen Systems Kbx . Die Größe z (17) hat die Form z Z xKc wird nun in die zeitliche Entwicklung von x eingekoppelt; das System wird gewissermaßen in seine instabile Strudelbewegung reinjiziert. Dabei entsteht eine chaotische Bewegung im Phasenraum (vgl. Abbildung 48.17). Eine leichte Veränderung des soeben entwickelten dissipativen Gleichungssystems führt uns auf ein anderes, ebenfalls von Rössler (1979) entwickeltes Gleichungssystem (19), das sein Reinjektionsprinzip zur Erzeugung von Chaos besonders gut illustriert. Der dissipative Term ax destabilisiert auch hier die zyklische Pendelbewegung und überführt sie in einen instabilen, auslaufenden Strudel. Der Term Kbz koppelt die z-
698
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Rösslers SpiralChaos
z y
x
Abb. 48.17: Rösslers Spiral-Chaos (a Z 0,035; b Z 0,46; c Z 4.5)
Komponente in diesen Strudel ein, indem die z-Dynamik eine Reinjektion des Systems in sich erzeugt. Das System entfernt sich nun nicht mehr beliebig lange strudelnd von seinem Zentrum, sondern wird über die z-Dynamik wieder in die Nähe des Zentrums zurückgeworfen. Das System bewegt sich fast auf einer gefalteten Fläche (vgl. Abbildung 48.18). dx Z K y C ax K bz dt dy Z x C 1,1
ε
dt dz Z (1 K z2) (x C z) K εz
(19)
dt
z
Rösslers Reinjektion x -y Abb. 48.18: Reinjektion der Trajektorie über eine Falte (schwarz, fett skizziert) führt zu Rösslers Schrauben-Chaos (a Z 0,5, b Z 5)
Verfolgt man die zeitliche Entwicklung einer beliebigen Koordinate eines chaotischen Systems, so oszilliert sie, ohne dass dabei eine periodische Bewegung wie beim Pendel entsteht.
Das chaotische System ist völlig deterministisch und dennoch können wir keine langfristige Aussage über das zukünftige Verhalten des Systems machen. Es existiert nur eine kurzfristige Vorhersagbarkeit K ähnlich der Situation beim mitteleuropäischen Wetterverlauf. Bei der Beschreibung des Wetters stieß Lorenz (1963) erstmals auf Gleichungssysteme diesen Typs, die chaotisches Verhalten aufwiesen. Eine gut lesbare Darstellung des Lorenzsystems findet sich bei H. G. Schuster (1984). Die chaotische Bewegung stellt einen stabilen Attraktor dar, ähnlich wie der stabile Grenzzyklus und der stabile Knotenpunkt. Die chaotische Bewegung ist die für den dreidimensionalen, kontinuierlichen Phasenraum charakteristische Bewegung, die in keinem kontinuierliche Phasenraum geringerer Dimension auftreten kann. Entsprechendes gilt für den Grenzzyklus im 2-dimensionalen Phasenraum und die Bistabilität im 1-dimensionalen Phasenraum. Die chaotische Bewegung ist aber wesentlich verschieden von einem Zufallsprozess. Man erkennt dies ganz deutlich, wenn man eine von Poincaré (1892) (vgl. auch Schuster 1984) entwickelten Methode benutzt, mit der man das komplizierte Geschehen im 3-dimensionalen Phasenraum auf einen 1-dimensionalen Raum abbildet (Poincaré-Abbildung). Dazu schneidet man den 3-dimensionalen Phasenraum in geeigneter Weise und betrachtet die Menge der Durchtrittspunkte der chaotischen Trajektorie durch diese Schnittebene (Poincaré-Schnitt). Dann nummeriert man die Durchtrittspunkte in der Folge ihrer Realisierung und trägt z. B. die x-Koordinate x (N C 1) des (N C 1)-ten Durchtrittspunktes als Funktion der x-Koordinate x (N) des vorherigen, N-ten Durchtrittspunktes auf. Die Poincaré-Abbildung führt auf eine Punktmenge, die eine diskrete Funktion darstellt. Dass es sich hierbei um eine Funktion handelt, ist der eindeutige Beleg dafür, dass es sich beim Chaos um einen deterministischen Prozess mit einer kleinen, aber immerhin noch vorhandenen Voraussagbarkeit des jeweils nächsten Ereignisses handelt. Sowohl die Punktmenge {x (N)} wie auch die Funktion selbst stellen fraktale Punktmengen im lokal 1-dimensionalen Raum dar. Bereits 1883 hat Cantor (vgl. Cantor 1883; Peitgen/Jürgens/Saupe 1992) solche fraktalen Punktmengen untersucht. Eine fraktale Punktmenge, die in einen 1-
699
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
dimensionalen Raum eingebettet ist, weist Bereiche größerer Punktdichte und Bereiche geringerer Punktdichte auf, ja sogar recht große Bereiche, in denen sich überhaupt keine Punkte befinden. Greift man nun einen Bereich mit einer beliebigen Punktmenge heraus, so findet man in ihm einen Bereich mit einer räumlichen Strukturierung, die der in ihm vorhandenen Punktmenge ähnlich ist. Man bezeichnet diese Eigenschaft als Selbstähnlichkeit. Objekte mit einer selbstähnlichen Struktur werden als Fraktale bezeichnet, wenn die Dimension, die man ihr zuordnen kann, eine gebrochene rationale Zahl bzw. nicht ganzzahlig ist. Die fraktale Dimension ist kleiner als die kleinste topologische Dimension des Raumes, in dem dieses Objekt gerade noch einbettbar ist.
l =1
Kantenlängen:
l = 1/ 2
l
M(l)
0
1 = ( 1/2 )0
1 = 40
/2 = ( 1/2 )
1
4 = 41
/2 = ( 1/4 )2
16 = 42
1
1
2
1
Als Dimension D kann man den Skalierungsexponenten im Prozess der Selbstähnlichkeit bezeichnen. So ist beim selbstähnlichen Prozess der quadratischen Teilung eines Quadrates die Dimension log 4n
log (l)
ZK
log (1 / 2)n
2 log 2
n log 4 ZK
Z n log (1 / 2)
log 2
Z2
l
0
M(l)
1=
( 1/2 )0
1=
30
1
1/ 2
=(
1/2 1
)
3 = 31
2
1/4
= ( 1/2)2
9 = 32
M(l) ist die Anzahl der schwarz gefüllten Quadrate der Kantenlänge 1
Abb. 48.20: Selbstähnlicher Zerlegungsprozess eines nicht vollständig schwarz überdeckten Quadrats. Dieser Prozess kann beliebig fortgeführt werden.
log 3n
log (M (l)) log (l)
ZK
(20)
im Fall der ausgefüllten Quadrate wie zu erwarten gleich zwei: D Z 2. Ist die Fläche in selbstähnlicher Weise jedoch nicht vollständig ausgefüllt, so ergibt sich eine nicht-ganzzahlige Dimension, wie das Beispiel des diskreten Sierpinskii-Dreiecks von Mandelbrot 1987 zeigt (vgl. hierzu auch die Arbeit von Sierpinski (1974); Tof-
log (1 / 2)n
log 3
n log 3
Abb. 48.19: Selbstähnlicher Zerlegungsprozess eines vollständig schwarz überdeckten Quadrats. Dieser Prozess kann beliebig fortgeführt werden.
log (M (l))
l = 1/ 4
l = 1/2
l=1
n
DZK
M(l) ist die Anzahl der schwarz gefüllten Quadrate der Kantlänge l
DZK
Kantenlängen:
Die beiden ersten quadratischen Figuren mit l Z 1 und l Z ½ stellen ein Erzeugendensystem für den fraktalen Zerlegungsprozess dar. Aus der Tabelle der Abbildung 48.20 erkennt man, dass für dieses Fraktal sich die Dimension D Z 1,58 ergibt:
l = 1/ 4
n
foli/Margolus (1987) und einige Anwendungen bei Plath (1989)):
Z 1,58 . (21) n log (1 / 2) log 2 Die nicht ganzzahlige Dimension D Z 1,58 ist also ein Maß für die selbstähnliche Ausfüllung der Fläche. Im Fall der oben diskutierten Punktmenge der Poincaré-Abbildung ist D demnach ein Maß für die selbstähnliche Erfüllung der 1-dimensionalen Linie mit Punkten bzw. für die Punktdichte. Im Fall eines chaotischen Systems hat der Graph der 1-dimensionalen Poincaré-Abbildung x (N C 1) Z F (x (N)) also stets eine fraktale Struktur, deren Dimension zwischen null und eins liegt. Man muss die fraktale Dimension des Attraktors aber unterscheiden von der Einbettungsdimension des Phasenraumes, in dem die Trajektorie eingebettet ist. Im Fall der oben beschriebenen chaotischen Drei-Variablensysteme ist die Einbettungsdimension selbstverständlich Dtop Z 3. ZK
6.
Z
Linguistische Anwendungen
In diesem Abschnitt können nur kurze Hinweise auf die wichtigsten Aspekte der Anwendungen gegeben werden. Es werden die
700
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Ebenen Phonetik/Phonologie (Phoneme, Silben), Morphologie/Wortbildung/Lexik (Wörter) und Syntax (Sätze) unterschieden. Zum Schluss werden Aspekte des Sprachwandels und Sprachwechsels skizziert. 6.1. Phoneme und Silben Im Übergang von der akustischen (physikalischen) bzw. physiologischen Phonetik zur Phonologie stellt sich das Problem der Diskretisierung von Kontinua. Wie entstehen kategoriale Grenzen in einem Kontinuum (oder in einem wesentlich feiner gestuften Medium)? Man kann, bezogen auf dynamische Modelle, vier Typen unterscheiden: (a) Modelle, die den Übergang vom Chaos zur Periodizität beschreiben. So untersuchen Mende, Herzel und Wernike (1990) die Schreie von Neugeborenen und stellen dabei Übergänge fest zwischen periodischen Segmenten (im Frequenzbereich von 500 Hz; d. h. ähnlich dem Grundvokal [a]), Periodenverdoppelungen, die ein niedrigdimensionales Chaos erzeugen und Turbulenzen, die ein hochdimensionales Chaos erzeugen. Diese sind den späteren Frikativen vergleichbar. Die Grundeinteilung der Laute in Vokale, Konsonanten und Übergangsstrukturen ist damit als Ausgangspunkt der Phonation bereits von Anfang an gegeben. (b) In der auditiven Wahrnehmung von Sprachlauten sind bereits bei Säuglingen kategoriale Grenzen nachweisbar; d. h. nicht-lineare Reaktionen z. B. auf eine kontinuierliche Steigerung des VOT (Voice-Onset-Time). Viele phonologische Kontraste können auf diese Weise als bereits vor dem Spracherwerb auditiv verfügbar nachgewiesen werden (vgl. Behnke 1998). Lokal sind solche nicht-linearen Grenzen Katastrophenlinien in einem Kontinuum. Mit der Anwendung der Katastrophentheorie in diesem Feld hat Petitot-Cocorda (1985) begonnen. Er zeigte u. a., dass die Vokalsysteme verschiedener Sprachen das durch die beiden ersten Formanten aufgespannte Feld in topologisch und dynamisch vorhersehbarer Weise aufspalten (Petitot-Cocorda 1985, 292 ff.). Inzwischen sind Lernalgorithmen entwickelt worden, welche den Erwerb phonologischer Kategorien simulieren. Das System MAPCAT (vgl. Behnke 1998,
60K67) geht aber bereits von der Existenz einer feinen Einteilung kategorialer Grenzen aus, die dann durch eine funktionale Löschung die einzelsprachlich relevante Kategorienlandschaft ergibt; es setzt also die in Petitot-Cocorda (1985) beschriebene Entfaltung voraus. (c) Eine radikal dynamische Sicht der Phonologie entwickeln Browman und Goldstein (1995): „Crucial to this approach is identification of phonological units with dynamically specified units of articulatory action, called gestures.“ (Browman/Goldstein 1995, 177). Entsprechend sind die dynamischen Modelle mit den aus der Psychomotorik stammenden von Haken, Kelso, Turvey u. a. (vgl. Kelso, 1997) zu vergleichen und passen in den synergetischen Theorierahmen (vgl. Haken 1977). (d) Die Emergenz phonologischer Strukturen wird auch von Lindblom/MacNeillage/Studdert-Kennedy (1984) als Selbstorganisationsprozess beschrieben, dabei werden Optimalitätskriterien beim Sprecher (sensorische Unterscheidbarkeit, weniger extreme Artikulation) und beim Hörer (perzeptuelle Distanz, perzeptuelles Hervortreten; salience) in ein Fließgleichgewicht gebracht. Daraus entstehen dann Silbenstrukturen (etwa: ba, du, bae, be, da, gu, dae, bi usw.) und im Endeffekt, ein System von Phonemen, die in diesen Silben distinktiv sind. Generell gilt, dass für alle Bereiche der Linguistik im Übergang zu naturwissenschaftlich analysierbaren, d. h. messbaren Phänomenen, die Frage der Entstehung der (relativ groben) Kategorisierungen in der Sprache, thematisiert werden muss, so dass automatisch auf das Modellbildungsinventar der Theorie dynamischer Systeme verwiesen ist. 6.2. Wörter Die Struktur von Wörtern wird in der Morphologie, der Wortbildung und der lexikalischen Semantik thematisiert. Generell sind Wörter (und Sätze) eine häufige Strukturebene sprachlicher Organisation (ihre Universalität ist umstritten). Wenn es eine Wortebene gibt, ist diese in einem Regelkreis eingeschlossen, der die Wortlänge, die Worthäufigkeit, die Bedeutungskomplexität und die Kontextualität umfasst. So ist z. B. klar, dass kurze (und häufige) Wörter eine größere Vielfalt von Bedeutungen im Kontext
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
haben. Jedes Lexikon einer Sprache muss diese Größen in ein Gleichgewicht bringen, wobei die jeweils gefundene Lösung historisch veränderlich ist (selbst wenn die zugrunde liegenden Gestaltungskräfte und Bedürfnisse gleich bleiben). Köhler (1986) hat diese Konzeption für die quantitative Linguistik ausgearbeitet (vgl. Art. Nr. 53). Die jeweilig erreichten Gleichgewichte sind Attraktoren des Systems (vgl. auch Leopold 1998). Die Struktur eines Wortes ist phonologisch durch Betonung und Akzent, inhaltlich/grammatisch durch die Trennung von Stamm-Morphem und Affixen (bei agglutinierenden und flektierenden Sprachen) geprägt, es kommen aber auch Spaltungen des Stamms durch Infixe oder Modifikationen, z. B. Anpassungen des vokalischen Kerns vor (im Ablaut und Umlaut des Deutschen oder in der Vokalharmonie des Türkischen). Das Wort ist somit eine dynamische Einheit, die ein Gleichgewicht und eine differenzierte Verteilung verschiedener Funktionen leisten muss. So sichert der Stamm eher eine inhaltlich/imaginale/referentielle Stabilität, die Affixe situieren das Wortvorkommnis (token) in einem grammatischen Funktionsraum (oft in Abhängigkeit vom Kontext). Jede Sprache muss somit im oben skizzierten Rahmen Formtypen für Wörter, die einen Inhalt oder eine/mehrere grammatische Funktionen kodieren, bereitstellen. Die morphologischen Formeninventare sind eher einzelsprachlich als universal und von (historischen) Grammatikalisierungsprozessen abhängig. Eine informelle Darstellung der Dynamik in der Morphologie enthält Anttila (1985), Mayerthaler (1987) benützt die Katastrophentheorie im Rahmen einer natürlichen Morphologie und in Wildgen (1999a) werden morphologische Prozesse im dynamischen Paradigma zusammenfassend behandelt. In der lexikalischen Semantik besteht das dynamische Grundproblem darin, entweder einen sehr differenzierten sensorischen oder motorischen Bereich (siehe die Farbadjektive und die Verben der Bewegung) in eine möglichst kleine Anzahl von Grundschemata abzubilden (etwa die einfachen Farbadjektive oder Bewegungsverben) und in Konstruktionstypen die Mitspieler, Umstände, Aspekte, Modi usw. zu kodieren. Die jeweilige Distribution, z. B. der Momente eines Handlungsszenarios auf Verb, Nominalphrase, Adverbiale usw., ist von Sprache zu
701
Sprache verschieden. Die Anwendung der Katastrophentheorie auf die lexikalische Semantik wurde bereits in Wildgen (1981) skizziert; weitere Aspekte der lexikalischen Semantik werden in Wildgen (1994) und Wildgen (1999a) behandelt. Insbesondere lexikalische Ambiguität, Polysemie und die Vagheit erfordern eine dynamische Modellbildung, bei der das Kontinuum der imaginalen und prozessual/funktionalen Bedeutungen mit der diskreten Gliederung des lexikalischen Feldes korreliert wird (vgl. Wildgen 1983a; 1995; 1999b). Die morphologischen Kategorien, wie Kasus, Genus, Numerus, Person, Tempus, Modus u. a., sind ebenfalls kategoriale Unterteilungen von kontinuierlichen Skalen oder (mehrdimensionalen) Feldern; dasselbe gilt für die Wortarten. Nimmt man eine Skala der Grammatikalisierung bezüglich eines allgemeineren Merkmals, wie Kasusrollenmarkierung oder Nouniness, so bewegen sich einzelne Sprachen auf dieser Skala. Die jeweilige Position (eine Sprache kann mehrere Positionen realisieren) ist ein Ausschnitt der Skala, die Zwischenphasen sind synchron nicht realisiert. Dadurch manifestiert sich in der synchronen Situation eine fraktale Struktur, da in jeder Sprache Teilstücke der Skalenlinie (wie in einer Cantor-Menge) realisiert werden; die Skala hat also eine Dimension (D) zwischen dem Punkt und der Linie, z. B. D Z 1,5 (vgl. zu Anwendungen der Fraktale in der Semantik Wildgen 1998, 616K618). Die Grammatikalisierung kann wegen der Mehrfachlösungen, die synchron und phasenverschoben auftreten, ein Lotka-Volterra-Modell oder Beute-Jäger-Modell benützen. Die Beute ist der ständig sich erweiternde Wortschatz der offenen Klassen, die Jäger sind die Grammatikalisierungsprozesse, welche aus dem Material der Lexeme, Elemente der funktionsbetonten geschlossenen Klassen machen (vgl. Wildgen 1990, 423K425). 6.3. Sätze Die lexikalischen Valenzen von Verben, Substantiven und Präpositionen bilden die semantische Basis für syntaktische Konstruktionen, ohne diese aber schon ganz festzulegen. Es müssen Reihenfolgen in Satz und in der Nominalphrase, Thema/Rhema-Distributionen (z. B. bei der Festlegung der Subjektsfunktion), Konstituentenhierarchien (flache oder tiefe) einzelsprachlich
702
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
festgelegt werden; anaphorische und kataphorische Prozesse steuern außerdem die Auswahl und Realisierung von Pronomina und Determinatoren. Der Satz ist somit ein Feld, in dem verschiedene Organisationsprinzipien mit jeweils eigenen Attraktoren (optimalen Lösungen) konkurrieren und in ein Gleichgewicht gebracht werden müssen. So sind etwa finites Verb und Subjekt- oder Thema-Konstituente zwei Attraktoren, die im Satz ins Gleichgewicht kommen. Pronominale Ketten (inklusive Null-Realisierungen oder Spuren) erzeugen eine phrasenund satzübergreifende Struktur zusammen mit lexikalischen Feldziehungen, die Kontinuitätslinien schaffen (sogenannte Isotopien). Die dynamische Struktur des Satzes hat somit mehrere Ebenen: erstens die Ebene lexikalischer Valenzen, auf der insbesondere ikonische Beziehungen zwischen dem Situationstyp (scene, frame) und dem Valenzschema des Satzes oder der Nominalphrase eine Rolle spielen. Diese Ebene wird in der katastrophentheoretischen Semantik (vgl. Art. Nr. 31) behandelt; zweitens die Topologie und Dynamik in der Reihenfolge der Konstituenten, womit die Valenzbeziehungen reorganisiert werden. Diese Ebene wird wesentlich durch die Dynamik der Informationsdistribution in der Rede-(Schreib-)Zeit bestimmt. Eine dritte Ebene bezieht den Diskurs und den dort organisierten Redewechsel mit ein; die Textlinguistik und die Konversationsanalyse werden durch diese Interaktionsdynamik bestimmt. Ein katastrophentheoretisches Modell des Redewechsels wurde in Wildgen (1983c) vorgeschlagen (vgl. als Zusammenfassung vieler Teilergebnisse Wildgen 1999a, Kap. 6). Semio-narrative Strukturen (im Sinne von Greimas) werden in Petitot-Cocorda (1992) katastrophentheoretisch behandelt und Brandt (1994; 1995) bearbeitet verschiedene Probleme der Semiotik (Modalität, Temporalität, Metapher u. a.) in einem katastrophentheoretischen Rahmen. 6.4. Prozesse des Sprachwandels Beim Sprachwandel ist besonders deutlich, dass keine (bewusste) Regelanwendung, sondern quasi ein naturwüchsiger Prozess vorliegt, den die Populationen eher erleiden als gestalten. Gleichzeitig ist er auch das Produkt einer in Zeit und Raum verteilten Kausalität, wobei einer Vielfalt von Ursachen ein einfaches, kategoriales Veränderungsmuster entspricht. Standardbeispiele
sind die germanische und althochdeutsche Lautverschiebung, die zuerst Jakob Grimm benannt hat, die große Vokalverschiebung im Englischen und der von Labov (1994) untersuchte „Northern City Vowl Shift“ im Nordosten der USA. Die Verzweigungen in der Entwicklung des langen [a] vom Urgermanischen bis zum Neuhochdeutschen und die große Vokalverschiebung des Englischen wurden in Wildgen und Mottron (1987, 100) als Bifurkationsdynamik modelliert; Cooper (1999) verweist auf den fraktalen Charakter des Lautwandels und benützt die Elementarkatastrophen Kuspe und Schmetterling zur Analyse der Entwicklung des Modus-Systems seit dem Althochdeutschen. Das fraktale Ergebnis von Prozessen des Sprachwandels kann schon bei einer ersten Inspektion genügend feinmaschiger Sprachatlanten beobachtet werden (vgl. Wildgen 1983b, 263K 266 anhand des Deutschen Sprachatlas, Tafel 36 und des Deutschen Wortatlas, Bd. V, „Ameise“). Eine der ausführlichsten empirischen Studien zum Sprachwandel in progress ist der Doppelband von Labov (1994; 2001). Das Gesamtbild, das hier nicht zusammengefasst werden kann, zeigt eine ganze Reihe von Nicht-Linearitäten auf, die so von der traditionellen Sprachwandelforschung nicht erkannt worden waren: (1) Während der Lautwandel (in engen phonetischen Grenzen) relativ kontinuierlich verläuft, ist der Wandel in den Wortformen eher diskontinuierlich. Dies wird besonders deutlich, wenn durch phonetischen Wandel Bedeutungsunterscheidungen (plötzlich) verschwinden (beim sog. „merger“). Dehnt sich die Einflusszone des phonetischen Wandels aus, kommt es automatisch zur Veränderung oder zum Verlust grammatischer und lexikalischer Bedeutungen, d. h. zu sprunghaften Veränderungen. (2) Die Agenten des Sprachwandels (Innovatoren) sind nicht gleichmäßig über die soziale Skale verteilt; es liegt vielmehr eine kurvilineare Verteilung vor, bei der die obere Unterschicht und untere Mittelschicht (d. h. die besonders bewegliche mittlere Zone der sozialen Skala) das Zentrum des Innovationsprozesses darstellen. (3) Anpassung ist nicht die zentrale Kraft des Sprachwandels; gerade der soziale
48. Katastrophen- und Chaostheorie in der linguistischen Modellbildung
Nonkonformismus (im Bereich der Innovatoren) ist entscheidend. (4) Die Geschlechter reagieren verschieden auf explizite oder implizite Zielnormen. Während die weiblichen Sprecher eher explizite Innovationsziele wahrnehmen und darauf reagieren, werden männliche Sprecher stärker durch implizite Gebrauchsnormen und deren Veränderung beeinflusst. Die Analyseresultate von Labov (1994; 2001) zeigen, dass der Sprachwandel in seiner internen und externen Verursachung durch Nicht-Linearitäten geprägt wird und deshalb eine nicht-lineare dynamische Modellbildung erfordert. Explizite Modelle, die anhand quantitativer Daten die Sprachentwicklung simulieren, setzen aber eine Grammatiktheorie (z. B. mit Parametern für den Wandel) und einen Lernalgorithmus voraus. Auf diese Weise könnten dann Prozesse des Sprachwandels als dynamische Systeme rechnerisch simuliert werden. Bisher liegen dazu erst sehr vorläufige Ansätze vor. 6.5. Weitere Anwendungen Der ganze Bereich der Neurolinguistik bietet sich als Anwendungsfeld an, ist aber so weitläufig, dass er hier nicht zusammengefasst werden kann. In der Sozialpsychologie der Sprache gibt es Anwendungen der Katastrophentheorie, z. B. zur Beschreibung des Einstellungswechsels (vgl. Ball/Giles/ Hewstone 1985). Phänomene des Sprachwechsels (oder gar des Sprachtodes) hängen eng mit Veränderungen der Werte und Einschätzungen zusammen. Der nichtlineare Charakter des Sprachwechsels wurde anhand der Verdrängung des Niederdeutschen in Bremen in Wildgen (1986) dynamisch modelliert. Dabei wurde auch gezeigt, dass sich katastrophentheoretische und synergetische Modelle ergänzen können.
7.
Schluss
Die Begriffe und Modellbildungspotentiale der Katastrophen- und der Chaostheorie sind in der quantitativen und mathematischen Linguistik bisher kaum ausgeschöpft worden. Grund mag die Fremdheit dieser Begriffsbildung für eine Tradition sein, die Modellbildungsversuche eher in Begriffen der Logik oder der Algebra favorisiert hat. Im speziellen Fall der Synergetik (der in diesem Artikel ausgeklammert blieb) sind auch
703
Verbindungen mit stochastischen Modellen erfolgversprechend, so dass Untersuchungsmethoden der statistischen Linguistik direkt eingebracht werden können. Generell fehlen noch geeignete exakte Beobachtungs- und Messverfahren, um präzisere Anwendungen der Katastrophen- und Chaostheorie zu ermöglichen. Viele der skizzierten Anwendungen bleiben deshalb im Qualitativen. Dennoch sind sie notwendig zur konzeptuellen Vorbereitung spezifischer quantitativer Modelle.
8.
Literatur (in Auswahl)
Anttila, Raimo (1985), Dynamics in Morphology. In: Acta Linguistica Academiae Scientiarum Hungaricae 35 (1K2), 3K30. Arnold, Vladimir I. (1986), Catastrophe Theory. Berlin: Springer. Ball, P./Giles, H./Hewstone, M. (1985), Interpersonal Accomodation and Situational Construals: An Integrative Formalisation. In: Recent Advances in Language, Communication, and Social Psychology. (Hrsg. H. Gils/R. St. Clair). London: Shaftesbury, 263K286. Behnke, Kay (1998), The Acquisition of Phonetic Categories in Young Infants: A Self-Organizing Artificial Neural Network Approach. Dissertation, MPI series in Psycholinguistics, Bd. 5. Wageningen: Ponsen/Looijen. Brandt, Per Aage (1994), Dynamique du sens. Etudes de sémiotique modale. Aarhus: Aarhus University Press. Brandt, Per Aage (1995), Morphologies of Meaning. Aarhus: Aarhus University Press. Browman, Catherine/Goldstein, Lois (1995), Dynamics and Articulatory Phonology. In: Port/van Gelder 1995, 175K193. Cantor, Georg (1883), Über unendliche, lineare Punktmannigfaltigkeiten V. In: Mathematische Annalen 21, 545K591. Cooper, David L. (1999), Linguistic Attractors: The Cognitive Dynamics of Language Acquisition and Change. Amsterdam: Benjamins. Ebeling, Werner/Feistel, Rainer (1982), Physik der Selbstorganisation und Evolution. Berlin: Akademie-Verlag. Gilmore, Robert (1980), Catastrophe Theory for Scientists and Engineers. New York: Wiley. Haken, Hermann (1977), Synergetics. An Introduction. Berlin: Springer. Kelso, J. A. Scott (1997), Dynamic Patterns. The Self-Organization of Brain and Behavior. Cambridge (Mass.): Bradford. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer.
704
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Labov, William (1994), Principles of Linguistic Change, Bd. 1: Internal Factors. Oxford: Blackwell. Labov, William (2001), Principles of linguistic change. Bd. 2: Social factors. Cambridge MA: Blackwell. Leopold, Edda (1998), Stochastische Modellierung lexikalischer Evolutionsprozesse. Hamburg: Kovac. Lindblom, Björn/MacNeillage, P./Studdert-Kennedy, Michael (1984), Self-Organizing Process and the Explanation of Phonological Universals. In: Explanations for Language Universals (Hrsg. B. Butterworth/B. Cowrie/O. Dahl). Berlin: Mouton, 191K203. Lorenz, Edward N. (1963), Deterministic non-periodic flow. In: J. Atmos. Sci. 20, 130. Lotka, Alfred (1910), Zur Theorie periodischer Reaktionen. In: Z. phys. Chemie 72, 508K511. Mandelbrot, Benoit B. (1987), Die fraktale Geometrie der Natur. Berlin: Akademie-Verlag. Mayerthaler, Willi (1987), System-independent Morphological Naturalness. In: Leitmotifs in Natural Morphology (Hrsg. W. V. Dressler/W. Mayerthaler/O. Panagl/W. V. Wurzel). Amsterdam: Benjamins, 25K58. Mende, Werner/Herzel, Hanspeter/Wernike, K. (1990), Bifurcations and Chaos in Newborn Infant Cries. Berlin: Humboldt Universität. Müller, F. (1972), Fortschritt der Wissenschaft K mathematisch modelliert. In: Wissenschaft und Fortschritt 22 (4), 162K165. Peitgen, Heinz-Otto/Jürgens, Hartmut/Saupe, Dietmar (1992), Fractals for the Classroom, Band 1. New York: Springer-Verlag. Peschel, Manfred/Mende, Werner (1983), Leben wir in einer Volterra Welt? In: Mathematische Forschung (14). Berlin: Akademie-Verlag. Petitot-Cocorda, Jean (1985), Les catastrophes de la parole. De R. Jakobson à René Thom. Paris: Maloine. Petitot-Cocorda, Jean (1992), Physique du Sens. De la théorie des singularités aux structures sémio-narratives. Paris: Editions du CNRS. Petitot, Jean (2004). Morphogenesis of Meaning. Bern: Lang. Plath, Peter J. (1989), Modelling of Heterogeneously Catalyzed Reactions by Cellular Automata of Dimension Between One and Two, In: Optimal Structures in Heterogeneous Reaction Systems. (Hrsg. P. J. Plath). Series in Synergetics, Bd. 44. Berlin/New York: Springer, 1K25. Poincaré, Henri (1892), Les Méthodes Nouvelles de la Méchanique Céleste. Paris: Gautier-Villar (In englischer Sprache: N.A.S.A. Translation TT F450/452 U.S: Fed. Clearinghouse, Springfield, VA USA, 1967)
Port, Robert F./van Gelder, Timothy (Hrsg.), Mind as Motion. Explorations in the Dynamics of Cognition. Cambridge (Mass.): Bradford/MIT Press, 1995. Rössler, Otto E. (1979), Continuous Chaos K Four Prototype Equations. In: Annuals of the New York Academy of Sciences 316, 376K392. Schuster, Heinz Georg (1984), Deterministic Chaos. Weinheim: Physik Verlag. Sierpinski, Waclaw (1974), Oeuvres choisies. (Hrsg. S. Hartman/A. Schinzel.). Warschau: PWN Editions Scientique de Pologne. Thom, René (1977), Stabilité structurelle et morphogene`se. Essai d’une théorie générale des mode`les. 2. veränderte Auflage. Paris: Interéditions. (englische Übersetzung der ersten Auflage mit Kürzungen, 1975; erste französische Auflage 1972). Thom, René (1983), Mathematical Models of Morphogenesis. Chichester: Horwood. Toffoli, Tommaso/Margolus, Norman (1987), Cellular Automata Machines K A New Environment for Modeling. Cambridge Mass. und London: The MIT Press. Volterra, V. (1931), Leçons sur la théorie mathématique de la lutte pour la vie. Paris: Gautier-Villars. Wildgen, Wolfgang (1981), Archetypal Dynamics in Word Semantics. An Application of Catastrophe Theory. In: Words, Worlds and Context. New Approaches to Word Semantics (Hrsg. H. J. Eikmeyer/H. Rieser). Berlin: de Gruyter, 234K296. Wildgen, Wolfgang (1982), Catastrophe Theoretic Semantics. An Elaboration and Application of Rene Thom’s Theory. Amsterdam: Benjamins. Wildgen, Wolfgang (1983a), Modelling Vagueness in Catastrophe Theoretic Semantics. In: Approaching Vagueness (Hrsg. T. Ballmer/M. Pinkal). Amsterdam: North-Holland, 317K360. Wildgen, Wolfgang (1983b), Goethe als Wegbereiter einer universalen Morphologie (mit besonderer Berücksichtigung der Sprachform). In: Goethes Bedeutung für das Verständnis der Naturwissenschaften heute (Hrsg. Wolff, K. D). Reihe: Jahresbericht der Universität Bayreuth, 1982. Bayreuth: Universitätsverlag, 235K277. Wildgen, Wolfgang (1983c), Dialogdynamik. Erste Ansätze zu einer Erfassung der Dynamik verbaler Interaktionen am Beispiel richterlicher Anhörungen. In: Papiere zur Linguistik 29 (2), 3K21. Wildgen, Wolfgang (1985), Archetypensemantik. Grundlagen für eine dynamische Semantik auf der Basis der Katastrophentheorie. Tübingen: Narr. Wildgen, Wolfgang (1986), Synergetische Modelle in der Soziolinguistik. Zur Dynamik des Sprachwechsels Niederdeutsch-Hochdeutsch in Bremen um die Jahrhundertwende (1880K1920). In: Zeitschrift für Sprachwissenschaft 5 (1), 105K137.
49. Analogical modeling Wildgen, Wolfgang (1990), Basic Principles of Self-Organization in Language. In: Synergetics of Cognition. Proceedings of the International Symposium at Schloss Elmau (Hrsg. H. Haken/M. Stadler). Berlin: Springer, 415K426. Wildgen, Wolfgang (1994), Process, Image and Meaning. A Process and Image Centred Model of the Meaning of Sentences and Narrative Texts. Amsterdam: Benjamins. Wildgen, Wolfgang (1995), Semantic Ambiguity in Relation to Perceptual Multistability. In: Ambiguity in Mind and Nature (Hrsg. M. Stadler/P. Kruse). Berlin: Springer, 221K240. Wildgen, Wolfgang (1998), Chaos, Fractals and Dissipative Structures in Language or the End of Linguistic Structuralism. In: Systems: New Paradigms for the Human Sciences (Hrsg. W. Koch/G. Altmann). De Berlin: Gruyter, 596K620. Wildgen, Wolfgang (1999a), De la grammaire au discours. Une approche morphodynamique (Reihe: Sémiotique européenne, Nr. 1). Bern: Lang.
705 Wildgen, Wolfgang (1999b), Hand und Auge. Eine Studie zur Repräsentation und Selbstrepräsentation (kognitive und semantische Aspekte) (Schriftenreihe des Zentrums Philosophische Grundlagen der Wissenschaften, Bd. 21). Bremen: Universitätsverlag. Wildgen, Wolfgang (2004), The Evolution of Human Language. Scenarios, Principles, and Cultural Dynamics. Amsterdam: Benjamins. Wildgen, W./Mottron, L. (1987), Dynamische Sprachtheorie: Sprachbeschreibung und Spracherklärung nach den Prinzipien der Selbstorganisation und der Morphogenese. Bochum: Brockmeyer. Woodcock, Alexander/Davis, Monte (1991), Catastrophe Theory. A Revolutionary Way of Understanding How Things Change. London: Penguin Books (Erstauflage 1978).
Wolfgang Wildgen/Peter Jörg Plath, Bremen (Deutschland)
49. Analogical modeling 1. The development of non-rule models to describe language 2. A succinct description and example of analogical modeling 3. A bibliographic overview of analogical modeling 4. Empirical validation of analogical modeling 5. Local versus global significance of variables 6. Imperfect memory and its effects on analogical predictions 7. The robustness of analogical modeling 8. Exponential explosion versus linearity 9. Quantum analogical modeling 10. Literature (a selection)
1.
The development of non-rule models to describe language
During the last two decades, as rule approaches have encountered difficulties in describing language behavior, several competing non-rule approaches to language have been developed. First was the development (or rejuvenation) of neural networks, more commonly known in linguistics as connectionism and best exemplified by the work of McClelland, Rumelhart, et al. (1986) in what they call “parallel distributed processing”. More recently, some researchers (such as Aha and Daelemans) have turned to ex-
emplar-based systems (sometimes known as instance-based systems or “lazy learning”) to describe language behavior (see Aha, Kibler, and Albert 1991; and Daelemans, Gillis, and Durieux 1994; cf. art. 58). These exemplar-based learning systems involve hunting for the most similar instances (“nearest neighbors”) to predict language behavior. A more general theory of the exemplar-based approach is Skousen’s analogical modeling of language (1989, 1992), which permits (under well-defined conditions) even nonneighbors to affect language behavior. These non-rule approaches have several advantages over the traditional rule approaches. First of all, they can be explicitly defined and are therefore testable. Second, they are procedurally defined K that is, they predict behavior for a given input, but do not declare any globally-defined rules. The problem of knowing how to learn and then use a general rule to predict specific behavior is avoided. Third, these non-rule approaches are robust in the sense that they can make predictions when the input is not “well-formed” or when “crucial” variables are missing. In general, boundaries between different behaviors (or outcomes) do not
706
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
have to be precise; fuzzy boundaries and leakage across boundaries are in fact expected.
2.
A succinct description and example of analogical modeling
In this section, analogical modeling will be described in terms of a simple example from English spelling. In this example our overall task will be to predict the pronunciation of the c letter in initial position in words of English. Since analogical modeling is a procedural approach, predictions are always based on a dataset of occurrences. For our spelling example, we will make our predictions from the following (simplified) dataset: outcome
variables
specification
k-c k-c k-c k-c k-c s-c s-c s-c č-c č-c č-c s-c s-c s-c k-c k-c k-c k-c k-c k-c k-c k-c k-c k-c k-c k-c k-c k-c k-c k-c s-c s-c s-c
ake all an0 ar0 at0 ell ent ert hec hin hur irc irc ity lam lea los lou oat oin old ome oun ow0 rea ros ry0 up0 ure ut0 ycl ycl ymb
cake call can car cat cell cent certain check chin church circle circus city clam clear close cloud coat coin cold come count cow cream cross cry cup cure cut cycle cyclone cymbal
Occurrences in the dataset are specified in terms of a set of variables and an associated outcome for each specific assignment of vari-
ables. For instance, for the first occurrence listed (cake), the outcome is k-c, which means for this word that the k pronunciation is assigned to the initial letter c. Two other possible outcomes are listed in the dataset, s-c (as in cell) and č-c (as in check). Following the outcome specification, three variables are given K namely, the next three letters in the word (thus a, k, and e for cake). And finally, we specify the complete spelling of the word (that is, cake). In this simple dataset, we restrict our variables to the first three letters after the initial c. If a word is short (such as can), we fill the empty variables with the null symbol 0 (a zero). For longer words, subsequent letters in the word are ignored. Thus for the word certain, the last three letters (ain) are ignored in this simplified dataset. A given assignment of variables can occur more than once in the dataset, as can the associated outcome. In fact, such repetition is normal. In general, we will assume that n variables are specified. In the simple spelling example, n is equal to 3. In order to make a prediction, we always do it in terms of a given context, where the variables are specified, but for which no outcome is given. For instance, suppose we wish to predict the pronunciation of the initial c for the word ceiling. The given context will be the following three letters after the c K that is, e, i, and l. For each subset of variables defined by the given context, we determine which occurrences in the dataset occur with that subset. Each of these subsets of variables is called a supracontext. Given n variables in the given context, we have a total of 2n supracontexts. Thus the number of supracontexts (2n) is an exponential function of the number of variables (n). For the given context ceiling, we have specified the three letters following the initial c as variables: e, i, and l. This gives us a total of 23 or 8 possible supracontexts: supracontexts of ceiling: all three variables: two variables, one ignored: one variable, two ignored: all three variables ignored:
eil ei-, e-l, -il e- -, -i-, - -l ---
For each of these supracontexts we determine which occurrences in the dataset occur in that supracontext:
707
49. Analogical modeling
eil eie-l -il e- -i- -l ---
k-c K K K K K 1 1 21
s-c K K 1 K 3 K 3 9
č-c K K K K K 1 K 3
cell cell, cent, certain chin, coin call, cell, cycle, cyclone !the whole datasetO
For 3 of the 8 supracontexts, there are no occurrences from the dataset (eil, ei-, and -il). And for the most general supracontext (namely, when all three variables are ignored), we get of course every occurrence in the dataset. Typically, the whole class of 2n supracontexts can be represented as a partially ordered lattice: eil ei
e-l
--iil
e--
-i-
--l
---
By following the connections upward in the lattice, we can determine the subcontexts for any given supracontext in the lattice. Thus we have the following 4 subcontexts for the supracontext e- -: eil ei
e-l
e--
By definition, we count the supracontext itself as one of the subcontexts. Our problem is to determine the homogeneity (or its opposite, the heterogeneity) of each supracontext defined by the given context. Basically, a supracontext is homogenous if all its possible subcontexts behave identically. In predicting the outcome for a given context, we only apply information found in the homogeneous supracontexts. All heterogeneous supracontexts are ignored. In analogical modeling, there are only two types of homogeneous supracontexts for a given context: either (1) the supracontext is deterministic (only one outcome occurs), or (2) the supracontext is non-deterministic but all the occurrences occur together within every non-empty subcontext of the supracontext.
When we consider the supracontexts for our example involving ceiling, we note that there are two deterministic supracontexts, e-l and e- -. The more general supracontext e- - is homogeneous because it contains only examples of the s-c outcome. There can be no evidence that any subcontext of e- - behaves any differently because the behavior of e- - is deterministic. Similarly, the subcontext e-l also acts as a homogeneous supracontext since it too has only one kind of outcome (even if there is just one occurrence): eil eie-l e- -
k-c K K K K
s-c K K 1 3
č-c K K K K
cell cell, cent, certain
In addition, our example for ceiling has one non-deterministic homogeneous supracontext, -i-. For this supracontext, more than one outcome is found (thus its behavior is non-deterministic). Nonetheless, every subcontext of this supracontext is either empty or identical to the supracontext’s behavior, so we can find no subcontext that behaves differently than the supracontext itself: eil ei-il -i-
k-c K K K 1
s-c K K K K
č-c K K K 1
chin, coin
In this case, every subcontext of -i- (except the supracontext itself) is empty. It is also possible that more than one subcontext is identical to the supracontext, as in the following made-up example from a different dataset, one that lacks the occurrences for chin and coin, but instead has chill and coil: eil ei-il -i-
k-c K K 1 1
s-c K K K K
č-c K K 1 1
chill, coil chill, coil
In this example, the non-deterministic supracontexts -i- (as well as -il) would be homogeneous. Returning to the supracontexts of our original dataset, we see that two of the supracontexts are heterogeneous, - -l and - - -. The supracontext - -l is heterogeneous because its subcontext e-l behaves differently (having only the s-c outcome) while - -l has both the k-c and s-c outcomes. We mark
708
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
each heterogeneous supracontext with an x, thus reminding us to exclude such when we come to predict the outcome for the given context:
x
eil e-l -il - -l
k-c K K K 1
s-c K 1 K 3
č-c K K K K
cell call, cell, cycle, cyclone
In addition to - -l, the general supracontext - - - is also heterogeneous because every occurring subcontext behaves differently than the supracontext - - -:
x x
eil eie-l -il e- -i- -l ---
k-c K K K K K 1 1 21
s-c K K 1 K 3 K 3 9
č-c K K K K K 1 K 3
cell cell, cent, certain chin, coin call, cell, cycle, cyclone !the whole datasetO
It is easy to demonstrate that if any supracontext is heterogeneous, then whenever this supracontext acts as a subcontext in a more general supracontext, heterogeneity will be implied. For instance, we have already seen that - -l is heterogeneous. From this we may deduce that the more general supracontext - - - is also heterogeneous since - -l is one of its subcontexts. We refer to this deductive kind of heterogeneity as inclusive heterogeneity. Thus the general supracontext - - - is inclusively heterogeneous. Ultimately, whether a supracontext is homogeneous or heterogeneous is determined by using a nonlinear statistical procedure based on measuring the number of disagreements between different occurrences within the supracontext. To do this we connect all the occurrences within a supracontext to each other by means of a system of pointers. For each pointer from one occurrence to another, we indicate whether the pointer points to a different outcome (a disagreement) or to the same outcome (an agreement). We adopt a conceptually simple statistical procedure for determining the homogeneity of the supracontext K namely, if no subcontext of the supracontext increases the number of disagreements, the supracontext is homogeneous. Otherwise, the supracontext is heterogeneous. This measure ends up minimizing the number of disagreements (that is, the number of pointers to differing
outcomes) in the supracontext. It turns out that this statistic is based on a quadratic measure of information with its reasonable restriction that language speakers get only a single chance to guess the correct outcome. This quadratic measure is unlike Shannon’s logarithmic measure of uncertainty, which is based on the idea that speakers get an unlimited number of chances to guess the correct outcome. This statistical procedure of minimizing the number of disagreements is also the most powerful statistical test possible. However, by introducing the notion of imperfect memory, this test can be made equivalent to standard statistical procedures, especially when the probability of remembering a given occurrence is one-half. This kind of statistic is referred to as a natural statistic since it is psychologically plausible and avoids any direct consideration of probability distributions, yet has the ability to predict stochastic behavior as if the underlying probability distribution is known. And on the basis of this natural statistic, it can be deduced that there are only the two types of homogeneous supracontexts K either deterministic ones or non-deterministic ones with occurrences found together in every nonempty subcontext of a given supracontext. The homogeneous supracontexts form what is called the analogical set. The final step in analogical prediction is to randomly select one of the occurrences in the analogical set and make our prediction based on the outcome assigned to this occurrence. Theoretically this selection can be done in two different ways: (1) randomly select one of the occurrences found in any of the homogeneous supracontexts; or (2) randomly select one of the pointers pointing to an occurrence in any of the homogeneous supracontexts. In the first case, the probability of selecting a particular occurrence is based on its frequency of occurrence within the homogeneous supracontexts. In the second case, the probability of selecting a particular occurrence is based on the square of its frequency of occurrence within the homogeneous supracontexts. This squaring of the frequency is the result of using a system of pointers (equivalent to the quadratic measure of uncertainty) to select an occurrence. There is an alternative to random selection. Instead of randomly choosing one of the occurrences in the analogical set, one can examine the overall chances for each
709
49. Analogical modeling
outcome under random selection but then select the most frequent outcome. This method is referred to as selection by plurality and is used to maximize gain (or minimize loss). Returning to our example for predicting the pronunciation of the initial c in ceiling, we get the following results in the analogical set: ceiling
x x
eil eie-l -il e- -i- -l ---
k-c K K K K K 1 1 21
s-c K K 1 K 3 K 3 9
č-c K K K K K 1 K 3
totals
linear
squared
0
1
0
0
1 0
0 1
3 0
0 1
0 2
9 0 0 2
1
4
1
2 10 2
predictions: random selection selection by plurality
k-c s-c č-c
k-c s-c č-c
.17 .67 .17 0 1 0
.14 .71 .14 0 1 0
Note that the two heterogeneous supracontexts (- -l and - - -) are excluded; they are each marked with an x and their occurrences are not listed since they will not occur as exemplars. As can be seen, the predicted outcome for ceiling always favors the s pronunciation for the initial c. The closest exemplar to the given ceiling is the word cell (which has the s outcome), yet other words are also found in the analogical set (such as cent and certain, which predict the s outcome, as well as a couple other exemplars which predict the other two outcomes). We note that under random selection the s outcome occurs at least two-thirds of the time, no matter whether we randomly select one of the occurrences (the linear prediction) or one of the pointers (the squared prediction). Under selection by plurality, we get of course only the s outcome.
3.
A bibliographic overview of analogical modeling
For a basic introduction to analogical modeling, see the thematic section in volume 7 of Rivista di Linguistica (Eggington 1995). There Skousen (1995) provides a basic overview of analogical modeling and describes some of the advantages of analogical model-
ing over connectionism. In addition, Chandler (1995) describes some of the support from psycholinguistics for analogical modeling. And Robinson (1995) discusses inverse indexing (a simple nearest-neighbor approach) and compares it with analogical modeling. The fundamental works on analogical modeling are two books by Skousen. The first one, Analogical Modeling of Language (Skousen 1989), provides a complete, but basic, outline of the approach (chapter 2) and then applies it to various language problems (chapter 3) as well as theoretical language issues (chapter 4). In chapter 5, Skousen provides an in-depth analysis of past-tense formation in Finnish. In particular, he shows how analogical modeling, unlike traditional rule approaches, is able to describe the complex historical development of the Finnish past-tense. The second book, Analogy and Structure (Skousen 1992), is a mathematical description of both rule-based and analogical approaches to describing behavior. The concept of natural statistics is introduced in the second half of Analogy and Structure. It is also discussed briefly in chapter 4 of Analogical Modeling of Language. More recently, Skousen (1998) further develops the theory of natural statistics and demonstrates its close relationship to normal statistical procedures (especially when the probability of remembering a past occurrence equals one-half).
4.
Empirical validation of analogical modeling
Analogical modeling has been applied to a number of specific language problems. Derwing and Skousen (1994) have used analogical modeling to predict English past-tense formation, especially the kinds of errors found in children’s speech. Derwing and Skousen first constructed a dataset of verbs based on the frequently occurring verbs in grade-school children’s speech and writing. Initially they predicted the past-tense for verbs in terms of a dataset composed of only the 30 most frequent verbs (most of which were irregular verbs), then they continuously doubled the size of the dataset (from 30 to 60, to 122, to 244, to 488, and finally to 976). Derwing and Skousen discovered that when the dataset was small, the kinds of er-
710
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
rors children typically make were predicted, but by the time the dataset reached the third doubling (at 244 verbs) stability had usually set in, and the expected adult forms (that is, the standard language forms) were predicted more than any other. For instance, the most common prediction for the verb snow was snew as long as the dataset had only 30 or 60 verbs, but with 122 verbs (after the second doubling) the prediction shifted to the regular snowed (with a 90 percent chance). With the full dataset of 976 verbs, the probability of predicting the regular snowed reached 99 percent. Similarly, overflew was most commonly predicted for overflow until the third doubling (at 244 verbs), and succame for succumb (pronounced succome, of course) until the fourth doubling (at 488 verbs). Analogical modeling (along with connectionism) has been criticized because it proposes a single-route approach to predicting the past-tense in English (see, for instance, Jaeger et al. 1996, 455K457, 477K478). Prasada and Pinker (1993) have argued, on the other hand, for a dual-route approach K that is, irregular verbs in English are processed differently than regular verbs. More specifically, they argue that irregular verbs are predicted in an analogical, lexicallybased fashion, but that regular verbs are predicted by rule (namely, by syntactically adding some form of the regular past-tense ending -ed). Jaeger et al. 1996 further argued that there is information from neural activity in the brain for the dual-route approach. The main claim about analogical modeling in Jaeger et al. 1996 was that analogical modeling could not predict the processing time differences between regular and irregular verbs, and between known and unknown verbs. In reply, Chandler and Skousen (1997) noted that in section 16.1 of Analogy and Structure (under “Efficiency and Processing Time”), the correct processing times were in fact predicted. Prasada and Pinker (1993) report on a study in which English speakers produced past tense forms for various nonce verbs. They found that a subject’s willingness to provide irregular past-tense forms was strongly related to the nonce verb’s phonological similarity to existing irregular verbs, but for nonce verbs similar to existing regular verbs, no such correlation was found. Prasada and Pinker took this basic difference in behavior as evidence that English
speakers use a dual-route approach in forming the past-tense, especially since a singleroute connectionist approach failed to predict the basic difference in behavior. But more recently, Eddington (2000a) has shown that just because a particular implementation of connectionism fails to make the right prediction does not mean that the singleroute approach is wrong. To the contrary, both analogical modeling and Daelemans’ instance-based approach (each a singleroute approach to describing English pasttense formation) correctly predict Prasada and Pinker’s experimental findings. An important application of analogical modeling is found in Jones 1996. Here we see analogical modeling applied to automatic translation (between English and Spanish as well as English and Japanese). Most work done in analogical modeling has dealt with phonology, morphology, and orthography (the linguistic disciplines most closely connected to an objective reality), but here Jones shows how analogical modeling can be applied to syntax and semantics. He contrasts analogical modeling with both traditional rule approaches and connectionism (parallel distributed processing). In a variety of test cases, he finds analogical modeling more successful and less arbitrary than parallel distributed processing. There have also been a number of applications to several non-English language problems in, for instance, the work of Eddington (Spanish stress assignment) and Douglas Wulf (German plural formation). Eddington’s work on Spanish (Eddington 2000b) has shown that analogical modeling can correctly predict stress placement for about 95 percent of the words, but in addition can regularly predict the stress for nonce words from experiments and for errors that children make. Wulf (1996) has found that analogical modeling is able to predict cases where an umlauting plural type has been extended from a frequent exceptional German plural to other less frequent words. Daelemans, Gillis, and Durieux (1997) have done considerable work comparing analogical modeling with various instancebased approaches to language. They have discovered that under regular conditions, analogical modeling consistently outperforms their own instance-based approaches in predicting Dutch stress (see their table 1.3). Only when they add various levels of
711
49. Analogical modeling
noise to the system are they able to get comparable results for analogical modeling and their instance-based approaches (see their table 1.4), but their introduction of noise appears irrelevant to the larger issue of which approach best predicts Dutch stress. Skousen’s work on the Finnish past-tense has been able to capture the otherwise unaccountable behavior of certain verbs in Finnish. Of particular importance is his demonstration (Skousen 1995, 223K226) that the verb sorta- ‘oppress’, under an analogical approach, takes the past-tense form sorti. According to every rule analysis found in the literature, verbs stems ending in -rta or -rtä should take -si in the past-tense. Yet speakers overwhelmingly prefer sorti, not sorsi. When we look at the analogical set for sorta- (a relatively infrequent verb), we discover that for this example only, verbs containing o as the first vowel (24 of them) almost completely overwhelm verbs ending in -rta or -rtä (only 5 of these). And each of these verbs with o produce the past-tense by replacing the final stem vowel a by i (thus giving sorti). This large group of o-vowel verbs just happens (from an historical point of view) to take this same outcome. Although there is another group of verbs that take the si outcome, its effect is minor. The resulting probability of analogically predicting sorti is 94.6 percent. More generally, a correct theory of language behavior needs to pass certain empirical tests (Skousen 1989, 54K76). In cases of categorical behavior (such as the indefinite article a/an in English), there should be some leakage (or fuzziness) across categorical boundaries (such as an being replaced by a). Similarly, when we have a case of exceptional behavior in a field of regular behavior (such as the plural oxen in English), we should find that only when a given context gets very close to the exceptional item do we get a small probability of the given context behaving like the exception (such as the infrequent plurals axen for ax and uxen for the nonce ux). And finally, in empty space between two occurrences of different behavior, we should get transitional behavior as we move from one occurrence to the other. A theory of language behavior is tested by considering what kinds of language changes it predicts. The ability to simply reproduce the outcomes for the occurrences in the dataset does not properly test a theory. Instead, we try to predict the outcome for
given contexts that are not in the dataset, and then we check these predictions against the kinds of changes that have been observed, preferably changes that have been naturally observed. Such data for testing a theory can be found in children’s language, historical change, dialect development, and performance errors. Experiments (involving for instance, nonce items) can be helpful if their results do not inordinately clash with naturally observed changes, but in general, artificial experiments always run the risk of contaminated results. Experiments can help us gather additional data, providing their results do not sharply contradict observations from actual language use.
5.
Local versus global significance of variables
This explicit theory of analogical modeling differs considerably from traditional uses of analogy in language description. First of all, traditional analogy is definitely not explicit. Related to this problem is that almost any item can serve as the analogy for predicting behavior, although in practice the attempt is to always look to nearest neighbors for the preferred analogical source. But if this fails, one can almost always find some item, perhaps considerably different, that can be used to analogically predict the desired outcome. In other words, if needed, virtually any occurrence can serve as the analogical source. Skousen’s analogical modeling, on the other hand, will allow occurrences further away from the given context to be used as the exemplar, but not just any occurrence. Instead, the occurrence must be in a homogeneous supracontext. The analogical source does not have to be a near neighbor. The probability of an occurrence further away acting as the analogical model is nearly always less than a closer occurrence, but this probability is never zero (providing the occurrence is in a homogeneous supracontext). Further, the ability to use all the occurrences in all the homogeneous supracontexts of the contextual space directly accounts for the gang effects we find when we describe either categorical or regular/exceptional behavior. In other words, we are able to predict “rule-governed” behavior (plus a little fuzziness) whenever the data behaves “regularly”. Analogical modeling does not require us to determine in advance which variables are
712
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
significant and the degree to which these variables determine the outcome (either alone or in various combinations). Nearestneighbor approaches are like traditional analogical practice in that they try to predict behavior by using the most similar occurrences to the given context. But unless some additional information is added, the leakage across categorical boundaries and in regions close to exceptions will be too large. As a result, nearest-neighbor approaches frequently try to correct for this excessive fuzziness by ranking the statistical significance of each variable. One can determine, as Daelemans, Gillis and Durieux have (1994, 435K436), the information gain (or other measures of reducing entropy) for each variable. Such added information requires a training period to determine this information, and in this regard is like connectionism. Analogical modeling, on the other hand, does not have a training stage except in the sense that one must have a dataset of occurrences. Predictions are made “on the fly”, and all variables are considered apriorily equal (with certain limitations due to restrictions on short-term memory). The significance of a variable is determined locally K that is, only with regard to the given context. The extent of any gang effect is determined by the location of the given context and the amount of resulting homogeneity within the surrounding contextual space. One possible example of a locally significant variable is the o vowel in the Finnish past-tense dataset mentioned in the previous section. In predicting the past-tense form for all verbs except one, this o variable is not crucial, no matter how frequent the verb is. It only turns out to be crucial for the relatively infrequent verb sorta- ‘oppress’, a verb which is not in the dataset. In other words, the necessity of this variable for predicting sorti for sorta- cannot be learned from predicting the past-tense of other verbs. This variable only becomes crucial when the analogical system is asked to predict the past-tense for sorta-. In an analogical approach, the significance of the o variable is locally determined, not globally. The occurrences in the dataset carry the information necessary to make predictions, but the significance of a particular variable cannot be determined independently of the occurrences themselves. Daelemans’ nearestneighbor approach, when it relies on measuring information gain, can never obtain suf-
ficient gain for this o vowel to be able to predict sorti. This crucial example may play a very important role in empirically deciding between analogical modeling and nearestneighbor approaches with information gain.
6.
Imperfect memory and its effects on analogical predictions
Daelemans, van den Bosch, and Zavrel (1999) argue that with nearest-neighbor approaches, predictions are worse if the data is “mined” in advance K that is, if variables are reduced and “bad” (or “exceptional”) examples are removed. Such systems tend to collapse or become degraded when memory losses occur. On the other hand, memory loss is important in analogical modeling, especially since imperfect memory results in statistically acceptable predictions (and reduces the extraordinary statistical power of the approach). For instance, randomly throwing out about half the data leads to standard statistical results. In analogical modeling, statistically significant results are retained under conditions of imperfect memory. In fact, a statistically significant result is one that holds when at least half the data is forgotten. The reason that analogical modeling can get away with substantial memory loss is because this approach considers much larger parts of the contextual space, whereas nearest-neighbor approaches tend to fail when memory is imperfect. In analogical modeling, given sufficiently large amounts of data, stability sets in, with the result that adding more examples in the data set will have little effect on predicting behavior. Imperfect memory also shows how less frequent exceptions tend to be removed from a language, but frequent exceptions are kept. This agrees with what Bloomfield observed many years ago about historical change (1933: 408K410).
7.
The robustness of analogical modeling
One important aspect of analogical modeling is that adjusting parameters and conditions doesn’t make much difference in the resulting predictions. This is quite different from neural networks, where there are so many parameters and conditions to manipulate that almost any result can be obtained. One wonders if there is any limit to what
713
49. Analogical modeling
can be described when so many possibilities are available. Recent work in analogical modeling suggests that within the analogical approach it is difficult to manipulate parameters to get different predictions. (This inability is empirically desirable.) Consider, for instance, whether random selection is done by choosing either an occurrence or a pointer. The first possibility provides a linear-based prediction, the second a quadratic one. Yet when either method is used in analogical modeling, we get the same basic results except that under linearity we get an increase in fuzziness at category boundaries and around exceptional occurrences. Similarly, we get the same basic results when we consider the conditions under which a given outcome can be applied to a given context. This problem first arose when Skousen tried to predict the past-tense for Finnish verbs. In Analogical Modeling of Language Skousen decided (1989, 101K 104) to narrowly restrict the three possible past-tense outcomes by including a number of conditions: outcomeV-i:
replace the stem-final vowel by i [no additional conditions added] outcome a-oi: replace the stem-final a vowel by oi [additional conditions: the first vowel is unround (i, e, or a)] outcome tV-si: replace the sequence of t and the stem-final non-high unround vowel (e, a, or ä) by si [additional conditions: the segment preceding the t is either a vowel or a sonorant (that is, not an obstruent)]
These added conditions had been assumed in all rule analyses of the Finnish past-tense. But these added conditions are not part of the actual alternation (which replaces one sound K or a sequence of sounds K by another). So one obvious extension of applicability would be to ignore these additional conditions and allow an outcome to apply only whenever a given verb stem meets the conditions specified by the actual alternation: outcomeV-i: replace the stem-final vowel by i outcome a-oi: replace the stem-final a by oi outcome tV-si: replace the sequence of t and a non-high unround vowel by si
The argument for relaxing the conditions is that the analogical model itself should be able to figure out the additional conditions
since they occur in the verbs listed in the dataset. But one can even go further and let every outcome apply no matter what the stem ends in: outcome V-i: replace the stem-final vowel by i outcome a-oi: replace the stem-final vowel by oi outcome tV-si: replace the stem-final sequence of consonant and vowel by si
The argument here is that the analogical model itself should be able to figure out the alternation itself. Applying these different conditions on outcome applicability, the results were virtually the same. The only difference in prediction (using selection by plurality) occurred in a handful of cases of nearly equal probability between competing outcomes. In other words, analogical modeling doesn’t provide many opportunities for varying parameters and conditions. We get the same basic results no matter whether we randomly select by occurrence or by pointer K or the degree to which we restrict the conditions on outcome applicability. The only real way to affect the results is in the dataset itself: by what occurrences we put in the dataset and how we specify the variables for those occurrences. And how we determine the dataset is fundamentally a linguistic issue. Thus analogical modeling is a strong theory and is definitely risky. It is not easily salvaged if it fails to predict the right behavior.
8.
Exponential explosion versus linearity
In the concluding chapter of Analogical Modeling of Language, Skousen (1989, 137K 139) points out a serious difficulty with the algorithm for analogical modeling K namely, the fact that given n variables in the given context, there are 2n supracontexts for which homogeneity must be determined. The current algorithm for determining homogeneity exhibits an exponential explosion for both the working memory of the program as well as the time needed for processing. If massive parallel processing is used, the time requirements become a linear function of the number of variables. But the hardware (or memory requirements) can only be reduced by a factor of 1/On, which does not effectively eliminate the exponential explosion. Daelemans, Gillis, and Durieux (1997) have argued that their memory-based approaches
714
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
exhibit linearity, in comparison to the exponential requirements for Skousen’s analogical modeling. However, it should be noted that in order to make their instance-based approach work properly, Daelemans and his colleagues are forced to determine in advance which variables are statistically significant. But their “information gain” derives from a training stage which requires a global analysis of variable significance. Since it is patently false that language variables act independently of each other, information gain must ultimately take into account every possible combination of variables (but from a global point of view). In other words, there is no escaping the exponential explosion. Of course, having determined the information gain, then Daelemans et al. can run their linear-based algorithm. Analogical modeling, on the other hand, never determines global statistical significance. It only determines local statistical significance for a given context. In both cases then, there is an exponential explosion. One gets the suspicion that the exponential explosion is inherent in all linguistic analysis and cannot be avoided. Connectionist modeling also requires the selection of variables K one does not set up a connectionist system that directly interconnects every possible combination of variables. A pragmatic concern regarding the original analogical algorithm was the need to apply the approach to cases which involve more than 12 or 13 variables. For instance, in his phonetic specifications in Analogical Modeling of Language, Skousen (1989, 51K 54) had to reduce the number of variables that could be considered. Distinctive features were also avoided in Analogical Modeling of Language (Skousen 1989, 53K54), in part for combinatory reasons. A linearbased algorithm, on the other hand, could allow dozens, even hundreds of variables to be considered. Ultimately, the analogical algorithm needs to be linear so that it can be applied to language processing in real time. Within the past few years, the analogical modeling research group at Brigham Young University has been working on the algorithm. Using the original algorithm as its basis (despite the exponential explosion), Dil Parkinson has ported the program to Perl and has been able to increase the number of variables to about 20. With this many variables, analogical modeling can at least be
empirically tested on more complex language problems. Along with his colleagues, Skousen has also been working on replacing the algorithm with one that does not need to keep track of every possible supracontext, but instead only certain crucial heterogeneous ones from which the homogeneous regions of the contextual space can be determined. For such an algorithm, memory and time requirements appear to be determined by the number of occurrences in the dataset rather than the number of variables in the given context. The exponential explosion can still occur in the worst case, but only in time and not in memory. With such an algorithm, parallel processing may help to reduce the algorithm to linear time, although this possibility has not yet been investigated.
9.
Quantum analogical modeling
Another possibility is to re-interpret analogical modeling in terms of quantum computing. (For a general introduction to quantum computing, see Williams and Clearwater 1998.) One distinct theoretical advantage of quantum computing is that it can simultaneously keep track of an exponential number of states (such as 2n supracontexts defined by an n-variable given context), thus potentially reducing intractable exponential problems to tractable polynomial analyses (or even linear ones). In certain well-defined cases it has been shown (in pseudocode only, since there is no hardware implementation of quantum computing thus far) that the exponential aspects of programming can be reduced to one of polynomial degree (which entails tractability, unlike exponential cases). Quantum computing allows for certain kinds of simultaneity or parallelism that exceeds the ability of normal computing (sequential or parallel). The examples discussed thus far in quantum computing involve numbers, especially cryptography, as in Shor’s program for determining the prime factors of a long integer (Williams and Clearwater 1998, 133K137). One reason for considering analogical quantum computing is that the exponential factor seems to be inherent in all approaches to language processing. Thus far linguistic evidence argues that virtually all possible combinations of variables can be used by native speakers in predicting language. The ex-
715
49. Analogical modeling
ponential problem is obvious in analogical modeling, and normal kinds of parallel processing may ultimately fail to solve it. But as already noted, the exponential explosion is not restricted to analogical modeling. Other instance-based approaches and neural nets (connectionist approaches) also encounter exponential problems as they must decide how to limit their predictions to those based on the “most significant” variables. The difficulty for these other approaches is in the training stage, where the system has to figure out which combinations of variables are significant, a global task that is inherently exponential. One advantage of analogical modeling is that no mathematical (or statistical) calculation is actually used in determining the analogical set; instead, there is just the simple comparison of supracontexts. This simplicity suggests that some very simple matrix operations could be used to determine a quantum analogical set that would be realized classically as a set of probabilities. Thus far a few similarities between analogical modeling and quantum mechanics have been noted. First, the analogical measure of certainty is a probability derived from the sum of squaring (Skousen 1992, 73K74), which is like the conjugate squaring of complex numbers in quantum mechanics in order to create a classical probability (Omne`s 1999, 34K45). Second, in applying natural statistics, it has been shown (Skousen 1998) under two different cases that when the probability of remembering is one-half, we get standard statistical results (including the ability to account for the traditional use of “level of significance” in statistical decision making). This probability of one-half implies an equal chance of forgetting or remembering, which appears to correspond to storing the occurrences of a dataset as a vector composed of quantum bits, each with an equal chance of being accessed or not (much like an electron’s spin, with its two states of up and down). One important reason for investigating the possibility of analogical quantum computing is that language speakers are able to deal with a seemingly unlimited number of linguistic variables and in linear time. Moreover, occurrences of local predictability (such as sorta- in Finnish) would indicate that speakers do not determine in advance which combinations of variables are significant. Rather, such decisions are always made “on the fly” and for a specific given context.
10. Literature (a selection) Aha, David W./Kibler, Dennis/Albert, Marc K. (1991), Instance-Based Learning Algorithms. In: Machine Learning 6, 37K66. Bloomfield, Leonard (1933), Language. New York: Holt, Rinehart and Winston. Chandler, Steve (1995), Non-Declarative Linguistics: Some Neuropsychological Perspectives. In: Rivista di Linguistica 7, 233K247. Chandler, Steve/Skousen, Royal (1997), Analogical Modeling and the English Past Tense: A Reply to Jaeger et al. 1996. At: !http://humanities.byu. edu/am/O. Daelemans, Walter/Gillis, Steven/Durieux, Gert (1994), The Acquisition of Stress: A Data-Oriented Approach. In: Computational Linguistics 20 (3), 421K451. Daelemans, Walter/Gillis, Steven/Durieux, Gert (1997), Skousen’s Analogical Modeling Algorithm: A Comparison with Lazy Learning. In: New Methods in Language Processing (eds. D. Jones/H. Somers), London: University College Press, 3K15. Daelemans, Walter/van den Bosch, Antal/Zavrel, Jakub (1999), Forgetting Exceptions is Harmful in Language Learning. In: Machine Learning 34, 11K43. Derwing, Bruce/Skousen, Royal (1994), Productivity and the English Past Tense: Testing Skousen’s Analogy Model. In: The Reality of Linguistic Rules (eds. S. D. Lima/R. L. Corrigan/G. K. Iverson). Amsterdam: John Benjamins, 193K218. Eddington, David (2000a), Analogy and the DualRoute Model of Morphology. In: Lingua 110, 281K298. Eddington, David (2000b), Spanish Stress Assignment within Analogical Modeling of Language. In: Language 76, 92K109. Eggington, William G. (1995), Analogical Modeling: A New Horizon. In: Rivista di Linguistica 7, 211K212. Jaeger, Jeri J./Lockwood, Alan H./Kemmerer, David L./Van Valin Jr., Robert D./Murphy, Brian W./ Khalak, Hanif G. (1996), A Positron Emission Tomographic Study of Regular and Irregular Verb Morphology in English. In: Language 72, 451K 497. Jones, Daniel (1996), Analogical Natural Language Processing. London: University College London Press. McClelland, James L./Rumelhart, David E./the PDP Research Group (1986), Parallel Distributed Processing (PDP), 2 volumes. Cambridge: MIT Press. Omne`s, Roland (1999), Understanding Quantum Mechanics. Princeton: Princeton University Press.
716
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Prasada, Sandeep/Pinker, Steven (1993), Generalization of Regular and Irregular Morphological Patterns. In: Language and Cognitive Processes 8, 1K56. Robinson, Derek (1995), Index and Analogy: A Footnote to the Theory of Signs. In: Rivista di Linguistica 7, 249K272. Skousen, Royal (1989), Analogical Modeling of Language. Dordrecht: Kluwer. Skousen, Royal (1992), Analogy and Structure. Dordrecht: Kluwer. Skousen, Royal (1995), Analogy: A Non-Rule Alternative to Neural Networks. In: Rivista di Linguistica 7, 213K231. Skousen, Royal (1998), Natural Statistics in Language Modeling. In: Journal of Quantitative Linguistics 5, 246K255.
Williams, Colin P./Clearwater, Scott H. (1998), Explorations in Quantum Computing. New York: Springer-Verlag. Wulf, Doug (1996), An Analogical Approach to Plural Formation in German. In: Proceedings of the Twelfth Northwest Linguistics Conference. Working Papers in Linguistics 14, 239K254. Seattle: University of Washington. Note: Some sections of this article appeared earlier in Skousen, Royal (2003), Analogical Modeling: Exemplars, Rules, and Quantum Computing. In: Proceedings of the TwentyNinth Annual Meeting of the Berkeley Linguistic Society (eds. Nowak, Pawel/Yoquelet, Corey/Mortensen, David), 425K439.
Royal Skousen, Provo (USA)
50. Power laws in statistical linguistics and related systems 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Introduction Brief history Zipf’s law Phoneme and letter frequencies Model for word frequencies Other power laws and related distributions Power laws in general Fractals, scale invariance and power laws Discussion and summary Literature (a selection)
1.
Introduction
Power law statistical distributions have been known for over a century. The earliest demonstration is by Pareto (1897) in econometrics. It states that the number of wealthy persons with income m is inversely proportional to m2. The most recent sightings of the law are in network connectivity (the Internet, cellular organisms). An eruption of power law relations in various disciplines in the 1980’s was triggered by Mandelbrot’s (1977; 1983) classic work on fractal structures in nature. However, little progress was made towards understanding the law until 50 years ago. Today an array of models of different categories exists but there is no clear choice yet of a universal model to account for the universal character of the power law distribution. In this article, we are concerned mainly with power law relations in linguistics, but frequent references will be made to some re-
lated laws and related areas. The most celebrated is Zipf’s power law of word frequencies in natural languages (cf. art. Nos. 10, 30). It serves as a prototype for power laws in general, which are sometimes called Zipfian. In the formulation of certain models for Zipf’s law, sometimes there is a tendency to overlook its true power law character. For a proper perspective, we present some actual data on word frequencies and the rigorous statistical tests to establish their conformity with Zipf’s law. Two versions of the law are discussed; they pertain to two domains of words ranked by their occurrence frequency. Deviations from the pure power law are known at the extremes of rank values. They require a modified version of Zipf’s law, called the MPL (cf. art. No. 61). Symbol frequencies are also studied at lower hierarchies of language, e. g. letters of the alphabet (written) and phonemes (spoken). These symbols form a small constant or invariant set unlike the words (vocabulary). The grammatical words too belong to a similar category. All these sets have symbol rank frequencies, which can be fit by an extension of the MPL, called the cumulative modified power law or the CMPL. While the MPL was conceived to explain word frequencies, the CMPL was its natural extension to predict rank frequencies of a compact set of symbols. Both are based on Shannon’s Information (cf. art. Nos. 60, 61), Algorithmic coding of strings of symbols
717
50. Power laws in statistical linguistics and related systems
(Kolmogorov complexity) and some principles of classical and quantum statistical mechanics (cf. art. No. 61, section 5). Power laws, other than Zipf’s in linguistics are briefly mentioned. Another long-tailed distribution like the power law is the lognormal distribution for string lengths in the hierarchical levels of language structure. Lognormal distributions are abundant in natural and behavioral sciences. The two appear to coexist in a variety of systems besides language. A very general model of multiplicative random accretion of size for the lognormal distribution is presented in section 6. In dealing with power laws in general, specific illustrations are given: Bradford’s law in informetrics, Willis’ law in evolutionary biology, Fermi’s model for the cosmic ray energy spectrum in cosmic ray astrophysics, and some most recent results about connectivity of networks (the Internet, cellular metabolism, citation of science literature). Power laws naturally yield self-similar structures on all size scales. The principle of self-similarity is a powerful tool and a unifying concept for many systems which are called fractal structures. The models proposed for power laws in different areas fall into four categories. Is there any single model that is universally valid for all power laws? An answer may be provided by the current burgeoning studies of complex adaptive systems with interacting elements of order and randomness. A particular definition of ‘complexity’ K the effective complexity by Gell-Mann K seems to provide some promising links to Zipf’s law. We conclude this brief introduction with a caveat. Any attempt at an exhaustive survey of power laws in linguistic literature K not to mention other scientific literature K is not practicable partly because of the authors’ limitations and partly because of the vastness of the literature. Yet we believe we have highlighted the major landmarks in the last hundred years and focused on the problem of the genesis of the law. The cited literature should serve as links to other relevant references for interested readers. We seek their indulgence to condone any omissions and inadequacies in this review.
2.
Brief history
Statistical studies of language texts began early in the 20th century, with important contributions by Eldridge (1911), Estoup
(1916), Dewey (1923), Thorndike (1932), Zipf (1935), Yule (1944), Herdan (1958a) and others (cf. art. No. 1). They dealt mostly with word frequency counts, the relative frequencies of occurrence of different words. Originally their principal motivation was in compiling word lists and defining a basic vocabulary for teaching language and stenography. The earliest such effort in English is due to the psychologist Edward L. Thorndike in the USA. Drawing on a variety of texts (English Bible and classics, newspapers, school texts, general reading), his database had 4 million words. From this, a list of 20.000 words (word types) formed the basic defining vocabulary for English, and was published as The Teachers’ Word Book (1932). Dewey (1923) compiled “100.000 words of connected matter (excluding numerals and proper nouns), representative of English as written and spoken today; no single source contributing more than 5.000 words”. There were 10.119 word types. Dewey listed the 1027 most common words, which occurred more than ten times each.
3.
Zipf’s law
The most extensive work to date on word frequencies is by George K. Zipf (1935; 1949) who devoted a lifetime to the study of word counts in many languages (e.g English, French, Norwegian, Swedish, German, Russian, Greek, Latin, Chinese, and Sanskrit) by a variety of authors and in different types of literature (children, adults, newspapers, poetry, plays, etc). Apart from the ‘word’, Zipf analyzed the frequency of occurrence of other linguistic symbols too, e. g. phonemes, morphemes, syllables, etc. Zipf extended his work to distributions of populations (urban areas, cities, metropolitan areas, districts), incomes (individual salaries, corporations, etc) and other areas of behavioral science, in his elaborate work “Human Behavior and the Principle of Least Effort” (1949). Zipf noted that word frequencies displayed a remarkable stability in their relative proportions across the entire spectrum of languages, authors, and genres. These striking regularities are quantified by Zipf’s law for language texts p (r) Z A / r
(1)
Here p (r) is the occurrence frequency of a word of rank r and A is a constant, approxi-
718
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
mately equal to 0.1 N, N being the total number of symbols (word tokens). Sorting the different word types in descending order of their frequency, the most frequent word is assigned rank 1. If two or more word types have the same frequency, they are given consecutive ranks arbitrarily. For word types of high rank and low frequency, an alternate form of Zipf’s law K the differential form K is more appropriate: W (k) Z B / k2
(2)
Here W (k) is the number of word types occurring k times in a linguistic text. B is a constant determined by the size of the text. It should be noted however that significant deviations occur from equations (1) and (2) at the low and high ends of the independent variable (r or k). The robustness of the law is attested by the fact that it is invariant with respect to age (from Shakespeare to modern times), size (short story to complete works) and even the precise definition of word type (root word, inflected forms). Further children’s speech and schizophrenic speech also obey the same law (Zipf 1949). Dictionary words too conform to a similar law: the number of words in a dictionary, U (m), with m different meanings is BmK2 similar to equation (2) (Crystal 1987). The Power law distribution function F (x) Z AxKγ
(3)
is very common in natural and behavioral sciences. The power law index γz 2.0 as in the case of Zipf’s law (equation 2). There are at least three well known such laws which pre-date Zipf’s: (1) number of scientists S (n) producing n articles (Lotka 1926, 317) in informetrics (2) number of genera G (s) with s species (Willis 1922) in evolutionary biology and (3) the number of wealthy persons N (m), with income m (Pareto 1897) in econometrics. All are similar to equation (3) with γ z 2.0. We mention other power laws later in the article. 3.1. Data on word frequencies For a proper appreciation of the validity and significance of Zipf’s law, we present actual data on word occurrence frequencies for some language discourses. In Table 50.1a, the number of different word types W (k) occurring k times in a text are given for 1 % k % km. The texts are (1) complete works of Shakespeare (2) nouns in Shakespeare (‘As you like it’) (3) American News-
paper English (4) four plays in Latin by Plautus (5) short story in Russian by Puškin and (6) colloquial Chinese (Beijing dialect). The total number of word types (V) and word tokens (N) in the text are given in the last two rows. For all texts except (1) full data is given; for (1) the cut-off frequency is k Z 100. It is clear from the data that there are two domains which need to be treated separately for statistical analysis: (I) for 1 % k ! k0, W (k) O 1 in general and (II) for k0 % k % km, W (k) Z 0 or 1. Whereas all k values are represented in I, only some k values appear in II [for others W (k) Z 0]. k0, varies for different texts, e. g. for American Newspaper English k0 z 54. In domain II [W (k) Z 1], words can be assigned ranks uniquely: the most frequently occurring word (k Z km) has rank 1. So rank frequency distribution (equation 1) is appropriate for this domain. In contrast, in domain I where W (k) O 1 K and is large, especially for low k-rank assignments are arbitrary and a frequency distribution W (k) vs. k (equation 2) is more suitable. Note the difference in value of the index in equations (1) and (2). The plots W (k) vs. k (for suitably chosen k0’s) for ten discourses, including the six of Table 50.1a, are shown in Figure 50.1. The k-axis and the W (k)-axis are in a logarithmic scale; so a pure power law of the form W (k) Z B kKγ, will appear as a straight line with slope Kγ. The data points fall nearly on straight lines with clear deviations for small k (! 5). For large k, data are grouped such that each bin (an interval in k) has appreciable frequency (O 5), as required for a statistical test of goodness of fit. The slope γ is nearly 2.0, the canonical index of Zipf’s law. 3.2. Modified power law The deviations from a pure power law for low k can be well represented by a Modified Power Law (MPL): W (k) Z B eKµ / k kKγ
(4)
When µ O0, the exponential term leads to frequencies less than those corresponding to a pure power law. The shape of the plot is determined by γ and µ. B is a normalization constant depending on the number of word tokens (N) in the text. In Table 50.2, the relevant data and the best fit parameters µ, γ to the data are given (Naranan/Balasubrah-
719
50. Power laws in statistical linguistics and related systems Table 50.1a: Word Frequency Distributions for Six Discourses [W (k) vs k] k
W (k)
k
SHK SHK ELD (COMP) (NOUNS) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
14376 4343 2292 1463 1043 837 638 519 430 364 305 259 242 223 187 181 179 130 127 128 104 105 99 112 93 74 83 76 72 63 73 47 56 59 53 45 34 49 45 52 49 41 30 35 37 21 41 30 28 19
729 214 100 46 27 25 17 13 4 3 14 7 4 4 1 2 4 2 2 1 1
V N
31534 884647
1241 3609
2 2 1 1 1 2 1 1 1 1
2976 1079 516 294 212 151 105 84 86 45 40 37 25 28 26 17 18 10 15 16 13 11 6 8 6 10 9 6 5 4 6 4 6 2 5 3 2
1 1
2 4 1 7 1 4 1 2 5 1 3 3
2 1
LAT 5429 1198 492 299 161 126 87 69 54 43 44 36 33 31 13 25 21 21 11 15 10 8 8 9 11 7 9 12 4 4 8 3 4 6 3 5 7 2 4 3 3 4 1 1 1 3 1 1 2
RUS 2384 847 433 238 146 114 82 79 41 39 34 33 20 22 12 17 20 6 7 13 10 7 7 3 5 6 3 6 5 10 8 9 5 1 7 4 4 6
CHI
W (k) SHK SHK ELD LAT RUS CHI (COMP) (NOUNS)
2046 494 216 100 99 66 41 25 30 20 25 22 10 14 13 10 10 6 5 5 4 2 5 3 4 4 6 6 2 1 1 1 1 1
5 4 2 2 3 1 2 1
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
25 19 28 27 31 19 19 22 23 14 30 19 21 18 15 10 15 14 11 16 13 12 10 16 18 11 8 15 12 7 13 12 11 8 10 11 7 12 9 8 4 7 6 7 10 10 15 7 7 5
1 3 1
2 1
1 1 1
4 1 1 2
2
1
1
2 1 1 1
3
2 1
1 1 1
1 1 1 1
6001 8437 4783 3342 43989 33094 28591 13248
V Z Total # of word types N Z Total # of word types
SHK (COMP): W (k O 100) Z 846 ELD: W (60 ! k ! 4291) Z 71 RUS: W (k O 40) Z 85
SHK (NOUNS): W (113) Z 1 LAT: W (61 ! k ! 515) Z 71 CHI: W (83 ! k ! 906) Z 14
References: SHK (complete): Efron/Thisted (1976, 435); SHK (Nouns in ‘As You Like it’): Benett (1969, 29); Eldridge (1911); Latin & Chinese (Zipf, 1935); Russian (Herdan 1958a)
720 (a)
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws (b)
1E4
1000
100
100
W (k)
W (k)
1000
1E4
10
10
1
1
2E–1
2E–1 1
10
1
100
10
k
100
k
(d)
(c) 1E5
1000
100 1E4
10
W (k)
W (k)
1000
1
100 0.1
10 0.01
1
0.001 1
10
k
100
10
100
1000
10000
k
Fig. 50.1: Word frequency distribution of C-words for ten texts. W (k) is the number of word types occuring exactly k times. (a) ▲ Eldridge, O Macaulay, As You Like It, , Julius Caesar. (b) C Latin, ■ Chinese, O Shakespeare. (c) ▲ Joyce, O Russian. (d) The Indus Text (Table 50.1b). Figure reproduced from Naranan/ Balasubrahmanyan (1992b), Current Science, 63, 297K306.
721
50. Power laws in statistical linguistics and related systems Table 50.1b: Symbol Frequency Distribution for Indus Script [W (k) vs k] k
W (k)
k
W (k)
k
W (k)
k
W (k)
k
W (k)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
112 47 21 26 14 9 14 15 6 4 11 2 11 5 4 2 2 1 2 2
21 22 23 24 25 26 27 29 30 32 33 35 38 41 42 43 44 48 49 50
4 5 1 2 1 4 3 3 1 1 1 5 3 1 1 1 1 1 1 2
51 53 54 57 58 59 60 61 63 64 69 70 73 76 78 80 88 89 90 91
2 2 2 1 1 1 1 1 2 1 1 3 2 1 1 1 2 1 1 2
92 93 99 102 105 118 126 130 132 134 136 149 151 168 170 177 188 193 195 207
1 1 1 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1
212 216 227 236 240 279 314 323 355 365 376 381 649 1395
1 1 1 1 1 1 1 1 1 1 1 1 1 1
V Z # of symbol types Z 417 N Z # of symbol tokens Z 13372
manyan 1992b, 297; Balasubrahmanyan/Naranan 1996, 177). For most texts γ z 2.0 and slightly in excess of 2.0 with error of z 0.05. The modifying parameter µ is confined to 0 ! µ ! 1.3. with varying errors (! 0.2). This implies that all the plots are nearly parallel straight lines of slope z K2.0 with some deviations for k ! 5. The ‘chi-squared’ χ 2 is a measure of goodness of fit of the MPL function to data relative to the number of degrees of freedom ndf. In all cases the χ 2 values are acceptable; in other words the hypothesis of MPL as a representation of word frequencies cannot be rejected. Thus, Zipf’s law with γ z 2.0 is a “language universal” with few exceptions if any. Consequently, word frequency analysis cannot distinguish different texts across language, author, style, genre, etc. ‘Complete works of Shakespeare’ however, seems to be an exception (γ Z 1.6 G 0.01, µ Z 0). This is especially interesting since the nouns in Shakespeare’s plays (# 2, 7 in Table 50.2) have γ Z 2.35 G 0.09 and γ Z 2.32 G 0.24. Shakespeare’s uniqueness in the literary world seems to be reflected somehow in the uncommon index γ Z 1.6. This fact has been exploited to establish whether a newly discovered poem is by Shakespeare or not (Thisted/Efron 1987, 445). The poem is consistent with Shakespeare’s authorship.
The second exception is the ‘Indus Text’ (# 10 in Table 50.2) with γ Z 1.36 G 0.06. The Indus Text belongs to the age of the Indus Valley Civilization (c 2300K1750 BC). The writings on seals have 417 different signs (V) in 13.372 occurrences (N). (Mahadevan 1977). The meaning, significance and the system of writing are controversial in spite of 70 years of intense research effort. The origin of the script too is obscure. What can we learn from the frequency distribution of the signs? In an effort to study symbol frequency distributions at various hierarchical levels of language, Naranan/ Balasubrahmanyan (1992b, 297) investigated the frequency distribution of English di-grams (two letter combinations such as ‘th’ ‘sh’ ‘af’ ‘ht’ ...). From the data of Gaines (1956) V Z 422, N Z 8249, γ Z 1.35 G 0.07, µ Z 1.70 G 0.29 with χ2 Z 24.9 for ndf Z 16. It is interesting that these parameters, especially γ, are very similar to those for the Indus Text (for details see Naranan/Balasubrahmanyan 1992b, 297; Balasubrahmanyan/Naranan 1996, 177). This suggests that most of the signs in the Indus Text could be compound symbols as proposed by Mahadevan (1977). There is also a general consensus among experts that the writing system “is based on syllables or
722
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Table 50.2: MPL Parameters for ten Discourses #
Text
ko
V
N
Mu
1 2 3 4 5 6 7 8 9 10
Shakespeare (Tot) Shk Nouns (AYLI) American Newspaper Latin Russian Chinese Shk Nouns (JC) Macaulay Nouns Joyce (Ulysses) Indus Text
100 59 60 61 40 101 49 89 50 381
30688 1239 5930 8366 4698 3330 964 2047 27722 415
194667 3421 20734 22931 15611 10654 2849 7790 71397 11328
0.02 1.03 1.30 0 1.13 0.17 1.20 1.23 0.29 0.44
(0.03) (0.22) (0.09) (0.1) (0.11) (0.13) (0.24) (0.15) (0.05) (0.24)
Gamma
Chi-sqd
n df
1.60 2.35 2.24 2.01 2.17 2.02 2.32 2.15 1.95 1.36
39,2 3,5 16,6 16,9 28,6 24,3 11,6 16,2 56,4 16,8
33 8 22 22 19 19 8 17 21 15
(0.01) (0.09) (0.04) (0.04) (0.04) (0.05) (0.24) (0.06) (0.02) (0.06)
Texts # 1K6 are as in Table 1. References for # 7K10 are: # 7: Nouns in Shakespeare play Julius Caesar (Bennett, 1969, 29); # 8: Nouns in Macaulay’s Essay on Bacon (Yule, 1944) # 9: James Joyce’s novel ‘Ulysses’ (Zipf, 1949) and # 10: The Indus Text (Mahadevan, 1977) ko Z the maximum frequency of occurrence of word used for plots in Fig. 1. V Z # of word types, N Z # of word tokens Mu and Gamma are the best MPL parameters with errors in parantheses Chi-sqd is a measure of goodness of fit and n df the number of degrees of freedom
something akin to them and is neither alphabetic nor logographic”. We present the raw data of the Indus text symbol frequencies on which the above conclusions are based, in Table 50.1b. It is to be emphasized that the MPL function (equation 4) is not conceived just for curve fitting but is based on Information theory and some concepts from statistical physics and computer science. The model is described in sec 5.2.
lonkar et al. (1962). The occurrence frequency p is plotted against rank r in Figure 50.2. The number of symbols (V) and the size of text (number of symbol tokens N) are given in columns 4 and 3 of Table 50.3. It is found that p (r) vs. r in Fig. 50.2 does not conform to Zipf’s law (equation 1). Further, even an MPL type function (equation 4) is inadequate to represent the word frequencies. A slightly modified version of MPL was found to fit the data satisfactorily. V
4.
Phonemes and letter frequencies
So far we have examined occurrence frequencies of words (spoken or written), which are the most numerous, diverse, and richest category of symbols in all languages. At a lower level, the symbols of language are the letters of the alphabet in written form and the phonemes in spoken form. Phoneme is a speech sound, the smallest unit of speech that distinguishes different utterances in a language. Letters and phonemes constitute small invariant sets of size 20 to 40. For example, the English language has 26 letters and about 32 phonemes. Naranan/Balasubrahmanyan (1993, 788) have studied phoneme frequencies in six Indian languages and letter and phoneme frequencies in English (see also Balasubrahmanyan/Naranan 1996, 177). Because of the small set of symbols, rank frequencies are suitable for analysis (domain II, sec 3.1). The data are from Ramakrishna/Nair/Chip-
p (r) Z ∑ D eKν / i iKδ
(5)
iZr
D, ν, δ are constants. p (r), r Z 1, 2 ... V are the frequencies of the V symbols. p (r) the frequency of the phoneme of rank r is a sum of MPL like terms with the constants D, ν, δ similar to B, µ, γ of equation (4). Hence equation (5) is called the Cumulative Modified Power Law (CMPL). The best fit parameters ν, δ are given in Table 50.3 and the corresponding CMPL functions are drawn in Figure 50.2. The errors in ν, δ are typically ! 0.1. The goodness of fit is given by the Kolmogorov test (Keeping 1962). Ks is the Kolmogorov statistic; a value ! 1.63 is considered a strong basis for not rejecting the hypothesis. So, the hypothesis of CMPL as a good representation of phoneme frequencies cannot be rejected. Good (1969, 567) finds that rank frequencies for English letters and phonemes (Table 50.3, # 9, # 1) closely approximate to a rank distribution derived by Whitworth (1901).
723
50. Power laws in statistical linguistics and related systems 0
10
20
30
(a)
0
10
0
10
(b) 1000
20
30
20
30
20
30
1000
100 100
Pob
Pob
10 10
1
1 0
10
20
30
r
r
0
(c)
10
20
0
30
10
(d) 1000
1000
100
100
Pob
Pob
10
10
1 0
10
20
1 30
0
r
10
20
30
r
Fig. 50.2aKd: Rank frequency distribution of phonemes in seven languages and of letters in English. Figures (a)K(h) are for phonemes, and Figure (i) for English letters: (a) and (b) English (c) Hindi (d) Telugu (e) Tamil (f) Kannada (g) Malayalam and (h) Marathi. (see sec 4.0 and Table 50.3). Figure reproduced from Naranan/Balasubrahmanyan (1993), Journal of Scientific and Industrial Research, 52, 728K738.
The CMPL parameters ν, δ are spread over a wide range unlike the µ, γ parameters of MPL. Further there is a remarkable linear relation between ν and δ. ν Z a C b (δ K 1)
(6)
where a Z K0.80 G 0.30 and b Z 5.71 G 0.56. An interpretation of this result is given in sec 5.3. This difference between the behavior of MPL and CMPL parameters is important for quantitative linguistics. Phoneme frequencies characterized by ν, δ may show
724
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws 0
10
20
30
(e)
0
10
20
30
0
10
20
30
20
30
20
30
(f)
1000
1000
100
100
Pob
Pob
10
10
1
1 0
10
20
30
r 0
(g)
10
r 20
30
(h)
1000
1000
100
100
Pob
0
10
0
10
Pob
10
10
1
1 0
20
10
30
r
r
Fig. 50.2eKh.
diversity not only across languages, but also across other variables such as author, style, type of literature, etc. in each language. Tuldava (1995) has studied phoneme rank frequencies in the Estonian language. He found that exponential and logarithmic functions of the form 2
p (r) Z A eKb r K c r
(7a)
p (r) Z A K b ln (r C c)
(7b)
can be fit to the data reasonably well. A variant of equation (1) p (r) Z A (r C r0)KB
(8)
known as the Zipf-Mandelbrot law (Mandelbrot 1953) has been considered for phoneme frequencies by Zörnig and Altmann (1984, 41). See Tuldava for further references to rank frequency studies of phonemes.
725
50. Power laws in statistical linguistics and related systems (i)
0
10
20
30
20
30
[W (k) Z 1] is dominated by grammatical or function words (such as the, an, of, it, a, etc.) which are articles, prepositions and conjunctions. In contrast, almost all “content words”, such as nouns, verbs, adjectives, and adverbs are to be found in domain I [W (k) O 1]. Since the classification of words into parts of speech tends to be somewhat fuzzy, it is desirable to distinguish words by the role they play; consequently grammatical words are labeled as service words or S-words and the lexical words as content words or C-words. Broadly speaking C-words relate to the vocabulary of a language and S-words to its structure (grammar). S-words form a limited invariant set that has remained constant in time. For example in English there are 71 Swords which have remained the same in the last few hundred years. Most S-words have no gender, number, tense, etc. C-words form a variable unbounded set, ever growing in time. Further, in any chosen book for example, the number of C-words will depend on the sample size of the text, whereas the number of S-words will be independent of sample size. The set of S-words is therefore similar to the set of letters of the alphabet or the set of phonemes. Frequencies of 71 S-words in three different English texts are given in Balasubrahmanyan/Naranan (1996, 177). The texts are (1) complete works of Shakespeare (1564K 1616) (2) Sir Arthur Conan Doyle’s entire Sherlock Holmes collection (1859K1930) and (3) Dewey (1923). The ranked frequencies of S-words conform to the CMPL function (equation 5) with (ν, δ) parameters
1000
100
Pob
10
1 0
10
r
Fig. 50.2i.
As we shall see in sec. 5.3, the CMPL for phonemes is an extension of MPL for word frequencies; both are derived from the same model based on information theory and statistical mechanics. 4.1. S-word (function word) frequencies Generally speaking, one ignores the actual words themselves in studies of word frequencies. Balasubrahmanyan/Naranan (1996, 177) examined the words listed by Dewey (1923) along with their frequencies and noted a remarkable fact. The domain II
Table 50.3: CMPL Parameters for seven Languages #
Language
N
V
Nu
Delta
Ks
1 2 3 4 5 6 7 8 9
English* English Hindi Telugu Tamil** Kannada** Malayalam** Marathi** English letters*
2000 8516 9284 9330 7808 7480 7444 7461 4500
32 31 30 31 24 30 31 29 26
K0,41 1,74 K3,37 K2,53 2,6 1,28 3,88 K4,64 1,09
0,83 1,01 0,42 0,55 1,27 0,94 1,65 K0,14 1,15
0,53 1,37 0,72 1,18 1,48 1,06 0,98 0,97 1,06
* Data from Good (1969, 567). Other data from Ramakrishna et al. (1962) N Z # of symbol tokens, V Z # of symbol types Nu, Delta are the best CMPL parameters to rank frequencies Ks Z Kolgomorov statistic ** Best parameters Nu, Delta obtained excluding p (1) the highest ranking phoneme
726
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
(4.31, 2.13), (0.88, 1.72), and (1.20, 1.92) for Shakespeare, Doyle, and Dewey respectively. Note the ν value for Shakespeare is very significantly different from those for Doyle and Dewey. We have already noted the unique γ value (1.6) for the C-words of Shakespeare (sec 3.2). So, Shakespeare is ‘different’ from others in the use of C-words as well as S-words. Just like phonemes, the S-words too can perhaps be used to distinguish different texts. We now describe an attempt by Mosteller and Wallace (1984) to use S-word frequencies to decide disputed authorship. In 1787K1788, Alexander Hamilton and James Madison wrote 77 essays (Federalist papers). Of these 51 were by Hamilton, 14 by Madison; for 12 author was unknown. Mosteller and Wallace studied the frequency of 70 function words in the essays. They favored Madison as the author. Recently a sophisticated linear programming technique has been used by Bosch and Smith (1998, 601) in an attempt to settle the authorship. Using an enlarged sample of 56 texts by Hamilton and 50 texts by Madison, each text was represented as a point in 70 dimensional space. They attempted to find the best hyperplane that would divide the Hamilton (56) and Madison (50) points in that space. The 12 points corresponding to the disputed texts can then be examined to see if they belong either to the ‘Hamilton’ or ‘Madison’ side of the hyperplane. The problem turns out to be ill-posed if the number of points is comparable to the number of dimensions, as in the present case. By progressively reducing the number of function words as identifiers in a systematic manner, the authors claim that the disputed essays can be attributed to Madison, in agreement with the conclusion of Mosteller and Wallace.
5.
Models for word frequencies
The models for deducing Zipf’s law (equations 1,2) and its variants (equations 4,5) are of two types: stochastic models and models based on information theory (Shannon/ Weaver 1949). The stochastic models invoke BernoulliMarkov processes to generate random texts, which are strings of symbols. Usually the symbols are the letters of an alphabet and ‘space’ (M symbols); pseudo-words are the strings occurring between two consecutive
space symbols. The probability of occurrence of a symbol is assumed the same for all symbols. When pseudo-words are ranked by their occurrence frequency, they follow the Zipf-Mandelbrot law (Mandelbrot 1955, 205; Miller 1957, 70; Nicolis/Nicolis/Nicolis 1989, 915; Li 1992, 1842). This has been demonstrated by statistical theory as well as computer simulations of random texts. Refinements of the random process by including unequal symbol probabilities and limiting the pseudo-word length to a maximum value actually improve the agreement between rank frequency distributions observed for random texts and natural languages. As a consequence, it is claimed that Zipf’s law is “linguistically shallow” (Mandelbrot 1977). The above assessment is unfair for several reasons. The random texts generated by “monkey at the typewriter” K the “monkey languages” K are very different from natural languages. In monkey languages, all combinations of m letters give “words” of length m and word frequencies decrease exponentially with m. This is not true in natural languages. It is well known that word length distribution in natural languages is not exponential but lognormal (Dolby 1971, 136; Naranan/Balasubrahmanyan 1992b, 297). Further, the structure and evolution of languages are not governed by the letters of the alphabet which are the primary symbols in random texts (Tsonis/Shultz/Tsonis 1997, 12). A version of the random text model generates a lognormal distribution of string frequencies and it is claimed that word frequencies in natural languages too have such a lognormal structure with an inverse power law tail (Perline, 1996, 226). This claim is not borne out for natural languages as pointed out by Troll and Graben (1998, 1347). The fact that rank frequencies in monkey languages also exhibit a power law relation like Zipf’s (equation 1) follows simply from two consequences of random text models: (1) a pseudo-word of length m has rank r r f M m Z e m ln M
(9a)
and (2) the frequency of occurrence of r th rank word p (r) is given by p (r) f eKβ m
(9b)
(β a constant). Together they yield p (r) f rKB (B a constant). The exponential word length distribution is transformed into Zipf’s
727
50. Power laws in statistical linguistics and related systems
law by transforming word length to rank as the independent variable (Li 1992, 1842). This clearly does not work for natural languages since the word length distribution is not exponential but lognormal. We have noted that the second version of Zipf’s law (equation 2) is the appropriate one for low frequency, high ranking words, which belong to domain I. The data presented in Figure 50.1 and Table 50.1a for selected texts belong to this domain, where rank is not the independent variable. Comparison with monkey languages in this domain is therefore not appropriate. A model of evolution of text considered as a string of words, partly stochastic in nature, was proposed by Simon (1955) to deduce Zipf’s law. Two main premises of the model are: (1) when an evolving text has reached a length of n words, the probability that the next word [(n C 1)th word] is a word that has occurred already i times is proportional to i p (i, n) where p (i, n) is the number of different words that have occurred i times. (2) the probability that the (n C 1)th word is a new word K one that has not occurred in the first n words K is a constant α. This is the first model that used words as primary symbols instead of letters. 5.1. Models based on information theory Shannon’s “mathematical theory of communication” (Shannon/Weaver 1949) deals with efficient coding of a message for transmission. A message is a string of symbols belonging to an alphabet. One of the earliest applications of the theory was to linguistics. For an elementary introduction relevant to linguistics see Naranan/Balasubrahmanyan (1992a, 261; cf. art. No. 61) and the references therein. Shannon quantified the ‘information’ content of a message as a measure of ‘uncertainty’ of the message for a recipient, which is removed only on the actual receipt of the message. This information depends only on the probabilities of occurrence of V different symbols in a string of N symbol tokens: Pi (i Z 1, 2 ... V), Pi O 0, Σ Pi Z 1. Shannon defined a mathematical function Hs as a measure of ‘information’ or ‘uncertainty’ that would satisfy some intuitive properties the measure should possess. V
Hs Z K ∑ Pi lg Pi iZ1
(10)
Here, ‘lg’ is the ‘logarithm to base 2’. This function is similar to Boltzmann ‘entropy’ in statistical thermodynamics, a measure of disorder in a physical system. Hs is therefore called the Shannon entropy. Hs is relevant for the practical task of communication, since it also represents the minimum average number of bits (binary digits 0,1) per symbol necessary to encode the message for transmission. Shannon coding exploits the fact that symbols occurring with high frequency (high Pi) can be assigned shorter binary codes than those of low Pi. An important condition such codes should satisfy is that the code be a prefix code or uniquely decipherable. In other words, if two symbols A1 and A2 are assigned codes of length L1 and L2 (L2 O L1), the code for A1 will not be the same as the first L1 bits of the code for A2. Given the probabilities Pi (i Z 1, 2 ... V), the optimum assignment of code lengths to the V symbols in a prefix code, to minimize the average code length, can be obtained by an elegant algorithm due to Huffman (1952, 1698). In applying Shannon’s theory to natural languages, there are two factors to be considered. (1) Shannon entropy Hs depends only on symbol probabilities (Pi’s) and not on the sequence in which the symbols occur. In real texts the sequence of symbols is important and determines the ‘meaning’ of the message. (2) Every string of N symbols occurs with the same probability, which is not the case for natural languages constrained by syntactic and semantic rules. Optimal coding will depend not only on the symbol probabilities, but also on the particular sequence of symbols. As extreme examples, consider two binary strings of length 100 bits: S1: 1010101010101010101010 ........ S2: 0110101100101010010011 ........ S1, being regular, can be coded as a simple computer program ‘print 10 fifty times’. In contrast, S2 has to be printed bit by bit. The ‘complexity’ of a string can be considered as the length of the shortest computer program that prints the string. It is maximum for a totally random string. This is called Kolmogorov complexity (or entropy) or algorithmic complexity (Kolmogorov 1965, 3; Chaitin 1987). For efficient coding of individual discourses, Kolmogorov entropy or algorithmic coding is preferable.
728
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
The first application of Shannon’s Information theory to deduce Zipf’s law was by Mandelbrot (1953, 486). To derive equation (9b), the exponential distribution of word lengths, Mandelbrot used Shannon information (equation 10). For a given value of average word length, Hs is maximum only when equation (9b) is satisfied. Later it was realized that Information Theory can be dispensed with and a pure Markov random text model is enough (Miller 1957, 311). 5.2. Modified power law (MPL) The following outline of the model for MPL (equation 5) concerns domain I with W (k) O1, which contains almost exclusively Cwords (Naranan/Balasubrahmanyan 1992a, 261; Balasubrahmanyan/Naranan 2000, 153). Consider a discourse of N word tokens and V word types. Let W (k) be the number of ‘k-words’, or words occurring k times (k Z 1, 2 .... k0).
∑ W (k) Z V ∑ n (k) Z N n (k) Z k W (k)
(15)
Comparing equation (15) with equation (13) Had Z lg N K Hs
(16)
(12)
(11a)
∑ n (k) / k Z V ∑ n (k) Z N (1 / N) ∑ n (k) lg k Z Had
(12a)
(13)
(2) Hd: Naranan/Balasubrahmanyan (1992a) introduced an entropy called degenerate entropy Hd: Here all the k-words [W (k) of them] are considered indistinguishable; i. e. all the n (k)! different permutations of k-word tokens do not alter the complexion of the string. Then equation (12) gives the fundamental partition of N into n (k)’s and
∑ n (k) lg n (k)
∑ n (k) lg k
(11)
(1) Hs: This is the conventional Shannon entropy. Here the k! permutations of a k-word leave the complexion unchanged.
Hd Z lg N K (1 / N)
Had Z (1 / N)
In general Had ! Hs, so coding a degenerate discourse requires fewer bits than coding the actual discourse. Collecting the relevant expressions related to n (k)
Summation is over k Z 1, 2 .... k0 in all the equations above and the ones to follow. The Shannon entropy of a string of N symbols is the logarithm to base 2 (‘lg’) of the number of different ‘complexions’ of the string. This prescription is known to be equivalent to equation (10). Two different entropies are defined as follows.
Hs Z lg N K (1 / N) ∑ n (k) lg k
is irrelevant, i. e. W (k) words are all equivalent in a degenerate discourse. W (k) is readily obtained from n (k) as n (k) / k. Hd is the information content of a degenerate discourse. Now we turn to algorithmic coding of a degenerate discourse. The coding scheme would require coding of word tokens in sequence (lexicographic order). A word token is uniquely identified by its k value. To code the number k, lg k bits are needed. Since there are n (k) Z k W (k) k-word tokens, the average number of bits per symbol required for the entire discourse
(14)
The significance of Hd is the following: for classifying and counting words with the only purpose of obtaining a frequency distribution n (k), the actual identity of the k-words
(12) (15)
and lg N K ∑ n (k) lg n (k) Z Hd
(14)
An extremum principle, similar to those used in physical sciences is invoked. A desired parameter is optimal, i. e. attains a maximum/minimum value, while some related parameters are constrained to have certain given values. Here it is hypothesized that the optimum n (k) is the one that maximizes Hd for given values of N, V and Had. N and V can be viewed as natural boundary conditions, whereas Had is dictated by the algorithmic coding in the spirit of Kolmogorov. Using the method of undetermined Lagrange multipliers, the optimum distribution is n (k) Z BeKµ / k kK(γK1)
(17)
B, µ, γ are constants arising from the three constrained quantities N, V and Had respectively. To obtain W (k), we simply divide n (k) by k W (k) Z BeKµ / k kKγ
(4)
which is the MPL. While γ can take any value (including negative values), it is z 2.0 for most texts with some notable exceptions
729
50. Power laws in statistical linguistics and related systems
(sec 3.2). µ O 0 implies a decrease in W (k) for small k compared to a pure power law (kKγ) and this is attributed to the constraint on the size of the vocabulary V. 5.3. The cumulative modified power law (CMPL) When the number of different symbols (n) is a small set, e. g. the letters of an alphabet, phonemes, or S-words, each symbol usually has a different frequency of occurrence. As described in section 3.1, ranked frequencies of symbols are most suited (domain II): p (r), r Z 1, 2 .... V. Note that p represents symbol frequency instead of k; p (1) Z km, the maximum symbol frequency. To extend the model for MPL (sec 5.2) to the domain W (k) Z 1, a simple change of variable p is suggested (Naranan/Balasubrahmanyan 1993, 728). Instead of the frequencies (p’s) one considers the intervals (d’s) between neighboring frequencies. d (i) Z p (i) K p (i C 1), i Z 1, 2, ..., n K 1 d (i) Z p (n),
(18)
iZn
The rank frequencies in terms of d’s are n
p (r) Z ∑d (i)
(19)
iZr
The total number of symbol tokens N is n
n
n
iZ1
iZ1
iZ1
N Z ∑ p (i) Z ∑ i d (i) Z ∑ m (i)
(20)
N is partitioned in terms of m (i)’s where m (i) Z i d (i) I Z 1, 2 ... n
(21)
Further
∑ d (i) Z p (l)
or
∑ m (i) / i Z p (l)
(22)
Comparing equations (20) and (22) with equations (12) and (11a), the following correspondence is noted i 4 k d (i) 4 W (k) m (i) 4 n (k) p (1) 4 V N 4 N Following the steps similar to those outlined in sec 5.2, one obtains the analog of equation (4) for optimum d (i) as d (i) Z D eKv / i iKδ
(23)
for the frequency intervals. Using equation (19) V
p (r) Z ∑D eKν / i iKδ iZr
(5)
which is the CMPL (sec 4.0). For details see Balasubrahmanyan/Naranan (2000, 153). Parameter ν is determined by the maximum frequency p (1) which is a given constraint. So, equation (5) effectively gives p (r)’s relative to p (1). Equation (5) is shown to represent phoneme, letter and S-word frequencies adequately (sec 4.0). As noted, a remarkable feature of (ν, δ) parameters is the diversity in their range and the linear relation ν Z a C b (δ K 1)
(6)
Recently, the CMPL has been used in a study of DNA sequences in cell biology, the ‘language of life’ (Naranan/Balasubrahmanyan 2000, 129; Balasubrahmanyan/Naranan 2000, 153). The DNA molecule is the carrier of genes which encode information about proteins that are vital for life. DNA sequences are strings of four types of bases (A, G, C, T) and a triplet of bases is a codon that codes for a specific amino acid. Proteins are polymers of 20 different amino acids. 64 possible triplet codons in the DNA encode for 20 amino acids and a ‘stop’ symbol for termination of the protein chain. The set of codons (n Z 64) translates to a set of amino acids and ‘stop’ (n Z 21). Codon rank frequencies in the genes of 20 different species have been well fit to CMPL. Just as in language texts, in DNA sequences too (ν, δ) span a wide range of values and follow equation (6). The parameter a is small and consistent with being nearly 0. Then b z ν / (δ K 1), a constant. It can be shown that m (i) Z i d (i) has an extremum at i Z im Z ν / (δ K 1), [δ s 1, ν s 0]. This implies that m (i) has a constant minimum/maximum value at i Z im Z b. It follows that the CMPL function has only one essential variable parameter δ. For phonemes in six languages, im [Z ν / (δ K 1)] is consistent with being a constant 5.71 G 0.56. When δ z 1 and/or ν z 0, im has large errors. For S-word frequencies of three texts, the im values are 1.31 for Dewey, 1.22 for Doyle, but 3.81 for Shakespeare, a value distinctly different from the other two (sec 4.0, 4.1). A distinctive characteristic of DNA codon rank frequencies is that for nearly half the species studied δ ! 0. The Whitworth’s distribution referred to in sec 4.0 was derived nearly a century ago for bits of strings obtained from random breaking up of a string of unit length into parts and arranging them in decreasing or-
730
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
der of length. It is interesting that Whitworth distribution is a CMPL (equation 5) with ν Z 0 and δ Z 1. Most of the phoneme data in Table 3 do not conform to these values.
6.
Other power law and related distributions
Language texts are structured in hierarchical levels. At the lowest level are the letters of an alphabet; successive agglomerations lead to higher levels such as syllables, words, phrases, clauses, sentences, etc. This buildup of symbols with meaning continues to paragraphs, chapters, etc. into coherent structures. At each level, the text is a string of symbols, which are themselves strings of the lower level. String length distributions are found to have striking statistical regularities at all levels. For example, the number of words in a sentence, the number of letters in a word, etc. closely conform to a lognormal distribution (Dolby 1971, 136). A variable x is lognormally distributed if z Z ln x, (x O 0) is a Gaussian or normal variable. The probability density function d Λ (x) is (1 / σ O2π) xK1 exp [K(ln x K µ)2 / 2 σ 2] d x (Aitchison/Brown 1957). µ and σ are the mean and standard deviation of z. According to Dolby µ and σ have numerically similar values at each level. Naranan/Balasubrahmanyan (1992b, 297) have given data on some string length distributions, e. g. the number of letters in a word (English, Tamil), number of syllables in a word (German), and number of words in a sentence (English, Tamil). Kaeding’s data on the distribution of the number of syllables in German words quoted by Zipf (1935) is especially impressive. Based on about 20 million syllables in a discourse of 10,910,777 words, the lognormal parameters are µ Z 0.54, σ Z 0.48. Usually the lognormal distribution is used for a continuous variable, but a discrete version proposed by J. L. Williams has been very successful in many applications (Aitchison/Brown 1957). Recently some other discrete probability distributions have emerged as good candidates for string length distributions (e. g. Best/Altmann 1996, 85). A monumental compilation (Thesaurus) of discrete distributions with extensive bibliography has been made by Wim-
mer and Altmann (1999). The Zipf-Alekseev distribution (p. 665) in the Thesaurus is a discrete lognormal distribution (Alekseev 1978, 53). 6.1. The Menzerath-Altmann law In the hierarchical structure of language there is an inverse relation between string lengths measured in two successive levels. It is quantified by the Menzerath-Altmann law (Menzerath 1954; Altmann 1980, 1), which is a power law y Z ax b, b ! 0
(24)
It is illustrated by an example: x is the length of a sentence (measured as number of clauses); y is the average clause length (measured as number of words) averaged over all sentences of length x. a and b are constants (Teupenhayn/Altmann 1984, 127). Yet another example of the law is in the structure of kanji (Sino-Japanese) characters. Prün (1994, 148) studied the relationship between the number of graphemes (x) in a kanji character and the average number of strokes (y) in a grapheme. x had values 1 to 6. For x Z 1, y was 5.824 and for x Z 6, y was 2.944. The dependence of y on x is given by equation (24) with a Z 5.937 and b Z K0.393. A cryptic statement of the law is “the longer a language construct, the shorter its components (constituents)” or “the greater the whole, the smaller the parts” (Altmann 1980, 1). The law has been verified at different hierarchical levels in diverse domains besides linguistics, such as biological systems (Altmann/Schwibbe 1989) and musical compositions (Boroda/Altmann 1991, 1). Köhler (1990, 1) has proposed that the law is a consequence of the self-regulating character of linguistic structures. For a lucid exposition of the Menzerath-Altmann law see Hřebíček (1995, 17). Herdan (1958b, 222) found an interesting relation between word length distribution of words in a dictionary and words in a text. Both are lognormal distributions. Herdan’s explanation invokes a power law that mediates the two: the probability of occurrence of a word of length m in a text, p (m) Z a mKt (t Z 2.4). We have already referred to the power law distribution of dictionary meanings in section 3.0. Lognormal distributions, like the power law distributions arise very frequently in physical, biological and behavioral sciences. Both are long-tailed distributions, applicable
731
50. Power laws in statistical linguistics and related systems
when the dynamic range of the independent variable is large. Crow and Shimuzu (1988) provide an extensive list of applications and bibliography. Under certain conditions, the tails of a lognormal distribution can mimic a power law with index 1, the so-called “1 / f noise” or “1 / f distributions” (Montroll/ Shlesinger 1982, 3380). 6.2. Theory of proportional effect A model for the lognormal distribution K the theory of proportional effect K is so general that it has wide applications. We sketch the theory below (Aitchison/Brown 1957; Naranan/Balasubrahmanyan 1992b, 297). We take a language discourse as a prototype for the model. Strings grow by accretion and agglomeration at all hierarchical levels K e. g. new words from a root word, phrases from words, sentences from phrases, etc. A string of some initial length X0 grows to Xn in n steps. At each step the increase is proportional to the “current length”. At the j th step Xj K XjK1 Z εj XjK1
(j Z 1, 2 ... n)
(25)
where εj’s are mutually independent random numbers. Summing over all the steps j Z 1 to n n
n
∑ (Xj K XjK1) / XjK1 Z jZ1 ∑ εj
(26)
jZ1
In the limit of large n xn
∫d X / X Z ln X
n K ln X0
Z ε1 C ε2 C ... εn
x0
Assuming X0 is also a random variable, ln Xn is a sum of independent random variables. By the Central Limit Theorem of Statistics, ln Xn is normally distributed (see e. g. Keeping 1962). So, Xn is a lognormal variable. It is obvious that the crucial ingredient of the model is equation (25) K the proportional effect, or random multiplicative increments of length. In contrast, random additive increments, independent of “current length” lead to a normal (Gaussian) distribution. The set of positive integers in arithmetic also harbors power law and lognormal distributions (Naranan 1992, 736). The sequence Q below has all the positive integers (except unity) replaced by its prime factors: Q: 2; 3; 2,2; 5; 2,3; 7; 2,2,2; 3,3; 2,5 .....
The number of prime numbers P (n) occurring n times in Q is given by a function similar to the MPL (equation 4). The index γ z 2 and it can be shown that it is a consequence of the Prime Number Theorem which states that the number of prime numbers % X is approximately X / ln X (cf. Schroeder 1986). Further, the number of divisors (d) of an integer is lognormally distributed with values of µ and σ very similar to those occurring in language texts. It is indeed remarkable that the ordered set of natural numbers has features in such striking resemblance to linguistic discourses.
7.
Power laws in general
The Power law as a statistical distribution is ubiquitous in all branches of science. We describe a few illustrative examples. A well known law in informetrics is Bradford’s law of ‘scatter’ of scientific articles in journals (Bradford 1948). One version of the law can be stated as follows: In the bibliography of published works in a narrow field of science in a well defined period of time, the number of journals J (p) containing p articles on the subject is a power law J (p) Z BpKγ
(27)
γ, the index, is close to 2 as in Zipf’s law. The law, like Zipf’s law, is robust and tolerant of departures in definition of subject area and time span (Naranan 1970, 631; Naranan 1989, 211). For a detailed comparison of Zipf’s and Bradford’s laws see Naranan (1992, 736) and Naranan/Balasubrahmanyan (1998, 35). Other instances of power law distributions in informetrics are given by Naranan (1971, 83). A review of statistical laws in informetrics is presented by Bookstein (1990, 368). According to a dynamic growth model proposed by Naranan (1970, 631), the index γ is determined by two time constants tp and tN γ Z 1 C (tp / tN)
(28)
tN is the e-folding time of exponential growth of number of journals and tp, the corresponding parameter for average growth of individual journals (in terms of the number of articles they carry). Lotka’s law postulates that the number of chemists S (n) publishing n articles is a power law S (n) f nKα with α z 2 (Lotka 1926, 317). In econometrics, the number of
732
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
wealthy persons N (m) with income m is a power law N (m) f mK2 (Pareto 1897). According to Willis (1922), the number of genera G (s) with s species is G (s) f sK2. In cosmic ray astrophysics, the number of primary cosmic rays N (E) with energy E is a power law N (E) z EKγ with γ z 2.0 (Fermi 1949, 1169). Distribution of population in urban areas also conforms to a Zipftype law with γ z 2.0 (Zipf 1949). All the power laws described above can be regarded as arising from “two exponential” models. It was first proposed by Willis (1922) in evolutionary biology. The power law G (s) f sK2 emerges from two exponentially growing classes: the number of genera descended from an ancestor and the number of species spawned by a genus. It can be shown that Fermi’s model for the cosmic ray spectrum and equation (28) for Bradford’s law are based on two similar exponentially varying classes. Mandelbrot’s (1953; 1966) model for Zipf’s law based on Shannon’s Information theory for random texts too is a two exponential model [sec 5, eqs. (9a), (9b), sec 5.1]. Stanley (1995, 554) has invoked a similar model in the theory of phase transitions in condensed matter physics. In the last few years, studies on the complex topologies of networks (or graphs) as diverse as the Internet (World Wide Web, WWW) and genetic networks have proliferated. In WWW for example, the vertices or nodes are HTML documents and the edges are the links between the pages. In a genetic network for example, the vertices are proteins (and their genes) while the chemical interactions between them are the edges. These networks are very large and only recently has their topology or the connectivity of the vertices been determined. Barabasi and Albert (1999, 286) have found that in the WWW, the probability P (k) that a node has k links is P (k) f kKγ, γ z 2.1 G 0.1 for 1 ! k ! 104, based on 325.729 vertices. For cellular metabolic networks of 43 organisms, they find similar power law scaling: P (k) f kK γ. For example, for E-coli γ Z 2.2 (Jeong/Tombor/Albert et al. 2000, 651). In certain networks, there are significant departures from a pure power law especially for small k. The index γ also varies for different networks. In the network of citation patterns of scientific articles, Redner (1998, 13) found the probability that an article is cited k times f kK3. For a review of
diverse complex networks see Albert/Barabasi (2002, 47). The above networks are unlike random networks in which each pair of nodes is connected randomly with a constant probability p and P (k) is a Poisson distribution with mean !kO. For k OO !kO, P (k) f eKk. Networks with nodes connected according to a power law are scale free networks having a substantial number of nodes with a large numbers of links (sec 8.0). They are the hubs of the network. Barabasi and Albert propose that the high degree of organization of such real-life networks, in contrast to random networks, results from two key ingredients: “growth and preferential attachment”. A new vertex added to an expanding network is connected to an existing vertex of connectivity k with a probability proportional to k. It is suggested that such networks are robust and relatively immune to large perturbations which are potentially catastrophic. One can clearly glean analogs between random networks and random texts (sec 5.0) and between natural (real) languages and naturally evolved networks. Self-organization is a key feature of real networks and language discourses. The model for the power law of connectivity in networks of Barabasi and Albert has some basic underlying resemblance to the two exponential models, particularly the one proposed by Naranan for Bradford’s law.
8.
Fractals, scale invariance and power laws
In almost any text book on Statistics, the power law is mentioned briefly as the Pareto distribution (Pareto 1897). Classical statistical theory is dominated by the pervasive Gaussian or normal distribution and the related family of distributions, which are mathematically tractable, with the Central Limit Theorem as a crowning achievement of the theory. A great merit of the normal distribution is that all its moments exist and are finite. In contrast, a power law function F (x) Z A xKγ (equation 3) diverges at x Z 0 and not all its moments are finite. When γ Z 2, as in many instances mentioned in this article, even the second moment (variance) does not exist. For ‘1 / ƒ distribution’, another commonly occurring distribution in nature, γ Z 1 and for this even
733
50. Power laws in statistical linguistics and related systems
the mean (first moment) does not exist. Any distribution with a finite range of the independent variable has finite moments but technically they are not acceptable if they diverge as the size is enlarged. In this connection, it is worth noting that for CMPL (equation 5), all the moments are finite and converge to limiting values as sample size increases. This is because the range of the independent variable i is always fixed (i Z 1, 2 .... V), independent of size. But power laws are real and cannot be ignored. A revival of great interest in power laws can be traced to Mandelbrot’s (1977; 1983) work on fractal structures in geometry. Fractal structures have similar patterns on all size scales. Power laws appear as a natural consequence of the principle of selfsimilarity or scale invariance. Classical geometers studied patterns which show exact self similarity and introduced the notion of fractional dimension. Geometry in nature shows statistical self-similarity. Such scale invariant structures are scale-free and underlie power law distributions. For an elementary treatment of the relationship see Naranan/ Balasubrahmanyan (1998, 35). A function F (x) is scale invariant if it remains unaltered when the variable is scaled up or down by a factor b. It is easy to see that the power law F (x) Z A xKγ
(3)
has such a property (A and γ are constants). Substituting bx for x F (bx) Z bKγ F (x)
(3a)
F (b x) and F (x) differ only by a multiplying constant bKγ that depends on the scale factor b. To allow for a wide range of scales, one can average F (b x) over all b values. If strict self-similarity is demanded K i. e. !F (b x)O Z F (x) K then the multiplying constant is 1. Then, it turns out that γ can have only two values γ Z 2 or 0. For γ Z 2, the averaging is done over all scales b O 1 and for γ Z 0, the averaging is for b ! 1. This implies there are two domains of strict self-similarity: F (x) Z A xK2 or F (x) Z A. It is a striking fact that the two domains of word frequency distributions (sec 3.1) correspond to these two functions [domain I: W (k) f k K2 and domain II: W (k) Z 1]. A more general scale invariant function S (x) can be of the form S (x) Z A (x) xKγ
(29)
a power law modulated by the function A (x), which satisfies the condition A (b x) Z A (x). A function involving trigonometric series due to Karl Weierstrass has such a property: N
A (x) Z
∑ an nZKN
exp [i. 2 π n. (ln x) / (ln b)]
(30)
Note that when x is replaced by bx, every term in the series on the right remains unchanged [since exp (2 π n i) Z 1, i Z OK1]. For the properties of the function and its relation to fractal structures, especially in physiology, see West (1990, 1629). The MPL function for word frequencies (equation 4) is not scale invariant since eKµ / k modulating the power law is not scale invariant (eKµ / k and eKµ / bk do not differ just by a constant factor). It is possible that scale invariance actually breaks down for small k (when eKµ / k is significant). Alternately it is likely a modulating function A (x) (equation 30) which can equally well account for departures from the power law for small k.
9.
Discussion and summary
Although Zipf’s law of word frequencies has been known to be a universal statistical law of quantitative linguistics for over 60 years, there is yet no full understanding of its origin. Recently doubts have been raised if the law has any linguistic relevance, because random texts generated by monkey-at-thetypewriter K the so-called monkey languages K also generate a Zipf-like distribution of pseudo-word frequencies. We have argued that Zipf’s law of natural languages cannot be explained by such models because the underlying assumptions of random text generation clearly contradict the structural properties of natural languages. A strong disagreement between natural and monkey languages is manifest in the word length distributions in the two cases: the long-tailed lognormal for natural languages and shortrange exponential for monkey languages. To reemphasize the nearly pure power law character of Zipf’s law K with some significant deviations at low occurrence frequencies of words K we have presented raw data and plots of word frequencies for diverse texts (Tables 50.1a, 50.1b, 50.2, Fig. 50.1). A function called the Modified Power Law (MPL) represents the observed de-
734
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
viations adequately. This function is not arbitrary but is derived from a model that draws upon Information Theory, statistical physics and extremum principles. A comprehensive treatise on statistical techniques and relevant theoretical background suitable for word frequency distributions by Baayen (2001) contains distributions from a large variety of texts and software with programs for analyzing them (cf. art. No. 30). For statistical analysis of word frequencies it is necessary to consider two separate domains. If W (k) is the number of k-words K the number of different words each occurring k times K then W (k) O 1 in domain I and W (k) Z 1 in domain II. In domain II, ranked word frequencies are appropriate (as originally adopted by Zipf) whereas W (k) is the right choice in domain I. The universality of the Zipf index γ Z 2 is borne out by data with some notable exceptions. Departing from words as symbols, one can study the symbols at lower levels such as letters of alphabet (written) and phonemes (speech). Since the set of symbols is small (V Z 20 to 40) ranked frequencies are used. Their distribution deviates significantly from the Zipf distribution (equation 1). A good fit to data for English and six Indian languages is provided by an extension of MPL, called the cumulative MPL or CMPL (Table 50.3, Fig. 50.2). The domains I and II are dominated by “content words” (C-words) and “service words” (S-words) respectively. S-words are grammatical words, a limited set like the letters of the alphabet or phonemes. They too conform to CMPL. The language of life, the DNA sequence of molecular biology, also exhibits codon rank frequencies well described by the CMPL. In domain I, γ Z 2.0 and µ is confined to a narrow range 0 % µ % 1. But in domain II, the analogous parameters δ and ν are both highly dispersed in range. The distinction is relevant for quantitative linguistics. Can word frequencies be exploited to distinguish two texts, e. g. their authorship? The answer is ‘no’ for C-words with one known exception (Shakespeare), because the µ, γ values are narrowly confined. For S-words, possibilities remain which need to be explored. It should be emphasized that the above remarks apply only for word frequency analysis. There are some special features such as uncommon word usage, unusual punctuation, which
have been exploited by the “language sleuths” to solve linguistic puzzles related to the genre, authorship of literary works. It is not unlikely that every author has a unique style or imprint K like his/her fingerprint or his/her DNA K which can be unmasked by sophisticated computer analysis. The models for power laws described fall into four categories: (1) stochastic or random text models (2) dynamic “two exponential” models (3) fractals and scale invariant models and (4) information theoretic models. We have already commented on the inadequacy of random text models for natural languages. Recent studies of naturally evolved networks like the World Wide Web (WWW) and cellular metabolic networks show that their connectivity is not random K as in Erdos/Renyi (1960, 17) models K but they have a high degree of non-random self-organization and a Zipf-type distribution of connectivity of nodes. A variety of power laws are amenable to modeling in terms of two exponentially varying quantities X and Y, with respect to the same independent variable (say Z). Then X and Y are related by a power law function. Mandelbrot’s random text model incorporates this feature and also Shannon’s Information Theory. Bradford’s law of scatter of journal articles in Informetrics, Willis’ law of genera-species in evolutionary biology, and Fermi’s model for the power law energy spectrum of cosmic rays in astrophysics are a few examples in this category. Fractal structures in nature show self similarity on all scale lengths and are therefore essentially scale-free. Power laws naturally yield scale-free structures. Other scalefree functions also exist and a combination of such functions (e. g. the Weierstrass function) and power law may indeed account for the observed departures from pure power law distributions. It appears that a strict prescription for scale invariance can explain the uniqueness of the power law index being 2. The information theoretic models described invoke both the original Shannon information (entropy) and the more modern Kolmogorov complexity (also called algorithmic complexity or algorithmic entropy). Both have to do with coding a string of symbols; in Shannon coding the particular symbol sequence is irrelevant, whereas in algorithmic coding, it is not. For word frequencies, the relevant entropies are the Shannon
50. Power laws in statistical linguistics and related systems
and algorithmic entropies for a ‘degenerate’ discourse. Maximizing the Shannon entropy, while fixing or constraining the algorithmic entropy, subject to some obvious boundary conditions on word types and word tokens, leads to the Modified Power Law (MPL). Extremum principles are powerful tools that successfully predict the laws of physical systems. Similar principles are likely to be applicable in behavioral sciences too. The model proposed for Zipf’s law is very general and not system-specific since it invokes only elementary concepts of sorting, classifying, and counting of symbols and their coding for communication. Presently the diverse power law relations seem to need different types of models. Apart from the models mentioned, the distribution of prime numbers in sequence Q is clearly recognized as a consequence of the Prime Number Theorem. In seeking a universal model that would explain a wide variety of power laws in nature, the best candidates are probably the ones involving scale invariance and Information Theory. Lognormal distribution is a long-tailed distribution like the power law, but the two are easily distinguished when the dynamic range of the independent variable is large (say O 10). Both are omnipresent in nature and the lognormal is closely related to the classical ‘normal’ or Gaussian distribution. Like the Gaussian, the lognormal distribution has a sound theoretical base in the Central Limit Theorem. Power laws have the disadvantage of not having finite moments K not even the mean and variance K in many cases. For an elementary ‘tutorial’ of Gaussian and power law distributions in statistical theory and applications see Liebovitch and Scheurle (2000, 34). Requirements of self-similarity allow a complex index for the power law [F (x) Z A xKγ, γ Z a C i b]. Further a function like the MPL (eKµ / x xKγ) has the advantage of tending to 0 as x / 0, unlike the power law which / N as x / 0. These features may suggest some new approaches in the statistical theory of power law distributions. Complex adaptive systems are characterized by co-existing elements of regular and random features which interact with each other to produce coherent structures in a hierarchy of levels. Balasubrahmanyan/Naranan (1996, 177; 2000, 153) have treated language as a complex adaptive system following a prescription of ‘effective complexity’
735
proposed by Gell-Mann (Gell-Mann 1994; Gell-Mann/Lloyd 1996, 44; cf. art. No. 61). Gell-Mann complexity tends to be low for systems of low as well as high order and maximal for a suitable mix of order and disorder. A complexity function C was defined with such behavior; it depends on two ‘order’ parameters x and α, which in turn depend on Shannon and algorithmic entropies. Algorithmic complexity is used to define an optimum meaning preserving code which preserves the sequence (or ‘meaning’) of the symbols. x, α, and C have numerical values in the interval 0 to 1. For language discourses C z 1 and the order parameter x z 0.55. x quantifies the relative amounts of order and disorder in the system. α, x, and C are all determined by the word frequencies or equivalently the power law index γ. C as a function of γ (in the interval 1.5K 2.5) shows a maximum (C Z 1) for γ z 2.0. Complexity C can be viewed as another entropy, like the Shannon and algorithmic entropies. It is maximum when the word frequencies are distributed according to Zipf’s law. Whereas the general model for word frequencies does not predict a value for γ, the evolution of language towards maximum complexity C requires that γ z 2.0. To conclude, while there exists an array of models for power laws, none of them is a pre-eminent choice as the most successful. The ideas of complexity, in particular the effective complexity of Gell-Mann, are just beginning to be explored and provide some interesting connections to Zipf’s law and power laws in general.
10. Literature (a selection) Aitchison, John/Brown, J. A. C. (1957), The Lognormal Distribution. Cambridge: Cambridge University Press. Alekseev, Pavel M. (1978), O nelinejnych formulirovkach zakona Cipfa. In: Voprosy Kibernetiki 4, 53K65. Albert, Reika/Barabasi, Albert-László (2002), Statistical Mechanics of Complex Networks. In: Reviews of Modern Physics, 74, 47K97. Altmann, Gabriel (1980), Prolegomena to Menzerath’s Law. In: Glottometrika 2. (Ed. R. Grotjahn). Bochum: Brockmeyer, 1K10. Altmann, Gabriel/Schwibbe, Michael (1989), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms. Baayen, R. Harald (2001), Word Frequency Distributions. Dordrecht u. a.: Kluwer Academic Publishers.
736
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Balasubrahmanyan, Vriddhachalam K./Naranan, Sundaresan (1996), Quantitative Linguistics and Complex System Studies. In: Journal of Quantitative Linguistics 3 (3), 177K228. Balasubrahmanyan, Vriddhachalam K./Naranan, Sundaresan (2000), Information Theory and Algorithmic Complexity: Applications to Language Discourses and DNA Sequences as Complex Systems: Part II: Complexity of DNA Sequences, Analogy with Linguistic Discourses. In: Journal of Quantitative Linguistics, 7 (7), 153K183. Balasubrahmanyan, Vriddhachalam K./Naranan, Sundaresan (2002), Algorithmic Information, Complexity and Zipf’s Law. In: Glottometrics 4, 1K26. Barabasi, Albert-László/Albert, Reika (1999), Emergence of scaling in random networks. In: Science 286, 509K512. Bennett, P. E. (1969), The Statistical Measurement of a Stylistic Trait in Julius Caesar and As You Like It. In: Statistics and Style. (Eds. L. Dole/ R. W. Bailey). New York: American Elsevier Publishing, 29K41. Best, Karl-Heinz/Altmann, Gabriel (1996), Project Report. In: Journal of Quantitative Linguistics, 3 (1), 85K88. Bookstein, Abraham (1990), Informetric distributions, Part I: Unified Overview. In: Journal of the American Society for Information Science 41, 368K375. Boroda, Moisei G./Altmann, Gabriel (1991), Menzerath’s Law in Musical Texts. In: Musikometrika 3. (Ed. M. G. Boroda) Bochum: Brockmeyer, 1K13. Bosch, Robert A./Smith, Jason A. (1998), Separating Hyperplanes and the Authorship of the Disputed Federalist Papers. In: American Mathematical Monthly, 105, 601K607. Bradford, Samuel Clement (1948), Documentation. London: Crosby Lockwood. Chaitin, Gregory J. (1987), Algorithmic Information Theory. Cambridge: Cambridge University Press.
Words Did Shakespeare Know? In: Biometrika 63, 435K447. Eldridge, R. C. (1911), Six Thousand Common English Words. Buffalo: The Clements Press. Erdős, Paul/Rényi, Alfred (1960), On the Evolution of Random Graphs. In: Publication of the Mathematical Institute of the Hungarian Academy of Science 5, 17K61. Estoup, Jean-Baptiste (1916), Gammes Sténographiques. Méthodes et Exercises pour l’acquisition de la Vitesse (4th ed.). Paris: Institut Sténographique. Fermi, Enrico (1949), On the Origin of Cosmic Radiation. In: Phys. Review, 75, 1169K1174. Gaines, Helen F. (1956), Cryptanalysis. New York: Dover Publications. Gell-Mann, Murray (1994), The Quark and the Jaguar, Adventures in the Simple and the Complex. New York: W. H. Freeman. Gell-Mann, Murray/Lloyd, S. (1996), Information Measures, Effective Complexity, and Total Information. In: Complexity 2 (1), 44K52. Good, Irving J. (1969), Statistics of Language: Introduction. In: Encyclopaedia of Linguistics, Information and Control. (Eds. A. R. Meetham and R. A. Hudson). Oxford: Pergamon, 567K581. Herdan, Gustav (1958a), Quantitative Linguistics. London: MacMillan. Herdan, Gustav (1958b), The Relation between Dictionary Distribution and Occurrence Distribution of Word Length and its Importance for the Study of Quantitative Linguistics. In: Biometrika 45, 222K228. Hřebíček, Luděk (1995), The Menzerath Altmann (MA) Law on Lower Levels. In: Text Levels, Quantitative Linguistics 56. (Eds. R. Köhler/B. Rieger). Trier: Wissenschaftlicher Verlag Trier, 17K21. Huffman, David A. (1952), A Method for the Construction of Minimum Redundancy Codes. In: Proceedings of the Institute of Radio Engineers 40, 1098K1101.
Crow, Edwin L./Shimuzu, Kunio (Eds). (1988), Lognormal Distribution: Theory and Applications. New York: Marcel Dekker.
Jeong, H./Tombor, B./Albert, R./Ottval, Z. N./Barabasi, A.-L. (2000), The Large-scale Organization of Metabolic Networks, In: Nature 407, 651K653.
Crystal, David (1987), Cambridge Encyclopaedia of Language. Cambridge: Cambridge University Press.
Keeping, E. S. (1962), Introduction to Statistical Inference. New York: van Nostrand.
Dewey, Godfrey (1923), Relative Frequencies of English Speech Sounds. Cambridge MA: Harvard University Press. Dolby, Julian A. (1971), Programming Languages in Mechanized Documentation. In: Journal of Documentation 27, 136K155. Efron, Bradley/Thisted, Ronald (1976), Estimating the Number of Unseen Species: How Many
Köhler, Reinhard (1990), Linguistische Analyseebenen, Hierarchisierung und Erklärung im Modell der Sprachlichen Selbstregulation. In: Glottometrika 11 (Ed. Hřebíček). Bochum: Brockmeyer, 1K18. Kolmogorov, Andrej N. (1965), Three Approaches to the Quantitative Definition of Information. In: Problems in Information Transmission 1, 3K7.
50. Power laws in statistical linguistics and related systems Li, Wentian (1992), Random Texts Exhibit Zipf’s Law like Word Frequency Distribution. In: IEEE Transactions on Information Theory 38, 1842K 1845. Liebovitch, Larry S./Scheurle, Daniela (2000), Two Lessons from Fractals and Chaos. In: Complexity 5 (4), 34K43. Lotka, Alfred J. (1926), The Frequency Distribution of Scientific Productivity. In: Journal of the Washington Academy of Sciences 16, 317K323. Mahadevan, Iravatham (1977), The Indus Script, Texts, Concordance and Tables. New Delhi: Archaeological Survey of India. Mandelbrot, Benoit (1953), An Informational Theory of the Statistical Structure of Language. In: Communication Theory. (Ed. W. Jackson). London: Butterworths, 486. Mandelbrot, Benoit (1955), Information Networks. In: Brooklyn Polytechnic Institute Symposium. (Ed. E. Weber). New York: Interscience, 205K221. Mandelbrot, Benoit (1966), Information Theory and Psycholinguistics: A Theory of Word Frequencies. In: Readings in Mathematical Social Sciences. (Eds. P. F. Lazarsfield/N. W. Henry). Cambridge: MIT Press, 151K168. Mandelbrot, Benoit (1977), Fractals Form, Chance and Dimension. New York: W. H. Freeman. Mandelbrot, Benoit (1983), The Fractal Geometry of Nature. San Francisco: W. H. Freeman. Menzerath, Paul (1954), Die Architektonik des Deutschen Wortschatzes. Bonn: Dummler. Miller, George A. (1957), Some Effects of Intermittent Silence. In: American Journal of Psychology 70, 311. Montroll, Elliott W./Shlesinger, Michael F. (1982), On 1/f noise and other Distributions with Long Tails. In: Proceedings of the National Academy of Science USA 79, 3380K3383. Mosteller, Frederick/Wallace, David L. (1984), Applied Bayesian and Classical Inference: The Case of the Federalist Papers (2nd Edition). Berlin u. a.: Springer-Verlag. Naranan, Sundaresan (1970), Bradford’s Law of Science Bibliography: An Interpretation. In: Nature 227, 631K632. Naranan, Sundaresan (1971), Power Law Relations in Science Bibliography: A Self-consistent Interpretation. In: Journal of Documentation, 27, 83K97. Naranan, Sundaresan (1989), Power Law Version of Bradford’s Law: Statistical Tests and Methods of Estimation. In: Scientometrics, 17, 211K226. Naranan, Sundaresan (1992), Statistical Laws in Information Science, Language and System of Natural Numbers: Some Striking Similarities. In: Journal of Scientific and Industrial Research, 51, 736K755.
737
Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1992a), Information Theoretical Models in Statistical Linguistics K Part I: A Model for Word Frequencies. In: Current Science 63, 261K269. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1992b), Information Theoretical Models in Statistical Linguistics K Part II: Word Frequencies and Hierarchical Structure in Language. In: Current Science 63, 297K306. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1993), Information Theoretic Model for Frequency Distribution of Words and Speech Sounds (Phonemes) in Language. In: Journal of Scientific and Industrial Research 52, 728K738. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1998), Models for Power Law Relations in Linguistics and Information Science. In: Journal of Quantitative Linguistics 5 (1K2), 35K 61. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (2000), Information Theory and Algorithmic Complexity: Applications to Language Discourses and DNA Sequences as Complex Systems: Part I: Efficiency of the Genetic Code of DNA. In: Journal of Quantitative Linguistics 7 (2), 129K152. Nicolis, Grégoire/Nicolis, Cathy/Nicolis, John S. (1989), Chaotic Dynamics, Markov Partitions and Zipf’s Law. In: Journal of Statistical Physics 54, 915K924. Pareto, Vilfredo (1897), Course d’Economie Politique (Vol. 2). Lausanne: Universite de Lausanne. Perline, Richard (1996), Zipf’s Law, the Central Limit Theorem and the Random Division of the Unit Interval. In: Physical Review E 54, 220K223. Prün, Claudia (1994), Validity of Menzerath-Altmann’s Law: Graphic Representation of Language, Information Processing Systems and Synergetic Linguistics. In: Journal of Quantitative Linguistics 1, 148K155. Ramakrishna, B. S./Nair, K. K./Chiplonkar, V. N./ Atal, B. S./Ramachandran, V./Subramanian, R. (1962), Some Aspects of the Relative Efficiencies of Indian Languages. Publication of Department of Electrical Communication Engineering, Indian Institute of Science, Bangalore, India. Ranchi, India: Catholic Press. Redner, Sidney (1998), How popular is Your Paper? An Empirical Study of the Citation Distribution. In: European Physical Journal B 4, 131K134. Schroeder, Manfred R. (1986), Number Theory in Science and Communication (2nd edition). Berlin u. a.: Springer-Verlag. Shannon, Claude E./Weaver, Warren (1949), The Mathematical Theory of Communication. Urbana IL: University of Illinois.
738
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Simon, Herbert A. (1955), On a Class of Skew Distribution Functions. In: Biometrika 42, 425. Stanley, H. Eugene (1995), Phase Transitions and Universality. In: Nature 378, 554. Teupenhayn, Regina/Altmann, Gabriel (1984), Clause length and Menzerath’s Law. In: Glottometrika 6. (Ed. J. Boy). Bochum: Brockmeyer, 127K138. Thisted, Ronald/Efron, Bradley (1987), Did Shakespeare Write a Newly Discovered Poem? In: Biometrika 74, 445K455. Thorndike, Edward L. (1932), A Teacher’s Word Book of 20.000 Words. New York: Teacher’s College. Troll, G./Graben, Peter Beim (1998), Zipf’s Law is not a consequence of the Central Limit Theorem. In: Physical Review E 57, 1347K1355. Tsonis, Anastasios A./Shultz, C./Tsonis, Panagiotis A. (1997), Zipf’s Law and the Structure and Evolution of Languages. In: Complexity 2, 12K13. Tuldava, Juhan (1995), Quantitative Analysis of the Phonemic System of the Estonian Language. In: Methods in Quantitative Linguistics, Quantitative Linguistics 54. (Eds. R. Köhler/B. Rieger), Chapter X.
West, Bruce J. (1990), Fractal Forms in Physiology. In: International Journal of Modern Physics B 4, 1629K1669. Whitworth, William A. (1901), Choice and Chance. Cambridge: Deighton & Bell. Reprinted: New York (1957) Hafner Publishing. Willis, John C. (1922), Age and Area: A Study in Geographical Distribution of Origin of Species. Cambridge: Cambridge University Press. Wimmer, Gejza/Altmann, Gabriel (1999), Thesaurus of Univariate Discrete Probability Distributions. Essen: Stamm. Yule, G. Udney (1944), A Statistical Study of Literary Vocabulary. Cambridge: Cambridge University Press. Zipf, George K. (1935), The Psychobiology of Language. New York: Houghton Mifflin Co. Reprinted: (1968) Cambridge: MIT Press. Zipf, George K. (1949), Human Behavior and the Principle of Least Effort. Reading: Addison-Wesley. Zörnig, Peter/Altmann, Gabriel (1984), The Entropy of Phoneme Frequencies and the Zipf-Mandelbrot Law. In: Glottometrika 6, 41K47.
S. Naranan/V. K. Balasubrahmanyan, Chennai (India)/St. Paul (USA)
51. Modelling of sequential structures in text 1. 2. 3. 4. 5. 6.
Introduction Modelling of sequential text structures Historic outline, review of methodology Description of the ARIMA method (an outline) Laws and hypotheses Literature (a selection)
1.
Introduction
The problem of mathematical modelling of sequential structures in text has reappeared in the history of linguistics many times. However, some quite valuable observations and hypotheses were put forward as an offshoot of other research K both theoretical and empirical K and they have not been pursued at full length to set sequential analysis within a wider context of quantitative and general linguistics. Even though the situation has been gradually improving, the scope of research and the methodology of sequential analysis of text still have not been clearly defined. This contribution is intended to present:
(a) the origin of the study of sequential text structures and the basic notions of this area of QL; (b) the most important methods of sequential modelling; (c) some hypotheses concerning sequential structures of text.
2.
Modelling of sequential text structures
One deals with a sequential text analysis when a succession of text components is considered relevant and mathematically modellable. Sequential structures in text incorporate all relationships dependent on linear ordering of phonetic (phonological), morphological, lexical and syntactic units of a text. The structure so defined does therefore include relations occurring at practically every level of linguistic analysis. From the point of view of QL, the most significant levels are certainly those which can be the subject of linguistically distinct and reason-
51. Modelling of sequential structures in text
able segmentation. Good examples of those are the phonetic and lexical levels and their derivative structures (text regarded as a sequence of tones, syllables, metrical feet, sentences or paragraphs). A negative example is the semantic structure, which can hardly be reduced to a linguistically meaningful sequence of numbers. Sequential analysis can be roughly considered as a complement to those classic statistical methods which assume lack of data interdependence.
3.
Historic outline, review of methodology
Previous studies in QL have not adequately accounted for the linear structure of language. In “Bibliography of Quantitative Linguistics” by Köhler (1995), the number of entries characterised with descriptors like sequential, syntagmatic or linear is ca 25, while only some of those refer to sequential analysis K with the total number of publications included exceeding 6000, this figure is insignificant. The same observation holds true for ”Bibliographie critique de la statistique linguistique” by Guiraud (1954). A survey of texts dealing with detailed aspects of sequential structure of language proves that individual authors quote different works, so it seems that on the whole no bibliographical canon of this area of QL does exist. Obviously this does not mean that the linear nature of text has not been perceived. For many years the grammarians and linguists have referred to the existence of positional syntax and considered the sequence of words in a sentence to be a latent K “I mean the unexpressed element in language” (Bréal 1991, 169) K but linguistically relevant feature K “This positional value exists more or less in all languages, and especially in modern languages.” (Bréal 1991, 169). This thread is followed in studies on syntax (Siewierska 1988), language typology (Greenberg 1960) and discourse analysis in its wide sense (Dittmann 1979; Dijk 1980). It was only structuralism that scrutinised the linear nature of language more closely. De Saussure described the structure of language with a series of simple oppositions, remarking that „Le signifiant, étant de nature auditive, se déroule dans le temps seul et a les caracte`res qu’il emprunte au temps: a) il représente une étendue, et b) cette étendue est mesurable dans une seule dimension:
739 c’est une ligne.” (Saussure 1973, 103). He has also introduced the notion of syntagmatic axis, analogous to time axis and reflecting text sequence: “D’une part, dans le discours, les mots contractent entre eux, en vertu de leur enchaînement, des rapports fondés sur le caracte`re linéaire de la langue [...]. Ces combinaisons qui ont pour support l’étendue peuvent être appelées syntagmes.” (Saussure 1973, 170). The relationship between the axis of syntagmatic relations and time axis was noted by other scholars too. According to Wiener “The message is a discrete or continuous sequence of measurable events distributed in time K precisely what is called a time series by statisticians.” (Wiener 1948, 8). Lyons asserts that “In the case of natural languages, the left-to-right ordering of the constituents in the string may be thought of as reflecting the time-sequence (from earlier to later) in spoken utterances ...” (Lyons 1968, 209). This parallelism between the space and time dimension is epistemologically significant for sequential analysis, since it allows utilisation in QL of mathematical techniques applied with modelling of physical and economic phenomena where the independent variable is time. The Saussure’s opposition of syntagmatic and paradigmatic relations has become a permanent attainment of linguistics. In the 1960s Herdan (1960, 17) tried to transfer it into the area of QL. He made a distinction between two approaches in language analysis: “In the area of language, it is the dimension of time which may have to be taken into consideration. We may deal with language in the mass, or with language in the line. In the former case, frequencies of, say phonemes, are established by phoneme counts regardless of their sequence in the morphs and chains of morphs (running texts).” (Herdan 1966, 423). Herdan suggested the use of information theory as a research tool of sequential analysis: “Shannon’s Information Theory, rightly understood, represents already the introduction of the time element on the alphabetic (phonemic) level, since Entropy is calculated from the number of possible arrangements of elementary units in the line.” (Herdan 1966) However, the predominant role of structuralism in Herdan’s thinking was the reason for uncritical transfer of Saussurian oppositions into a much wider area. The above concept of two, seemingly complementary research perspectives of QL is incomplete and incoherent
740
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
with the systemic and structural concept of language. In particular, it does not account for the logical relationships between interdependent units that are ordered neither into a sequence nor in a hierarchy (e. g. lexical network, successfully modelled with connectionist methods). Herdan was not the only linguist pointing to the need for quantitative analysis of sequential language structures. Similar suggestions can be found in theoretical or methodological works not related to structuralism (Skinner 1941; Levin 1967; Dillon 1970; Williams 1970, 105; Grotjahn 1980; Altmann 1997) as well as in empirical studies discussed below. Another pillar of the development of sequential text analysis were the probabilistic techniques based on the theory of Markov chains. The probabilistic models deal with a qualitative notion of state and therefore do not require quantification of text segments. Every discrete and repetitive language unit included in an organised text sequence can be considered as a state of a series in the statistical meaning. However, one cannot forget that too large a number of states (e. g. lexical units) can make construction of a model difficult or even impossible. Nowadays, Markov models are widely applied in generative grammar (Miller/Chomsky 1963) as well as in NLP K first of all in speech analysis and synthesis. It is worth remembering, however, that some of Markov’s original works concerned modelling of sequential structures in text with regard to stylometric problems (e. g. authorship attribution and similarity of texts). The diffusion of his concepts among linguists involved in QL was unfortunately delayed and of limited range. We owe the first, modest presentation of Markov’s achievements in linguistics to Herdan (1960, 140K153). The application of sequential modelling in versification analysis was also mentioned by Jakobson (1971, 579) who referred to the studies of the Russian formalist school. He cited Tomaševskij’s book “O stixe” (1929), claiming that “The Russian school of metrics owes some of its internationally echoed achievements to the fact that some forty years ago such students as B. Tomaševskij, expert both in mathematics and in philology, skilfully used Markov chains for the statistical investigation of verse .” (Jakobson 1971, 579). Unfortunately, this statement is untrue K apart from qualitative investigations K valu-
able as they are K Tomaševskij’s study contains only basic statistics on the distribution of different metrical patterns in the Russian poetry. Later on, a concept of text as a specific stochastic process was presented by Brainerd (1976). A thorough discussion of the linguistic aspect of Markov’s research was contributed by a French linguist (Petruszewycz 1981). An outline of Markov chain theory and examples of its applications in phonetics were included in a study by Köhler (1983). It is significant that the author combined the probabilistic approach involving a qualitative notion of state with a numerical approach, where the subject of analysis is a series of numbers and the major research instrument is the autocorrelation function. QL has been permanently interested in the problem of authorship attribution K a simple Markov chain of letters (bigrams) was successfully applied as a tool to discriminate between a large set of English prose samples (Khmelev/Tweedie 2001). The third pillar that supports analysis of sequential structures in text is the information theory (Shannon 1948; Weaver/Shannon 1949). The linguistically-oriented Shannon’s definitions of entropy and redundancy express the correlation between subsequent units in a line of text and synthetically describe its basic sequential characteristics, i. e. the depth and power of contextual relationships. Even though the literature on information theory is a rich one (cf. Köhler 1995), it primarily deals with the problems of phonetics (phonology). The applications of information theory to the levels of language where the possible number of states is exceptionally high (e. g. lexical level) are, however, less successful. This results from difficulties in calculating entropy of high level when the text is segmented into units other than phonemes or letters. The fourth pillar that lies at the basis of contemporary research into sequential structures in text includes techniques of time-series analysis based on spectral analysis, and since the publication of “Time Series Analysis” (Box/Jenkins 1970), on the ARIMA method. This method, worked out for technological and economic applications, in the ’80s started to be applied in humanities and social sciences. While comparing the techniques used by social researchers for modelling sequential phenomena, Nurius has remarked that “ARIMA modelling is perhaps the most commonly encountered and widely
741
51. Modelling of sequential structures in text
used of several stochastic process models adapted for use with time-series data.” (Nurius 1983, 222). The ARIMA method allows description of numerical, discrete time-series with linear models of autoregression, moving average or mixed models. In the analysis of versification, the seasonal models can be applied, which account for relations between units not directly subsequent, but occurring at a fixed lag. The above methodology classification does not cover all aspects of sequential language analysis. In numerous cases, when a solution to a particular problem of applied or theoretical linguistics was needed, linguists worked out original methods, only vaguely related to the methodology of statistics and/or theory of stochastic processes. For instance, Fucks (1952) constructed an original index called SPUR that expressed the degree of text cohesion. Another example is that of Boroda (1994) who suggested analysing the linear structure of text with methods coming from musicometry. Analyses of this kind are situated on the margin of sequential analysis as defined above, because they do not allow wide-ranging conclusions about sequential characteristics of text (cf. Pawłowski 1998, 61 ff.). The most typical studies covering partly the sequential nature of language include examination of text cohesion, i. e. the linear distribution of identical or similar linguistic units (e. g. lexemes). It is assumed that in a “statistically ideal text” their distribution would be uniform, while in reality K for stylistic and/or psychological reasons K the units occur in clusters. Therefore, the measure of text cohesion is the difference between the empirical ordering of linguistic units and above-defined theoretical ordering. It should be emphasised, however, that the very sequence of occurrence of the examined units in a text line is not a relevant feature here, and texts that are equally coherent can prove different in respect of the sequence of units occurrence. Studies in this field were carried out as early as the ’60s (Levin 1967) and there have been numerous empirical analyses published (Woronczak 1960; Woronczak 1976; Vasjutočkin 1987). In many cases text cohesion was successfully analysed with probabilistic methods (Grotjahn 1980; Strauss/Sappok/Diller et al. 1984; Zörnig 1984a; Zörnig 1984b). All the above methods are efficient in their own ways. If we assume, however, that
the ultimate objective of QL is the search for universal linguistic laws within the overall theoretical framework of the systems theory, then the most efficient instruments are the ARIMA method, Markov models, and information theory. The hitherto applied practice of QL proves the high efficiency of the ARIMA method, which uses linear models that synthesise information and are easy to interpret. It is just this type of modelling that will be presented below. A reader interested in the principles of constructing probabilistic models for qualitative text data can refer to the study by Bavaud (1998, 206 ff.), completed with relevant software (Xantos 2000). The method proposed by Bavaud integrates basic notions of information theory (entropy, redundancy) and Markov models. An example of its application to the problem of metrical stress (ictus) in Latin hexameter was presented by Pawłowski/Eder (2001, 56 ff.).
4.
Description of the ARIMA method (an outline)
4.1. An overview ARIMA (cf. Brockwell/Davies 1996; Courtrot/Droesbeke 1984, 67 ff.; Cryer 1986; Glass/ Wilson/Gottman 1975; Gottman 1981; Makridakis/Wheelwright 1978, 252 ff.; McCleary/ Hay 1980; Pawłowski 1998; Whiteley 1980) is an acronym of the name of a complete time-series model (AutoRegressive Integrated Moving Average). In professional literature it refers to the method as such, with no reference to the models actually estimated, which seldom include all the possible components. In particular, the specific nature of text data provides rationale of practical omission of series including trend (except for the diachronic and/or glottochronological research). For this reason, the general linear model of a discrete time series appropriate for the analysis of textual data is of the type SARMA (p, q) (P, Q)s and defined as:
(
p
x t 1 K ∑ ai B i iZ1
(
)(
q
P
jZ1
)(
Z et 1 K ∑ bk Bk kZ1
)
1 K ∑ asj Bsj
Q
)
1 K ∑ bls Bls lZ1
(1)
where: xt K value of the series at instant or position t
742
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
ai K i-th coefficient of the autoregressive component bi K i-th coefficient of the moving-average component et K random value distributed normally N (0,1) at instant or position t p K order of the autoregressive component q K order of the moving-average component s K seasonal lag Bi K backward-shift operator of the i-th order In the model notation, the “open” and operator notations are used alternatively. The open notation is more legible, but with long formulas the operator notation is more convenient. In the above notation the backward-shift operator Bi was used, which should be defined as the following transformation: Bi xt Z xtKi
tains deterministic components and, possibly, to find out their type and order. For this purpose, empirical values of autocorrelation function (ACF) and of partial autocorrelation function (PACF) of the observed series are calculated. The basis of calculating ACF function value is the autocovariance function. Autocovariance of the series at the lag k is defined as: γk Z E {(Xt K µx) (XtCk K µx)} and estimated by: ck Z
1 NKk ∑ (xt K mx) (xtCk K mx) N K k tZ1
(4a)
Autocorrelation of the series can be defined as standardised autocovariance function: ρk Z
γk
Z
γ0
γk σx2
(5)
and is estimated by the function:
(2)
In linguistic practice, model (1) is much simplified. Seasonal components, for the most part of the first order, occur only in versified texts. Also mixed ARIMA models are relatively seldom used. The predominant model types are simple AR and MA models. For instance, for the description of binary coded sequence of syllable quantities in the Latin hexameter (Pawłowski/Eder 2001, 92) an AR (2) model was estimated:
(4)
rk Z
ck c0
Z
ck sx2
(5a)
Notation: µx K mean of the series mx K estimator of the mean σ2x K variance of the series s2x K variance estimator N K series length k K lag
where the values of the a1 and a2 coefficients were respectively K1 and 0,416. In a typical case, the analysis of a time series consists of several stages including model specification, parameter estimation, model diagnostics and interpretation.
In model specification, the ACF function is of crucial importance, because its shape actually determines all the further procedures. PACF, defined as the correlation of the values xt and xt C k without the influence of the intermediate values xt C 1, xt C 2 ... xt C k K 1, plays a secondary role. According to the model type, the ACF and PACF functions die out and/or rapidly truncate (cf. Box/Jenkins 1970, 64 ff.; Cryer 1986, 106). These properties allow for the determination of the model type and order (Fig. 51.1).
4.2. Model specification The first step of the research procedure is to check out, whether the analysed series con-
4.3. Parameter estimation In the estimation of model coefficients, the method of moments can be applied. In case
xt Z a1 xtK1 C a2 xtK2 C et (open notation)
(3)
et Z (1 K a1 B1 K a2 B2) xt (operator notation)
(3a)
AR (p) MA (q) ARMA (p, q)
ACF
PACF
dies out truncates at lag q C 1 dies out
truncates at lag p C 1 dies out dies out
Fig. 51.1: Identification of simple linear models
743
51. Modelling of sequential structures in text
of autoregressive models, it consists in the construction of a system of linear equations containing the unknown model parameters (the so called Yule-Walker equations), where the theoretical ACF values (ρk) are replaced with the observed ones (rk). The solution of the Yule-Walker equations yields the estimates of the unknown model parameters. This procedure is less effective in the case of moving average models, as it quickly leads to non-linear equations (from the MA (2) model upwards). In this case, however, the recurrence algorithm proposed by Box and Jenkins (1970, 201 ff.) can be applied. 4.4. Model diagnostics At this stage of the procedure residual analysis can be applied, the decisive variable being the percentage of variance of the observed series explained by the model (Ve). A residual series consisting of differences between the observed and theoretical values is generated. Its variance is then compared to the variance of the observed series. Denoting the variance of the observed series by s2obs , and the variance of the residual series by s2r , the unknown parameter Ve can be computed as:
(
s2 Ve Z 100% 1 K 2r s obs
)
(6)
It is generally assumed that the higher the Ve value, the more suitable the model. The residual variance (sr2) is interpreted as the part of total variance (and thus information) included in the series which is not explained by the model. An effective model should filter so much information out of the series that the remaining residual series be nearrandom with a possibly low variance. Another convenient form of checking the quality of model constructed on the basis of textual data is verifying the obtained result against pseudo-random series, obtained from random numbers generator or through manipulation (e. g. mixing) of the observed series. This procedure was used e. g. by Roberts (1996). 4.5. Interpretation It is assumed that all parameters included in the models (both variables and constants) should be prone to interpretation in linguistic terms (Altmann 1993; Altmann 1997). In case of the models discussed here, their order is interpreted as the depth of contextual
relationship, the coefficient values reflect the strength of this relationship, and the sign indicates a positive or negative correlation. The seasonal lag should be interpreted as the minimum length of equivalent, repetitive piece of text, which is usually (although not always) equivalent to verse length. Linguistically, however, the most important model parameter is the above-defined percentage of variance in the observed series explained by the model (Ve). In the course of experiments, it turned out to be the most efficient measure of the degree of sequential order in text. The higher the value of Ve, the more regular or rhythmical the observed series (ipso facto text). With a series without rhythm, representing text without contextual relationships for the given feature, the value of Ve approaches zero. The Ve parameter can be thus regarded as a synthetic measure of the sequential ordering of a text. Yet, interpretation of this coefficient in terms of aesthetics or axiology cannot be decided on scientific grounds.
5.
Laws and hypotheses
Detailed hypotheses concerning sequential structure of text can be reduced to the following general hypothesis: a linear order of some linguistic units in a text is a realisation of a stochastic process and thus is not random. If such an ordering is described by a verified formal model, we deal with a statistical linguistic law. Regularities occurring in the sequential structure of text appear at different levels of linguistic analysis and will be presented accordingly. The range of this paper does not allow discussion of all the relations discovered so far in full detail K a keen reader may refer to the enclosed bibliography. It should be emphasised that at the present stage of research the obtained results and their generalisations should not be considered linguistic laws but rather empirically verified regularities that aspire to be recognised as such. 5.1. Phonetic and phonological level The physiologically determined breathing rhythm regulates the rhythm of speech and thus influences the more or less regular accentuation of each language, irrespective of the prosodic type. Accentuation is also closely related to the principle of the least effort K indeed, text rhythm makes coding,
744
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
decoding and storing linguistic information in memory significantly easier. This is confirmed by the ages-old theory and practice of rhetoric as well as the phenomenon of versified, oral literature, which, failing printing technology, has used for generations the medium of human memory. This circumstances account for widespread regularity of phoneme and/or syllable ordering and, consequently, make phonetic and/or metrical analysis an appreciated subject of sequential studies. As far as the methodology is concerned, some scholars made use of spectral analysis (e. g. Bratley/Ross 1981), but much better results were obtained with linear modelling of time series with the ARIMA method. A handful of examples are discussed below.
Notation: A K 8-syllable syllabic-accentual verse (Jan Brzechwa) B K 11-syllable syllabic verse (Juliusz Słowacki) C K 13-syllable syllabic verse (Adam Mickiewicz) D K rhetorical discourse (Karol Wojtyła) E K syllabic strophic verse (Alexander Pushkin) F K artistic prose (Mixail Bulghakov) G K artistic prose (Igor Newerly) H K artistic prose (Jarosław Iwaszkiewicz) I K journalistic style The procedure which led to the above summary results (Figure 51.1) can be illustrated with a detailed study of a fragment of “Beniowski” by Juliusz Słowacki, a Polish 19th century digressive poem, written in 11-syllable syllabic verse of stichic structure. The ACF function computed for the analysed sample displayed significant bars at lags 11 and 22 (Figure 51.3) (cf. Pawłowski 2001a, 83 ff.). This shape of ACF and PACF functions (Figure 51.3, 51.4) suggests the use of a mixed model, comprising a simple MA component and a seasonal one of 11-syllable lag. Actually, the most suitable model to describe the rhythm of “Beniowski” proved to be SARMA (0,1) (1,1)11. For the analysed fragment, the estimated model had the following form (cf. Pawłowski 2001a, 84):
(a) dynamically stressed languages The subject of analysis was prosodic structure of verse, rhetorical discourse and artistic prose in the Polish language, coded as a sequence of accentuated and non-accentuated syllables (Pawłowski 1997; Pawłowski 2001a, 75 ff.). This method of quantification is widely used in studies of versification and rhythmic structure (“In any accentual verse the contrast between higher and lower prominence is achieved by syllables under stress versus unstressed syllables.” K Jakobson 1987, 73). In all studied styles, specific sequential structures were discovered. The percentage of variance explained by individual models (Ve) was varied and quite closely corresponded to the subjective sense of the rhythmic structure of text. The obtained results made it then possible to establish a univariate taxonomy of styles, based on the Ve value (Pawłowski 2001a, 116 ff.). It allowed drawing a formal and objective distinction between prosaic texts, free metrical systems (rhythmic prose, free verse, rhetorical discourse, etc.) and versified texts.
(1 K 0,99B11) xt Z (1 K 0,48B) (1 K 0,91B11) et where:
xt K value of the series at instant or position t Bi K backward-shift operator of the i-th order et K random value distributed normally N (0,1) at instant t
70% 65% 60% 55% 50% 45% 40% 35% 30% 25% 20%
ABCDEFGHIA
B
C
D
E
F
G
(7)
H
65% 48% 45% 40% 39% 35% 34% 34% 32%
I
Fig. 51.2: Quantitative measure of rhythmic structure of some stylistic variations of Polish (Ve)
745
51. Modelling of sequential structures in text 1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Lag
Fig. 51.3: ACF of the stress-sequence in syllabic verse
1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Lag
Fig. 51.4: PACF of the stress-sequence in syllabic verse
Model (7) accounted for 48 % of variance of the observed series. An interesting aspect is the empirically observed seasonal lag (11 syllables) whose length reflects the actual length of a rhythmically equivalent and repetitive text segment. Here it represents at the same time the length of verse, but this relationship was found not to hold in each case. For instance, a stanza of “Yevgeny Onegin” by Alexander Pushkin comprises alternating 9- and 8-syllable verses, while the autocorrelation calculated for the analysed fragments regularly displayed a significant bar at 17-syllables lag (Figure 51.5) (cf. Pawłowski 2001a, 110).
This could mean that the actual rhythm of the text is not determined by individual verses, but by recurrent clusters of subsequent verse pairs. Indeed, the best model to describe the structure of the above fragment of “Yevgeny Onegin” is SARMA (1,0) (1,1)17: (1 K 0,58B) (1 K 0,64B17) xt Z (1 K 0,16B17) et (notation remains the same)
A similar analysis was performed with on prosaic texts in Polish and Russian. In case of Polish, the presence of simple moving av-
1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1
1
3
5
7
9
(8)
11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41
Fig. 51.5: ACF of the stress-based rhythmical sequence of “Yevgeny Onegin”
746
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
erage models MA (1) and MA (2) was observed, while in Russian only the MA (1) model was discovered. The average percentage of variance explained by the model was high for Polish and amounted to ca 32 %. For Russian, this value was lower (ca. 20 %). The difference results from the fact that in Polish the position of word stress is fixed, while in Russian it is variable. It does not mean, however, that the languages with variable word stress position will always be less rhythmical than languages of fixed word stress (even though it is quite probable) since the analysis presented here does not take into account the distinction between stress- and syllable-timed languages. Due to accentual isochrony, the irregularity of stress intervals in Russian might be limited in concrete utterances by the prolonging or shortening of syllables (cf. art. no. 47). In studies quoted here accentuation was, however, primarily considered in its phonological aspect which is a necessary simplification allowing significant theoretical generalisations. The same data were used to compare conventional statistical tests with sequential analysis. Tests of the hypothesis on the equality of means as well as tests of equality of two proportions (in fact binary digits used for coding could be considered as numbers or symbols) showed that the ARIMA method was more effective than conventional tests assuming independence of accentuation in text line (Pawłowski 1999; Pawłowski 2001a, 93 ff.). Although the results quoted here were indeed verified on specific language corpora (primarily Polish and Russian), they were based on deductive reasoning, valid for any linguistic material. Thus, both the method and its linguistic basis retain their value with
1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1
reference to all the dynamically stressed languages. (b) languages with quantity-based prosody It appears from the above that the most thorough studies dealt with regularities found in languages with dynamic accentuation. However, there have also been works concerned with quantity-based or tonal languages. Pawłowski and Eder (2001) compared the rhythmic structure of Latin hexameter coded as the quantity- and metrical stress-series (so called ictus). The authors assumed that statistical methods will allow them to determine if syllable quantity was indeed the basis of Latin rhythmic patterns, and consequently to settle a long-standing controversy concerning the ictus, whose existence is questioned by some scholars. The investigation carried out on hexameter denied the widespread and time-honoured conviction holding that the unique basis of rhythm in Latin was syllable quantity. Already the ACF and PACF functions calculated for stress- and quantity-based series showed a notably more distinct rhythmic pattern of the former ones (Figure 51.6, 51.7). The analysis of Ve coefficient for stressand quantity-based series proved beyond doubt that the Latin hexameter coded as a series of long and short syllables is practically arrhythmic: the best models accounted for ca 15 % of the variance of observed series only (Figure 51.8). The value of Ve coefficient for the same texts coded as dynamic accentuation based series was 61 % on average. The difference is thus obviously enormous and makes a strong argument for the presence of metrical stress in classical Latin. Similar tests performed on the Greek hexameter of the “Iliad” (Pawłowski/Krajewski/
1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 1
4
7 10 13 16 19 22 25 28
1
4
7 10 13 16 19 22 25 28
Fig. 51.6: ACF of Latin hexameter coded as a quantity- (left) and stress sequence (right)
747
51. Modelling of sequential structures in text 1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1
1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 1
4
7
10 13 16 19 22 25 28
1
4
7
10 13 16 19 22 25 28
Fig. 51.7: PACF of Latin hexameter coded as a quantity- (left) and stress sequence (right)
Eder 2003) also yielded satisfying results. A comparison of rhythm levels in texts with coding based on metrical and dynamic stress proved that the quantity in the Homeric verse, as opposed to the Latin one, is actually a rhythm-carrying medium. However, the high value of Ve for stress-based series is additionally a significant argument for the presence of ictus in classical Greek (Figure 51.8).
Latin hexameter Greek hexameter
quantity
stress
15 % 53 %
61 % 65 %
Fig. 51.8: The average rhythm of Latin and Greek hexameter (Ve values)
This result can be quite convincingly explained. The Latin hexameter originated as a written text, based on a metrical pattern borrowed from Greek and thus unnatural for Latin itself. The “Illiad”, on the other hand, was primarily an oral text, performed in public with instrumental accompaniment. Consequently, its rhythmicity based on syllable quantity had to account for the musical context of performance. Furthermore, rhythm is a very efficient mnemonic factor which made it possible to memorise and recall 30,000 Homeric verses. Tonal languages also provide good material for sequential analysis, even though the number of publications on the subject is rather limited. Spectral analysis was used to investigate the rhythm of Chinese prose through quantification of tonal levels of subsequent text segments (Dreher/Young/Norton et al. 1969). The obtained spectrograms were considered characteristic for different writers and their usefulness for authorship attribution was pointed out. There have also
been studies on texts coded as series of distinctive features of subsequent phonemes (Azar/Kedem 1979). 5.2. Lexical level Linguistics also deals with the informative structure of text that determines a purposeful sequence of lexical units in a sentence and/or paragraph. Still, it is hard to separate and formalise the semantic information included in words, phrases or sentences, as it appears in a unique and non-repetitive way in each communication act. A reasonable approximation of information in its common-sense meaning is the concept of Shannon that defines this notion in probabilistic terms. This was proved with tests performed on time-series made of information quantity (in bits) carried by subsequent words in text (Pawłowski 2001a, 131 ff.) and the lengths of individual words in text (Corduas 1995). Taking into account the above interpretation of informative text structure, a hypothesis was put forward to assert that the languages of analytic tendency will show a discernible regular change of information quantity in subsequent words that is a result of alternate occurrence of grammatical morphemes of very high frequencies and lexical morphemes of low frequencies; contrarily, in the languages of synthetic and fusional tendency with developed inflection and relatively free word order in a sentence, such alternation will not occur or will occur on a much smaller scale. Tests were performed on samples of Italian and Polish. The adopted decisive variable was the Ve coefficient defined above. The Italian language (analytic tendency) showed weak but regularly recurring processes of MA(1) type (Figure 51.9). On the other hand, the tests performed on Polish samples (synthetic tendency) showed lack of
748
Italian Polish (1) Polish (2)
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
1
2
3
4
1% 0% 0%
10 % 13 % 8 % 0% 5% 2% 0% 0% 0%
5
6
7
8
9
10
Mean
7% 0% 0%
8% 0% 0%
4% 0% 0%
6% 0% 5%
4% 1% 0%
8% 0% 4%
6,9 % 0,8 % 0,9 %
Fig. 51.9: Percentage of the original variance explained by the MA (1) model in “lexical series”
Process type
AR(1)
AR(2)
AR(3)
ARMA
noise
Percentage of samples
18,4 %
11,2 %
2,6 %
29,7 %
38,1 %
Fig. 51.10: Linear models describing the sequences of sentence lengths (French literary prose)
any correlation between the quantity of information included in subsequent words (Pawłowski 2001b). This result is certified by the outcome of another experiment: for samples of French (350 prose samples) and English (40 prose samples) the obtained average Ve values were respectively 6 % and 5 % (data based on the monograph Pawłowski 1998, 101; 218 ff.). Thus models of sequential structure of text on a lexical level proved an efficient typological criterion that synthesised a great amount of information. Their numerical parameters were also successfully used as discrimination criteria for authorship attribution (Pawłowski 1998, 96 ff.). 5.3. Discourse level There have been numerous analyses of texts coded as series of subsequent sentence lengths. One feels intuitively that the length of succeeding sentences is not incidental, as texts in natural language form composition structures oriented towards realisation of the communicative, persuasive, aesthetic and other functions. Obviously, the ordering requirement primarily refers to the content level, but it must be also visible on the most superficial level, i. e. in the length of subsequent sentences. Roberts (1996), Oppenheim (1988) as well as Schils and de Haan (1993) applied autocorrelation function for analysing sentence sequences. Pawłowski (1998, 124 ff.) used the ARIMA method, while Hřebíček (1997, 124 ff.) made use of the so-called Hurst index. The analysis did not yield results that would allow formulation of unambiguous generalisations, leading in a longer perspective to a quantitative law of longitudinal sentence length distribution in text. Existence of such a law would be certified by regular
occurrences of a specific model and, in an ideal case, of fixed coefficients that would make it possible to predict real features of any text sample. Yet, the examined samples (often coming from the same piece of writing) showed the presence of AR and ARMA processes of various orders and of various coefficient values. In many cases, the obtained time series were not correlated at all. It should be emphasised that the publications quoted above include results of tests performed on corpora representing different languages and styles (artistic prose, popular science, science). Figure 51.10 presents the distribution of model types estimated for 250 samples of French artistic prose (Pawłowski 1998, 130): To uncover the source of regularities occurring in some of the above samples, dialogues were removed from samples (since dialogue is predominated by sentences shorter than the ones in descriptive narration) and then models estimated for the same samples were compared. Autocorrelation of series obtained in this way was lower in every case, which proves that distribution of dialogues in text line increased text rhythmicity (cf. Pawłowski 1998, 136). To sum up, the hypothesis assuming the existence of some ordering of the length of subsequent sentences in text has neither been proved nor definitely rejected. Sentence length distribution in text is simply unstable, as it is highly dependent on numerous unpredictable factors like content, composition, and K last but not least K author’s taste and preferences. Therefore, in this case no hasty generalisations can be made; the focus should lie with description of individual phenomena, as it is done in stylometry. The analysis of sentence sequences can prove indeed immensely effective in the analysis of individual styles.
51. Modelling of sequential structures in text
6.
Literature (a selection)
Altmann, Gabriel (1993), Science and Linguistics. In: Contributions to Quantitative Linguistics. (Eds. R. Köhler/B. B. Rieger). Dordrecht: Kluwer Academic Publishers, 3K10. Altmann, Gabriel (1997), The Art of Quantitative Linguistics. In: Journal of Quantitative Linguistics 4 (1K3), 13K22. Azar, Moshe/Kedem, Benjamin (1979), Some Time Series in the Phonetics of Biblical Hebrew. In: Bulletin of the ALLC 7 (2), 111K129. Bavaud, François (1998), Mode`les et données. Paris: L’Harmattan. Boroda, Mojsej G. (1994), Complexity Oscillations in a Coherent Text: Towards the Rhythmic Foundations of Text Organization. In: Journal of Quantitative Linguistics 1 (1), 87K97. Box, George E. P./Jenkins, Gwilym M. (1970), Time series analysis: forecasting and control. San Francisco: Holden-Day. Brainerd, Barron (1976), On the Markov Nature of Text. In: Linguistics 176, 5K30. Bratley, Paul/Ross, Donald (1981), Syllabic Spectra. In: ALLC Journal 2 (2), 41K50. Bréal, Maurice (1991), The Beginnings of Semantics. Stanford: Stanford University Press. Brockwell, Peter /Davies Richard (1996), Introduction to time series and forecasting. New York etc.: Springer. Corduas, Marcella (1995), La struttura dinamica dei dati testuali. In: Analisi Statistica dei Dati Testuali, III Journées Internationales d’Analyse Statistique des Données Textuelles. (Eds. S. Bolasco et al.). Rome, 345K352. Coutrot, Bernard/Droesbeke, Jean-Jacques (1984), Les méthodes de prévision. Paris: PUF. Cryer, Jonathan (1986), Time series analysis. Boston: Duxbury Press. Dijk, Teun A. van (1980), Macrostructures. An Interdisciplinary Study of Global Structures in Discourse, Interaction and Cognition. Hillsdale: Lawrence Erlbaum Association. Dillon, Martin (1970), The Quantitative Analysis of language: Preliminary Considerations. In: Computer Studies in the Humanities and Verbal Behavior 3, 191K207. Dittmann, Jürgen (Ed.), Arbeiten zur Konversationsanalyse. Tübingen: Niemeyer Verlag, 1979. Dreher, John J./Young, Elaine L./Norton, Robert E./Ma, John T. (1969), Power Spectral Densities of Literary Speech Rhythms. In: Computer Studies in the Humanities and Verbal Behahior 2, 170K 191. Fucks, Wilhelm (1952), On mathematical analysis of style. In: Biometrika 39, 122K129.
749 Glass, Gene V./Wilson, Victor L./Gottman, John M. (1975), Design and Analysis of Time-Series Experiments. Colorado: Colorado Associated University Press. Gottman, John M. (1981), Time-series analysis: a comprehensive introduction for social scientists. Cambridge/London etc.: Cambridge University Press. Greenberg, Joseph H. (1960), A Quantitative Approach to the Morphological Typology of Language. In: International Journal of American Linguistics 26 (3) 178K194. Grotjahn, Rüdiger (1980), The Theory of Runs as an Instrument for Research in Quantitative Linguistics. In: Glottometrika 2, 11K43. Guiraud, Pierre (1954), Bibliographie critique de la statistique linguistique. Utrecht: Spectrum. Herdan, Gustav (1960), Type-token Mathematics. The Hague: Mouton. Herdan, Gustav (1966), Language as Choice and Chance. Berlin/New York etc.: Springer. (first edition 1956, Groningen: Mouton). Hřebíček, Lude˘k (1997), Lectures on Text Theory. Prague: Oriental Institute. Jakobson, Roman (1971), Linguistics and communication theory. In: Selected Writings II (Word and language). The Hague/Paris: Mouton, 570K579. Jakobson, Roman (1987), Linguistics and poetics. In: Language in literature (Ed. Roman Jakobson). Cambridge/London etc.: The Belknap Press of Harvard University Press, 62K94. Khmelev, Dimitri V./Tweedie, Fiona J. (2001), Using Markov chains for identification of writers. In: Literary and Linguistic Computing, 16 (3), 299K 307. Köhler, Reinhard (1983), Markov-Ketten und Autokorrelation in der Sprach- und Textanalyse. In: Glottometrika 5, 134K167. Köhler, Reinhard (1995), Bibliography of Quantitative Linguistics. Amsterdam: John Benjamins. Levin, Jurij I. (1967), O količestvennyx xarakteristikax raspredelenija simvolov v tekste. In: Voprosy Jazykoznanjia 6, 112K121. Lyons, John (1968), Introduction to Theoretical Linguistics. Cambridge: at the University Press. Makridakis, Spyros/Wheelwright, Steven C. (1978), Forecasting: Methods and Applications. Santa Barbara/California: Wiley. McCleary, Richard /Hay, Richard A. (1980), Applied Time Series Analysis for the Social Sciences. Beverly Hills/California: Sage Publications. Miller, George A./Chomsky, Noam (1963), Finitary models of language users. In: Handbook of Mathematical Psychology vol.II. (Eds. R. D. Luce/ R. R. Bush/E. Galanter). New York: Wiley, 419K 491.
750
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Nurius, Paula S. (1983), Methodological Observations on Applied Behavioral Science. In: The Journal of Applied Behavioral Science 19 (3), 215K 228. Oppenheim, Rosa (1988), The mathematical analysis of style: a correlation-based approach. In: Computers and the Humanities 22 (1988), 241K 252. Pawłowski, Adam (1997), Time-Series Analysis in Linguistics. Application of the ARIMA Method to Some Cases of Spoken Polish. In: Journal of Quantitative Linguistics 4 (1K3), 203K221. Pawłowski, Adam (1998), Séries temporelles en linguistique. Avec application à l’attribution de textes: Romain Gary et Émile Ajar. Paris: Champion. Pawłowski, Adam (1999), Language in the line vs. language in the mass: On the efficiency of sequential modelling in the analysis of rhythm. In: Journal of Quantitative Linguistics 6 (1), 70K77. Pawłowski, Adam (2001a), Metody kwantytatywne w sekwencyjnej analizie tekstu [Quantitative Methods in Sequential Analysis of Text]. Warszawa: Katedra Lingwistyki Formalnej Uniwersytetu Warszawskiego. Pawłowski, Adam (2001b), Sequential modelling of text structure and its application in linguistic typology. In: Text as a Linguistic Paradigm: Levels, Constituents, Constructs. (Eds. L. Uhlířová/G. Wimmer/G. Altmann et al.). Trier: WVT, 226K 237. Pawłowski, Adam/Eder, Maciej (2001), Quantity or Stress? Sequential Analysis of Latin Prosody. In: Journal of Quantitative Linguistics 8(1), 2001, 81K89. Pawłowski, Adam/Krajewski, Marek/Eder, Maciej (2003), Time series modelling in the analysis of Homeric verse. In: Computers and the Humanities (to be published). Petruszewycz, Micheline (1981), Les chaînes de Markov dans le domaine linguistique. Gene`ve: Slatkine. Roberts, Alan (1996), Rhythm in Prose and the Serial Correlation of Sentence Lengths: a Joyce Cary Case Study. In: Literary and Linguistic Computing (ALLC) 11 (1), 33K39. Saussure, Ferdinand de (1973), Cours de linguistique générale. Paris: Payot. Shannon, Claude (1948), The Mathematical Theory of Communication. In: Bell System Technical Journal 27, 379K423.
Schils, Erik/Haan, Petr de (1993), Characteristics of sentence length in running text. In: Literary and Linguistic Computing 8 (1), 1993, 20K26. Siewierska, Anna (1988), Word Order Rules. London, New York: Croom Helm. Skinner, Burrhus F. (1941), A quantitative estimate of certain types of sound-patterning in poetry. In: American Journal of Psychology 54, 64K 79. Strauss, Udo/Sappok, Christian/Diller, Hans-Jürgen/Altmann, Gabriel (1984), Zur Theorie der Klumpung von Textentitaeten. In: Glottometrika 7, 73K100. Tomaševskij, Boris V. (1929), O stixe [On verse]. Leningrad. Reprint: München, Wilhelm Fink Verlag, 1970. Vasjutočkin, G. S. (1987), Das rhytmische System der “Aleksandrinischen Gesänge”. In: Glottometrika 8, 178K191. Weaver, William/Shannon, Claude (1949), The Mathematical Theory of Communication. Illinois: Urbana. Whiteley, Paul (1980), Time Series Analysis. In: Quality and Quantity 14, 225K247. Wiener, Norbert (1948), Cybernetics or control and communication in the animal and the machine. Cambridge (Mass.): MIT Press. Williams, Carrington B. (1970), Style and vocabulary: numerical studies. London: Griffin. Woronczak, Jerzy (1960), Statistische Methoden in der Verslehre. In: Poetics-Poetyka-Poétika 1, 607K624. Woronczak, Jerzy (1976), O statystycznym określeniu spójności tekstu [On the statistical determination of text coherence]. In: Semantyka tekstu i języka. Wrocław: Ossolineum, 165K173. Xantos, Aris (2000), Entropizer 1.1: un outil informatique pour analyse séquentielle. In: JADT 2000, Actes des 5es journées internationales d’analyse statistique des données textuelles. (Eds. M. Rajman/J. C. Chappelier). Lausanne: EPFL, 357K364. Zörnig, Peter (1984a), The Distribution of the Distance Between Like Elements in a Sequence (I). In: Glottometrika 6, 1K13. Zörnig, Peter (1984b), The Distribution of the Distance Between Like Elements in a Sequence (II). In: Glottometrika 7, 1K14.
Adam Pawłowski, Wrocław (Poland)
751
52. Correlational analysis in linguistics: results and perspectives
52. Correlational analysis in linguistics: results and perspectives 1. 2. 3. 4. 5. 6.
1.
Frequency and correlational analysis in contemporary linguistics Correlational analysis of the English verbal system Correlational classification of languages and language features on J. H. Greenberg’s criterion Correlational classification of the grammatical systems of Indo-European languages Correlational multilevel classification of the verbal systems of Indo-European and heterostructural languages Literature (a selection)
Frequency and correlational analysis in contemporary linguistics
The main quantitative instrument of linguistic research in the past several decades has been that of various types of frequency analysis K an estimation of the ratio of representation of a certain set of features in a given class of phenomena and the corresponding mean values (arithmetic mean, geometric mean, median, mode, quartile, decile, etc.) (Piotrovskij/Bektaev/Piotrovskaja 1977, 233). The simplest and most widespread frequency data percentage indices reveal the relative weight (degree of significance) of an isolated element in the system under consideration K an important prerequisite for any scientific investigation. Another, no less important scientific desideratum is an exposition of the statistically relevant interconnections between the phenomena studied as an empirical basis for their ensuing theoretical interpretation in terms of causal dependencies (Goodman/ Kruskal 1954, 268; Goodman/Kruskal 1959, 285; Tuldava 1991, 9 ff.). It is this preexplanatory function that is fulfilled by correlational analysis. The frequency and correlation criteria thus constitute two juxtaposed methodological coordinates, the scissorlike complementarity of which maps out two mutually independent, yet equally essential perspectives of scientific investigation, aimed at establishing (a) the frequency distribution of the set of subclasses of a certain class of phenomena; (b) various degrees of statistical interconnection, positive or negative, between
different elements of the class, irrespective of their frequencies. Despite the obvious methodological efficacy of the second approach, as demonstrated by its wide and successful utilization in technology, biology, sociology, psychology and other fields of scientific inquiry, the statistical method of correlational analysis has not yet received, in the author’s opinion, an application in linguistic studies commensurable with its objective heuristic potentialities. The primary opposition in correlational statistics is between quantitative and qualitative features. In the first case different numerical values are ascribed to every element of the set. Qualitative features, on the other hand, cannot be measured. They are simply attested as present or absent in every item of a given set. The contemporary statistical repertory lists over a hundred correlation criteria for qualitative features. Of special significance are tetrachoric coefficients based upon a subdivision of the selected set into four complementary disjoint subclasses characterized by the presence or absence of two arbitrary features X and Y: X KX
Y a c
KY b d
The most widely used and approbated of the tetrachoric indices is K. Pearson’s correlational coefficient based upon the chi-square criterion (Glass/Stanley 1970, 147) and characterized by a low level of dispersion, fixed limits of variability, standard formulae of selection errors and a high resolution capacity. Another advantage of Pearson’s coefficient is the coequality of its indices with those of the corresponding dichotomous features regarded as qualitative ones (Glass/Stanley 1970, 148). The range of values of the given coefficient (from C1 to K1) serves as a precondition for discriminating positive and negative connections between the juxtaposed features. Pearson’s correlational criterion, in distinction to the frequency approach, thus enables the investigator to differentiate between relevant/irrelevant and positive/negative correlations between various pairs of features.
752
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
After the pioneering work of Altmann/ Lehfeldt (1973, 11 ff.), a further breakthrough in the systematic application of correlational analysis in linguistic studies, dating from 1982, was performed by a group of linguists in Smolensk (Silnitsky/Kristallinsky/ Andreyev et al. 1982, 5K20). Our further exposition will be mainly dedicated to a commentary on this school of correlational linguistics.
2.
Correlational analysis of the English verbal system
In the investigation under discussion the correlational method, newly brought to the attention of the linguistic community, was focused upon problems pertaining to the internal structure of a single language K English. Pearson’s criterion was applied to a data base comprising the full list of verbs (5684 lexical entries) recorded in Hornby (1982). Each verb had ascribed to it the presence or absence of 114 features of various linguistic types: semantic, syntactic, morphological, derivational, phonetic, etymological, diachronic, stylistic. A correlational analysis of the data base brought to light several thousand statistically relevant correlations between verbal features (Sil’nitskij/Andreev/Kuz’min et al. 1990, 44K58), grouped into three classes on the basis of their positive interrelations (Silnitsky 1993a, 415): (1) energic meaning (reflecting various types of transformation and conservation of physical energy: motion, physical processes, etc.), causative meaning, polysemantic structure, intransitivity, adverbial modifier, monosyllabic and monomorphemic structure, Old English origin, Germanic root, imitative root, low style; (2) informational meaning (reflecting various types of information processing: perception, cognition, speech, etc.), operative meaning (reflecting a cause of a potential, unrealized and unspecified sequent state: ‘push’, ‘hit’, ‘implore’), indirect/prepositional object, complex object, object clause, nonderived status, extraverbal derivation, high style, archaism; (3) ontological meaning (disjunctively combining semantic characteristics of energic and informational meanings: exis-
tence; qualitative, quantitative, temporal characteristics, etc.); monosemantic structure, transitivity, polymorphemic structure, derived status, New English origin, Romanic root.
3.
Correlational classification of languages and language features on J. H. Greenberg’s criterion
At the second stage of the investigation the conceptual apparatus approbated within the limits of English was extrapolated onto a wider range of languages, thus constituting, following the above-mentioned AltmannLehfeldt lead (cf. likewise Krupa/Altmann 1966, 29K37), a correlational extension in the field of quantitative linguistic typology, previously dominated by various frequency approaches (Greenberg 1960 178K194; Milevskij 1963 3K27; Pierce 1966 43K50; Kasevič /Jachontov 1982, 3K12). This typological development was effected in two main directions. A comparative study of 31 languages based upon J. H. Greenberg’s set of typological indices (Greenberg 1960, 179K184) with certain modifications (cf. Krupa 1965, 21K36) marked a typological application of correlational analysis to quantitative language features (Sil’nitskij/Jachontov/Jachontov 1986, 105K125; Silnitsky 1993b, 139K 160). A number of additional correlational criteria, based upon the notion of a medial correlation coefficient (arithmetic mean of a certain set of primary correlational indices), were introduced as instrumental in elaborating a correlational classification of languages and language features. These criteria include: (1) the medial intra-cluster coefficient (MIC) of an element (language feature), representing the arithmetic mean of its correlations with all the other elements of the same cluster; (2) the average intra-cluster coefficient (AIC) of a cluster, defined as the arithmetic mean of the MIC’s of all its elements, thus representing the “degree of internal cohesion” of the given cluster; (3) the medial extra-cluster coefficient (MEC) of an element in relation to some other cluster, defined as the arithmetic mean of the correlations of this element with all the elements of the other cluster; (4) the average extracluster coefficient (AEC) of two juxtaposed clusters, calculated as the arithmetic mean of the correlations of all the elements of one
52. Correlational analysis in linguistics: results and perspectives
cluster with all the elements of another and representing the correlational distance between the two clusters, the degree of their mutual contraposition; (5) the general medial coefficient (GMC) of an element, calculated as the arithmetic mean of its correlations with all the other elements of the system under consideration, thus illustrating the typological weight, degree of centrality of the element in the given system. A classificatory scheme of language features and languages was elaborated on the basis of the above set of correlational criteria. The first classificatory parameter is represented by the opposition between two polar clusters of typological language indices: Cluster A: synthetic, inflectional, derivational, suffixal, concordance indices. Cluster B: agglutinative, compositional, isolational indices. As is evident from the two lists, the main opposition here is between synthetic and analytic morphological characteristics. A further specification is provided by a subdivision of the investigated languages into the following 4 correlational classes: Class 1 (analytic languages): Vietnamese, Chinese, Khmer, Thai, Indonesian, Tibetan, Burmese, et al. Of special interest is the inclusion into this group of a number of Indo-European languages, primarily English and Persian. Class 2 (agglutinative languages): Turkish, Mongolean, Manchurean, Chukchee, Telugu, et al. Japanese and Korean, of controversial typological relationship, likewise pertain to this group on correlational criteria. Class 3 (inflecting languages): Sanskrit, Russian. Class 4 (residual class): German, Hindi, Urdu. The main instance of defeated expectation provided by the foregoing classification is the high degree of typological diversity of the Indo-European languages under discussion, three of which are referred to different correlational classes, while another K French K does not enter into any of the established categories, though closely connected with English. The above classification exhibits a sufficiently high level of concordance with that in Altmann/Lehfeldt (1973, 66 ff.), the only
753
major distinction being a separation of Vietnamese from English and Persian into a disparate class.
4.
Correlational classification of the grammatical systems of Indo-European languages
Another field of correlational typological inquiry was based upon qualitative language features as represented by the presence or absence of 40 morphological features (article, number, gender, case, person, voice, mood, tense, et al.) in the grammatical systems of 38 Indo-European languages (Silnitsky 1998, 81K95). The following conclusions were formulated: (1) Number is the most typologically representative of the nominal morphological categories in the Indo-European grammatical system. (2) Case is the least representative for the noun and adjective and the most representative for the pronoun. (3) The three-gender and two-number paradigms are dominant; the former is especially prominent in the adjectival system. (4) The genitive, dative and accusative cases are more representative of the nominal system than the instrumental and locative, the accusative reaching its highest typological mark in the paradigm of the adjective. (5) The definite article is more extensively represented in Indo-European languages than its indefinite counterpart; of the inflectional categories, gender is the most, and case the least, characteristic of the article. (6) The central typological opposition of the IndoEuropean nominal system is that between the categories of article and case. (7) The subcategories of number for the adjective and pronoun and case for the pronoun are characterized by the highest generalized correlation coefficients. (8) The pronoun is the only nominal part of speech with a positive correlation of case with gender and number. (9) The Indo-European nominal system is constituted by three typological complexes of morphological features, based upon: (a) the article, (b) case, (c) the gender-number complex. (10) The Indo-European verbal morphological system is typologically constituted by four complexes of morphological features: (a) subjunctive mood, perfect, future-in-the-past, continuous, perfect continuous, gerund; (b) imperative mood, future tense, participle, verbal person and number; (c) optative mood, medial voice,
754
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
dual number; (d) aspect, verbal gender, adverbial participle. (11) The article is correlationally connected with the subjunctive, perfect and future-in-the-past. (12) The participle is positively correlated with the imperative mood and future tense. (13) Gender (primarily verbal) constitutes the main typological characteristic of Slavic languages on correlational criteria. (14) The subjunctive mood in its manifold subtypes and the gerund are the most representative categories of Romance languages. The main differential correlational feature of Slavic and Romance languages is adjectival gender, positively correlated with the former and negatively with the latter. (15) The perfect is positively, aspect K negatively correlated with Germanic languages. (16) Ancient and modern languages are mainly differentiated through the subcategories of dual number and medial voice, positively correlated with the former and negatively with the latter.
5.
Correlational multilevel classification of the verbal systems of Indo-European and heterostructural languages
A comparative study of the correlational verbal systems of ten languages (English, French, German, Russian, Armenian, Arabic, Turkish, Indonesian, Chinese, Japanese), was conducted by a group of linguists from Smolensk, Moscow, St-Petersburg, Minsk (Sil’nitskij 1999a, 267K315). The above set of generalized correlational criteria was extended by the following types of medial coefficients: (1) the generalized extra-cluster coefficient (GEC) of a cluster: the arithmetic mean of its average extra-cluster coefficients (AEC’s) with all the other clusters of the given system, representing its status in the system, the medial degree of its opposition to the other clusters; (2) the generalized typological coefficient (GTC) of a feature: the arithmetic mean of its MLC’s in all the languages under inspection; (3) the generalized intra-cluster coefficient (GIC) of a language: the arithmetic mean of all the average intra-cluster coefficients (AIC’s) in its structure, representing the medial degree of intra-cluster cohesion of the given language;
(4) the generalized inter-cluster coefficient (GCI) of a language: the arithmetic mean of all the AEC’s in its structure, illustrating the medial degree of contraposition of the clusters in the given language; (5) the generalized typological coefficient (GTC) of a feature: the arithmetic mean of its medial intra-language coefficients (MLC’s) in all the languages under inspection, illustrating its medial typological weight, degree of significance in the whole set of languages; (6) the generalized language correlation coefficient (GLC) of a language: the arithmetic mean of all the binary correlations of its features, representing the medial degree of correlational cohesion of its verbal system as a whole; (7) the universal typological coefficient (UTC): the arithmetic mean of all the GLC’s, representing the medial degree of correlational cohesion of the verbal systems of the languages concerned. The last criterion subdivides the investigated languages into two classes: the five nonIndo-European languages (Turkish, Indonesian, Arabic, Chinese, Japanese) are characterized by a heightened (above the median) degree of correlational interdependence of their verbal features, while the five Indo-European languages (English, German, Armenian, Russian, French) have the opposite characteristic (cf. Silnitsky (1999b, 271)) where the languages are listed in the descending order of their generalized language coefficients (GLC’s)). In other words, languages of the Indo-European subset are characterized by a greater degree of freedom in the correlational structure of their verbal systems, than their heterostructural counterparts. The medial correlation coefficients of language features and languages may be calculated on at least four different criteria. (a) The absolute index (IA) of an element (language feature or language) is calculated as the arithmetic mean of the absolute values (irrespective of their positive or negative indices) of its correlations with other elements of the same category, thus representing its global correlational weight in the corresponding verbal system. (b) Another important typological aspect of verbal features and whole verbal systems, complementary to their IA’s, is the degree of variability of their corre-
755
52. Correlational analysis in linguistics: results and perspectives
lational connections with other elements of the same type in various languages. This characteristic of a verbal feature is reflected by its variative index (IV), calculated as the absolute value of the arithmetic mean of its mutually compensatory positive and negative correlations with other features of the same language (i. e. as the “least common denominator” of its heterogeneously-marked correlational indices). The numerical difference between the absolute and variative indices of an element (IA minus IV) reflects the degree of its correlational homogeneity in various languages. The latter may be expressed more generally, in terms of absolute values (constancy indices: IC), or more concretely, with a specification of the positive or negative sign of the index (residual index: IR). (c) The constancy index of an element thus indicates the general degree of its correlational homogeneity, irrespective of its positive or negative nature, in various languages. (d) The residual indices of an element indicate the degree to which either its positive or its negative correlations predominate in the verbal system of a given language. On the whole, positive and negative correlations counterbalance one another. The relations between the values of the four indices on the criterion of Spearman’s rank coefficient are as follows: Table 52.1: Statistical relations between the generalized indices. IA IV IC IR
IA
IV
IC
IR
X .686 .320 K.057
.686 X K.365 .158
.320 K.365 X K.329
K.057 .158 K.329 X
The table shows that the highest positive rank correlation is that between the absolute and variative indices; on the other hand, the constancy indices are opposed to the variative and residual indices. A comparison of the generalized typological coefficients of the language features under discussion singles out the following verbal characteristics as of primary typological significance: mono-/polymorphemic structure; transitivity/intransitivity; energic, causative, processive (noncausative) types of verbal meaning; mono-/polysyllabic structure; native root. At a more generalized level of investigation it was shown that verbal features of the same type (semantic, syntactic, etc.) are isofunctional, i. e. have a similar typological status in the correlational structure of the corresponding verbal systems. Each level of verbal features in a language is characterized by its average intracluster coefficient (AIC), representing the degree of correlational interdependence of its elements (features pertaining to the same level). A comparison of English (Silnitsky 1999, 130), Chinese (Gordej 1999, 245) and Japanese (Tolstoj 1999, 254) on this criterion is presented in Table 52.2. Indices above the mean values in each language are singled out in bold type. As can be seen from the table, each language is characterized by a specific rank distribution of the corresponding medial correlations. From the typological point of view, Chinese and Japanese exhibit a closer affinity on the given criterion with each other than with English. The next step in the investigation is concerned with a calculation of the relative “typological weights” of various pairs of verbal features. The typological correlation coefficient (TCC) of a pair of verbal features is defined as the arithmetic mean of its correlational indices in all the languages where
Tab. 52.2: Average internal coefficients of linguistic levels. English 1 2 3 4 5 6 7
Diachronic Phonetic Morphemic Derivational Etymological Semantic Syntactic
Mean
Chinese .463 .374 .251 .243 .232 .204 .151 .274
Morphemic Semantic Diachronic Phonetic Derivational Syntactic Etymological
Japanese .148 .138 .137 .130 .127 .100 .072 .122
Etymological Semantic Derivational Diachronic Syntactic Phonetic Morphemic
.231 .123 .121 .110 .094 .090 .079 .121
756
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Tab. 52.3: Main typological correlations. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 16 18 19 20
Feature 1
Feature 2
TCC
Monomorphemic structure Intransitivity Transitivity Monomorphemic structure Monosyllabic structure Informational meaning Monomorphemic structure Native root Informational meaning Monosyllabic structure Nonderived status Energic meaning Energic meaning Transitivity Monomorphemic structure Nonderived status Energic meaning Extraverbal derivation Monosyllabic structure Operative meaning
Monosyllabic structure Processive meaning Causative meaning Nonderived status Nonderived status Operative meaning Old Language Old Language Object clause Old Language Old Language Causative meaning Adverbial modifier Extraverbal derivation Energic meaning Extraverbal derivation Old Language Old Language Energic meaning Object clause
.582 .519 .451 .387 .305 .249 .211 .200 .191 .179 .168 .152 .146 .144 .128 .119 .119 .113 .111 .107
the given two features are represented. The following 20 pairs of verbal features (Table 52.3) are of the highest typological significance on this criterion: A group of verbal features interconnected with one another by positive typological correlations with indices not lower than a certain medial value (.40) constitute a typological block (TB). Typological blocks thus figure as a set of stable building blocks (typological immediate constituents), various combinations of which in individual languages determine the cluster structure of their verbal systems. The following 7 typological blocks of verbal features are differentiated on the criterion of their relative AIC’s: TB1: monosyllabic structure, mono-morphemic structure, nonderived status, Old Language (.88). TB2: polysemantic structure, poly-morphemic structure, derived status (.91).
TB3: informational meaning, operative meaning, indirect object (.68). TB4: energic meaning, native root, adverbial modifier (.58). TB5: ontological meaning, borrowed root, New Language (.50). TB6: intransitivity, processive meaning (.89). TB7: transitivity, causativity (.59). The degree and type of the connections between the typological blocks are shown (cf. Table 52.4) by their binary AEC’s K the mean arithmetic values of all the typological correlations of the elements of one block with the elements of another. The main, pivotal role in the structure of the typological space of the verbal systems under consideration is fulfilled by the opposition between the two polar typological blocks K TB1 and TB2 K characterized by a maximal internal integrity (AIC Z .88 and .91 respectively) in conjunction with a maxi-
Tab. 52.4: Average extra-cluster correlation coefficients of typological blocks. TB1 TB2 TB3 TB4 TB5 TB6 TB7
TB1
TB2
TB3
TB4
TB5
TB6
TB7
X K.963 K.119 .464 K.531 .236 K.115
K.963 X .122 K.464 .519 K.233 .113
K.119 .122 X K.436 .092 K.105 K.158
.464 K.464 K.436 X K.472 .447 K.167
K.531 .519 .092 K.472 X .000 .113
.236 K.233 K.105 .447 .000 X K.725
K.115 .113 K.158 K.167 .113 K.725 X
52. Correlational analysis in linguistics: results and perspectives
mal negative inter-cluster opposition between their elements (mono-/polysyllabic structure, mono-/polymorphemic structure, nonderived/derived status). Each of the two polar typological blocks is closely connected with a concomitant block: TB1 with TB4, TB2 with TB5. We thus have two antithetical complexes: TB1TB4 and TB2-TB5. TB3 is the only typological block which has no relevant correlations with any other block, thus occupying a medial position in the typological system. In contradistinction to the five abovementioned typological blocks which constitute the stable basis of the typological verbal system, the remaining two K TB6 and TB7 K fulfill a differential function induced by the following factors: (a) These two typological blocks are maximally opposed to each other in both of their constituent elements (intransitivity/transitivity, processive/causative meaning), thus forming the second, subsidiary opposition in the structure of the typological system, independent of the first. (b) The typological correlations of intransitivity/transitivity with the two polar blocks representing the antithetical characteristics of formal (phonetic and morphemic) simplicity (TB1) vs. complexity (TB2) of verbal bases are characterized by the greatest variability of their realization in individual languages, and therefore figure as the main diagnostic indicator of the structural peculiarities of the verbal systems in individual languages. Thus the typological space of verbal systems is characterized by the following generalized cluster structure: (1) The basic opposition is constituted by the contraposition of two polar complexes: TB1/TB4 and TB2/ TB5. (2) The medial position in the system is occupied by TB3, not connected with any other block. (3) The mobile blocks K TB6 and TB7 K may tend to either of the two polar extremes, thus fulfilling a differential function determining the typological variability of the verbal systems of individual languages. On the latter criterion the languages under investigation may be subdivided into three groups: (1) Languages, characterized by positive correlations Vi K simple verbal base and/or Vt K complex verbal base: English, French, German; Chinese occupies a peripheral position in the group. (2) Languages with the opposite positive correla-
757
tions Vi K complex verbal base and/or Vt K simple verbal base: Russian, Armenian, Arabic, Indonesian. (3) Languages in which Vi and Vt are not relevantly correlated with features characterizing the simplicity or complexity of verbal bases: Turkish, Japanese. As shown above (Table 52.4), TB6 displays a higher tendency towards the complex TB1/TB4, TB7 K towards the opposite complex TB2/TB5. In this respect the languages of group (1) manifest a higher, the languages of group (2) K a lower degree of conformity of the intra-lingual correlational orientation of Vi and Vt with the generalized typological standard. In the latter case the “intrusion” of Vi into the “normative” correlational sphere of the complex TB2/ TB5 exerts a dissimilar effect on the intralingual correlational status of the concomitant block TB5. In Russian and Armenian, as in the majority of other languages, TB5 retains its connection with TB2. On the other hand, in Arabic and Indonesian, in distinction to the other languages, the correlational “attraction” of Vi is strong enough to disconnect the two blocks. Group (2) may accordingly be subdivided into two subgroups: (a) languages retaining the connection between TB5 and TB2: Russian, Armenian; (b) languages lacking such a connection: Arabic, Indonesian. The conceptual apparatus described above is employed further to accomplish a structuralized description and classification of the verbal systems of the ten individual languages under discussion. A multidimensional classification of complex linguistic systems meets at the very outset with the problem of the basis of classification: are the systems to be grouped in a single unified taxonomical perspective or are they subject to several mutually independent classificatory approaches on various criteria? In the latter case the initial independent classificatory schemes become topics of a secondary metaclassification (classification of classifications), grouping the primary classifications on the basis of their common and differential characteristics. The primary classifications of verbal systems based upon various sets of criteria described above may be grouped into two metatypes differentiated on the basis of the taxonomic characteristics of three typologi-
758
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
cally ambivalent languages: English, Chinese and Indonesian: Metatype 1 (typological junction of Chinese and English) is most manifestly illustrated by the classification based upon primary quantitative correlation indices of verbal features in individual languages. Four groups of languages are differentiated on the factor criterion: (1) German, French, Russian, Armenian; (2) English, Chinese; (3) Turkish, Japanese; (4) Arabic, Indonesian. It should be noted that on the correlational criterion Chinese is more closely connected with Indonesian (.74) than with English (.59). Likewise noteworthy are the close correlational connections of Russian and Armenian with Arabic and Indonesian. The primary classification based upon qualitative correlation indices in concrete languages likewise pertains to the given typological metatype, although in a less representative form. On the five-factor criterion the groups Arabic-Indonesian, ChineseEnglish, Turkish-Japanese coincide with those defined above. The remaining four languages have a more differentiated distribution: French and Armenian form a separate group; German tends towards the English-Chinese group; Russian is isolated from the other languages. It is to be noted that on the three- and four-factor criteria Chinese is not connected relevantly with English (or with any other language). On the other hand, on the correlational criterion Chinese is more closely connected with Indonesian than with English. Thus, the typological ambivalence of Chinese, balancing between English and Indonesian, is demonstrated more clearly on qualitative than on quantitative initial correlational data. Analogous classifications are based upon other sets of initial data: quantitative absolute, qualitative constancy, and qualitative residual correlation coefficients. Metatype 2 (typological junction of Chinese and Indonesian) will be illustrated by the classification based upon qualitative absolute correlation. On the factor criterion the languages are grouped as follows: (1) Arabic, Indonesian, Chinese; (2) English, German; (3) Turkish, Japanese. French, Russian and Armenian figure as isolated languages, the latter two opposed to each other. Chinese and Indonesian are connected here by the strongest correlation. The given typological metatype is likewise represented by
the classification based upon qualitative variative correlation indices. A comparative analysis of the above data supports the following generalizations: (1) Two pairs of verbal systems K Turkish/Japanese and Arabic/Indonesian K stand out as the constant classificatory blocks of the typological system which retain an internal interconnection of their elements irrespective of the various criteria applied. (2) Chinese fulfils the main differential function in the system being typologically connected with English on some criteria and with Indonesian on others. English, when disconnected from Chinese, is affiliated with German and French. (3) Russian and Armenian, characterized by the most mobile typological relations in the system, constitute its fluctuating elements. These conclusions are to a large degree concordant with the generalizations formulated above on the basis of the structural role of typological blocks of verbal features. Thus, Turkish-Japanese, Arabic-Indonesian and Russian-Armenian constitute discrete classificatory blocks both on the structural and correlational criteria, the latter two blocks characterized by a supplementary interconnection on a more generalized level of discussion. On the structural criterion Chinese enters into the same group with English, German and French as its peripheral element. It is to be specified that, although Chinese is the most closely associated with English on this criterion, the connection is not strong enough to exclude an alternative typological connection of Chinese with Indonesian. The final typological classification of the verbal systems discussed presents itself in the following form: (1) Turkish, Japanese; (2) Arabic, Indonesian; (3) Russian, Armenian; (4) English, French, German; (5) Chinese, ambivalently connected with English or Indonesian. A comparison of the above classification of languages with a classification based upon a completely different empirical foundation K J. Greenberg’s “typological indices” (Greenberg 1960; Sil’nitskij et al. 1986; Silnitsky 1993b) K motivates the following generalizations. Common to both classifications are the following language groups: (1) Turkish, Japanese; (2) English, Chinese; (3) French, German. The main distinction is seen in the typological status of the three remaining lan-
52. Correlational analysis in linguistics: results and perspectives
guages: Russian, Arabic, Indonesian. In the “correlational” typology of the present investigation Arabic is connected with Indonesian, in “Greenberg’s” typology K with Russian. Chinese is accordingly connected disjunctively with English or Indonesian in the first typological classification and conjunctively with both these languages in the second. In the latter scheme Russian is less closely connected with the other Indo-European languages and more closely with Arabic, than in the former. It may be surmised that the different typological status of Arabic in the two classifications is a consequence of the fact that its verbal subsystem is characterized (in a greater measure than that of the other languages under discussion) by a number of specific traits not covered by Greenberg’s indices. The main conclusion of our discussion is that a wider and more systematic use of correlational analysis, in conjunction with the kindred methods of factor and cluster analysis, is due to open up new, as yet insufficiently explored, vistas of linguistic investigation. The urgency of a prompt realization of these heuristic potentialities is enhanced by the fact that linguistics lacks many experimental procedures characteristic of the natural sciences, so that the establishment of statistically valid connections constitutes a major, if not the only, reliable route to discovering causal interdependencies between empirical phenomena. Correlational analysis is systematic in its essence; therefore a prerequisite for a fullfledged correlational investigation is its approximation to a reasonably exhaustive coverage of the relevant empirical data. The need for coordinated research work on a common methodological foundation is especially evident in the field of typological quantitative studies.
6.
Literature (a selection)
Altmann, Gabriel/Lehfeldt, Werner (1973), Allgemeine Sprachtypologie. München: Fink. Glass, G. V./Stanley, J. C. (1970), Statistical methods in education and psychology. Englewood Cliffs, N. J.: Prentice-Hall. Goodman, L. A./Kruskal, W. H. (1954), Measures of association for cross classifications. In: Journal of the American Statistical Association 49, 732K 764. Goodman, L. A./Kruskal, W. H. (1959), Measures of association for cross classifications: further dis-
759
cussion and references. In: Journal of the American Statistical Association 54, 123K163. Greenberg, Joseph H. (1960), A quantitative approach to the morphological typology of languages. In: International Journal of American Linguistics 26, 178K194. Hornby A. S. (1982), “Oxford Advanced Learner’s Dictionary of Current English”. Oxford: Oxford University Press. Kasevich, Vadim V./Jachontov, S. E. (eds.), Kvantitativnaja tipologija jazykov Azii i Afriki. Leningrad: Izdatel’stvo Leningradskogo Universiteta, 1982. Krupa, Viktor (1965), On quantification of typology. In: Linguistics 12, 21K36. Krupa, Viktor/Altmann, Gabriel (1966), Relations between typological indices. In: Linguistics 24, 29K37. Milevskij, Tadeus (1963), Predposylki tipologičeskogo issledovanija. In: Issledovanija po strukturnoj tipologii, 3K27. Pierce, J. E. (1966), Sampling and typo-logical indices in languages. In: Linguistics 24, 43K50. Piotrovskij, Rajmond G./Bektaev, K. B./Piotrovskaja, Anna A. (1977), Matematicˇeskaja lingvistika. Moscow: Nauka. Sil’nitskij, Georgij G./Kristallinsky, Roman E./Andreev, Sergej N./Kuz’min, L. A. (1982), O nekotorych matematicˇeskich metodach klassifikacii leksicˇeskich edinic i ich priznakov. In: Problemy slovoobrazovanija v anglijskom i nemeckom jazykach. (Ed. G. Sil’nitskij). Smolensk: Izdatel’stvo Smolenskogo gosudarstvennogo pedagogičeskogo instituta. Sil’nitskij, Georgij G./Jachontov, Konstantin S./ Jachontov, Sergej E. (1986), Primenenie korrel’acionnogo i faktornogo analiza v tipologii jazykov. In: Aktual’nye voprosy derivatologii i derivatografii. (Ed. B. Bartkov). Vladivostok: Izdatel’stvo dal’nevostočnogo otdelenija Akademii Nauk. Sil’nitskij, Georgij G./Andreev, Sergej N./Kuz’min, Leonid A. (1990), Sootnošenie glagol’nych priznakov razlicˇnych urovnej v anglijskom jazyke. Minsk: Navuka i tėchnika. Sil’nitsky, Georgij (1993a), Correlational system of verbal features in English and German. In: Contributions to Quantitative Linguistics. (Eds. R. Köhler/B. B. Rieger). Dordrecht/Boston et al.: Kluwer Academic Publishers, 409K420. Sil’nitsky, Georgij (1993b), Typological indices and language classes: a quantitative study. In: Glottometrica 14. (Ed. G. Altmann). Trier: Wissenschaftlicher Verlag Trier, 139K160. Sil’nitsky, Georgij (1998), Correlational analysis of the Indo-European morphological system. In: Journal of Quantitative Linguistics 5, 81K95.
760
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Sil’nitskij, Georgij (ed.), Korrel’acionnaja tipologija glagol’nych sistem indoevropejskich i inostrukturnych jazykov. Smolensk: Institut lingvističeskich issledovanij rossijskoj akademii nauk et al., 1999a. Sil’nitskij, Georgij (1999b), Tipologija glagol’nych korrel’acionnych sistem. In: Silnitsky 1999a, 267K 315.
Tuldava, Juhan A. (1991), O verojatnostno-statisticˇeskom modelirovanii pricˇinno-sledstvennych zavisimostej v jazyke. In: Ėvristicˇeskie vozmožnosti kvantitativnych metodov issledovanija jazyka. (Ed. G. Sil’nitskij). Smolensk: Izdatel’stvo Smolenskogo gosudarstvennogo pedagogičeskogo instituta.
Georgij Sil’nitskij, Smolensk (Russia)
53. Synergetic linguistics 1. 2. 3. 4. 5. 6. 7. 8. 9.
Introduction Synergetics and systems theory Synergetic modelling in linguistics Language evolution The logic of explanation Modelling technique Applications in linguistic fields Perspectives Literature (a selection)
1.
Introduction
Scientific work proceeds on three levels: observation, description, and explanation. Observation (including experimentation) transforms phenomena into data K a process which takes place in the light of a theory or, more often, in the light of some pretheoretical assumptions. Scientific description requires advanced tools, among which must be a conceptual system and rules to set up the correspondence between the observed data and the concepts (e. g. categories, rules, etc.) Advanced descriptive tools provide, besides the concepts, explicit statements about the relations between them. Most linguistic discussion (qualitative and quantitative) is done in the domain of descriptive (and applied) approaches, although they are often mistakenly referred to as theories. Theories, however, consist of systems of universal laws, without which explanation is not possible. The main concern of synergetic linguistics is to provide a framework for linguistic theory building, i. e. a modelling approach which can be used to set up universal hypotheses by deduction from theoretical considerations, to test them, combine them into a network of laws and law-like statements, and explain the phenomena observed. Another concern of this approach is to re-establish a view on language that has been lost during the last decades: the view
of language as a psycho-social phenomenon and a biological-cognitive one at the same time (the emphasis that the cognitive paradigm has put on the latter aspect has almost completely displaced the former one in linguistics.) As linguistic explanation is not likely to be possible by means of causal relations, synergetic linguistics aims at functional explanation (similar to biology). This type of explanation, however, is logically sound under certain circumstances only. A central axiom of synergetic linguistics is, therefore, that language is a self-organising and selfregulating system (similar to an organism, a view which may remind of 19th century concepts in linguistics) K a special kind of dynamic system with particular properties. It is a happy coincidence that the theoretical result of linguistic research that self-organisation is an essential property of linguistic and some other semiotic systems, together with its empirical corroboration, has come at the same time as the emergence of a new subdiscipline of systems theory: synergetics.
2.
Synergetics and systems theory
The synergetic approach is a specific branch of systems theory (von Bertalanffy 1968) and can be characterised as an interdisciplinary approach to the modelling of certain dynamic aspects of systems which occur in different disciplines at different objects of investigation in an analogous way. Its particularity which separates it from other systems theoretical approaches is that it focuses on the spontaneous rise and the development of structures. Some emphasis should be put on the fact that the consideration of an object as a system does not describe in any way a property of that object but rather says that
761
53. Synergetic linguistics
the researcher wants to analyse the object with regard to certain aspects and by means of certain methods. Specifically, synergetic research concentrates on self-organising systems, which have been investigated for 30 years in several sciences. Outstanding exponents of this research are Manfred Eigen (1971) with his seminal work on the emergence of biological systems (macromolecules) by self-organisation of ordinary matter, Ilya Prigogine (1979) who works on self-regulating chemical processes, and Hermann Haken who K starting form his research on the laser effect K founded synergetics as a comprehensive theory of cooperative processes in systems far from equilibrium (cf. Haken/Graham 1971; Haken 1978). Stable systems irreversibly evolve towards a stable state and in this process increase their entropy (second principle of thermodynamics); i. e. their degree of order decreases over time (the particles of an ink drop in a glass of water distribute more and more and will never find together again to form a drop). Only systems far from equilibrium have, under certain conditions, the possibility to spontaneously form new structures, by transformation from old structures or even out of chaos. Frequently mentioned examples of spontaneously built structures are cloud patterns, patterns in liquids being heated, oscillating chemical reactions, the coherent light of a laser, the emergence of life out of inanimate matter and its evolution towards higher and higher levels of organisation. The synergetic approach offers concepts and models which are suitable to explain such phenomena as results of a combination of the vagaries of chance and necessity. A characteristic property of self-organising systems is the existence of cooperative (and competing) processes, which, together with external factors, constitute the dynamics of the system. Other crucial elements of synergetics are the enslaving principle and the order parameters: If a process A dynamically follows another process B it is called enslaved by B; order parameters are macroscopic entities which determine the behaviour of the microscopic mechanisms without being represented at their level themselves. The explanatory power of synergetic models is based on the process-oriented approach of synergetics. The modelling procedure starts from known or assumed mecha-
nisms and processes of the object under study and formulates them by means of appropriate mathematical expressions (e. g. differential equations). The system’s behaviour can then be derived from the relations between the processes and the controlling order parameters. The possibility to form new structures is essentially connected with the existence of fluctuations, which make up the motor of evolution. The possible system states (“modes”) which can occur (driven by those fluctuations) on the basis of the relations described by the equations are limited by the boundary conditions and order parameters. Only those modes can prevail in their competition with other ones which fit with these limitations. In self-organising systems, the prevailing modes are those which contribute in some way or other to the function of the system.
3.
Synergetic modelling in linguistics
There is an indispensable pre-condition for the application of synergetic models: a view of language K or more general of semiotic systems K that goes beyond the structural relations between the elements (i. e., the structuralist view, which is still present in the current formalisms of mainstream linguistics), viz. a conception that also integrates the function and thus the usage of the signs. An explanation of existence, properties, and changes of semiotic systems is not possible without the aspect of the (dynamic) interdependence between structure and function. Genesis and evolution of these systems must be attributed to repercussions of communication upon structure (cf. Bunge 1998 as opposed to Köhler/Martináková 1998). To outline the essential features of synergetic-linguistic modelling, a rough sketch of an application of the corresponding method to a linguistic (or semiotic) problem will be given without going into mathematical detail. Starting point is the question why semiotic systems change. We know that fluctuations occur in the use (realisation) of semiotic systems and signs, in every particular communicative situation: every time new variants appear in different degrees of variation. The survival probability of the resulting configurations of features (modes), i. e. the extent to which they are recognised as realisations and exponents of the intended sign, depends on how well they confirm to certain condi-
762
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
tions K in the first place the order parameters, which mediate between the needs of the language users (macro-level) and the microscopic mechanisms of sign production and perception. An example of such a need is the requirement of minimisation of production effort (symbolised in synergetic linguistics by minP), which was already introduced by G. K. Zipf (1949) as “principle of least effort”. This need corresponds to the speakers’ (unconscious) strategy to, e. g. neglect phonetic or graphematic distinctions in order to diminish the efforts of muscle movement and coordination. One of the unintended side-effects of this behaviour is the increase of the overall similarity of the sounds (or letters) in the system. Another order parameter, viz. the requirement of minimisation of memory effort (minM), supports the economising of distinctive features, and promotes therefore a process, which cooperates with the previously considered one. According to what has been said up to now, a phoneme system which would optimally meet the needs of its users should consist of sounds with maximum similarity (absolute similarity would produce a system of identical sounds, i. e. of just one single sound). This hypothetical impossibility of differentiation between sounds has an effect on another variable of the sound system K the size of inventory: The more the possibility of differentiation decreases, the smaller the number of sounds becomes which can be used effectively. This effect on the inventory size is, by the way, favourable as far as minM is concerned K the economisation of memory. On the other hand, reduction in distinctivity always diminishes intelligibility on the side of the hearer, whose need for reduction of decoding effort also has to be met. This need (minD) leads to changes which have an opposite effect on the former ones: It produces a tendency towards a lower similarity of sounds and (indirectly) towards a larger inventory. A change of inventory size, however, has a direct effect on the average length of the words. The more sounds (phonemes) are available for the formation of lexical units, the shorter becomes the mean length of the resulting words. The needs minP and minM, however, call for the smallest possible value of the variable word length. Figure 53.1 shows a part of the control circuit of a sound system containing the relations between the elements just men-
tioned. It is here, of course, necessary to simplify and to neglect some important components and influences in order not to complicate the diagram. Thus, we can see that a conception which considers the development and change of languages as a dynamic characteristic of organism-like systems may help to understand the processes which are responsible for the origin of the structures observed by linguistics. So far, the example has shown in which way the requirements of the language environment are used as instances for a functional explanation (see below). The elements under consideration have become a part of the language system, because they possess certain properties and have certain functions within the system.
Fig. 53.1: Control circuit on the phoneme/word level, consisting of three requirements and three system variables. The squares represent proportionality operators and give the sign of their numerical value; requirements are symbolised by circles.
The role of mutation and selection in the process of language change can be illustrated by the same example. The inevitable deviations and variations in sounds in the speech process can be regarded as a source of mutations, whereas the feedback provided by the hearer takes care for the necessary selection. Neglecting the local microprocesses, associated with the human individuals, the common effect of the processes represents an adaptation mechanism influencing the equilibrium on the competitive needs of speaker and hearer K without ever being able to reach a stable state, since the language environment changes and since the
763
53. Synergetic linguistics
approximation to a potential stable state in one subsystem may have opposite effects in other subsystems. For an individual speaker, the need to minimise production effort is nothing but the tendency to produce more of those particular variants of utterances which bring with them an economisation of articulatory effort. The need for minimisation of memory effort represents the tendency to neglect distinctions, not to use those elements which have more distinctive features than others, or to remove them from the inventory. Both of these tendencies are sources of mutation. The hearer causes selection by placing a limit on the possible economisation. The expressions that have been too sloppily pronounced are not understood and the speaker may, for example, be compelled to repeat his utterance more clearly. The resulting enormous increase in production effort overrides every previously gained economisation, and the speaker thus avoids these too sloppy utterances: These particular variants are not able to survive. Each sound of a language has a probability of changing, which can be computed as a function of articulatory effort and decoding effort. The function has been derived by Gabriel Altmann (cf. Job/Altmann 1985) from the differential equation (1), where C stands for the tendency of a sound to change, A for the effort of articulation, and 1 K A represents the decoding effort (since decoding becomes harder, the smaller the amount of articulatory exertion). dC Z C
(
b
k 1KA
K
)
A
dA
(1)
Its solution (2) is shown in the graph in Figure 53.2. It is easy to see that the probability of change of a sound is smallest when there is equilibrium between the effects of both needs. C Z c (1 K A)k AKb
4.
(2)
Language evolution
If the motor of evolution merely consists of mutation and selection, how can complicated systems such as language develop then? It seems obvious that the huge space of possible values of parameters could not successfully be handled by these two mechanisms alone in order that optimal solutions are found. A second possible objection is
Fig. 53.2: The probability of change in a sound as a function of articulatory effort
the existence of local maxima, which act as traps for development based on optimisation by mutation and selection. And finally, a process of development towards structures of increasing complexity seems to contradict basic laws of nature. Although the problem cannot be treated in detail at this point, an idea of how these questions might be answered can be given as follows. (1) We must not consider a variable and its dynamics in isolation. Adaptation proceeds in all elements of the system simultaneously. Therefore, a variable which is trapped at a local optimum for a certain time will be drawn away from it by the other variables to which it is connected via functional dependencies. (2) Development is not restricted to the lowest (or, any single) level of the system. A system such as language consists of a large number of hierarchically structured levels. Thus, if a subsystem at a given level is subject to change, all its parts, i. e. subsystems at lower levels, will also be affected. The same is true of other subsystems which are not parts of the given one but are functionally connected to it. In this way, a small step of one subsystem or on one level may cause a series of large leaps in other subsystems or at other levels. (3) The more complicated a system appears from one point of view the less it may do so from another. The objection formulated above only makes sense if we regard the simplest system as one which is completely unstructured. This means that the elements of the system are unconnected to each other or connected in an unpredictable way. Among those criteria the situation is in fact the most complex one K a description of such a system must contain as many items as there are elements and relations among them in the system (cf. art. No. 61). Thus, an introduc-
764
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
tion of structure (e. g., clusters, patterns, hierarchies) reduces complexity. So, in the case of evolutionary self-organisation, more ordered structures appear, whenever a reduction in complexity would meet the requirements of the environment. In the case of language, systems as we know them have to evolve along with the biological and cultural evolution of humankind. Human language and human physiological equipment are results of and reflect the coevolution of these systems.
5.
The logic of explanation
Scientific explanation is possible only by means of laws. In linguistics, this fact calls for particular emphasis because it is often believed that rules, grammars, or other formalisms have explanatory power. This mistake has two sources: (1) Scientific theories (i. e. systems consisting of laws which refer to some invariants or patterns occurring in the world) can be confused with theories in the sense of axiomatic systems such as logics or set theory; (2) in general, linguists do not have any education in the philosophy of science. Furthermore, linguistic literature is full of inflational misnaming: What is called a theory in linguistics turns out to be a formalism (such as grammatical “theories”) at a closer look, a descriptive approach (such as syntax “theory”), a collection of definitions (such as speech act “theory”), or a set of concepts (such as Bühler’s language “theory”). Up to now, there is no theory in linguistics in the common scientific sense of the word (cf., however, art. No. 55). However, a number of linguistic laws has been found during the last decades, some of which could successfully be integrated into a general model, viz. synergetic linguistics. Thus, synergetic linguistics may be considered as a first embryonic linguistic theory. In SL, the pre-conditions and the procedure of scientific explanation in linguistics are therefore reflected with particular attention. According to the results of the philosophy of science, there is one widely accepted type of explanation: the deductive-nomologic one, which can be illustrated by the following scheme G1, G2, G3, ., Gn S1, S2, S3, ., Sm E
}
Explanans Explanandum
from Hempel and Oppenheim (cf. Hempel 1965), where the Gi are laws, the Si boundary conditions, and E is the proposition to be explained. The scheme shows that E is explained if it can be logically deduced from laws and boundary conditions. As an example of linguistic explanation, we assume the empirical result that the words in the lexicon of a language L possess different numbers of meanings, and that the number of meanings of a word is found to depend on the length of the word. In fact, the longer the word, the fewer its meanings. (Of course, there are some exceptions to this generalisation, as is the case with most linguistic data.) The reason why L has this property can now be found if we know the corresponding law, which was found and formulated by Gabriel Altmann (cf. Altmann/ Beőthy/Best 1982): The number of meanings of a lexical unit is a function of the length of this unit. This function conforms to the equation (3): m Z AWLKb
(3)
where m is the number of meanings, WL is the length (measured in terms of morphological units or in syllables), A is the mean polysemy of words of length 1, and b the measure of syntheticism of the langue under consideration (cf. Köhler 1986). Provided that the relation cited above is in fact a universal law and certain boundary conditions are satisfied (i. e., that L is a natural human language with variable word length), the explanandum (the empirically observed relation between number of meanings and length of words in L) can be deduced. Moreover, it can be predicted that the parameter b will be the greater the more a language makes use of concatenative morphological means for the differentiation and specification of lexical meanings, and will be zero for a purely analytic language. It is important to differentiate between two kinds of law. It is sufficient to find just one single case where a phenomenon diverges from the prediction in order to reject a deterministic law. Most language and text laws, however, are stochastic. In their predictions such laws include the deviations which are to be expected as a consequence of the stochastic nature of the language mechanism concerned. Therefore, a stochastic law is rejected if the degree of disagreement be-
765
53. Synergetic linguistics
tween the theoretical ideal and empirical results becomes greater than a certain value, determined by mathematical methods according to a chosen significance level. Only after a number of well-confirmed laws has been established in a discipline, the construction of a theory can begin. The first step is the combination of single laws into a system of laws, which is then enriched with interpretations, conventions and so on. From classical physics and chemistry we are used to trying to answer why-questions by means of causal relationships. In the case of language, however, there are no known causal laws which can connect e. g. human needs for communication and a particular property of a linguistic unit or subsystem. Moreover, it does not seem at all reasonable to postulate such kinds of laws. On the other hand, there are good reasons for the assumption that we ought to use functional explanation in linguistics (cf. Altmann 1981). This type of explanation is a special case of the deductive-nomological explanation. However, it brings with it several logical problems, the most important of which is the problem of functional equivalents. It was shown (cf. Köhler 1986, 25 ff.) that a logically perfect explanation scheme can be formulated for those systems for which self-organisation can be introduced as a structural axiom. A functional explanation of a linguistic phenomenon Ef can then be pursued according to the following scheme: (1) The system S is self-organising. For each need, it possesses mechanisms to alter its state and structure in such a way that the need is met. (2) The needs N1 ... Nk have to be met by the system. (3) The need N can be met by the functional equivalents E1 ... Ef ... En. (4) The interrelation between those functional equivalents which are able to meet the need N is given by the relation RN (EN1 ... ENn). (5) The structure of the system S can be expressed by means of the relation Q (s1 ... sm) among the elements si of the system. Ef is an element of the system S with load RNf . This explanation holds if all the alternative solutions are excluded or are not as good as Ef . In order to conclude a functional analy-
sis it would be necessary to obtain the functions Ri (Ei1 ... Ein) which determine the loads of the functional equivalents for each need Ni in such a way that they are optimally met. Functions of this kind cannot be obtained empirically; they must be derived by theoretical means. An example will illustrate what is meant by functional equivalent: The particular need for a device enabling specification or differentiation of the meaning of an expression requires the existence of elements in the system which have a corresponding function. Languages possess several ways to develop specification subsystems. The lexical way to specify (to make more specific than a given meaning) merely consists of the creation of new words with the specific meanings required for the particular purpose in question. The syntactic method consists in the adding of attributes (or restrictions) to an expression which was too unspecific in a given situation, and the morphological one in compounding, derivation, and inflection. Methods which use prosody also exist, but have less power than the others at the level discussed. These possible methods have differing influence on other elements of the system. The lexical method, for example, expands the size of the lexicon, the syntactic one phrase length, and the morphological one word length. The actually existing languages make use of these three possibilities to different extents; some of them restrict themselves to the use of only one or two of these functional equivalents. A functional analysis of the specification subsystems requires the construction of a model representing the relation between these equivalents and their influence on the rest of the system (cf. Köhler 1988).
6.
Modelling technique
Modelling in the framework of synergetic linguistics proceeds iteratively in refining phases, with each phase consisting of six individual steps. In the first step, axioms are set up for the subsystem under consideration. There is one structural axiom which belongs to the synergetic approach itself: the axiom that language is a self-organising and self-regulating system. Other axioms take the form of system requirements, such as those given in the first column of Table 53.1. In synergetic terminology, these requirements are order pa-
766
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
rameters. They are not part of the system under consideration, but are linked to it and have some influence on the behaviour of the system. In the terminology of the philosophy of science, they play the role of boundary conditions. These requirements can be subdivided into three kinds (cf. Köhler 1990, 181 f.): (1) language-constitutive requirements (among them the fundamental coding requirement representing the necessity to provide expressions for given meanings, the application requirement, i. e. the need to use a given expression in order to express one of its meanings, the specification requirement, representing the need to form more specific expressions than the ones which are available at a given time, and the de-specification requirement for the cases where the available expressions are too specific for the current communicative purpose); (2) languageforming requirements (such as the economy requirement in its various manifestations); (3) control-level requirements (the adaptation requirement, i. e. the need for a language to adapt itself to varying circumstances, and the opposite stability requirement). Table 53.1 provides a short summary of some of the needs, processes, and variables which have already been studied. The second step is the determination of system levels, units, and variables which are
of interest to the current investigation. Examples of levels and units on the one hand and variables in connection with them are: morphs (with the variables frequency, length, combinability, polysemy/homonymy etc.), words (with variables frequency, length, combinability, polysemy/homonymy, polytextuality, motivation/transparency etc.), syntactic structure (with frequency, length, complexity, compactness, depth of embedding, information, position in mother constituent etc.), inventory sizes (phonological, morphological, lexical, syntactic .) In step three, relevant consequences, effects, and interrelations are determined. Here, the researcher sets up or systematises hypotheses about dependences of variables on others, e. g. with increasing polytextuality of a lexical item its polysemy increases monotonically, or, the higher the position of a syntactic construction (i. e. the more to the right hand side of its mother constituent) the less its information, etc. The forth step consists of the search for functional equivalents and multifunctionalities. In language, there are not only 1 : 1 correspondences K many relations are of the 1 : n or m : n type (cf. art. No. 46). This fact plays an important role in the logics of functional explanation (see section 5 above). Therefore, for each requirement set up in step 1, one has to look for all possible lin-
Tab. 53.1: Requirements Requirement
Symbol
Influence on
Coding Specification De-specification Application Transmission security Economy Minimisation of production effort Minimisation of encoding effort Minimisation of decoding effort Minimisation of inventories Minimisation of memory effort Context economy Context specifity Invariance of the expression-meaning-relation Flexibility of the expression-meaning-relation Efficiency of coding Maximisation of complexity Preference of right branching Limitation of embedding depth Minimisation of structural information Adaptation Stability
Cod Spc Dsp Usg Red Ec minP minC minD minI minM CE CS Inv Var OC maxC RB LD minS Adp Stb
Size of inventories Polysemy Polysemy Frequency Length of units Sub-requirements Length, complexity Size of inventories, polysemy Size of inventories, polysemy Size of inventories Size of inventories Polytextuality Polytextuality Synonymy Synonymy Sub-requirements Syntactic complexity Position Depth of embedding Syntactic patterns Degree of adaptation readiness Degree of adaptation readiness
767
53. Synergetic linguistics
guistic means to meet it in any way, and, the other way around, for each means or method applied by a language to meet a requirement or to serve a certain purpose, all other requirements and purposes must be determined that could be met or served by the given method. The extent to which a language uses a functional equivalent has effects on some of the system variables, which, in turn, influence others. A simple scheme, such as given in Figure 53.4, can serve as an illustration of this type of interrelation (it goes without saying that only a part of the structure of such a model can be displayed here; e. g. the consequences of the extent to which a language uses prosodic means to code meanings has been omitted in the diagram). Step five is the mathematical formulation of the hypotheses set up so far K a precondition for any rigorous test, and step 6 is the empirical test of these mathematically formulated hypotheses (cf. art. No. 1).
7.
Applications in linguistic fields
The first synergetic-linguistic model was presented in Köhler (1986); first considerations preparing and introducing this approach were published in Köhler/Altmann (1983) and Köhler/Altmann (1986). The first linguistic subsystem modelled, a small subsystem of a lexical control circuit, is shown in Figure 53.3. In the framework of this modelling approach, a graphical notation is commonly used for the representation of structures and functions, where rectangles correspond to system variables (state and control variables), circles symbolise requirements, squares represent operators, and arrows stand for effects or bonds. The squares contain symbols for the operator types, which are, in most cases, proportionality operators in form of either (symbols for) numerical values or only the signs (C or K) of their values. Quantities which are arranged on a common edge are multiplied, junctions correspond to numerical addition (according to the rules of operator algebra and graph theory). However, for a correct interpretation of this type of diagram, one has to keep in mind that the original hypotheses have been linearised by a logarithmic transformation. If the original hypothesis says that polysemy depends on word length according to the formula
P Z a LKb logarithmic transformation yields Q Z c K bM, where Q Z ln P, c Z ln a, M Z ln L. In the diagram, this hypothesis will be represented in the form: Length (or M)
–b
Polysemy (or Q)
Some factor c
Therefore, to derive the equations representing the individual hypotheses from a synergetic-linguistic diagram, the antilogarithm has to be used together with the rules of operator algebra and graph theory. The equations which can be extracted from the diagram in Fig. 53.3 are the following (for the meaning of the symbols, refer to Table 53.1): (1) LS Z CODV PSKL Lexicon size is a function of the influence of the coding requirement (in this case the number of meanings to be coded) and of the mean polysemy. The quantity V is a function of the requirements Spc, Var, and Inv. (2) PN Z min DY1 min KKY2 Phoneme number is a result of a compromise reflecting the requirements of minimisation of coding and decoding efforts. (3) L Z LGA Red Z PHKP FKN Word length is a function of lexicon size (the more words are needed the longer they have to be on the average K on condition of a constant number of phonemes/tonemes), of redundancy (on the level of usage of phonological combinations), of the phonological inventory size, and of frequency. (4) PL Z min KQ2 min DKQ1 LKT Polysemy results from a compromise between the effects of the requirements minC and minD on the one hand and word length on the other (the longer a word the less its polysemy). (5) PT Z CE S2 CSKS1 PLG Polytextuality (the number of possible contexts) is a function of a compromise between the effects of the context-globalising and context-centralising processes and of polysemy.
768
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
(6) F Z ApplR PT K The frequency of a lexical item depends on the communicative relevance of its meanings (represented in the model by the application requirement) and on its polytextuality. (7) SN Z Cod VW PLM Synonymy is a function of polysemy and of the coding requirement to the extent VW, which is the result of a compromise between the requirements of flexibility and those of constant formmeaning relation. Each hypothesis represented in the structure of the model (and some other ones, which can be derived from them) have been empirically tested K many of them on data from various languages (typologically differ-
ent languages were preferred), all of them on data of at least one language. These tests were conducted in the following way: Each pair of quantities in the model was considered a function of the form y Z Axb (which is the solution of the differential equation dy / y Z b dx / x, an often used approach in synergetic linguistics, cf. Altmann/Köhler (1986) and fitted to the data using a regression procedure. For the acquisition of appropriate data, averages of all x values of the quantity under consideration were calculated. The dependence of length on frequency, e. g. averages of the values in the different frequency classes were determined and used as x values. The F test was applied as goodness-of-fit test. As this test is somewhat problematic in this case the procedure
Fig. 53.3: Diagram showing the structure of a lexical subsystem.
769
53. Synergetic linguistics
Red
+
Phonol. Inventory
–
Word Length
+
Polysemy
–
Phrase Length
Lexicon Size +
Morphotactics
+
Lexicon Morphology
Morph. Inventory
–
Cod
Syntactics
+
Syntactic Inventory
–
Syntax
Prosody
–
– Functional Load
+
minI
Functional Load
+
+
Fig. 53.4: Model structure considering functional equivalents.
lationships between neighbouring quantities, indirect interrelations were investigated, such as the dependence of polysemy on frequency. Those tests, too, showed a good compatibility of the data with the corresponding hypotheses. Even the parameter estimations yielding from the fitting procedure match with the values that resulted from calculations on the basis of the model structure. Figures 53.5 and 53.6 and Tables 53.2 and 53.3 show some of the results of the empirical tests on data from German. Since then, tests on data from more than 50 languages have been carried out with similar findings. The structure and the dynamics of the human concept system (as opposed to the semantic subsystem of language) have been studied in the synergetic-linguistic framework in Köhler/Altmann (1993). In this study, requirements and processes have been postulated which are fundamental for the emergence and the change of hierarchical conceptual systems in human cognition, and the relation between the individual cognitive systems on the one hand and the (super-individual) semantic system of language has been addressed.
was later repeated using the determination coefficient, however with the same result: not a single case has been found until today which could be interpreted as a contradiction of theoretical expectations and empirical findings. Moreover, besides the direct reTab. 53.2: The dependence of polytextuality on polysemy in a German corpus: empirical (F (X)) and theoretical (NP (X)) values X
F (x)
NP (x)
1 2 3 4 5 6 7 8 9 10 11 13 14 16 19 21
3.2 10.5 19.3 28.3 69.6 89.3 77.3 112.8 230.7 187.7 80.0 365.0 286.7 193.0 373.0 285.0
3.9 11.6 21.8 34.3 48.6 64.6 82.25 101.4 121.9 143.7 166.8 216.7 243.3 299.8 392.3 458.9
Function PT Z A PL
B
A
B
DF
F
F0.01
P
3.92
1.56
1,14
17.4
8.86
0.0009
A, B: parameters; DF: degrees of freedom; F: empirical value of the F statistics; F0.01: critical F value; P: probability of the empirical F.
770
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
500
5.10
400
4.08
300
3.06
200
2.04
100
1.02
0
0 0
4
8
12
16
0
20
4
8
12
16
20
24
Fig. 53.5: Polytextuality as a function of polysemy
Fig. 53.6: Polysemy as a function of length
On the morphological level, the following investigations have been carried out: Derivational morphology and word formation was studied in Krott (1999; 2002). A similar
study in the field of inflectional morphology can be found in Saam (2001). In Steiner (1995), compounding was modelled. In Menzel (2002), the synergetic model is applied to complex writing systems, viz. to the Chinese logographs. Properties considered in this study comprise functional complexity, graphic complexity, and frequency. A first synergetic model of a syntactic subsystem was presented in Köhler (1999). As basic units, syntactic constructions were selected, which were operationalised on the basis of the constituency relation, i. e., constituent types and tokens were considered. The properties analysed were (1) frequency (of occurrence in the text corpus), (2) length (number of the terminal nodes [Z words] which belong to the given constituent), (3) complexity (number of immediate constituents of the constituent under consideration), (4) position (in the mother constituent or in the sentence, counted from left to right), (5) depth of embedding (number of production steps from the start symbol), (6) information (in the sense of information theory, corresponding to the memory space needed for the temporary storage of the grammatical relations of the constituent) (7) polyfunctionality (number of different functions of the construction under consideration), (8) synfunctionality (number of different functions with which a given function shares a
Tab. 53.3: Polysemy as a function of length: empirical (F (X)) and theoretical (NP (X)) values taken from a German corpus X
F (x)
NP (x)
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
5.00 4.63 4.27 3.70 2.60 1.89 1.59 1.75 1.42 1.39 1.26 1.27 1.11 1.20 1.08 1.03 1.04 1.00 1.14 1.11 1.00 1.20 1.00 1.00
5.05 3.98 3.31 2.84 2.50 2.24 2.03 1.86 1.72 1.60 1.50 1.41 1.33 1.26 1.20 1.14 1.09 1.05 1.01 0.97 0.93 0.90 0.87 0.84
Function PL Z A L
B
A
B
FG
F
F0.01
P
12.5
K0.828
1,22
130
7.95
10K10
A, B: parameters; DF: degrees of freedom; F: empirical value of the F statistics; F0.01: critical F value; P: probability of the empirical F.
771
53. Synergetic linguistics
Com
Usg
Cod
minI
OC
minM
minP
maxC
—
S HAWKINS YNGVE
LD +
+
+
+
EIC
minS
RB
—
+ +
FREQUENCY
—
COMPLEXITY +
— SIZE (INVENTORY OF SYNTACTIC CONSTRUCTIONS)
+
POSITION
—
MA LAW
SIZE (INVENTORY OF FUNCTIONAL EQUIVALENTS)
INFORMATION +
—
DEPTH
LENGTH
— MULTIFUNCTIONALITY
+
+
SIZE (INVENTORY OF CATEGORIES)
—
—
—
Fig. 53.7: The structure of the syntactic subsystem. The dashed lines represent the effect of order parameters on distributions of system variables.
syntactic representation) and the relevant inventories, viz. (9) the inventory of syntactic constructions (constituent types), (10) the inventory of syntactic functions, (11) the inventory of syntactic categories, (12) the inventory of functional equivalents (i. e., of constructions with a function similar to the one under consideration). The structure of the model system is shown in Figure 53.7. In this model, four main requirements were considered with some of their sub-requirements (i. e. special aspects): (1) the communication requirement (with its coding and application K or usage K sub-requirements), without which no need would arise for natural human language to emerge at all, (2) the requirement of code optimisation (with the sub-requirements of minimisation of production effort and of maximisation of compactness), (3) the requirement of minimising inventories, and (4) the memory effort minimisation requirement. The sub-requirements of the latter are (a) minimisation of storage for the processing of syntactic constructions, (b) early overview of the structure of the construction processed K a hypothesis which is indebted to Hawkins’ Early Immediate Constituent principle, (c) a reformulation and re-interpretation of Yngve’s Right Branching preference hypothesis, and (d) the need to limit the degree of
constituent embedding depth. The dependences predicted by the model structure were empirically analysed on data of the Susanne corpus (64 English texts), in a later study also on data of the German Negra newspaper corpus. In all cases, very good results were obtained. Here, only two examples of functional dependences shall be given from this study (cf. Figures 53.8, 53.9 and 53.10; for detailed information and for references cf. Köhler 1999.) 8.00 6.76 5.52 4.28 3.04 1.80 0
8
16
24
32
40
Fig. 53.8: The empirical dependence of depth of embedding on constituent position (measured in running words from the beginning of the sentence) for the entire Susanne corpus. Positions beyond 40 are not represented in the graph because of their small frequencies. Fitting of the function T Z 1.8188 P 3.51 e .00423 P, coefficient of determination D Z .996.
772
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws 4.0
0.8 0.7 0.6 0.5
3.2
0.4
2.4
0.3 0.2
1.6
0.0 –0.1
0.8 1
2
3
4
5
6
7
8
9
Fig. 53.9: Information (in terms of the logarithm of the number of alternatively possible constituent types) in dependence on the position (separately calculated for two of the four text types in the corpus) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 –0.0
1
2
3
4
5
6
7
8
9
Fig. 53.10: Information (in terms of the logarithm of the number of alternatively possible constituent functions) in dependence on the position (separately calculated for two of the four text types in the corpus)
The probability distributions of the variables in this model were analysed in a subsequent study (Köhler/Altmann 2000). One of the most interesting questions is the nature of the frequency spectrum of syntactic constructions, as it may have practical implications in linguistic and, particularly, in computational-linguistic fields. The analysis showed that the empirical data can be fitted by the Waring distribution, which was originally developed for word frequency. Figure 53.11 shows the result of the fitting of this distribution to the data from the Negra corpus. The fitting of the Waring distribution to the Negra data yielded: Distribution: Waring (b, n) Sample size: 10870 Parameters: b Z 0.7374 n Z 0.3308 Z 153.8894 DF Z 203 χ2 P (χ2) Z 0.9958 C Z 0.0142
0.0 0.0
0.5
1.0
1.5
2.0
2.5
Fig. 53.11: Fit of the Waring distribution to the data from the Negra-Korpus. Both axes are logarithmic (X: frequency class, Y: number of occurrences).
Both criteria, P (χ²) and C show good values; therefore, the hypothesis that the frequency spectrum of syntactic constructions follows the Waring distribution is supported by the data. Although, at first glance, the result appears to be familiar from the seemingly similar distributions of word frequencies (Zipf’s law, cf. art. No. 10) there is a significant difference: Syntactic constructions display an enormous skewness of the curve, i. e. text coverage of the types is much smaller than that of words. Table 53.4 gives an impression of the facts: There are 4621 different constituent types in the Susanne corpus, with 90821 occurrences. In this corpus, 2710 types occur only once (58.6 %), 615 of the remaining 1911 types occur twice (32.3 %). 288 of the still remaining 1296 types (22.2 %) occur thrice, etc. Less than 20 % of the corresponding syntactic rules apply more than four times, less than 30 % of the rules more than twice. This statistical result is perhaps an answer to a rarely posed question: “[...] by 1987 it was perhaps the largest DCG (Definite Clause Grammar) grammar anywhere, designed to cover a linguistically well-motivated test set of sentences in English. Interpreted by a standard parser it was able to parse completely and uniquely virtually no sentence chosen randomly from a newspaper. We suspect most large grammars of that type and era did no better, though reports are seldom written making this point. The mystery for linguists is how that can be: the grammar appeared to inspection to be virtually complete K it had to cover English, if thirty years of linguistic intuition and methodology had any value.” (Cunningham/Gaizauskas/Wilks 1995)
773
53. Synergetic linguistics
tion), length (in terms of terminal nodes; extended logarithmic distribution), and position in the mother constituent (Cohen-binomial distribution) could be derived deductively and were corroborated by the data from the corpora.
Table 53.4: frequency classes and their sizes in the Susanne corpus Frequency Number (rest)
% of the complete inventory
% of the remaining rest
1 2 3 4
58.6 32.3 22.2 17.5
58.6 13.3 6.2 3.8
2710 615 288 176
(4621) (1911) (1296) (1008)
8.
The synergetic approach could be shown to be applicable to any linguistic level or aspect. Moreover, Köhler/Martináková (1998) presented a synergetic model in the field of musicology, and Köhler (2003) discussed the synergetic approach from a general semiotic point of view. The theoretical and empirical experiences with the modelling framework show its enormous integrative potential. From a linguistic point of view, language (or rather a linguistic subsystem) is focussed as the system under consideration, whereas other disciplines such as sociology, psychology, biology, physics etc. appear to be responsible for the system’s environment, i. e. for order parameters and boundary conditions in form of system-external requirements. From the point of view of these other disciplines, language may appear as a boundary condition, as a functional equivalent for the social requirement of communication, as an interface, as a neighbour system (e. g. from the musicological point of view) etc. With synergetics as an interdisciplinary approach and a way of thinking, not only the different objects of the individual disciplines could be modelled, but also integrated into a single common supersystem. This vista is, of course, not a matter of a few decades.
Another obvious analogy to the phenomena on the word level is the dependency of construction frequency on complexity (similar to the dependency of word frequency on length). Construction complexity was measured in terms of the number of immediate constituents of a construction. Its theoretical probability distribution could be derived from some simple assumptions and yielded the hyper-Pascal distribution:
Px Z
( (
) )
kCxK1 x
mCxK1 x
Perspectives
q x P0
with P0K1 Z 2F1 (k, 1; m; q) K the hypergeometric function K as norming constant. Here, the distribution is used in a 1-displaced form because complexity 0 is not defined. Figures 53.12 and 53.13 show the fitting results for the Susanne and the Negra corpora. Thus, the theoretical model is supported by the data. In a similar way, the variables depth of embedding (hyper-Pascal distribu-
alles.txt – Hyperpascal (k, m, q)
Komplexität (Korpus).dat – Hyperpascal (k, m, q) 27105 25020 22935
29530
Altmann Fitter 2.0
Altmann Fitter 2.0
41342 38389 35436 32483 26577 23624 20671 17718 14765 11812 8859
20850 18765 16680 14595 12510 10425 6255 8340 4170
5906
2085 0
2953 0 1
2
3
4
5
6
7
8
9
10
11
12
Fig. 53.12: Fitting the hyper-Pascal distribution to the complexity data from the Susanne corpus
1
2
3
4
5
6
7
8
9
10
11 12
13
14
15
Fig. 53.13: Fitting the hyper-Pascal distribution to the complexity data from the Negra-Korpus
774
9.
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Literature (a selection)
Altmann, Gabriel (1981), Zur Funktionalanalyse in der Linguistik. In: Forms and Functions (Hrsg. J. Esser/A. Hübler). Tübingen: Narr, 25K32. Altmann, Gabriel/Beőthy, Erzsébeth/Best, KarlHeinz (1982), Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 35, 537K543. Bertalanffy, Ludwig van (1968), General System Theory. Foundations, development, applications. New York: George Braziller. Bunge, Mario (1998), Semiotic systems. In: Systems. A new paradigm for the human sciences (eds. Gabriel Altmann/Walter A. Koch). Berlin, New York: Walter de Gruyter, 337K349. Cunningham, Hamish/Gaizauskas, Rob G./Wilks, Yorrik (1995), A General Architecture for Text Engineering (GATE) K a new approach to Language Engineering R&D. In: Technical Reports CS-95K21, Department of Computer Science, University of Sheffield. http://xxx.lanl.gov/ps/cmp-lg/ 9601009. Eigen, Manfred (1971), Selforganization of matter and the evolution of biological macromolecules. In: Die Naturwissenschaften 58, 465K523. Haken, Hermann (1978), Synergetics. Berlin, Heidelberg, New York: Springer. Haken, Hermann/Graham, R. (1971), Synergetik. Die Lehre vom Zusammenwirken. In: Umschau 6, 191. Hempel, Carl G. (ed.) (1965), Aspects of scientific explanation. New York: Free Press. Köhler, Reinhard (1986), Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, Reinhard (1988), Linguistische Analyseebenen, Hierarchisierung und Erklärung im Modell der sprachlichen Selbstregulation. In: Glottometrika 11 (Hrsg. Lude˘k Hřebíček). Bochum: Brockmeyer, 1K18. Köhler, Reinhard (1990), Elemente der synergetischen Linguistik. In: Glottometrika 12 (Hrsg. Rolf Hammerl). Bochum: Brockmeyer, 179K188. Köhler, Reinhard (1999), Syntactic Structures. Properties and Interrelations. In: Journal of Quantitative Linguistics 6, 46K57. Köhler, Reinhard (2003), Semiotik und Synergetik. In: Semiotik. Semiotics. Ein Handbuch zu den
zeichentheoretischen Grundlagen von Natur und Kultur. A Handbook on the Sign-Theoretic Foundations of Nature and Culture (Hrsg. Roland Posner/Klaus Robering/Thomas A. Sebeok). Berlin, New York: Walter de Gruyter, 2444K2452. Köhler, Reinhard/Altmann, Gabriel (1983), Systemtheorie und Semiotik. In: Zeitschrift für Semiotik 5, 424K431. Köhler, Reinhard/Altmann, Gabriel (1986), Synergetische Aspekte der Linguistik. In: Zeitschrift für Sprachwissenschaft 5, 253K265. Köhler, Reinhard/Altmann, Gabriel (1993), Begriffsdynamik und Lexikonstruktur. In: Theorie und Praxis des Lexikons (Hrsg. Frank Beckmann/ Gerhard Heyer). Berlin, New York: Walter de Gruyter, 173K190. Köhler, Reinhard/Altmann, Gabriel (2000), Probability Distributions of Syntactic Units and Properties. In: Journal of Quantitative Linguistics 7, 189K200. Köhler, Reinhard/Martináková, Zuzana (1998), A systems theoretical approach to language and music. In: Systems. A new paradigm for the human sciences (eds. Gabriel Altmann/Walter A. Koch). Berlin, New York: Walter de Gruyter, 514K546. Krott, Andrea (1999), The influence of morpheme polysemy on morpheme frequency. In: Journal of Quantitative Linguistics 6, 58K65. Krott, Andrea (2002), Ein funktionalanalytisches Modell der Wortbildung. In: Korpuslinguistische Untersuchungen zur quantitativen und systemtheoretischen Linguistik (Hrsg. Reinhard Köhler). Trier: Universitätsbibliothek Trier (OPUS), 75K 126. Menzel, Cornelia (2002), Köhlers Basismodell und die chinesische Schrift, In: Korpuslinguistische Untersuchungen zur quantitativen und systemtheoretischen Linguistik (Hrsg. Reinhard Köhler). Trier: Universitätsbibliothek Trier (OPUS), 178K205. Saam, Christian (2001), Untersuchungen zur Flexionsmorphologie im Rahmen der Synergetischen Linguistik. Magisterarbeit Universität Trier (unpublished). Steiner, Petra (1995), Effects of Polylexy on Compounding. In: Journal of Quantitative Linguistics 2, 133K140. Zipf, George Kingsley (1949), Human Behaviour and the Principle of Least Effort. Reading, Mass: Addison-Wesley.
Reinhard Köhler, Trier (Germany)
775
54. Sprachliche Ökonomie / Kommunikative Effizienz
54. Sprachliche Ökonomie / Kommunikative Effizienz 1. 2. 3. 4. 5. 6. 7.
Vorbemerkung Historische und theoretische Grundlagen Definitionen sprachlicher Ökonomie Synchronische Konzeptionen Diachronische Konzeptionen Schlussbemerkung Literatur (in Auswahl)
1.
Vorbemerkung
Die kommunikative Bedeutung sprachlicher Ökonomie ist unumstritten und stellt einen zentralen Gesichtspunkt zahlreicher sprachund kommunikationswissenschaftlicher Ansätze sowie sprachkritischer und sprachdidaktischer Bemühungen dar. Der wissenschaftliche Zugriff auf sprachliche Ökonomie erweist sich jedoch angesichts unterschiedlicher linguistischer und unzulänglicher ökonomischer Konzeptionen oftmals als ausgesprochen problematisch und entzieht sich bis heute einer befriedigenden Theoriebildung. Im Folgenden werden daher zunächst einige historische und theoretische Grundlagen einer Bestimmung sprachlicher Ökonomie eingeführt und darauf einer Auswahl zentraler Definitionen sprachlicher Ökonomie gegenübergestellt. Im Anschluss hieran wird dann eine Reihe synchronischer und diachronischer Konzeptionen sprachlicher Ökonomie umrissen und miteinander verglichen. Zum Schluss erfolgen einige Hinweise im Hinblick auf die weitere Forschung.
2.
Historische und theoretische Grundlagen
Der Ausdruck Ökonomie ist im Deutschen seit dem 16. Jahrhundert belegt und leitet sich aus dem altgriechischen οικονοµια [Verwaltung; Wirtschaftlichkeit] ab (vgl. Kluge 1995, 600). Der Neuauflage des „Deutschen Wörterbuchs“ von Hermann Paul nach sind seither fünf Bedeutungen des Wortes zu unterscheiden (vgl. Paul 1992, 630): (1) ,Wirtschaftlichkeit, sinnvolle Haushaltung‘ (seit dem 16. Jh.), mit der Nebenbedeutung ,Sparsamkeit‘ (seit dem 18. Jh.); (2) ,Landwirtschaft‘ (im 18. Jh.); (3) ,sinnvolle Einrichtung eines Kunstwerks‘, verallgemeinernd dann ,die zweckmäßige Einrichtung eines Ganzen‘ (im 19. Jh.); (4) ,die Wirtschaft in ihrer Gesamtheit‘ (seit dem 20. Jh.); (5)
,Wirtschaftswissenschaft‘ (seit dem 18. Jh.). „Das große Wörterbuch der deutschen Sprache“ aus dem Hause Duden unterscheidet in der dritten Auflage (Duden 1999, VI, 2795) vier alltags- oder bildungssprachliche Bedeutungen: (1) ,Wirtschaftswissenschaft, -theorie‘ (veraltend); (2) ,Wirtschaft, wirtschaftliche Struktur (eines bestimmten Gebietes)‘; (3) ,Wirtschaftlichkeit, Sparsamkeit; sparsames Umgehen mit etw., rationelle Verwendung oder rationeller Einsatz von etwas‘; (4) ,landwirtschaftlicher Betrieb‘ (österreichisch), sonst veraltet. In der deutschen Standardsprache der Gegenwart herrscht die Bedeutung ,Wirtschaftlichkeit, Sparsamkeit‘ vor. Dabei werden Wirtschaftlichkeit und Sparsamkeit im Allgemeinen mit dem Aufwand und dem Ergebnis einer Handlung in Verbindung gebracht. Ökonomie besteht dann entweder in einem möglichst hohen Ergebnis (Wirtschaftlichkeit) oder in einem möglichst geringen Aufwand (Sparsamkeit). Vergleichbare Ergebnisse liegen auch für die englische Bezeichnung economy (vgl. Langenscheidts Großwörterbuch der englischen und deutschen Sprache. „Der kleine Muret-Sanders“ EnglischK Deutsch 1988, 329), die französische Bezeichnung économie (vgl. Langenscheidts Großwörterbuch Französisch. Teil 1: FranzösischKDeutsch. Sachs-Villatte 1987, 318) und weitere Ausdrücke einzelner Sprachen der westlichen Welt vor, so dass hier von einem Euroamerikanismus gesprochen werden darf. Im Verlauf der Geschichte der Philosophie hat das Konzept der Ökonomie eine Reihe von verschiedenartigen Ausprägungen erfahren, die sich jeweils mehr oder weniger stark untereinander sowie mit solchen aus dem theologischen, politologischen, soziologischen oder wirtschaftswissenschaftlichen Bereich berühren (vgl. Rabe/Dierse 1984). Den Ausgangspunkt der philosophischen Entwicklung des Ökonomiekonzepts bildet dabei die griechische Antike, in der sich Ökonomie zunächst auf einen (gehobenen) Hausstand und dessen Verwaltung bezieht. Diese Konzeption wird von Aristoteles im ersten Teil der „Politik“ aufgegriffen, indem er die wirtschaftliche Autarkie des Hausherrn als gesellschaftliche Grundlage eines Staatsganzen betrachtet. Ökonomie bezieht sich hierbei jedoch allein auf die Or-
776
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
ganisation eines solches Hausstands und somit auf die (erfolgreiche) Bewältigung eines bestimmten menschlichen Handlungsbereiches; kaufmännische Gegebenheiten und Vorgänge selbst sind hier weniger Gegenstand politischer als vielmehr ethischer Überlegungen. Diese Konzeption von Ökonomie als Prinzip der (kaufmännischen) Bewältigung eines (ständisch) bestimmten Handlungsbereiches prägt die philosophische Diskussion bis heute. Dabei können im Hinblick auf die ständische Bestimmung, die kaufmännische Bewältigung und die ethische Bewertung drei wichtige historische wie systematische Ansatzpunkte zur Modifikation dieser Konzeption unterschieden werden. Eine entscheidende philosophische Modifikation des aristotelischen Ökonomiekonzepts hinsichtlich der ständischen Bestimmung erfolgt in der Verlagerung von einem (gehobenen) Hausstand auf das Staatsganze. Diese unter der Bezeichnung politische Ökonomie (englisch political economy, französisch économie politique; vgl. Lichtblau 1984) bekannte Modifikation reicht mit Montchrétiens „Traicté“ (1615) bis in das 17. Jahrhundert zurück und führt dann im Interesse des Merkantilismus bzw. Kameralismus schnell zur Einrichtung eigener universitärer Lehrfächer und -stühle. Bis zum Ende des 18. Jahrhunderts wird politische Ökonomie noch als Teil der Moralphilosophie angesehen; so zum Beispiel auch in „Wealth of Nations“ von Adam Smith (1776). Erst im 19. Jahrhundert emanzipiert sich dann die Nationalökonomie als eigenständige Disziplin gegenüber anderen philosophischen und gesellschaftswissenschaftlichen Disziplinen und lässt damit einen zweiten Ansatzpunkt der philosophischen Modifikation des Ökonomiekonzepts aristotelischer Prägung hervortreten. So macht die Ausblendung politischer und moralischer Gesichtspunkte die unvoreingenommene wissenschaftliche Sicht frei auf kaufmännische Gegebenheiten und Vorgänge wie Warentausch und Geldverkehr als solche und erlaubt somit eine sachliche Erörterung wirtschaftlicher Fragestellungen, die in der klassischen Antike ausgeklammert wurden. Eine solche Betrachtungsweise zeigt sich insbesondere seit der deutschen Frühaufklärung, so etwa mit Christian Wolffs „Oeconomica“ (1755), und bestimmt die wirtschaftswissenschaftlichen Disziplinen der Neuzeit bis heute. Gerade diese sachliche Beschränkung
wirtschaftswissenschaftlicher Forschung ist es jedoch, die seit Georg Wilhelm Friedrich Hegels „Grundlinien der Philosophie des Rechts“ (1820) oder dem „Kapital“ von Karl Marx (1867) wiederholt die Forderung nach einer erneuten Rückbindung ökonomischer Fragestellungen an politische und moralische und somit letztlich auch philosophische Erwägungen hat laut werden lassen. Ökonomie wird seit der Wissenschaftstheorie des 19. Jahrhunderts insbesondere auch mit Denkökonomie in Verbindung gebracht (vgl. König 1972). Neben Ernst Mach überträgt hier insbesondere auch Richard Avenarius das „Prinzip des kleinsten Kraftmaßes“ von der Philosophie und den Wirtschaftswissenschaften auf die Wissenschaftstheorie. Das methodische Minimalprinzip, im wissenschaftstheoretischen Bereich auch als Prinzip der Einfachheit bzw. simplicity erörtert, abstrahiert sowohl von der ständischen Bestimmung als auch von der kaufmännischen Bewältigung einzelner Handlungsbereiche sowie deren ethischer Bewertung und lässt somit einen dritten Ansatzpunkt einer Modifikation der klassischen Konzeption von Ökonomie deutlich werden. Diese Abstraktion lässt nun Ökonomie als ein übergeordnetes Prinzip menschlichen Handelns erscheinen und erlaubt es, zunächst deren wissenschaftliche Erörterung auf menschliche Handlungen im Allgemeinen auszuweiten und daraufhin wiederum auf verschiedene menschliche Handlungsbereiche im Besonderen (und hierunter auch denjenigen der Sprache) hin einzuschränken. In den modernen Wirtschaftswissenschaften spielt das Konzept der Ökonomie eine bedeutsame, wenn auch nur eine vorwissenschaftliche Rolle. Zwar wird Ökonomie hier an dem bestmöglichen Verhältnis von Aufwand und Ergebnis menschlicher Handlungen gemessen, doch erweist sich diese Konzeption insofern als problematisch, dass dieses Verhältnis vorschnell mit einem Mini/ Max-Prinzip verwechselt werden kann. Ökonomie liegt diesem Prinzip nach in einem maximalen Ergebnis bei einem minimalem Aufwand begründet K eine Annahme, die sich bei näherem Hinsehen als absurd entpuppt: Denn ein maximales Ergebnis, das gegen Alles tendiert, und ein minimaler Aufwand, der gegen Nichts tendiert, laufen letztlich auf eine genesis ex nihilo hinaus, die vielleicht philosophisch oder theologisch, kaum aber wissenschaftlich zu er-
777
54. Sprachliche Ökonomie / Kommunikative Effizienz
fassen ist. Vor diesem Hintergrund macht eine wissenschaftliche Betrachtung des bestmöglichen Verhältnisses von Aufwand und Ergebnis eine differenzierte Betrachtungsweise erforderlich, die sich im Bereich der Wirtschaftswissenschaften bereits fachsprachlich in der Unterscheidung zwischen Effektivität (effectiveness bzw. efficacité) und Effizienz (efficiency bzw. efficience) widerspiegelt (vgl. Bohr 1981; Scholz 1992). Die Effektivität einer Handlung oder eines Vorganges ist aus wissenschaftlicher Sicht an dem Ergebnis zu messen, das von dieser Handlung oder diesem Vorgang zuvor erwartet wird. Eine Handlung oder ein Vorgang ist also dann effektiv, wenn das erwartete Ergebnis erreicht wird; der Aufwand, der hierzu benötigt wird, bleibt dabei unbeachtet. Wird das erwartete Ergebnis demgegenüber (bei welchem Aufwand auch immer) nicht erreicht, dann ist die betreffende Handlung oder der betreffende Vorgang als ineffektiv anzusehen. Die Effektivität von Handlungen oder Vorgängen ist also jeweils an dem Ergebnis zu messen, das von diesen erwartet wird. Diese Ergebniserwartung wiederum setzt indessen die Kenntnis entsprechender Handlungs- oder Vorgangszusammenhänge voraus (zum Beispiel: Fertigung gemäß der Produktnachfrage, Motorisierung nach Leistungsbedarf und Beratung entsprechend dem Informationsbedarf des Kunden). Eine solche Kenntnis lässt nun den Blick nicht allein auf das Ergebnis, sondern darüber hinaus bereits auch auf den Aufwand, der mit den entsprechenden Handlungen oder Vorgängen verbunden ist, frei werden. Ein konzeptioneller Zusammenhang zwischen Ergebnis und Aufwand menschlicher Handlungen oder technischer Vorgänge selbst wird jedoch erst mit dem Konzept der Effizienz hergestellt. Die Effizienz einer Handlung oder eines Vorgangs wird also im Gegensatz zu deren Effektivität nicht allein an dem Ergebnis, sondern darüber hinaus auch an dem Aufwand gemessen, der hiermit verbunden ist. Dabei ist Effizienz nicht mit einem minimalen Aufwand bei einem maximalen Ergebnis und somit über zwei Variablen zu bestimmen. Ihre Bestimmung erfolgt vielmehr über eine Variable und eine Konstante, wobei im Hinblick auf den Aufwand und das Ergebnis einer Handlung oder eines Vorganges zwei Varianten bestehen. Bei der ersten Variante wird der Aufwand konstant und das Ergebnis variabel gehalten; hier be-
steht Effizienz in einem möglichst großen Ergebnis bei einem bestimmten Aufwand (Ergebniseffizienz). Bei der zweiten Variante wird genau umgekehrt der Aufwand variabel und das Ergebnis konstant gehalten; die Effizienz besteht hier dann in einem möglichst geringen Aufwand bei einem bestimmten Ergebnis (Aufwandeffizienz). Eine Handlung oder ein Vorgang ist hiernach also dann effizient, wenn bei einem bestimmten Aufwand ein maximales Ergebnis erzielt oder für ein bestimmtes Ergebnis ein minimaler Aufwand betrieben wird. Gelingen Ergebnismaximierung oder Aufwandminimierung nicht, ist die betreffende Handlung oder der betreffende Vorgang als ineffizient (nicht aber unbedingt als ineffektiv) anzusehen. Mit diesem Konzept der Effizienz wird somit ein sinnvoller Zusammenhang zwischen dem Aufwand (etwa Fertigungskosten, Kraftstoffverbrauch oder Beratungsumfang) und dem Ergebnis (etwa Fertigungsstückzahl, Motorleistung oder Beratungserfolg) hergestellt. Wie im Falle der Effektivität menschlicher Handlungen oder technischer Vorgänge ist auch hierbei eine Kenntnis entsprechender Handlungs- oder Vorgangszusammenhänge (hier etwa Fertigungs-, Motorisierungs- oder Informationsbedingungen) vorauszusetzen. Ökonomie ist einer solchen Konzeption nach nicht als Effektivität, sondern als Effizienz menschlicher Handlungen oder technischer Vorgänge innerhalb bestimmter Handlungs- oder Verfahrensbereiche zu bestimmen, indem jeweils entweder deren Aufwand oder deren Ergebnis optimiert werden. Da das sprachliche Handeln einen wichtigen Teil des menschlichen Handelns überhaupt ausmacht, erscheint eine solche Konzeption von Ökonomie als Effizienz auch als ein geeigneter Gesichtspunkt sprachwissenschaftlicher Betrachtungen.
3.
Definitionen sprachlicher Ökonomie
Der Ökonomie von Sprache wird innerhalb der Sprachwissenschaft wiederholt Beachtung geschenkt. Diese Beachtung reicht von einem verhältnismäßig unreflektierten Sprachgebrauch bis hin zu einer mehr oder weniger umfassenden linguistischen Theorie- bzw. Modellbildung. Im Folgenden werden daher zunächst einige typische sprachwissenschaftliche Bestimmungen (sprachli-
778
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
cher) Ökonomie betrachtet. Im Rahmen dieser Betrachtung treten bereits zentrale Probleme der allgemeinen Konzeption sprachlicher Ökonomie deutlich zu Tage. Dies gilt für die Unterscheidung zwischen (sprachlichem) Aufwand und (sprachlichem) Ergebnis selbst, die in aller Regel entweder stillschweigend vorausgesetzt oder ausdrücklich vorgenommen wird. In einigen Fällen wird also ganz darauf verzichtet, das Verhältnis zwischen dem sprachlichen Aufwand und dem sprachlichen Ergebnis überhaupt zu bestimmen. So lautet etwa die bekannte Formulierung von André Martinet: „Was man die Ökonomie einer Sprache nennen kann, ist dieses ständige Streben nach einem Gleichgewicht zwischen widerstreitenden Bedürfnissen, denen Genüge getan werden muss: Kommunikationsbedürfnisse auf der einen, Gedächtnisträgheit und Trägheit des Artikulierens [...] auf der anderen Seite“ (Martinet 1963, 165 f.). Hierbei sind Artikulation und Gedächtnis mit sprachlichem Aufwand und Kommunikation mit sprachlichem Ergebnis in Verbindung zu bringen. Gleichermaßen unbestimmt bleibt jüngst etwa auch die Feststellung Günther Rohrs, in der der sprachliche Aufwand mit Benutzbarkeit und das sprachliche Ergebnis mit Differenziertheit sprachlicher Ausdrücke gleichgesetzt werden: „Sprache folgt [...] Prinzipien der Ökonomie, die sich in etwa mit Benutzbarkeit und Differenziertheit beschreiben lassen“ (Rohr 1999, 1). In diesen beiden Fällen deutet sich im Übrigen bereits an, dass Sprachaufwand und Sprachergebnis nicht unabhängig von den kommunikativen Bedürfnissen der betreffenden Sprachbenutzer bestimmt werden können. In einigen alltagsnahen oder vorwissenschaftlichen Bestimmungen wird sprachliche Ökonomie an das Mini/Max-Prinzip gebunden, nach dem Ökonomie in einem möglichst geringen Aufwand bei einem möglichst hohem Ergebnis begründet liegt. So heißt es zum Beispiel unter dem Lemma Sprachökonomie in Hadumod Bußmanns „Lexikon der Sprachwissenschaft“: „Ursache bzw. Anlaß für die Tendenz, mit einem Minimum an sprachlichem Aufwand ein Maximum an sprachlicher Effektivität zu erzielen“ (Bußmann 1990, 711). Abgesehen davon, dass hier sprachlicher Aufwand und sprachliches Ergebnis nicht näher bestimmt werden und der Zusammenhang zwischen Ursache, Anlass und Tendenz ungeklärt
bleibt, treffen auf diese Definition auch die allgemeinen Bedenken gegenüber der Bestimmung von Ökonomie über das Mini/ Max-Prinzip zu: Denn hiernach liefe sprachliche Ökonomie auf menschliches Ausschweigen bei weltlicher Vollvermittlung hinaus K eine Vorstellung, die sämtlichen Bemühungen um eine wissenschaftliche Diskussion von Sprachökonomie zuwiderläuft. Ein solcher Einwand gilt auch für eine Reihe weiterer Versuche, sprachliche Ökonomie über das Mini/Max-Prinzip zu bestimmen. Zu diesen Versuchen gehört unter anderem auch die Feststellung von Otto Jespersen, Sprachökonomie solle als Minimierung des Sprecheraufwands sowie als Maximierung des Hörerergebnisses bestimmt werden: „Now I found that in valuation of a language, or a linguistic expression, both sides should be taken into consideration: the best is what a minimum of effort on the part of the speaker produces a maximum of effect in the hearer“ (Jespersen 1941, 6). Ebenfalls an dem Mini/Max-Prinzip orientiert gibt sich der Versuch John Searles, sprachliche Ökonomie im Rahmen der Sprechakttheorie zu bestimmen: „I think there is operating in our language, as in most forms of human behavior, a principle of least effort, in this case a principle of maximum illocutionary ends with minimum phonetic effort“ (Searle 1971, 50). Selbst in der jüngeren, kognitionspsychologisch fundierten Pragmatik hat das Mini/Max-Prinzip seine Anhänger gefunden. So heißt es etwa im Hinblick auf die Relevanztheorie von Kommunikation und Kognition bei Dan Sperber und Deirdre Wilson, dass „human cognitive processes [...] are geared to achieving the greatest possible effect for the smallest possible processing effort“ (Sperber/Wilson 1986, vii). In jedem dieser drei Fälle schießt die Bestimmung sprachlicher Ökonomie über ihr Ziel hinaus: Denn Jespersen sowie Sperber und Wilson behandeln im weiteren Verlauf ihrer Arbeiten überwiegend solche Erscheinungen, die mit Aufwandeffizienz zu verbinden sind und somit eine Maximierung des Rezeptionsergebnisses außer Acht lassen, während Searle hier eine konzeptionelle Anbindung an die sprachökonomische Theorie von George Kingsley Zipf (1935; 1949) sucht, die sich mit dem principle of least effort sogar ausdrücklich auf Aufwandeffizienz bezieht. Innerhalb der Sprachwissenschaft finden sich aber durchaus auch solche Definitions-
54. Sprachliche Ökonomie / Kommunikative Effizienz
versuche, die an wissenschaftlichen Vorstellungen von Ökonomie im Sinne von Effizienz ansetzen. Die überwiegende Zahl dieser Versuche setzt dabei an der Aufwandeffizienz von Sprache an, indem Sprachökonomie mit einer Minimierung des sprachlichen Aufwands angesichts eines bestimmten sprachlichen Ergebnisses gleichgesetzt wird. Diese Aufwandeffizienz wird terminologisch als Prinzip des geringsten Kraftaufwandes (vgl. Martinet 1963, 164) bzw. als principle of least effort (vgl. Zipf 1949; Searle 1971, 50) oder economy of effort (vgl. Jespersen 1922, 261) bezeichnet und schlägt sich in einer ganzen Reihe von Definitionen nieder. So spricht etwa Wilhelm Schmidt von dem Prinzip der Kraftersparnis (Schmidt 1972, 54), das „sich beim Sprechen in dem Streben äußert, die Verständigungsabsicht mit möglichst geringem Kraftaufwand zu erreichen“ (Schmidt 1972, 162). Bei Elke RonnebergerSibold heißt es entsprechend: „Ökonomisch handeln heißt nun für die Sprachbenutzer, eine solche Ausdrucksweise zu wählen, bzw. zu schaffen, die unter den gegebenen sprachinternen und -externen Umständen möglichst wenig Gesamtaufwand zur Verwirklichung ihrer Kommunikationsabsicht erfordert“ (Ronneberger-Sibold 1980, 3). Und im Hinblick auf das grammatische System einer Sprache definiert etwa Gaston van der Elst: „Unter Sprachökonomie verstehe ich bezüglich des Kasussystems die der Sprache innewohnende Tendenz, mit möglichst wenigen formalen Mitteln, die jedoch eine große semantische Flexibilität aufweisen, auszukommen“ (van der Elst 1984, 324). Die Bestimmungen von Schmidt und Ronneberger-Sibold machen indessen wiederum deutlich, dass Sprachaufwand und Sprachergebnis nicht unabhängig von den kommunikativen Bedürfnissen der Sprachbenutzer zu bestimmen sind (vgl. Sandig 1971, 121K131). Und so stellt bereits Hermann Paul in den „Prinzipien der Sprachgeschichte“ fest: „Die sparsamere oder reichlichere Verwendung sprachlicher Mittel für den Ausdruck eines Gedankens hängt vom Bedürfnis ab [...]. Es müssen sich überall Ausdrucksweisen herausbilden, die nur gerade so viel enthalten, als die Verständlichkeit für den Hörenden erfordert“ (Paul 1975, 313). Gerade eine solche pragmatische Sichtweise erlaubt es denn auch Otto Jespersen, das Konzept der sprachlichen Ökonomie über das der sprachlichen Explizitheit zu setzen und somit von einer rein
779 strukturellen Bestimmung abzurücken: „But it must be remembered that it cannot be called illogical to omit the designation of what goes without saying: situation and context make many things clear which a strict logician in a pedantic analysis would prefer to see stated“ (Jespersen 1924, 264). Eine genauere Bestimmung solcher sprachlichen Bedürfnisse oder des sprachlichen Kontextes erfolgt hier jedoch nicht. Im Vergleich zur Aufwandeffizienz spielt Ergebniseffizienz innerhalb sprachwissenschaftlicher Bestimmungen von Ökonomie eine untergeordnete Rolle. Die Vorstellung einer Maximierung des sprachlichen Ergebnisses bei einem bestimmten sprachlichen Aufwand ist kaum verbreitet. Eine Ausnahme bildet hier der Definitionsansatz Hugo Mosers, der die „Neigung zu sprachlicher Ökonomie“ zum einen mit dem „Streben nach Einsparung sprachlicher Mittel“ (also Aufwandeffizienz) und zum anderen mit demjenigen nach „besserer Ausnutzung sprachlicher Mittel“ (und somit Ergebniseffizienz) verbindet (Moser 1970, 9; vgl. Wurzel 1997, 305 f.). Die geringe Beachtung von Ergebniseffizienz im Rahmen sprachwissenschaftlicher Bestimmungen von Ökonomie ist indessen nicht allein auf Nachlässigkeit zurückzuführen. Bisweilen wird der Ergebniseffizienz ausdrücklich mit Skepsis begegnet K insbesondere im Hinblick auf die Vergleichbarkeit verschiedener Ergebnisse bei vergleichbarem Aufwand. So charakterisieren Chris Wilder und Hans-Martin Gärtner aus dem theoretischen Umfeld des minimalist program (vgl. Chomsky 1995) die methodische Bestimmung von Aufwandeffizienz (minimization) wie folgt: „Minimization is a process of comparison and selection, presupposing (i) a set of alternatives, comparable in terms of bearing some property X, and (ii) a scale that orders these in terms of amount or degree of X: a ,price list‘“ (Wilder/Gärtner 1996, 2). Die methodische Bestimmung von Ergebniseffizienz (optimization) wird demgegenüber ignoriert: „The explanatory value of such a description (assuming it is accurate) will depend largely on the plausibility and naturalness of assumptions regarding the sets of alternatives and the X of the price-list, on which appeals to economy feed“ (Wilder/Gärtner 1996, 3). Hierbei bleibt jedoch offen, inwiefern Aufwandeffizienz tatsächlich besser zu beurteilen ist als Ergebniseffizienz. Elke Ronneberger-Sibold will die Ergebniseffizienz eben-
780
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
falls nicht als eine ernsthafte Variante der Sprachökonomie anerkennen: Es gebe die Alternative, „entweder mit einer gegebenen Menge physisch-psychischer Kraft möglichst viel Effekt zu verursachen, oder aber den gewünschten Effekt mit möglichst wenig physisch-psychischer Kraft zu erreichen. Sinnvoll ist natürlich nur das zweite Problem: Wie können die Sprachbenutzer ihr Kommunikationsziel mit möglichst wenig Aufwand erreichen?“ (Ronneberger-Sibold 1980, 241). Eine Erklärung für diese Position bleibt jedoch auch hier aus. Neben den verschiedenartigen Bestimmungen des Verhältnisses zwischen sprachlichem Aufwand und sprachlichem Ergebnis zeigen die Definitionsversuche sprachlicher Ökonomie insbesondere auch erhebliche Unterschiede im Hinblick auf die sprachlichen Erscheinungen, die mit Aufwand und Ergebnis selbst jeweils in Verbindung gebracht werden. In aller Regel erfolgt hierbei keine ausdrückliche Zuordnung: Die entsprechenden Erscheinungen werden vielmehr oft im weiteren Verlauf der Argumentation zumeist ohne nähere theoretische Anbindung an die Bestimmung sprachlicher Ökonomie erörtert. Das Spektrum an sprachlichen Erscheinungen reicht dabei zum einen über sämtliche Beschreibungsebenen wie Lautung und Schreibung, Wortschatz, Morphologie und Syntax sowie Text und Varietäten. Zum anderen werden sowohl systematische wie pragmatische als auch synchronische wie diachronische Gesichtspunkte behandelt. Ein wichtiger Grund für diese Vielfalt besteht in der Verschiedenheit der Forschungsansätze, die sich mit sprachlicher Ökonomie auseinandersetzen, selbst: Sprachökonomie erscheint hier als ein grundlegendes Prinzip menschlicher Kommunikation, das zwar in ganz unterschiedlichen sprachwissenschaftlichen Konzeptionen unabhängig voneinander Berücksichtigung gefunden hat, bislang aber nicht in eine übergreifende Theorie hat überführt werden können. Um einen Vergleich dieser verschiedenen Konzeptionen sprachlicher Ökonomie vornehmen zu können, ist es mit Roelcke (2002, 51K69) sinnvoll, sprachliche Ökonomie bzw. kommunikative Effizienz sowohl auf der Ebene sprachlicher Systeme und kommunikativer Gemeinschaften als auch auf der Ebene sprachlicher Texte und kommunizierender Personen anzusetzen. Dabei sind jeweils vier Größen zu unterscheiden: (1)
Intension als Kategorisierung und Schematisierung der Wirklichkeit durch ein sprachliches System bzw. die Proposition und Illokution durch einen sprachlichen Text; (2) Extension als das lexikalische Inventar und die semantischen, syntaktischen und pragmatischen Regeln des sprachlichen Systems bzw. die einzelnen Wörter und deren Kombination zu komplexen sprachlichen Zeichen wie Sätzen und Texten; (3) Kompetenz als das humanspezifische Kommunikationsvermögen im Rahmen von menschlichen Gemeinschaften bzw. das kognitive und physische Produktions- und Rezeptionsvermögen einzelner Personen; (4) Konzentration als die sozialspezifische Kultur menschlicher Gemeinschaften bzw. die kognitive und physische Kommunikationsbereitschaft einzelner Personen. Intension und Extension können hierbei als Kommunikat (System bzw. Text) mit einer bestimmten Komplexität zusammengefasst werden; hierzu entsprechend sind dann Kompetenz und Konzentration als Kommunikant (Gemeinschaft bzw. Person) mit einer bestimmten Kapazität zusammenzufassen. Kommunikative Effizienz liegt nach diesen Bestimmungen dann vor, wenn die Intension als das Kommunikationsergebnis und die Extension als der Kommunikationsaufwand einerseits sowie die Kompetenz als die Kommunikationsfähigkeit und die Konzentration als die Kommunikationsbereitschaft andererseits in einem ausgewogenen Verhältnis zueinander stehen. Übersteigt nun die Komplexität des Kommunikats die Kapazität des Kommunikanten, besteht kommunikative Ineffizienz bei kommunikativer Ineffektivität, da die sprachliche Kommunikation erfolglos ist; übertrifft hingegen die Kapazität des Kommunikanten die Komplexität des Kommunikats, besteht kommunikative Ineffizienz bei kommunikativer Effektivität, da die sprachliche Kommunikation zwar erfolgreich, dabei aber zu aufwendig ist. Hiernach können nun die folgenden Bestimmungen vorgenommen werden (vgl. Roelcke 2002, 61 f. und 67 f.): (Systematische bzw. textuelle) Effizienz sprachlicher Kommunikation besteht dann, wenn Intension (die Kategorisierung und Schematisierung der Wirklichkeit durch ein sprachliches System bzw. die Proposition und Illokution durch einen sprachlichen Text) und Extension (das lexikalische Inventar und die semantischen, syntaktischen und pragmatischen Regeln des sprachlichen Systems bzw. die einzelnen Wörter und deren Kombination zu komplexen sprachlichen Zeichen wie
54. Sprachliche Ökonomie / Kommunikative Effizienz Sätzen und Texten) einerseits sowie Kompetenz (das humanspezifische Kommunikationsvermögen im Rahmen von menschlichen Gemeinschaften bzw. das kognitive und physische Produktionsund Rezeptionsvermögen einzelner Personen) und Konzentration (die sozialspezifische Kultur menschlicher Gemeinschaften bzw. die kognitive und physische Kommunikationsbereitschaft einzelner Personen) andererseits in einem ausgewogenen Verhältnis zueinander stehen. (Systematische bzw. textuelle) Ineffektivität sprachlicher Kommunikation besteht dann, wenn Intension (die Kategorisierung und Schematisierung der Wirklichkeit durch ein sprachliches System bzw. die Proposition und Illokution durch einen sprachlichen Text) und Extension (das lexikalische Inventar und die semantischen, syntaktischen und pragmatischen Regeln des sprachlichen Systems bzw. die einzelnen Wörter und deren Kombination zu komplexen sprachlichen Zeichen wie Sätzen und Texten) einerseits Kompetenz (das humanspezifische Kommunikationsvermögen im Rahmen von menschlichen Gemeinschaften bzw. das kognitive und physische Produktionsund Rezeptionsvermögen einzelner Personen) und Konzentration (die sozialspezifische Kultur menschlicher Gemeinschaften bzw. die kognitive und physische Kommunikationsbereitschaft einzelner Personen) andererseits übersteigen. (Systematische bzw. textuelle) Ineffizienz sprachlicher Kommunikation besteht dann, wenn Intension (die Kategorisierung und Schematisierung der Wirklichkeit durch ein sprachliches System bzw. die Proposition und Illokution durch einen sprachlichen Text) und Extension (das lexikalische Inventar und die semantischen, syntaktischen und pragmatischen Regeln des sprachlichen Systems bzw. die einzelnen Wörter und deren Kombination zu komplexen sprachlichen Zeichen wie Sätzen und Texten) einerseits Kompetenz (das humanspezifische Kommunikationsvermögen im Rahmen von menschlichen Gemeinschaften bzw. das kognitive und physische Produktions- und Rezeptionsvermögen einzelner Personen) und Konzentration (die sozialspezifische Kultur menschlicher Gemeinschaften bzw. die kognitive und physische Kommunikationsbereitschaft einzelner Personen) andererseits unterbieten.
4.
Synchronische Konzeptionen
Zu den bedeutendsten und bekanntesten Konzeptionen sprachlicher Ökonomie, die im Rahmen synchronischer Ansätze entwickelt wurden, gehören insbesondere das Zipfsche Gesetz aus der Sprachstatistik (vgl. Art. 10), das minimalist program als jüngste Ausprägung der generativen Sprachtheorie Noam Chomskys, die Terminologielehre als anwendungsorientiertem Bereich der Fachsprachenforschung sowie einige weitere
781 Konzeptionen wie die linguistische Synergetik (vgl. Art. 53), die optimality theory als Beitrag der generativen Phonologie, die Prototypentheorie als wichtiger Ansatz der kognitiven Semantik, die Konversationsmaximen nach Paul Grice oder die (lexikographische) Textkondensation als Gegenstand der Textlinguistik. Mit die bekannteste Konzeption sprachlicher Ökonomie bildet das sog. Zipfsche Gesetz aus dem Bereich der statistischen Worthäufigkeitsforschung. George Kingsley Zipf (1935, 44K48) postuliert einen Zusammenhang zwischen der Vorkommenshäufigkeit einzelner Wörter in Texten und dem Platz dieser Wörter auf einer fortlaufenden Häufigkeitsrangliste. Das Produkt aus der Anzahl von einzelnen Wörtern einer bestimmten Häufigkeit (n) und dem Quadrat der Häufigkeit dieser Wörter selbst (Pn) stellt sich hiernach als Konstante dar (n ! Pn Z konstant). Nach Zipf (1949, 19K55) selbst ist dieses Gesetz von universeller Gültigkeit und dabei aus dem Prinzip des geringsten Kraftaufwands (principle of least effort) zu erklären. Obwohl das Zipfsche Gesetz inzwischen als empirisch widerlegt gelten darf (vgl. Billmeier 1969; Meier 1978), erfreut es sich bis in die Gegenwart großer Anerkennung und liefert wiederholt Anstöße zu weiterer Forschung (vgl. Guiter/Arapov 1982). Das Zipfsche Gesetz bezieht sich hinsichtlich der Vorkommenshäufigkeit einzelner Wörter auf sprachliche Texte und nicht auf sprachliche Systeme und formuliert den Zusammenhang zwischen dem Häufigkeitsrang als Indikator für den kommunikativen Aufwand und der Vorkommenshäufigkeit als Indikator für das kommunikative Ergebnis als kommunikative Konstante. Die Zipf-Konstante bezieht sich dabei allein auf einzelne lexikalische Elemente von Texten mit einer prinzipiell unterschiedlichen kommunikativen Komplexität. Diese variable Komplexität ganzer Texte lässt sich jedoch nur durch eine Funktion aus der Zipf-Konstante und der Gesamtzahl an verschiedenen Wörtern (types) und der Gesamtzahl an verwendeten Wörtern überhaupt (token) selbst ermitteln. Und so deckt das Zipfsche Gesetz nur einen Teil kommunikativer Texteffizienz ab, der zum einen um die Textkomplexität im Ganzen und zum anderen um die Textkapazität der betroffenen Personen zu ergänzen ist. Eine der jüngsten und gleichzeitig eine der bedeutendsten Konzeptionen sprachlicher Ökonomie wurde im Umfeld der gene-
782
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
rativen Sprachtheorie ausgearbeitet. Nach den Grammatikmodellen der StandardTheorie und der Rektions-und-BindungsTheorie erreicht Noam Chomsky Ende der achtziger Jahre mit dem minimalist program (Chomsky 1995) eine weitere Etappe generativer Theoriebildung. Das minimalist program zeichnet sich gegenüber den früheren generativen Konzeptionen durch eine ausdrückliche Berücksichtigung sprachökonomischer Faktoren aus. Die zentralen Einheiten der minimalistischen Grammatiktheorie bilden erstens Elemente wie Wörter oder Phrasen; zweitens ein Konstruktionsmechanismus, mit dem syntaktische Verknüpfungen dieser Elemente vorgenommen werden; drittens eine phonetische und eine logische Ebene, vor deren Hintergrund diese syntaktischen Verknüpfungen wiederum interpretiert werden; sowie viertens Regeln, nach denen die sprachlichen Elemente innerhalb der phonetisch und logisch interpretierten syntaktischen Verknüpfungen verschoben werden. Im Rahmen dieser Konzeption werden grammatische Merkmale zunehmend von dem syntaktischen in den lexikalischen Bereich verlegt, um auf diese Weise Sonderfälle syntaktischer Verknüpfungen, sprachübergreifende Erscheinungen sowie die fehlende Markiertheit einiger syntaktischer Konstruktionen besser beschreiben und erklären zu können (vgl. Wilder/Gärtner 1996, 10K13). Grundlage dieser Vorgehensweise bildet ein allgemeines Ökonomieprinzip: „A principle which requires that (all other things being equal) syntactic representations should contain as few constituents and syntactic derivations and involve as few grammatical operations as possible“ (Radford 1997, 259). Diesem allgemeinen Ordnungsprinzip sind einige weitere Prinzipien unterzuordnen, darunter: Erstens das Prinzip der Selbstsucht (greed), nach dem syntaktische Verschiebungen nicht erfolgen dürfen, um anderen Elementen gerecht zu werden; zweitens das Prinzip der Verzögerung (procrastinate), dem zu Folge solche Verschiebungen möglichst spät erfolgen sollen; drittens das Prinzip des letzten Auswegs (last resort), nach dem bestimmte Verschiebungen nur dann erfolgen dürfen, sofern keine andere Möglichkeit der Konvergenzbildung besteht; sowie viertens das Prinzip der vollständigen Interpretation (principle of full interpretation), dem zu Folge im Rahmen der Ableitung der phonetischen und der logischen Form syntaktischer Konstruktionen
sämtliche grammatischen Merkmale auf ihre Relevanz hin überprüft werden. Mit solchen Prinzipien ist im Rahmen der generativen Sprachtheorie zunächst ein wissenschaftsökonomischer und kein sprachökonomischer Anspruch verbunden. Die sprachwissenschaftliche Theoriebildung hat hiernach zunächst verschiedene theoretische Varianten zu entwickeln und diese dann hinsichtlich der (wie auch immer) einfachsten Variante zu vergleichen. Nach Chomsky (1995, 8) handelt es sich hierbei um eine „evaluation procedure to select among proposed grammars (in present terms, I-languages) consistent with the permitted format for rule systems“. In einem weiteren Schritt wird dieses wissenschaftsökonomische Modell dann in ein sprachökonomisches Modell gewendet, indem die Effizienz sprachwissenschaftlicher Theoriebildung vor dem Hintergrund eines wissenschaftsphilosophischen Realismus eine Übertragung auf die Effizienz sprachlicher Erscheinungen selbst erfährt. So Chomsky (1995, 9): „At this point still further questions arise, namely, those of the Minimalist Program. How ‘perfect’ is language? [...]. Looking at the same problem from a different perspective, we seek to determine just how far the evidence really carries us toward attributing specific structure to the language faculty, requiring that every departure from ‘perfection’ be closely analyzed and well motivated“. Ökonomie stellt sich hiernach im Rahmen der generativen Sprachtheorie zunächst als ein wissenschaftstheoretisches Modell der linguistischen Theoriebildung dar, das dann zu einem sprachtheoretischen Modell mit universeller Gültigkeit erhoben wird. Die sprachökonomische Konzeption des minimalist program erweist sich aus der Sicht des allgemeinen Modells kommunikativer Effizienz als eine weitere Variante sprachlicher Aufwandeffizienz auf Systemebene. Dabei stellen die sprachlichen Elemente und deren Interpretations- und Konstruktionsmechanismen einerseits den Aufwand bzw. die Extension und die Anforderungen der menschlichen Sprachfähigkeit, denen sie zu genügen haben, andererseits das Ergebnis bzw. die Intension sprachlicher Kommunikation dar. Chomsky (1995, 1) fasst dies zu Beginn seiner minimalistischen Ausführungen in zwei programmatischen Fragen zusammen: „This work is motivated by two related questions: (1) what are the general conditions that the human language
54. Sprachliche Ökonomie / Kommunikative Effizienz
faculty should be expected to satisfy? and (2) to what extent is the language faculty determined by these conditions, without special structure that lies beyond them?“. Der sprachökonomische Ansatz des minimalist program ist des Weiteren durch das Axiom der Konstanz der kommunikativen Anforderungen sowie durch eine Idealisierung der sprachlichen Kompetenz und eine Ignorierung der sprachlichen Konzentration gekennzeichnet. Auf diese Weise wird dieser Ansatz trotz des Hintergrunds eines wissenschaftsphilosophischen Realismus von einer sprachökonomischen auf eine wissenschaftsökonomische Position zurückverwiesen: Die sprachliche Aufwandeffizienz bezieht sich hiernach dann eben nicht auf die Sprache selbst, sondern doch nur auf deren sprachwissenschaftliche Beschreibung und Erklärung. Die Terminologielehre stellt denjenigen Bereich der angewandten Sprachwissenschaft dar, in dem sprachökonomische Konzeptionen mit die bedeutendste Rolle spielen. Bereits der Begründer der modernen Terminologielehre, Eugen Wüster (1970, 85K115) bestimmt Bequemlichkeit und Genauigkeit als grundlegende Güteeigenschaften technischer (daneben auch wissenschaftlicher und institutioneller) Fachsprachen. Dabei setzt Wüster Bequemlichkeit mit einem „geringen Energieverbrauch“ in Verbindung, Genauigkeit mit einem „geringen Ladungsverlust“: Ein „Verständigungsmittel ist um so genauer, je mehr die im Partner wirklich hervorgerufene Vorstellungsreihe mit der beabsichtigten Vorstellungsreihe übereinstimmt“ (Wüster 1970, 85). Die Bequemlichkeit fachlexikalischer Ausdrücke besteht hiernach insbesondere in deren Kürze, diejenige fachlexikalischer Bedeutungen in deren Verständlichkeit. Die Genauigkeit fachlexikalischer Ausdrücke besteht dagegen in deren Unterscheidbarkeit und diejenige fachlexikalischer Bedeutungen in deren Schärfe bzw. Exaktheit. Im Hinblick auf die Zuordnung zwischen Laut und Schrift sowie Ausdruck und Bedeutung werden Bequemlichkeit und Genauigkeit durch die Eineindeutigkeit ihrer Zuordnung gewährleistet. Sprachökonomische Vorstellungen dieser Art prägen die Terminologielehre und Terminologienormung bis heute. Sie beruhen auf einem systemlinguistischen Inventarmodell, wobei der Erfolg fachlicher Kommunikation unabhängig von pragmatischen oder gar kognitiven Gesichtspunkten
783 bereits im Vorfeld von systematisch festgelegten Eigenschaften des Wortschatzes abhängig gemacht werden soll (vgl. Roelcke 1999, 15K31; 50K70). Die sprachökonomische Konzeption der Terminologielehre bezieht sich also auf fachsprachliche Systeme und nicht auf fachsprachliche Texte. Sie bezieht sich dabei auf Aufwand- und nicht auf Ergebniseffizienz, indem jeweils optimale sprachliche Eigenschaften angesichts bestimmter fachlicher Information oder Instruktion postuliert werden. Als Intension erscheinen hierbei Unterscheidbarkeit und Exaktheit, wobei diese als konstant angenommen werden. Als Extension sind hiernach Kürze und Verständlichkeit anzusetzen; die kommunikative Kapazität fachkommunikativer Gemeinschaften bleibt unbeachtet. In der Mitte der 80er Jahre entwickelt Reinhard Köhler ein Modell linguistischer Synergetik, mit dem Struktur und Dynamik einzelsprachlicher Wortschätze beschrieben und erklärt werden sollen (vgl. Köhler 1986; zur Zusammenfassung des Modells vgl. Köhler 1986, 74; zu dessen Weiterentwicklung im Hinblick auf den syntaktischen Bereich vgl. Köhler 1999; Köhler/Altmann 2000). Die historischen und theoretischen Grundlagen dieses Modells liegen in den sprachstatistischen Überlegungen von Zipf, die hier verschoben, ausgebaut und weiterentwickelt werden. Die Verschiebung erfolgt dabei von der Betrachtung des Wortschatzes auf der Ebene des Textes zu derjenigen auf der Ebene des Systems. Der Ausbau besteht darin, dass die Extension sprachlicher Systeme lexikalisch im Hinblick auf Länge, Bedeutungspotenz (Polylexie), Gebrauchshäufigkeit (Frequenz), Kontextgebundenheit (Polytextie), Lexikonumfang und Phonemanzahl von Wörtern bzw. Frequenz (frequency), Länge (length), Komplexität (complexity), Position (position), Tiefe (depth), Information (information), Polyfunktionalität (polyfunctionality) und Synfunktionalität (synfunctionality) syntaktischer Konstruktionen betrachtet wird; eine bestimmte Intension solcher Systeme wird hier lexikalisch hingegen weniger erörtert als vielmehr vorausgesetzt (vgl. Köhler 1986, 74) und syntaktisch im Hinblick auf Konstruktionstypen (syntactic constructions bzw. constituent types), Funktionen (syntactic functions), Kategorien (syntactic categories) und funktionale Äquivalenz (syntactic equvalents). Die Weiterentwicklung schließlich zielt auf den synergeti-
784
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
schen Ansatz, dem zu Folge sprachliche Systeme der Selbstregulation unterliegen und damit eine strukturelle Dynamik im Hinblick auf Änderungen einzelner Parameter zeigen. Auch hierbei handelt es sich um eine Konzeption sprachlicher Aufwandeffizienz, wobei die Intension als konstant aufgefasst und die Extension über Länge, Polylexie, Frequenz, Polytextie, Lexikonumfang und Phonemanzahl lexikalischer Einheiten bzw. Frequenz, Länge, Komplexität, Position, Tiefe, Information, Poly- und Synfunktionalität syntaktischer Konstruktionen bestimmt wird; die kommunikative Kapazität des Kommunikanten wird auch hier nicht näher problematisiert. Die optimality theory nach Alan Prince und Paul Smolensky (1993; 1997) stellt das Ergebnis einer eigenständigen Weiterentwicklung generativer Sprachtheorie dar (vgl. Archangeli/Langendoen 1996; Kager 1999). Ihr Grundgedanke besteht darin, dass sprachliche Oberflächenerscheinungen (surface forms) Ergebnisse eines Widerstreits zwischen verschiedenen sprachlichen Anforderungen darstellen. Diese Ergebnisse sind durch sprachliche Ökonomie gekennzeichnet: „A surface form is ‘optimal’ in the sense that it incurs the least serious violations of a set of violable constraints, ranked in a language-specific hierarchy“ (Kager 1999, xi). Dabei erweisen sich Anforderungen höherer Ebenen gegenüber solchen niedrigerer Ebenen als dominant. Die Erfüllung von formalen Anforderungen höherer Ebenen darf zu der Verletzung der Erfüllung von formalen Anforderungen niedrigerer Ebenen führen, wobei jedoch im Sinne von sprachlicher Aufwandeffizienz ein möglichst geringes Maß an solchen Verletzungen angestrebt wird: „However, such violation must be minimal, which predicts the economy property of grammatical processes“ (Kager 1999, xi). Im Rahmen dieser am sprachlichen System orientierten aufwandökonomischen Konzeption werden also Intension als Erfüllung von Kommunikationsanforderungen und Extension als Verletzung hierarchischer Regeln aufgefasst, wobei die Intension unter Idealisierung der kommunikativen Kapazität als konstant angesehen wird. H. Paul Grice (1989) unterscheidet vier Gruppen von sog. Konversationsmaximen, die unter der Voraussetzung eines allgemeinen kommunikativen Kooperationsprinzips eine (ideale) Kommunikation zwischen den
Kommunikationsbeteiligten gewährleisten sollen. Hierzu zählen erstens die Quantitätsmaximen, nach denen ein Kommunikationsbeitrag so informativ wie nötig und nicht informativer als nötig sein soll; zweitens die sog. Qualitätsmaximen, nach denen ein solcher Beitrag möglichst wahr sein sollte; drittens die Relationsmaxime, der zu Folge der Beitrag kommunikativ relevant sein sollte; und viertens die Maximen der Art und Weise, nach der der Beitrag kurz und bündig sowie klar und deutlich sein sollte. Diese vier Gruppen sind im Hinblick auf sprachliche Ökonomie von unterschiedlicher Bedeutung: Mit den Quantitätsmaximen wendet sich Grice gegen Ineffektivität und Ineffizienz der Kommunikation im Hinblick auf die Textintension und fordert somit kommunikative Ergebniseffizienz. Die Qualitätsmaximen sind demgegenüber unter sprachökonomischem Blickwinkel nicht oder allenfalls mittelbar von Bedeutung, während die Relationsmaxime im Sinne kommunikativer Aufwandeffizienz interpretiert werden kann. Die Maximen der Art und Weise schließlich beziehen sich auf die Aufwandeffizienz des Kommunikationsbeitrags hinsichtlich der Textproduktion und -rezeption. Die Konversationsmaximen lassen sich somit als sprachökonomische Konzeption auf textueller Ebene auffassen, bei der unter der Voraussetzung kommunikativer Kompetenz die Intension als Information, die Extension als Art und Weise des Ausdrucks und die Konzentration als Kooperationsbereitschaft aufzufassen sind. Innerhalb der Prototypensemantik wird sprachliche Ökonomie im Hinblick auf Kategorien der sog. Basisebene (basic level) diskutiert. Nach Eleanor Rosch (1977; 1978) bedingen semantische Prototypen die (kognitive) Effizienz dieser mittleren Kategorisierungsebene gegenüber der unter- und der übergeordneten Ebene der Kategorisierung, indem sie jeweils einerseits die meisten Merkmale umfassen, die der betreffenden Kategorie entsprechen und diese gleichzeitig von anderen Kategorien unterscheiden, und andererseits deren ganzheitliche kognitive Verarbeitung unterstützen (vgl. Kleiber 1998, 59K62; Ungerer/Schmid 1996, 72). Auch in dieser Konzeption, die an dem sprachlichen System orientiert ist und dabei sowohl im Sinne von Aufwand- als auch im Sinne von Ergebniseffizienz interpretiert werden kann, wird die Kapazität des Kommunikanten nicht weiter problematisiert;
54. Sprachliche Ökonomie / Kommunikative Effizienz
dabei erscheinen die Kategorisierung als Intension und die Prototypikalisierung als Extension des Kommunikats. Unter einer (lexikographischen) Textkondensation schließlich wird ein Vorgang verstanden, bei dem ausformulierte Volltexte (möglicher Wörterbücher) in verdichtete Textvarianten (tatsächlicher Wörterbücher) umgeformt werden. Im Rahmen der lexikographischen Textkondensation, bei der durch Standardisierung textuelle Redundanz verringert wird (vgl. Ising 1978; Wiegand 1996; 1998), sind dabei nach Wolski (1989, 961K 967) unter anderem die folgenden Verfahren zu unterscheiden: „Auslassung von Formulierungsbestandteilen“, „Bildung von Abkürzungen“, „Ersetzung (von Teilen) des Volltextes durch Angabesymbole“, „Substitution (von Teilen) des Lemmazeichens“, „Ineinanderschachtelung von Formulierungsbestandteilen“, „Belegschnitt-Verfahren“, „Nischen- und Nestbildung“ oder „Auslagerung von Textsegmenten“. Diese sprachökonomische Konzeption, die auf der textuellen Ebene ansetzt, bezieht sich wiederum auf Aufwandeffizienz, wobei die Intension als Information angesichts der Kapazität der Wörterbuchbearbeiter und -benutzer als konstant angenommen wird.
5.
Diachronische Konzeptionen
Neben solchen synchronischen Konzeptionen sprachlicher Ökonomie wurden im 20. Jahrhundert auch einige bedeutende diachronische Konzeptionen entwickelt. Hierzu gehören insbesondere auch die von Otto Jespersen oder André Martinet aufgegriffene und weiterentwickelte ease theory, die Diskussion um sprachliche Natürlichkeit und kommunikative Ökonomie, die insbesondere mit den Namen Otmar Werners und Elke Ronneberger-Sibolds verbunden ist, sowie Überlegungen zur sprachlichen System- und Kulturgeschichte, wie sie etwa von Hugo Moser angestellt wurden. In der ersten Hälfte des 20. Jahrhunderts diskutiert Otto Jespersen einige sprachwandeltheoretische Positionen, die er programmatisch als ease theory zusammenfasst (vgl. Jespersen 1922, 261K264). Dabei geht es um die bereits seit dem 19. Jahrhundert wiederholt aufgeworfene Frage, ob sprachlicher Wandel in jedem Falle auf grammatische (oder auch lexikalische) Vereinfachung hinauslaufe und somit dem Prinzip der Auf-
785 wandökonomie folge, „the disputed question whether the changes of language go in the direction of greater ease, in other words, whether they manifest a tendency towards economy of effort“ (Jesperson 1922, 261). Jespersen verteidigt diese Auffassung, indem er zum einen auch andere sprachgeschichtliche Tendenzen einräumt, die dieses Ökonomieprinzip durchqueren, und zum anderen annimmt, dass die Menschheit in ihrer Entstehungs- und Entwicklungsgeschichte (noch) keine Sprache kommunikativer Effizienz hervorgebracht habe: „Neither in language nor in any other activity has mankind at once hit upon the best or easiest expedients“ (Jesperson 1922, 264). Eine solche Auffassung prägt insbesondere auch Jespersens empirisch reich belegendes, sprachwandeltheoretisches Spätwerk „Efficiency in Linguistic Change“ (Jesperson 1941, 12K 23). Diese sprachwandeltheoretischen Annahmen erfahren bereits hier eine bemerkenswerte Ergänzung: So erklärt Jespersen (1941, 85): „Linguistic changes should be measured by the standard of efficiency judged chiefly according to the expenditure of energy, mental and physical, both on the part of the speaker and of the recipient.“ Ganz in diesem Sinne äußert sich etwa zwei Jahrzehnte später auch André Martinet, (1963) der ebenfalls an dem sprachwandeltheoretischen Prinzip der Aufwandeffizienz festhält, dieses jedoch ausdrücklich um die Kommunikationsbedürfnisse der Produzenten und Rezipienten ergänzt: „Die sprachliche Entwicklung läßt sich ansehen als gelenkt durch die ständige Antinomie zwischen den Kommunikationsbedürfnissen des Menschen und seiner Tendenz, seine geistige und körperliche Tätigkeit auf ein Minimum zu beschränken“ (Martinet 1963, 164). Dieses Sprachwandelprinzip leitet sich dabei ab aus dem allgemeinen sprachökonomischen „Streben nach einem Gleichgewicht zwischen widerstreitenden Bedürfnissen, denen Genüge getan werden muß: Kommunikationsbedürfnisse auf der einen, Gedächtnisträgheit und Trägheit des Artikulierens [...] auf der anderen Seite“ (Martinet 1963, 165 f.). Im Rahmen dieser ökonomischen Sprachwandeltheorie erscheinen als Intension die Kommunikationsleistung, als Extension das Sprachsystem sowie als Kapazität die Gemeinschaft der Produzenten und Rezipienten; dabei wird davon ausgegangen, dass der Wert der Intension konstant und geringer als der Wert der Extension ist, wo-
786
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
bei sich dann der Wert der Extension im Verlauf sprachlicher Entwicklungen auf den der Intension zubewegt. Zu den bekanntesten sprachwandeltheoretischen Ansätzen, die im Bereich der Germanistik entwickelt wurden, gehört sicherlich auch derjenige von Hugo Moser (1970; 1971). In Auseinandersetzung mit einigen älteren Konzeptionen ökonomischen Sprachwandels (insbesondere denjenigen von Jespersen 1922; Jesperson 1941; Koenraads 1953; Martinet 1963) unterscheidet Moser (1971) drei Typen sprachlicher Ökonomie, die im Hinblick auf sprachgeschichtliche Entwicklungen diskutiert und differenziert werden. Den ersten dieser Typen bildet die systembezogene Ökonomie (vgl. Moser 1971, 93K102). Diesem Typ nach wird das (lautliche, schriftliche, lexikalische morphologische oder syntaktische) System einer Sprache im Laufe ihrer geschichtlichen Entwicklung hinsichtlich der Vermittlung von Informationen optimiert, indem es bei gleichbleibender Informationsvermittlung verringert oder bei steigender Informationsvermittlung beibehalten bzw. geringfügig erweitert wird. Die informationsbezogene Ökonomie bildet den zweiten Typ (Moser 1971, 102K113). Hiernach wird im Laufe sprachgeschichtlicher Entwicklungen nicht das sprachliche System gegenüber der Informationsvermittlung, sondern umgekehrt die Informationsvermittlung gegenüber dem sprachlichen System optimiert, indem diese bei gegebenem Sprachsystem entweder an Geschwindigkeit oder an Menge steigt. Den dritten Typ schließlich bildet hier die Geltungsökonomie (vgl. Moser 1971, 114K117). Hiernach vollzieht sich die Entwicklung einer Einzelsprache von der Ausbildung (mehr oder weniger) zahlreicher verschiedener Varietäten über einen zunehmenden Ausgleich von Mundarten und Gruppensprachen bis zur Ausbildung und Verbreitung einer literatur- oder standardsprachlichen Varietät, die der systematischen Optimierung der Informationsvermittlung dient. Zwar klammert Moser die „Problematik einer Optimalsprache“ (Moser 1971, 93) ausdrücklich aus, doch herrschen auch hier Vorstellungen vor, nach denen sprachökonomische Entwicklungen (gegenüber anderen sprachlichen Entwicklungen) als Fortschritt zu betrachten sind, auch wenn in der Sprachgeschichte im Ganzen lediglich „wertneutral eine Veränderung zu sehen“ (Moser 1971, 117) sei. Die Intension kommunikativer Ef-
fizienz erscheint innerhalb dieser sprachwandeltheoretischen Konzeption also als Informationsvermittlung, die Extension als Sprachsystem und Sprachvarietäten, wobei der Wert der Intension wie im Falle der ease theory geringer angesetzt wird als der der Extension. Im Unterschied zur ease theory erweist sich die Komplexität sprachlicher Systeme und Varietäten und ihrer Informationsvermittlung hier aber nicht allein im Hinblick auf die Extension der sprachlichen Systeme und Varietäten, sondern auch hinsichtlich der Intension der Informationsvermittlung als veränderlich. Im Sinne von Aufwand- wie auch Ergebniseffizienz drängt sie dabei zu einer Verringerung der systematischen Extension oder zu einer Erweiterung der systematischen Intension, um so idealiter ein effizientes Verhältnis zwischen der systematischen Komplexität der Informationsvermittlung sowie des Sprachsystems und der Sprachvarietäten einerseits und der systematischen Kapazität der Sprachgemeinschaft andererseits herzustellen. Sprachgeschichtliche Entwicklungen verlaufen hiernach also zielgerichtet auf eine Verringerung des lexikalischen Inventars und der syntaktischen Regeln gegenüber der Kategorisierung und Schematisierung durch die entsprechende Sprache oder umgekehrt auf eine Erweiterung dieser Kategorisierung und Schematisierung gegenüber dem lexikalischen Inventar und den syntaktischen Regeln hinaus. Sie nähern sich hiernach also mehr und mehr einem kommunikativen Aufwand oder einem kommunikativen Ergebnis an, die sich angesichts der Kapazität der betreffenden Sprachgemeinschaft als effizient erweisen. Auf diese Weise birgt diese Konzeption die Gefahr einer sprachwandeltheoretischen Miss-Adaption des Mini/ Max-Prinzips. In den siebziger Jahren erfährt die Diskussion um die ökonomischen Grundlagen sprachlichen Wandels neue Impulse, die insbesondere auf die Arbeiten Otmar Werners und Elke Ronneberger-Sibolds zurückgehen. Hierbei stehen einerseits das Verhältnis zwischen sprachlicher Ikonizität und Frequenz und andererseits das zwischen sprachlicher Ikonizität und Performanz im Vordergrund der Überlegungen. Otmar Werner (1989; 1991) geht von einer bilateralen Beziehung zwischen formal und funktional zu unterscheidenden sprachlichen Einheiten aus. Er setzt sich dabei insbesondere mit dem zentralen Postulat der sog. Natürlichen
54. Sprachliche Ökonomie / Kommunikative Effizienz
Grammatik (vgl. Bailey 1973; Mayerthaler 1981) kritisch auseinander, dem zu Folge zwischen den formalen und den funktionalen Einheiten auf den Ebenen Lautung, Morphologie und Syntax möglichst eine 1 : 1-Entsprechung zu herrschen habe. Dieses Postulat wurde wiederholt auch zum Ausgangspunkt sprachwandeltheoretischer Überlegungen (vgl. Dressler 1985; Vennemann 1987; Wurzel 1994), wobei jeweils von einer sprachgeschichtlichen Tendenz zur grammatischen Ikonizität bzw. zur Ikonizität von Form und Funktion ausgegangen wird. Werner (1989, 34K40) widerspricht dieser These jedoch, indem er auf vielfache Konflikte zwischen der sprachlichen Ikonizität auf den verschiedenen Ebenen hinweist und im Rückgriff auf frühere Arbeiten aus den siebziger und achtziger Jahren „Sprachökonomie als Erklärung“ (Werner 1989, 40K43) für diese Befunde heranzieht. Hierbei erweist sich die Frequenz funktionaler Einheiten als entscheidend, da eine hohe Frequenz solcher Einheiten (synchron wie diachron) eine Komprimierung auf wenige formale Einheiten und eine geringe Frequenz eine Expandierung auf mehrere formale Einheiten bedinge (Werner 1989, 42). Eine Übertragung dieses ökonomischen Prinzips sprachlichen Wandels auf den Bereich des Wortschatzes scheint nach Werner (1991) ebenfalls möglich (vgl. Meineke 1989; Wurzel 1997; Ronneberger-Sibold 1997; Birkmann 1998). Als Intension sprachlicher Kommunikation erscheint hier generell die kommunikative Leistung, als Extension die Ikonizität und Frequenz sprachlicher Ausdrücke; die Kapazität des Kommunikanten wird als konstant angesetzt. Das Verhältnis zwischen der Ikonizität und der Frequenz sprachlicher Einheiten erweist sich bei kommunikativer Effizienz insofern als variabel, als eine (wie auch immer bedingte) Änderung der (qualitativen wie quantitativen) Kommunikationsleistung der betreffenden Sprachgemeinschaft eine entsprechende Änderung der Frequenz sprachlicher Einheiten und damit auch der Ikonizität dieser Einheiten mit sich bringt. Im Unterschied zu der ease theory nach Jespersen erweist sich kommunikative Effizienz hier nicht als Ziel, sondern als Regulativ sprachgeschichtlicher Entwicklungen. Sprachlicher Wandel vollzieht sich hiernach bei kommunikativer Effizienz und konstanter Kapazität des Kommunikanten im Rahmen eines (möglichst) ausgeglichenen, wenn auch veränderlichen Verhältnis-
787 ses zwischen sprachlicher Information und Instruktion einerseits sowie sprachlichen Elementen und Relationen andererseits. Die Sprachwandeltheorie Elke Ronneberger-Sibolds (1980; 1997; Birkmann 1998) setzt an Werners Theorie an und entwickelt diese insbesondere im Hinblick auf verschiedenartige Performanzbedürfnisse der Sprecher und Hörer einer Sprachgemeinschaft auf lautlicher, morphologischer und syntaktischer Ebene weiter (vgl. insbesondere Ronneberger-Sibold 1980, 177K245). Sprachliche Ökonomie wird hiernach als eine „Ursache von Sprachwandel“ betrachtet, durch die jede sprachliche Entwicklung nicht auf ein „absolutes Optimum“ hinauslaufe, sondern allein in einer „relativen Optimierung“ münde (Ronneberger-Sibold 1980, 227 f.). Dabei sind drei Möglichkeiten solcher sprachlichen Entwicklungen im Zuge der Veränderung von Produktions- und Rezeptionsbedürfnissen innerhalb einer Sprachgemeinschaft zu unterscheiden (vgl. Ronneberger-Sibold 1980, 228K236): Erstens die partikulare Optimierung sprachlicher (hier vor allem morphosyntaktischer) Mittel im Hinblick auf Produktion oder Rezeption; zweitens die optimale Realisierung sprachlicher Mittel „hinsichtlich eines bestimmten Belastungsverhältnisses in Abhängigkeit von relativen Häufigkeiten“; und drittens die „Optimierung des Belastungsverhältnisses in Abhängigkeit von der außersprachlichen historischen Situation“ (dies insbesondere unter Berücksichtigung sprachlicher Interferenz). Wie bei Werner sind hier die Intension als Kommunikationsleistung und die Extension als Ikonizität und Frequenz aufzufassen; im Unterschied hierzu ist die Kapazität differenzierter als Kompetenz und Performanzbedürfnis des Kommunikanten anzusehen. Sprachliche Ökonomie erscheint hiernach ebenfalls nicht als Ursache, doch aber wiederum als Regulativ sprachgeschichtlicher Entwicklungen. Die Ursache solcher Entwicklungen ist vielmehr jeweils in der Änderung der historischen Bedingungen selbst zu sehen, in denen eine Sprachgemeinschaft besteht. Solche Änderungen bedingen diesem Modell nach dann Änderungen der Kompetenz und des Performanzbedürfnisses der einzelnen Mitglieder der betreffenden Sprachgemeinschaft, die sich selbst wiederum bei effizienter Kommunikation in einer Änderung der kommunikativen Intension hinsichtlich der Kommunikationsleistung bzw. der Information und Instruk-
Ökonomischer Typ
Intension
Extension
Kommunikant (Ergänzungen)
Ease-Theory (Jespersen 1922; 1941; Martinet 1963)
Systemebene
Aufwandeffizienz
Kommunikative Leistung
Sprachliches System
Produzenten und Rezipienten
Sprachstatistik (Zipf 1935; 1949)
Textebene
Aufwandeffizienz
Vorkommenshäufigkeit von Wörtern
Häufigkeitsrang von Wörtern
Terminologielehre (Wüster 1931/1970)
Systemebene
Aufwandeffizienz
Unterscheidbarkeit und Exaktheit sprachlicher Ausdrücke
Kürze und Verständlichkeit sprachlicher Ausdrücke
System- und Kulturgeschichte (Moser 1970; 1971)
Systemebene
Aufwand- und Ergebniseffizienz
Fachliche Informationsvermittlung
Sprachliches System und sprachliche Varietäten
Prototypensemantik (Rosch 1977; 1978)
Systemebene
Aufwand- und Ergebniseffizienz
Kategorisierung
Prototypikalisierung
Konversationsmaximen (Grice 1968)
Textebene
Aufwand- und Ergebniseffizienz
Vermittlung (wahrer und relevanter) Information
Art und Weise des Konversationsbeitrags
Linguistische Synergetik (Köhler 1986; 1999)
Systemebene
Aufwandeffizienz
Lexikalische oder syntaktische Information
Qualität und Quantität sprachlicher Ausdrücke
Lexikogr. Textkondensation (Wolski 1989; Wiegand 1998)
Textebene
Aufwandeffizienz
Lexikographische Information
Mikrostruktur von Wörterbuchartikeln
Frequenz (Werner 1989; 1991; Ronneberger-Sibold 1980)
Systemebene
Aufwandeffizienz
Kommunikative Leistung
Ikonizität und Frequenz
Kompetenz und Performanzbedürfnis
Minimalist Program (Chomsky 1995)
Systemebene
Aufwandeffizienz
Erfüllung von Anforderungen der menschlichen Sprachfähigkeit
Sprachliche Elemente, Interpretations- und Konstruktionsmech.
Menschliche Sprachfähigkeit
Optimality Theory (Prince/Smolensky 1997)
Systemebene
Aufwandeffizienz
Erfüllung von kommunikativen Anforderungen
Hierarchische Regeln und deren Verletzung
Kommunikative Effizienz (Roelcke 2002)
Systemebene/ Textebene
Aufwand- und Ergebniseffizienz
Kategorisierung und Schematisierung/ Proposition und Illokution
Inventar und Regeln/ Wörter und Sätze
Abb. 54.1: Übersicht linguistischer Konzeptionen sprachlicher Ökonomie
Kooperationsbereitschaft von Produzent und Rezipient
Natur und Kultur/ Produktions- und Rezeptionsvermögen und -bereitschaft
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Sprachliche Ebene
788
Konzeption
54. Sprachliche Ökonomie / Kommunikative Effizienz
tion und der kommunikativen Extension hinsichtlich der Ikonizität und Frequenz bzw. der Elemente und Relationen niederschlagen. Sprachlicher Wandel vollzieht sich hiernach wiederum bei kommunikativer Effizienz und konstanter Kapazität des Kommunikanten hinsichtlich seiner Kompetenz und Konzentration im Rahmen eines (möglichst) ausgeglichenen, wenn auch veränderlichen Verhältnisses zwischen sprachlicher Information und Instruktion einerseits sowie sprachlichen Elementen und Relationen andererseits.
6.
Schlussbemerkung
Die linguistische Behandlung sprachlicher Ökonomie bzw. kommunikativer Effizienz steht angesichts der Vielfalt an sprachökonomischen Konzeptionen (vgl. Abb. 54.1) derzeit vor vier Problemen: (1) Die Anbindung an eine wissenschaftstheoretisch (und wirtschaftswissenschaftlich) abgesicherte Konzeption von Ökonomie bzw. Effizienz im Allgemeinen; (2) die Zusammenführung der verschiedenartigen Konzeptionen unter einer übergeordneten Konzeption; (3) die Formalisierung und Quantifizierung und damit die Entwicklung einer Theorie im engeren Sinne durch Aufstellen von Gesetzen; (4) die Applikation im Rahmen von sprachkritischen und sprachdidaktischen Ansätzen. In der jüngeren Forschung finden sich zahlreiche Schritte, die auf eine Lösung dieser Probleme zulaufen, doch steht das Ziel einer solchen falsifizierbaren und applizierbaren sowie formalisierten und integrierenden Theorie noch in weiter Ferne. Angesichts der konzeptionellen Bedeutung sprachlicher Ökonomie in der linguistischen Theorie und Praxis stellt die Entwicklung einer solchen allgemeinen Theorie kommunikativer Effizienz somit eine der wichtigsten Herausforderungen der modernen Sprachwissenschaft dar.
7.
Literatur (in Auswahl)
Archangeli, Diana/Langendoen, D. Terence (eds.), Optimality Theory. An Overview. Oxford: Blackwell, 1996. Bailey, Charles-James (1973), Variation and Linguistic Theory. Arlington: Center for Applied Linguistics. Billmeier, G. (1969), Worthäufigkeitsverteilungen vom Zipfschen Typ, überprüft an deutschem Textmaterial. Hamburg: Buske.
789 Birkmann, Peter (1998), Verbvalenz und Sprachökonomie. Die deutschen Verben und ihre Ausstattung in Verwendung und System. Frankfurt/M.: Lang. Bohr, Kurt (1981), Wirtschaftlichkeit. In: Handwörterbuch des Rechnungswesens. 2., völlig neu gestaltete Aufl. (Hrsg. Erich Kosiol/Klaus Chmielewicz/Marcell Schweitzer). Stuttgart: Poeschel, 1795K1805. Bußmann, Hadumod (1990), Lexikon der Sprachwissenschaft. 2., völlig neu bearbeitete Auflage. Unter Mithilfe und mit Beiträgen von Fachkolleginnen und -kollegen. Stuttgart: Kröner. Chomsky, Noam (1995), The Minimalist Program. Cambridge, Mass.: MIT Press. Dressler, Wolfgang Ulrich (1985), On the Predictiveness of Natural Morphology. In: Journal of Linguistics 21, 321K337. Duden. Das große Wörterbuch der deutschen Sprache in zehn Bänden. 3., völlig neu bearbeitete und erweiterte Auflage. Hrsg. vom Wissenschaftlichen Rat der Dudenredaktion. Mannheim [et al.]: Dudenverlag, 1999. Grice, H. Paul (1989), Studies in the Way of Words. Cambridge, Mass.: MIT. Guiter, H./Arapov, M. V. (eds.), Studies on Zipf’s Law. Bochum: Brockmeyer, 1982. Ising, Gerhard (1978), Textverdichtung und Redundanz in der Lexikographie. In: Wissenschaftliche Zeitschrift der Willhelm-Pieck-Universität Rostock 27. Gesellschafts- und sprachwissenschaftliche Reihe 12, 9K13. Jespersen, Otto (1922), Language. Its Nature, Development, and Origin. London: Allen & Unwin. Jespersen, Otto (1924), The Philosophy of Grammar. London: Allen & Unwin. Jespersen, Otto (1941), Efficiency in Linguistic Change. In: Historisk-Filologiske Meddelelser, udgivet af det Kgl. Danske Videnskabernes Selskab 27, 4, 1K90. Kager, René (1999), Optimality Theory. Cambridge: Cambridge University Press. Kleiber, Georges (1998), Prototypensemantik. Eine Einführung. Übersetzt von Michael Schreiber. 2., überarbeitete Auflage. Tübingen: Narr. Kluge, Fiedrich (1995), Etymologisches Wörterbuch der deutschen Sprache. Bearbeitet von Elmar Seebold. 23., erweiterte Aufl. Berlin/New York: de Gruyter. Koenraads, Willy Henri August (1953), Studien über sprachökonomische Entwicklungen im Deutschen. Amsterdam: Meulenhoff. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, Reinhard (1999), Syntactic Structures: Properties and Interrelations. In: Journal of Quantitative Linguistics 6, 46K57.
790
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Köhler, Reinhard/Altmann, Gabriel (2000), Probability Distributions of Syntactic Units and Properties. In: Journal of Quantitative Linguistics 7, 189K200. König, G. (1972), Denkökonomie. In: Historisches Wörterbuch der Philosophie. Bd. 2: DKF. (Hrsg. Joachim Ritter). Basel/Stuttgart: Schwabe, 108K 109. Lichtblau, K. (1984), Ökonomie, politische. In: Historisches Wörterbuch der Philosophie. Bd. 6: Mo-O. (Hrsg. Joachim Ritter/Karlfried Gründer). Basel/Stuttgart: Schwabe, 1163K1173.
Prince, Alan/Smolensky, Paul (1997), Optimality: From neutral Networks to Universal Grammar. In: Science 275, 1604K1610. Rabe, H./Dierse, U. (1984), Ökonomie. In: Historisches Wörterbuch der Philosophie. Bd. 6: MoK O. (Hrsg. Joachim Ritter/Karlfried Gründer). Basel/Stuttgart: Schwabe, 1149K1162. Radford, Andrew (1997), Syntax. A Minimalist Introduction. Cambridge: Cambridge University Press. Roelcke, Thorsten (1999), Fachsprachen. Berlin: Erich Schmidt.
Martinet, André (1963), Grundzüge der Allgemeinen Sprachwissenschaft. Autorisierte, vom Verfasser durchgesehene Übersetzung aus dem Französischen von Anna Fuchs, unter Mitarbeit von Hans-Heinrich Lieb. Stuttgart: Kohlhammer [Originalausgabe: Eléments de linguistique générale. Paris: Colin, 1960].
Roelcke, Thorsten (2002), Kommunikative Effizienz. Eine Modellskizze. Heidelberg: Winter [im Erscheinen].
Mayerthaler, Willi (1981), Natürliche Morphologie. Wiesbaden: Athenaion.
Ronneberger-Sibold, Elke (1980), Sprachverwendung K Sprachsystem. Ökonomie und Wandel. Tübingen: Niemeyer.
Meier, Helmut (1978), Deutsche Sprachstatistik: 2 Bände. 2., erweiterte und verbesserte Aufl. Hildesheim/New York: Olms.
Rohr, W. Günther (1999), Einführung in die historische Grammatik des Deutschen. Hamburg: Buske.
Meineke, Eckhard (1989) ,Natürlichkeit‘ und ,Ökonomie‘. Neuere Auffassungen des Sprachwandels. In: Sprachwissenschaft 14, 318K356.
Ronneberger-Sibold, Elke (1997), Sprachökonomie und Wortschöpfung. In: Vergleichende germanische Philologie und Skandinavistik. Festschrift für Otmar Werner. (Hrsg. Thomas Birkmann/ Heinz Klingenberg/Damaris Nübling/Elke Ronneberger-Sibold). Tübingen: Niemeyer, 249K261.
Moser, Hugo (1970) Sprachliche Ökonomie im heutigen deutschen Satz. In: Studien zur Syntax des heutigen Deutsch. Paul Grebe zum 60. Geburtstag. Düsseldorf: Schwann, 9K25.
Rosch, Eleanor (1977), Human Categorization. In: Studies in Cross-Cultural Psychology. (ed. Neil Warren). Volume I. London: Academic Press, 1K 49.
Moser, Hugo (1971), Typen sprachlicher Ökonomie im heutigen Deutsch. In: Sprache und Gesellschaft. Beiträge zur soziolinguistischen Beschreibung der deutschen Gegenwartssprache. Düsseldorf: Schwann, 89K117.
Rosch, Eleanor (1978), Principles of Categorization. In: Cognition and Categorization. (ed. Eleanor Rosch/Barbara B. Lloyd). Hillsdale, N.J.: Erlbaum, 27K48.
Langenscheidts Großwörterbuch der englischen und deutschen Sprache. „Der Kleine Muret-Sanders“ EnglischKDeutsch. 3. Auflage von Helmut Willmann, Heinz Messinger und der Langenscheidt-Redaktion. Berlin [et al.]: Langenscheidt, 1988. Langenscheidts Großwörterbuch Französisch. Teil 1: FranzösischKDeutsch. Begründet von Karl Sachs und Césaire Villatte. Völlige Neubearbeitung, 5. Aufl. (Hrsg. Erich Weis). Berlin [et al.]: Langenscheidt, 1987. Paul, Hermann (1975), Prinzipien der Sprachgeschichte. 9., unveränderte Aufl. Tübingen: Niemeyer. Paul, Hermann (1992), Deutsches Wörterbuch. 9., vollständig neu bearbeitete Auflage von Helmut Henne und Georg Objartel unter Mitarbeit von Heidrun Kämper-Jensen. Tübingen: Niemeyer. Prince, Alan/Smolensky, Paul (1993), Optimality Theory: Constraint Interaction in Generative Grammar. M.S. Rutgers University, New Brunswick, and University of Colorado, Boulder.
Sandig, Barbara (1971), Syntaktische Typologie der Schlagzeile. Möglichkeiten und Grenzen der Sprachökonomie im Zeitungsdeutsch. München: Hueber. Schmidt, Wilhelm (1972), Deutsche Sprachkunde. Ein Handbuch für Lehrer und Studierende mit einer Einführung in die Probleme des sprachkundlichen Unterrichts. 7., bearbeitete Auflage. Berlin: Volk und Wissen, 1972. Scholz, Christian (1992), Effektivität und Effizienz, organisatorische. In: Handwörterbuch der Organisation. 3., völlig neu gestaltete Auflage. (Hrsg. Erich Frese). Stuttgart: Poeschel, 533K552. Searle, John R. (1971), What is a Speech Act? In: The Philosophy of Language. (ed. John R. Searle). Oxford, 38K52. Sperber, Dan/Wilson, Deidre (1986), Relevance. Communication and Cognition. Oxford: Blackwell. Ungerer, Friedrich/Schmid, Hans-Jörg (1996), An Introduction to Cognitive Linguistics. London, New York: Longman.
791
55. Unified derivation of some linguistic laws van der Elst, Gaston (1984), Zur Entwicklung des deutschen Kasussystems. Ein Beispiel für Sprachökonomie. In: Zeitschrift für germanistische Linguistik 12, 313K331. Vennemann, Theo (1987), Preference Laws for Syllable Structure. And the Explanation of Sound Change with Special Reference to German, Germanic, Italian, and Latin. Berlin et al.: Mouton de Gruyter. Werner, Otmar (1989), Sprachökonomie und Natürlichkeit im Bereich der Morphologie. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 42, 34K47. Werner, Otmar (1991), Sprachliches Weltbild und/ oder Sprachökonomie. In: Begegnung mit dem ,Fremden‘. Grenzen K Traditionen K Vergleiche. Akten des VIII. Internationalen Germanisten-Kongresses, Tokyo 1990. (Hrsg. Eijiro Iwasaki). Band 4. (Hrsg. Yoshinori Shichiji). München: Judicium, 305K315. Wiegand, Herbert Ernst (1996), Textual Condensation in Printed Dictionaries. A Theoretical Draft. In: Lexikos 6, 133K158. Wiegand, Herbert Ernst (1998), Lexikographische Textverdichtung. Entwurf zu einer vollständigen Konzeption. In: Symposium on Lexicography VIII. Proceedings of the Eighth International Symposium on Lexicography, May 2K6 1996, at the University of Copenhagen. (ed. Arne Zettersten/ Viggo Hjørnager Pedersen/Jens Eric Mogensen). Tübingen: Niemeyer, 1K35. Wilder, Chris/Gärtner, Hans-Martin (1996), Introduction. In: The Role of Economy Principles in Linguistic Theory. (ed. Chris Wilder/Hans-Martin
Gärtner/Manfred Bierwisch). Berlin: Akademie Verlag, 1K35. Wolski, Werner (1989), Formen der Textverdichtung im allgemeinen einsprachigen Wörterbuch. In: Wörterbücher/Dictionaries. Ein internationales Handbuch zur Lexikographie. [...]. (Hrsg. Franz Josef Hausmann/Oskar Reichmann/Herbert Ernst Wiegand/Ladislav Zgusta). 3 Teilbände. Berlin/ New York: de Gruyter, 956K967. Wurzel, Wolfgang Ullrich (1994), Grammatisch initiierter Wandel. Unter Mitarbeit von A. und D. Bittner. Bochum: Brockmeyer. Wurzel, Wolfgang Ullrich (1997), Natürlicher Grammatischer Wandel, ‘unsichtbare Hand’ und Sprachökonomie K Wollen wir wirklich so Grundverschiedenes? In: Vergleichende germanische Philologie und Skandinavistik. Festschrift für Otmar Werner. (Hrsg. Thomas Birkmann/Heinz Klingenberg/Damaris Nübling/Elke RonnebergerSibold). Tübingen: Niemeyer, 295K308. Wüster, Eugen (1970), Internationale Sprachnormung in der Technik, besonders in der Elektrotechnik. (Die nationale Sprachnormung und ihre Verallgemeinerung). Dritte, abermals ergänzte Auflage. Bonn: Bouvier. Zipf, George Kingsley (1935), The Psycho-Biology of Language. An Introduction to Dynamic Philology. Boston: Mifflin. Zipf, George Kingsley (1949), Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Facsimile of 1949 Edition. New York: Hafner.
Thorsten Roelcke, Bernau im Schwarzwald (Deutschland)
55. Unified derivation of some linguistic laws 1. 2. 3. 4. 5. 6. 7.
Introduction Continuous approach Two-dimensional approach Discrete approach Discrete two-dimensional approach Conclusion Literature (a selection)
1.
Introduction
In any scientific discipline the research usually begins in the form of membra disiecta because there is no theory which would systematize knowledge and from which hypotheses could be derived. Researchers themselves have different interests and at first observe narrow sectors of reality. Later on, one gradually connects disparate domains (cf.
for example the unified representation of all kinds of motion of the macro world by Newton’s theory) and the old theories usually become special cases of the new one. One speaks about epistemic integration: “The integration of approaches, data, hypotheses, theories, and even entire fields of research is needed not only to account for things that interact strongly with their environment. Epistemic integration is needed everywhere because there are no perfectly isolated things, because every property is related to other properties, and because every thing is a system or a component of some system ... Thus, just as the variety of reality requires a multitude of disciplines, so the integration of the latter is necessitated by the unity of reality.” Bunge (1983, 42).
792
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
In quantitative linguistics we are at the beginning of such a development. There are already both “big” integrating cross-border approaches like language synergetics (cf. Köhler 1986) or Hřebíček’s (1997) text theory as well as “smaller” ones, joining fewer disparate phenomena out of which some can be mentioned as examples: Baayen (1989), Chitashvili and Baayen (1993), Zörnig and Boroda (1992), Balasubrahmanyan and Naranan (1996) show that rank distributions can be transformed in to frequency distributions, announced already by Rapoport (1982) in a non-formal way. Altmann (1990) shows that Bühler’s “theory” is merely a special case of Zipf’s theory who saw the “principle of least effort” behind all human phenomena (Zipf 1949). A law having a more integrating character is Menzerath’s law whose effects can be noticed not only in different domains of language but also in molecular biology, sociology and psychology (Altmann/Schwibbe 1989); it is a parallel to the allometric law and can also be found in chaos theory (Hřebíček 1997; Schroeder 1990) as well as in music (Boroda/Altmann 1991). Orlov, Boroda and Nadarejšvili (1982) searched for mutualities in language, music and fine arts where they found the effect of the Zipf-Mandelbrot law. Krylov, Naranan and Balasubrahmanyan (s. below), all physicists, came independently to the conclusion that the maximisation of entropy results in a law excellently fitting frequency distributions of language entities. One can continue this enumeration of unification of domains from a certain point of view ad libitum, we merely brought examples. In all cases one can see the common background that in the end leads to systems theory. All things are systems. We join two domains if we find isomorphisms, parallelisms, similarities between the respective systems or if we ascertain that they are special cases of a still more general system. From time to time one must perform such an integration in order to obtain more and more unified theories and to organize the knowledge of the object of investigation. In this contribution we want to present an approach that unifies several well known linguistic hypotheses, is easy to be generalized and very simple K even if simplicity does not belong to the necessary virtues of science (cf. Bunge 1963). It is a logical extension of the “synergetic” approach (cf. Wimmer/Köhler/Grotjahn et al. 1994; Wimmer/
Altmann 1996; Altmann/Köhler 1996). The individual hypotheses belonging to this system have been set up earlier as empirical, well fitting curves or derived from different approaches.
2.
Continuous approach
In linguistics continuous variables can be met mostly in phonetics but we are aware that “variable” is merely a construct of our mathematical apparatus with which we strive for capturing the grades of real properties transforming them from discrete to continuous (e. g. average) ones or vice versa (e. g. splitting a continuous range in intervals) as needs arise, which is nothing unusual in science. Thus there is nothing wrong in modelling continuous phenomena using discrete models or the other way round. “Continuous” and “discrete” are properties of our concepts, the first approximations of our epistemic endeavour. Here we start from two assumptions which are widespread and accepted in linguistics treating first the continuous case: (i) Let Y be a continuous variable. The change of any linguistic variable, dy, is controlled directly by its actual size because every linguistic variable is finite and part of a self-regulating system, i. e. we can always use in modelling the relative rate of change dy / y. (ii) Every linguistic variable Y is linked with at least one other variable (X) which shapes the behaviour of Y and can be considered in the given case as independent. The independent variable influences the dependent variable Y also by its rate of change, dx, which itself, in turn, is controlled by different powers of its own values that are associated with different factors, “forces” etc. We consider X, Y differently scaled, thus these two assumptions can be expressed formally as dy yKd
(
k1
Z a0 C ∑ k2
C∑
iZ1
iZ1
a1i (x K b1i)c1
a2i (x K b2i)c2
C
)
C ... dx
with ci s cj, i s j. (We note that for ks
ks Z 0:
∑ iZ1
aji (x K bji)cs
Z 0).
(1)
793
55. Unified derivation of some linguistic laws
The constants aij must be interpreted in every case differently; they represent properties, “forces”, order parameters, system requirements etc. which actively participate in the linkage between X and Y (cf. Köhler 1986; 1987; 1989; 1990) but remain constant because of the ceteris paribus condition. In the differential equation (1) the variables are already separated. Let in (1) c1 Z 1. Then the differential equation (1) has the general solution k1
y Z Ce a0 x ∏ (x K b1i)a1i ·
(∑∑
iZ1
kj
· exp
jR2 iZ1
aji
)
(1 Kcj) (xKbji)cjK1
Cd.
(1a)
Let us consider some special cases of (1). 2.1. If k1 Z k2 Z ... Z 1, d Z b11 Z b21 Z ... Z 0, ci Z i, ai1 Z ai, i Z 1, 2, ..., we obtain a simplified form of (1), namely dy y
(
Z a0 C
a2
a1 x
C
2
x
a3 C
x3
)
C ... dx
(2)
having a very extensive use in linguistics. The solution of (2) is (using (1a)) 2
3
y Z C e a0 x x a1 eKa2 / xKa3 / (2x )Ka4 / (3x )K... Na iC1 Z C e a0 x x a1 exp K ∑ i iZ1 i x
(
)
(3)
where C is the integration constant. In case that (3) is a probability density function, C represents the normalizing factor. In linguistics merely formulas up to the parameter a2 have been developed. We present them in detail, in order to show the reach of the approach: (a) For a1 ! 0, a0 Z a2 Z a3Z ... Z 0 we obtain the most frequently used form of Menzerath’s law y Z C x a1
(4)
in which C is the average of the smallest construct size and a1 a balancing parameter depending on it. With the exponent (a1 O 0) being positive this form represents the allometric law and Herdan’s (1966) type-token curve (with C Z 1) (also cf. Tuldava 1998, 87) and is called power law in different sciences. In linguistics it has been founded in different ways. It is the basis of Hřebíček’s text theory (Hřebíček 1995; 1997; 2000) as well as of control cycles of “synergetic” linguistics (cf. Köhler 1986; 1987; 1989; 1990).
As a continuous distribution (4) is the density function of the Pareto distribution or Pearson distribution type XI (cf. Johnson/ Kotz 1970, 233 f.). If (4) is considered a probability mass function of a distribution with a1 ! 0 and C as norming constant, then it is called zeta distribution (also discrete Pareto or Zipf or Zipf-Estoup distribution). It belongs to the first versions of Zipf’s law and enjoys great popularity in linguistics (cf. Altmann/Schwibbe 1989; Arapov 1977; Arapov/Efimova 1975; Boroda/Zörnig 1990; Estoup 1916; Hammerl 1990; Herdan 1956; Herdan 1958; Mandelbrot 1961; Mandelbrot 1966; Naranan 1970; Naranan 1971; Naranan 1989; Naranan 1992; Naranan/Balasubrahmanyan 1992a; Naranan/Balasubrahmanyan 1992b; Orlov 1976; Parker-Rhodes/Joyce 1956; Rapoport 1982; Sichel 1975; Simon 1955; Simon 1957; Tuldava 1993; Woronczak 1967; Zipf 1940; Zipf 1945b; Zipf 1946; Zipf 1949). (b) For a0 ! 0 and ai Z 0 (i Z 1, 2, ...) we obtain the second form of Menzerath’s law y Z C e a0 x
(5)
which has frequently been corroborated in the phonetic domain (cf. Weber 1998). Piotrovskij, Bektaev und Piotrovskaja (1979, 57) use (5) with a0 O 0 as the law of vocabulary growth. (4) and (5) represent two attractors between which lie or move the constructcomponent relations and temporarily take the transitional form. (c) with a0, a1 s 0; a2 Z a3 Z ... Z 0 yielding y Z C x a1 e a0 x
(6)
where one or both parameters ai (i Z 0.1) are negative. For more detailed discussion of this law cf. Geršić/Altmann (1980), Altmann/Schwibbe (1989), Köhler (1986), Prün (1994), Hřebíček (1997), Weber (1998), Fenk-Oczlon/Fenk (1995), Heups (1983), Hammerl/Sambor (1993), Krott (1996), Steiner (1995). In this case the interpretation of the parameters is not unique and should be done simultaneously with the formulating of the differential equation. Parameter a0 is sometimes called disturbance or balancing constant. In any case, disturbance plays an important role in these equations (cf. Weber 1998). As a continuous distribution (5) is the probability density function of the exponential or Pearson distribu-
794
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
tion type X, and (6) is the gamma or Pearson distribution type III (cf. Johnson/Kotz 1970, 166 f.; 207 f.). Formula (6) was used for the distribution of word frequencies by Krallmann (1966) and Kai-hua Zhao (1990), the distribution of phrase length by Martynenko (1965), the distribution of lexeme width and height by Bagheri (1999). As a discrete distribution (5) with a0 ! 0 represents the geometric distribution (see below). (d) Testing the construct-component relation P. Grzybek (personal communication) frequently found y Z C eKa2 / x
(7)
as the best fitting curve with a2 ! 0, a0 Z a1 Z a3 Z ... Z 0, thus Menzerath’s law must evidently be somewhat extended against the original version of Altmann (1980). The same curve has already been used (among several other ones) by Fickermann, Markner-Jäger and Rothe (1984) for the relation ship between word length and meaning size. (e) Another special case used especially by physicists results from the maximisation of entropy based on multinomial distribution where the parameters remain without interpretation because they represent merely Lagrange multipliers, namely y Z C x a1 eKa2 / x.
(8)
This form has been introduced into linguistics by Krylov (1982a), Naranan (1992), Balasubrahmanyan and Naranan (1996; 2000), Naranan and Balasubrahmanyan (1993; 1996), with very good results for fitting word frequency distributions. Here it applies that merely a1, a2 s 0, the other parameters of (2) are zero. Krylov (1987) obtained a special case with a1 Z K2 (cf. also Tuldava 1996; Leopold 1998a). As a continuous distribution and with a1 ! 0 it corresponds to the simple Pearson distribution type V (cf. Johnson/Kotz 1970; Ord 1972). (f) Finally, Geršić and Altmann (1988) obtained the most “extensive” curve or probability distribution of vowel duration from purely linguistic assumptions using merely the factors of hearer, speaker, phonological length norm and neighbourhood of vowels. Here ai Z 0 for i Z 3, 4, 5, ..., the first three parameters are not equal zero and have a linguistic interpretation. The result is y Z C e a0 x xa1 e a2 / x
(9)
with C being the norming constant. (9) is related to the inverse Gauss distribution (Johnson/Kotz 1970, 137 f.) and (7) and (8) are its special cases. When setting up equation (2) it is important to name all factors and to order them according to their effect. The strongest factor obtains the power 1, the second strongest the power 2 etc. If the effect of a factor on Y is indirect (i. e. through X) then it can be set in the form of a parameter. If the effect is small then the factor ai / xi converges against 0 the greater i, so that exp (ai / xi) / 1 and the given part of (3) contributes (practically) nothing to the modification of the curve. As can be ascertained from literature, these curves can be obtained from other approaches, too, and the parameters can have different interpretations. In any case, this generalization opens a wide door for the synergetic, systems theoretical linguistics because it allows us to consider all imaginable factors and judge their effect, their influence in forming the property Y by means of respective tests. Cf. also Balasubrahmanyan/ Naranan (2002). It must be remarked that (4) to (9) can also be considered discrete distributions if we only admit x 2 N0 Z {0, 1, 2, ...} and C representing the respective normalizing constant. 2.2. If d or some bij in (1) are nonzero. (a) Weber (1998) presented some results from phonetics as a modification of Menzerath’s law with nonzero a11, d and ci Z 1 in (1) (all other parameters in (1) are zero). She obtained the simplified form of (1) dy Z yKd
a11 x
dx
whose solution is y Z C x a11 C d
(10)
where a11 in empirical data frequently oscillated around K1. (b) In a similar way, with a0 ! 0 one obtains d s 0 (and all other parameters in (1) are zero) dy yKd
Z a0 dx
from which with a0 Z Ka the result of Fónagy and Magdics (1960) follows, namely y Z CeKa xCd
(11)
795
55. Unified derivation of some linguistic laws
used also for shortenings in analogy to Menzerath’s law (Weber 1998, 105). (c) Job and Altmann (1985) examined the change compulsion of sounds depending on the “normed” articulation effort combined with the need of the speaker for minimisation (a) and the complementary perception effort of the hearer combined with his need for minimisation (b), and obtained dy Z y
(
)
b
a
1Kx
C
x
dx,
which is a special case of (1) with a11 Z Ka, a12 Z b, b11 Z 1, c1 Z 1 (and all other parameters in (1) are zero) resulting in y Z C (1 K x)Ka xb
(d) Köhler and Martináková-Rendeková (1998) used the approach with a11 Z 1, a12 Z K1, b12 Z (b K 1) / b, c1 Z 1 (all other parameters in (1) are zero) for the development of the type-token curve in musical works, i. e.
(
x
)
b
1
Z y
K
1 K b C bx
Cx 1 K b C bx
,
(13)
(e) Tuldava (1974; 1998, 86; 153) used the Tornquist curve for the linguistic type-token ratio in the form
(
1
1
Z y
x
K
)
xCb
dx
i. e. with a11 Z 1, a12 Z K1, b12 Z Kb, c1 Z 1 (and all other parameters in (1) are zero) as yZ
Cx xCb
.
(14)
(f) For the law of polysemy Tuldava (1979; 1998) proposed a formula resulting from (1) with a11 Z Kbc, c1 Z 1 K c (0 ! c ! 1) (and all other parameters in (1) are zero) as dy
Kbc Z
y
x1Kc
dx
(15)
follows. Tudava set c Z 1 / 2 and finally obtained y Z CeKb Ox.
(16)
(g) Uhlířová (1997) using a11 Z 1, a12 Z K1, b12 Z Ka / b, c1 Z 1 (and all other parameters in (1) are zero) for the dependence of the proportion of nouns on sentence position came to dy
(
y
x
)
b
1
Z
K
a/bCx
dx
from which yZ
Cx
(17)
a C bx
follows. (h) Perhaps the most known case in linguistics is the special case of (1) with a11, b11s 0, c1 Z 1 (and all other parameters in (1) are zero), i. e. dy Z y
(
a11
x K b11
)
y Z C (x C b) a.
while
dy
c
dx
whose solution with a11 Z a, b11 Z Kb yields
dx
and obtained the type-token curve yZ
y Z CeKbx
(12)
where y (with a Z 1 K α, b Z β K 1, α, β O 0, 0 ! x ! 1) is the probability density function of the beta distribution.
dy
from which
(18)
Usually one considers the discrete version of (18) as a (discrete) probability mass function and C as the normalizing constant. If x Z 0, 1, ..., n, then a can be from ᑬ and b must be greater than 0. For x Z 0, 1, 2, ..., a ! K1, b O 0 (18) represents a Bondesson distribution (cf. Bondesson 1979). For the support of x Z 1, 2, ..., n, a 2 ᑬ, b O K1 it is called The Zipf-Mandelbrot law and can arise from different approaches (cf. Arapov 1974; Arapov 1977, Arapov/Efimova 1975; Arapov/ Efimova/Šrejder 1975; Baayen 1989; Boroda/Zörnig 1990; Chitashvili/Baayen 1993; Frumkina 1961; Guiter/Arapov 1982; Kromer 1997; Leopold 1998a; Leopold 1998b; Li 1992; Mandelbrot 1953; Mandelbrot 1954; Mandelbrot 1959; Mandelbrot 1961; Mandelbrot 1966; Miller 1957; Naranan 1992; Naranan/Balasubrahmanyan 1992a; Naranan/Balasubrahmanyan 1992b; Naranan/Balasubrahmanyan 1998; Orlov 1976; Orlov 1982a; Orlov 1982b; Orlov/Boroda/Nadarejšvili 1982; Rapoport 1982; Somers 1959; Tuldava 1995; Tuldava 1996; Tuldava 1998; Uhlířová 1995a; Woronczak
796
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
1967; Zipf 1949; Zörnig/Boroda 1992). Miller and Li show that (18) results even if the texts are random while Mandelbrot uses the economy principle for its foundation and Orlov insists on the completeness of texts. In our derivation the constants are not interpreted exactly yet. (i) A modification of the Zipf-Mandelbrot law originates from Good (1953). It follows from (1) setting a0 Z ln p, a11 Z Ka, c1 Z 1 (all other parameters in (1) are zero) so that dy y
Z ln p K
yZ
xa
dy
x
Z y
.
(
Z ln a K
yZ
)
c
xKb
dx
vy
vx (20)
(cf. also Tuldava 1998, 68). (20) represents the so-called Lerch distribution (cf. Zörnig/ Altmann 1995; Wimmer/Altmann 1999b), holding as the most general form of Zipf’s law. Evidently one can easily generalize the Zipf-Mandelbrot law in different ways. (k) In analogy, we obtain Orlov’s variant (1976) (with a11 Z 1, a12 Z Kb K1, b12 Z a, c1 Z 1; all other parameters in (1) are zero), namely
(
y
x
)
bC1
1
Z
K
C
x2
)
dx
(22)
xKa
dx,
Cx bC1
,
( (
Z y a0 C
a2
a1 x
C
(∑ N
y Z C e a0 xCb0 z x a1 z b1 e
K
iZ1
) )
(24)
).
aiC1 N biC1 K∑ ixi iZ1 izi
(25)
The special cases of (25) are often found in synergetic linguistics where more than two variables are involved. This system can be generalized to any number of variables. It can, as a matter of fact, encompass the whole synergetic linguistics and is applicable to very complex systems. Some well known cases from synergetic linguistics are y Z C x a zb
(21)
(x K a) used as word frequency distribution follows.
(23)
whose solution results in
from which the distribution yZ
x
C. ; x2 b1 b2 vy Z y b0 C C C . vz z z2
x
(xKb) c
dy
a2
a1
which represents e. g. the Geršić-Altmann model of vowel duration (9). In (2) we assume that all other factors (besides x) are weaker than x and can be considered as constants relativized by powers of x (e. g. a2 / x2, a3 / x3 etc.). But in synergetic linguistics this is not usual. In many models the researchers (e. g. Köhler, Krott, Prün) show that a variable depends at the same time on several other variables which have a considerable influence. Now, we assume K as it is usual in synergetic linguistics K that the dependent variable has the same relation to other variables, too, as shown in (2). Thus we combine several approaches and obtain in the first step
follows, resulting in Ca
a0 C
y Z C e a0x x a1 eKa2 / x
(19)
(j) Another modification of the Zipf-Mandelbrot law originates from Woronczak (1967), where a0 Z ln a, a11 Z Kc, c1 Z 1, b11 Z b (and all other parameters in (1) are zero), so (1) leads to y
(
whose solution yields
In the discrete case, i. e. with x Z 1, 2, ..., a R 0, 0 ! p ! 1 we obtain the so-called Good distribution used as a word frequency distribution (cf. Simon 1957; Herdan 1958; Sichel 1975; Kromer 1996; Kromer 1997; Martindale/Gusein-Zade/McKenzie et al. 1996).
dy
Two-dimensional approach
Frequently, the one-dimensional approach is not sufficient. In synergetic linguistics there is a number of interrelations that cannot be captured with the aid of only one variable, concealing the other ones under the “ceteris paribus” condition. They are frequently so strong that they must be explicitly taken into account. Consider first a simple special case of formula (2)
a
which results in Cpx
3.
etc.
yZCe
axCbz
yZCe
axCbz
(26) (27) a
x z
b
(28)
797
55. Unified derivation of some linguistic laws
4.
Discrete approach
Px Z
If X is a discrete variable K being the usual case in linguistics K then we use the difference ∆x Z x K (x K 1) Z 1 instead of dx. Since here one has to do mostly with (nonnegative discrete) probability distributions with probability mass functions {P0, P1, ...} we set up the relative rate of change as
and obtain the discrete in analogy to (1) as ∆ PxK1 PxK1
k1
Z a0 C ∑
iZ1
k2
C∑
iZ1
a1i (x K b1i)c1
a2i (x K b2i)c2
C
C ... .
(29)
4.1. If k1 Z k2 Z ... Z 1, d Z b11 Z b21 Z ... Z 0, ci Z i, ai1 Z ai, i Z 1, 2, ..., the equivalent form of (29) is
(
Px Z 1 C a0 C
a2
a1 x
C
x2
)
C ... PxK1 .
(30)
From the recurrence formula (30) one can obtain many well known distributions used frequently in linguistics. (a) With K1 ! a0 ! 0 and ai Z 0 for i Z 1, 2, ... we obtain from (30) Px Z (1 C a0) Px K 1 ,
(31)
resulting in the geometric distribution (with 1 C a0 Z q, 0 ! q ! 1, p Z 1 K q) in the form Px Z p qx, x Z 0, 1, 2, ...
(32)
It has been used for the rank-frequency distribution (cf. Sigurd 1968), diversification distribution (Altmann 1991b; 1993), the distribution of distances between the entities of text (Yngve 1956; Spang-Hanssen 1956; Brainerd 1976; Köhler 1983; Altmann 1988a), the first form of Krylov’s law in semantics (Krylov 1982b) and the law of synonymy (Wimmer/Altmann 2001). (b) Substituting ai Z 0 for i Z 2, 3, ..., K1 K a1 % a0 ! 0 or K a1 % 1 C a0 ! 1 in (30) and considering x Z 0, 1, ..., one obtains the so-called Katz family of distributions (cf. Katz 1945; Katz 1965; Johnson/Kotz/Kemp 1992, 77 f.; Gurland/Tripathi 1975; Wimmer/ Altmann 1999b)
x
PxK1 ,
(33)
from which one can derive K besides (32) K further distributions by a specification of parameters: From (33) we obtain the Poisson distribution for a0 Z K1, a1 O 0 Px Z
∆Px K 1 Px K PxK1 Z PxK1 PxK1
a1 C (1 C a0)x
a1x eK a1 x!
,
x Z 0, 1, 2, ...
(34)
playing an important role in the whole domain of linguistics because it represents not only a limiting case of many distributions (cf. Wimmer/Altmann 1999b) but results from different approaches. Brainerd (1972) uses it as the distribution of word repetitions in text passages (Frumkina’s law) (cf. Altmann/Burdinski 1982), it is used in different modifications as the distribution of word length (cf. Best 1996b; Čebanov 1947; Gačečiladze/Cilosani 1971; Fucks 1955; Fucks 1956a; Fucks 1956b; Wimmer/Köhler/Grotjahn et al. 1994; Wimmer/Altmann 1996; Laass 1996; Altmann/Best/Wimmer 1997) and as a diversification distribution (cf. Altmann 1991b). (b2) From (33) and with a0 C 1 Z Kb we obtain for a0 ! K1 Px Z
a1 K b x x
PxK1 ,
(35)
leading to the binomial distribution with b Z p / q, a1 / b Z n C 1 Px Z
()
n x nKx p q , x Z 0, 1, ..., n x
(36)
which is used in all “dichotomic” situations and belongs to the standard distributions in linguistics (cf. Altmann 1984; Altmann 1991a; Best 1997; Uhlířová 1995a; Uhlířová 1995b; Schmidt 1996). (b3) For K1 ! a0 ! 0, Ka1 ! 1 C a0, we obtain from (33) (with a0 C 1 Z b) Px Z
a1 C b x x
PxK1 ,
(37)
leading to the negative binomial distribution with b Z q, a1 / b Z k K 1, q Z 1 K p Px Z
(
)
k C x K1 k x p q , x Z 0, 1, 2, ..., x
(38)
which has been corroborated in many domains of linguistics as the distribution of
798
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
meaning diversification (Rothe 1981) and that of diatopic variants (so-called Goebl’s law, cf. Altmann 1985b), the distribution of word length (Best 1997; Fucks 1956a; Fucks 1956b; Grotjahn 1982; Schmidt 1996), as a special case of Frumkina’s law (cf. Altmann/ Burdinski 1982), the distribution of sentence length (Altmann 1988b; Niehaus 1997) and arose from many different approaches. In a two-dimensional form it is used in semantics (Altmann 1985a). (c) Substituting a0 Z 0, a1 Z Ka K1 in (33) we obtain Px Z
xKaK1 x
PxK1 ,
a Γ (x K 1)
, Γ (1 K a) Γ (x C 1) x Z 1, 2, 3, ... (40)
which has been used for modelling word frequencies (cf. Rouault 1978; Chitashvili/Baayen 1993). (d) The two simplest forms of Zipf’s law follow from specifying ai Z 0 for i Z 0, 2, 3, ... and a1 Z K1 (with x Z 1, 2, ...) in (30); we obtain Px Z
x K 1 x
PxK1
(41)
yielding the so-called Estoup distribution: Px Z
C x
,
x Z 1, 2, ..., n
(42)
which must be truncated on the right (at n) because the harmonic series does not converge (cf. Estoup 1916; Zipf 1938; Zipf 1940; (1 C a0)x Px Z
(
)(
Kb1 C x x
(e) Substituting a1 Z K2, a2 Z 1, ai Z 0, i Z 0, 3, 4, ..., in (30) and considering x Z 1, 2, ... we obtain Px Z
)
Kb2 C x x
3F2
(
(x K 1)2 x2
Px K 1
(43)
resulting in the so-called Lotka distribution
(39)
resulting in the Rouault distribution with 0 !a!1 Px Z
Zipf 1942; Zipf 1945a; Zipf 1945b; Woronczak 1967; Baayen 1989; Naranan 1992; Naranan/Balasubrahmanyan 1992a; Naranan/Balasubrahmanyan 1992b; Naranan/ Balasubrahmanyan 1993; Balasubrahmanyan/Naranan 1996; Shtrikman 1994).
Px Z
C x2
,
x Z 1, 2, 3, ...
(44)
with C Z 6 / π2, representing another variant of Zipf’s law (cf. Zipf 1940; Parker-Rhodes/ Joyce 1956; Baayen 1989; Naranan 1992; Naranan/Balasubrahmanyan 1992; Naranan/ Balasubrahmanyan 1998; Balasubrahmanyan/Naranan 1996; Tuldava 1996). 4.2. If some bij in (29) are nonzero, there exist many difference equation systems originating from (29) (according to nonzero coefficients aij). The most extensive systems are those of Bowman, Shenton und Kastenbaum (1991) (cf. Johnson/Kotz/Kemp 1992, 84), and of Ord (1967a; 1967b; 1972; 1985). (a) Here we present merely the system used most frequently in linguistics, namely
(
Px Z 1Ca0 C
a1 x K b1
a2 C
)
x K b2
PxK1 ,
(45)
having an intersection with Ord’s system. The explicit form of the solution of this system (under some constraints) is (i) If a0 s K1, the solution of (45) is
)(
CKBCx x
DKBCx x
)
,
(1, C K B C 1, D K B C 1, K b1 C 1, K b2 C 1; 1 C a0) x Z 0, 1, 2, ... (46)
with the probability generating function G (t) Z where
3F2
(1, C K B C 1, D K B C 1; K b1 C 1, K b2 C 1; (1 C a0) t)
3F2
(1 , C K B C 1, D K B C 1; K b1 C 1, K b2 C 1; 1 C a0)
(47)
799
55. Unified derivation of some linguistic laws
BZ CZ
DZ
b1 C b2 2 a1 C a2 K O2 (1 C a0)2 (b1 K b2)2 K 2 (1 C a0) (a1 K a2) (b1 K b2) C (a1 C a2)2 2 (1 C a0) a1 C a2 C O2 (1 C a0)2 (b1 K b2)2 K 2 (1 C a0) (a1 K a2) (b1 K b2) C (a1 C a2)2 2 (1 C a0)
(ii) If a0 Z K1 and denoting a1 b2 C a2 b1
RZK
a1 C a2
the solution of (45) is (a1 C a2)x Px Z
(
)(
Kb1 C x x
)
Kb2 C x x
2F2
( ) RCx x
,
(1, R C 1; K b1 C 1, K b2 C 1; a1 C a2) x Z 0, 1, 2, ... (48)
with the probability generating function G (t) Z
2F2 [1,
R C 1 ; K b1 C 1, K b2 C 1; (a1 C a2) t]
2F2 [1,
R C 1; K b1 C 1, K b2 C 1; a1 C a2]
Other conditions for the parameters making Px an honourable probability mass function in both cases (i) and (ii) can be found in Johnson, Kotz and Kemp (1992, 87). The individual solutions belong to the class of generalized hypergeometric distributions (cf. Johnson/Kotz/Kemp 1992, 339; Dacey 1972; Kemp 1968; Kapur 1978) called also KempDacey hypergeometric family (cf. Wimmer/ Altmann 1999b). Their properties can be found in the given references. A deeper analysis of the equation system (45) is in preparation. Inserting a2 Z b1 Z 0 in (45) we obtain the above mentioned Katz family of distributions. (i) From (45) we obtain the following when inserting a2 Z 0 Px Z
(1 C a0) (x K b1) C a1 x K b1
PxK1 ,
(50)
from which the hyperpoisson distribution Px Z
ax b(x) 1F1 (1; b; a)
, x Z 0, 1, 2, ...
.
a2 C C ... b(1) b(2) is the confluent hypergeometric function. This distribution has turned out to be the most frequently used model for word length distribution (Bartens/Best 1996; Bartens/ Best 1997a; Bartens/Best 1997b; Bartens/ Best 1997c; Best 1996a; Best 1996b; Best/ Brynjólfson 1997; Best/Kaspar 1998; Best/ Zinenko 1998; Best/Zinenko 1999; Wimmer/ Altmann 1996; Dittrich 1996; Kuhr/Müller 1997; Altmann/Best/Wimmer 1997; Ammermann/Bengtson 1997; Egbers/Groen/Podehl et al. 1997; Balschun 1997; Best/Medrano 1997; Meyer 1997; Röttger 1996a; Röttger 1996b; Rottmann 1997), and was applied as a model for sentence length distribution, too (Niehaus 1997). xK1) and 1F1 (1; b; a) Z 1 C
a1
(ii) Inserting 1 C a0 Z q 2 (0, 1), a2 Z 0, a1 / (1 Ca0) K b1 Z k K 1 and b1 Z Km C 1, k C 1 R mO k or k R m in (45), one obtains
(51)
follows when a0 Z K1, b1 Z 1 K b, a1 Z a R 0, b O 0. Here b(x) Z b (b C 1) ... (b C
(49)
Px Z
kCxK1 mCxK1
q PxK1 ,
yielding the hyperpascal distribution:
(52)
800
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Px Z
( (
kCxK1 x
)
mCxK1 x
qx
)
Px Z P0 , x Z 0, 1, 2, ...
(53)
where
[
Z 1C
k(1) 1(1) q1 m(1) 1!
k(2) 1(2) q2 C
m(2) 2!
]
C ...
K1
.
This distribution has also been used for word lengths (cf. Vettermann/Best 1997; Nemcová/Altmann 1994; Wimmer/Köhler/ Grotjahn et al. 1994), as well as a model for sentence lengths (Altmann 1988b). (iii) Substituting a0 Z a2 Z 0, b1 Z Kb K n and a1 K b1 Z n K 1, b O 0, n R 0 in (45) we obtain Px Z
nCxK1 bCnCx
PxK1
(54)
yielding the Waring distribution Px Z
n(x)
b
, b C n (b C n C 1)(x) x Z 0, 1, 2, ... (55)
which has been introduced to linguistics by G. Herdan (1961) and enjoys great popularity there as the distribution of word frequencies and rank distribution (cf. Muller 1968; Muller 1969; 1979; Ratkowsky 1979; Baayen 1989; Chitashvili/Baayen 1993; Köhler/Martináková-Rendeková 1998; Tuldava 1993; Tuldava 1996; Altmann 1993). It also represents the law of polysemy (cf. Wimmer/Altmann 1999a) (iv) Substituting n Z 1 in (55) one obtains the famous Yule distribution Px Z
bx! (xC1)
(b C 1)
, x Z 0, 1, 2, ...
(56)
derived by H. Simon (1955) from a stochastic type-token process and discussed frequently in linguistics (cf. Mandelbrot 1959; Simon 1960; Herdan 1961; Haight 1966; Sichel 1975; Lánský/Radil-Weiss 1980; Chitashvili/Baayen 1993). (v) Substituting a0 Z a2 Z 0, a1 Z K2, b1 Z K1 in (45) one obtains
xC1
PxK1 ,
(57)
yielding the Simon distribution (cf. Wimmer/ Altmann 1999b) Px Z
P0 Z [2F1 (k, 1; m; q)]K 1
xK1
1 x (x C 1)
,
x Z 1, 2, ... .
(58)
Referring to Zipf (1935) Chitashvili and Baayen (1993, 64) call it also Zipf distribution. One can also find it in Orlov (1982a; 1982b). It is used as a word frequency distribution. (vi) In analogy, with a0 Z a2 Z 0, a1 Z K2, b1 Z Kb, b R 0 we obtain from (45) Px Z
xCbK2 xCb
(59)
PxK1
yielding the Johnson-Kotz distribution (cf. Wimmer/Altmann 1999b) Px Z
b (x C b K 1) (x C b)
, x Z 1, 2, ... .
(60)
Chitashvili und Baayen (1993, 64) call it the Yule-Simon distribution referring to Simon (1955; 1960). It is a variant of word frequency distributions. (vii) If also a2 s 0, then substituting a0 Z 0, a1 Z K K 2 K (M K 1) (n C 1) / (K K M C n), a2 Z (M K 1) (n C 1) / (K K M C n), b1 Z K K M C n, b2 Z 0 K O M R 0, n 2 {0, 1, ...} in (45) we obtain Px Z
(M C x K 1) (n K x C 1) (K K M C n K x)
PxK1 ,
(61)
from which the negative hypergeometric distribution Px Z
(
)( (
MCxK1 x
Z
KKMCnKxK1 nKx
)
)
, KCnK1 n x Z 0, 1, 2, ..., n (62)
follows which is used for heterogeneous purposes in linguistics: the distribution of words in text passages (Altmann/Burdinski 1982), the distribution of morphological productivity (Wimmer/Altmann 1995), the distribution of inquiries at the language advisory service (Uhlířová 1998), a musical frequency distribution (Köhler/Martináková-Rendeková 1998; Wimmer/Wimmerová 1997) and
801
55. Unified derivation of some linguistic laws
the rank distribution of word classes (Schweers/Zhu 1991; Ziegler 1998). (b) Merely in one case in (29) the exponent was considered c1 s 1. If also a0 Z K1, ai Z 0, i Z 0, 2, 3, ..., b1 Z 0 holds as well, we obtain Px Z
a1 xc1
PxK1 ,
(63)
yielding the Conway-Maxwell-Poisson distribution with a1 Z a, c1 Z b, a R 0, b O 0 Px Z
ax (x! )b
P0 , x Z 0, 1, 2, ....
(64)
It has been used mostly as the distribution of word lengths (cf. Wimmer/Köhler/Grotjahn et al. 1994; Nemcová/Altmann 1994; Wimmer/Altmann 1996; Kim/Altmann 1996; Altmann/Erat/Hřebíček 1996; Altmann/Best/ Wimmer 1997), in two dimensional form as the distribution of syllable types (Zörnig/ Altmann 1993).
5.
Discrete two-dimensional approach
In the same way as with the continuous approach one can generalize the discrete approach to several variables. Since the number of examined cases in linguistics is up to now very small (a paper by Uhlířová and Wimmer (2003), a paper on syllable structure by Zörnig and Altmann (1993), and a paper on semantic diversification by Beöthy and Altmann (1984)), we merely show the method. In the one-dimensional discrete approach we had a recurrence formula that can be written in the form of Px Z g (x) PxK1
(65)
where g (x) was (a part of) an infinite series. Since now we have two variables, we can set up the model as follows Pi, j Z g (i, j) Pi, jK1 Pi, j Z h (i, j) PiK1, j
(66)
where g (i, j) and h (i, j) are different functions of i and j. The equations must be solved simultaneously. The result depends on the given functions. Thus Uhlířová and Wimmer obtained the two dimensional binomial distribution, Zörnig and Altmann obtained the two-dimensional Conway-Max-
well-Poisson distribution and Beöthy and Altmann obtained the two-dimensional negative binomial distribution.
6.
Conclusion
The fact that in this way one can integrate different hypotheses has several consequences: (i) It shows that there is a unique mechanism K represented by (1), (24), (29), (66) K behind many language processes in which one can combine variables and “forces”. (ii) Formulas (1), (24), (29), (66) represent systems in which also extra-systemic factors can be inserted. (iii) This approach allows to inductively test new, up to now unknown relations and systematize them in a theory by a correct interpretation of factors; this is usually not possible if one proceeds inductively. The explorative part of the work could be therefore speeded up with an appropriate software. One should not assume that one could explain everything in language using this approach but one can comfortably unify and interpret many disparate phenomena a posteriori. Usually (but not always) the additive constant in the numerator is interpreted as a language factor, the mutiplicative constants as factors of the speaker’s activity and the constants in the denumerator as those of the hearer’s or language community’s controlling activity. All constants always hold with the ceteris-paribus condition.
7.
Literature (a selection)
Altmann, Gabriel (1980); Prolegomena to Menzerath’s law. In: Glottometrika 2 (Hrsg. R. Grotjahn). Bochum: Brockmeyer, 1K10. Altmann, Gabriel (1984). Beitrag zur Methodologie der Areallinguistik. In: Dialectology: 61K69. (Hrsg. H. Goebl). Bochum: Brockmeyer. Altmann, Gabriel (1985a), Semantische Diversifikation. In: Folia Linguistica 19, 177K200. Altmann, Gabriel (1985b), Die Entstehung diatopischer Varianten. Ein stochastisches Modell. In: Zeitschrift für Sprachwissenschaft 4, 139K155. Altmann, Gabriel (1988a), Wiederholungen in Texten. Bochum: Brockmeyer. Altmann, Gabriel (1988b), Verteilungen der Satzlängen. In: Glottometrika 9, (Hrsg. K.P. Schulz). Bochum: Brockmeyer.
802
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Altmann, Gabriel (1990), Bühler or Zipf? A reinterpretation. In: Aspekte einer Kultursemiotik. (Hrsg. W. A. Koch). Bochum: Brockmeyer, 1K6. Altmann, Gabriel (1991a), Word class diversification of Arabic verbal roots. In: Diversification phenomena in language: Grammar. (ed. U. Rothe). Hage: Rottmann, 57K59.
Balasubrahmanyan, Vriddhachalam K./Naranan, Sundaresan (1996), Quantitative linguistics and complex system studies. In: Journal of Quantitative Linguistics 3, 177K228.
Altmann, Gabriel (1991b), Modelling diversification phenomena in language. In: Diversification phenomena in language: Grammar: 33K46. (ed. U. Rothe). Hagen: Rottmann.
Balasubrahmanyan, VriddhachalamK./Naranan, Sundaresan (2000), Information theory and Algorithmic complexity: applications to language discourses and DNA sequences as complex systems: Part II: Complexity of DNA sequences, analogy with linguistic discourses. In: Journal of Quantitative Linguistics 7, 153K183.
Altmann, Gabriel (1993), Phoneme counts. Marginal remarks to Pääkkönen’s article. In: Glottometrika 14 (Hrsg. G. Altmann). Trier: Wissenschaftlicher Verlag, 54K68.
Balasubrahmanyan, Vriddhachalam K./Naranan, Sundaresan (2002), Algorithmic information, complexity and Zipf’s law. In: Glottometrics 4, 1K25.
Altmann, Gabriel/Best, Karl-Heinz/Wimmer, Gejza (1997), Wortlänge in romanischen Sprachen. In: Semiotische Prozesse und natürliche Sprache. Festschrift für Udo L. Figge zum 60. Geburtstag. (Hrsg. A. Gather/H. Werner). Stuttgart: Steiner, 1K13.
Balschun, Claudia (1997), Wortlängenhäufigkeit in althebräischen Texten. In: Best 1997, 174K179.
Altmann, Gabriel/Burdinski, Violetta (1982), Towards a law of word repetitions in text-blocks. In: Glottometrika 4 (eds. W. Lehfeldt/U. Strauß). Bochum: Brockmeyer, 147K167. Altmann, Gabriel/Erat, Eran/Hřebíček, Luděk (1996), Word length distribution in Turkish texts. In: Schmidt 1996, 195K204. Altmann, Gabriel/Köhler, Reinhard (1996), “Language Forces” and synergetic modelling of language phenomena. In: Schmidt 1996, 62K76. Altmann, Gabriel/Schwibbe, Michael (1989), Das Menzerathsche Gesetz in informationsverarbeitenden Systemen. Hildesheim: Olms. Ammermann, Stefan/Bengtson, Manlin (1997), Zur Wortlängenhäufigkeit im Schwedischen: Gunnar Ekelöfs Briefe. In: Best 1997, 88K97 Arapov, Michail V. (1974), Produktivnost’ v estestvennom jazyke i ee izmerenie. In: Voprosy informacionnoj teorii i praktiki 23, 117K138. Arapov, Michail V. (1977), Dve modeli rangovogo raspredelenija. In: Voprosy informacionnoj teorii i praktiki 4, 3K42. Arapov, Michail V./Efimova, E. N. (1975), Ponjatie leksičeskoj struktury teksta. In: Naučno-techničeskaja informacija, Seria 2, 6, 3K7. Arapov, Michail V./Efimova, E. N./Šrejder, J. A. (1975), Rangovye raspredelenija v tekste i jazyke. In: Naučno-techničeskaja informacija, Seria 2, 2, 3K7. Baayen, R. Harald (1989), A corpus-based approach to morphological productivity. Amsterdam: Centrum voor Wiskunde en Informatica. Bagheri, Dariusch (1999), Definitionsketten und Lexemnetze. In: Einführung in die quantitative Lexikologie (Hrsg. G. Altmann). Trier: WVT, 94K133.
Bartens, Hans-Hermann/Best, Karl-Heinz (1996), Wortlängen in estnischen Texten. In: Ural-Altaische Jahrbücher 14, 112K128. Bartens, Hans-Hermann/Best, Karl-Heinz. (1997a), Wortlängen in erzamordwinischen Texten. In: Linguistica Uralica 33, 5K13. Bartens, Hans-Hermann/Best, Karl-Heinz (1997b), Wortlängen im Tscheremissischen (Mari). In: Finnisch-Ugrische Mitteilungen 20, 1K20. Bartens, Hans-Hermann/Best, Karl-Heinz (1997c), Word-length distribution in Sámi texts. In: Journal of Quantitative Linguistics 4, 45K52. Beöthy, Erzsébath/Altmann, Gabriel (1984), Semantic diversification of Hungarian verbal prefixes III. “föl-”, “el-”, “be-”. In: Glottometrika 7 (ed. U. Rothe). Bochum: Brockmeyer, 45K56. Best, Karl-Heinz (1996a), Word length in Old Icelandic songs and prose texts. In: Journal of Quantitative Linguistcs 3, 97K105. Best, Karl-Heinz (1996b), Zur Bedeutung von Wortlängen, am Beispiel althochdeutscher Texte. In: Papiere zur Linguistik 55, 141K152. Best, Karl-Heinz (ed.), Glottometrika 16. Trier: Wissenschaftlicher Verlag, 1997. Best, Karl-Heinz/Brynjólfsson, Einar (1997), Wortlängen in isländischen Briefen und Prosatexten. In: Skandinavistik 27, 24K40. Best, Karl-Heinz/Kaspar, Ingolf (1998), Wortlängen in färöischen Briefen. In: Naukovyj Visnyk Černivec’koho Universytetu, Vypusk 41, Herman’ska filolohija, 3K14. Best, Karl-Heinz/Medrano, Paulina (1997), Wortlängen in Ketchua-Texten. In: Best 1997, 204K 212. Best, Karl-Heinz/Zinenko, Svetlana (1998), Wortlängenverteilungen in Briefen A. T. Twardovskis. In: Göttinger Beiträge zur Sprachwissenschaft 1, 7K19. Best, Karl-Heinz/Zinenko, Svetlana (1999), Wortkomplexität im Ukrainischen und ihre linguisti-
55. Unified derivation of some linguistic laws sche Bedeutung. In: Zeitschrift für Slavische Philologie 58, 107K123. Bondesson, Lennart (1979), On generalized gamma and generalized negative binomial convolutions I, II. In: Scandinavian Actuarial Journal, 125K166. Boroda, Moisei G./Altmann, Gabriel (1991), Menzerath’s law in musical texts. In: Musikometrika III (ed. M. G. Boroda). Bochum: Brockmeyer, 1K13. Boroda, Moisei G./Zörnig, Peter (1990), ZipfMandelbrot’s law in a coherent text. Towards the problem of validity. In: Glottometrika 12. (Ed. Rolf Hammerl). Bochum: Brockmeyer, 41K60. Bowman, Kelsey O./Shenton, Leanne R./Kastenbaum, Marvin A. (1991), Discrete Pearson distributions. In: Oak Ridge National Library Technical Report, TMK11899. Oak Ridge, TH. Brainerd, Barron (1972), Article use as an indicator of style among English-language authors. In: Linguistik und Statistik. (Hrsg. S. Jäger). Braunschweig: Vieweg, 11K32. Brainerd, Barron (1976), On the Markov structure of text. In: Linguistics 176, 5K30. Bunge, Mario (1963), The myth of simplicity. Englewood Cliffs, N.J.: Prentice-Hall. Bunge, Mario (1983), Understanding the world. Dordrecht: Reidel. Čebanov, Sergej G. (1947), O podčinenii rečevych ukladov “indo-evropejskoj” gruppy zakonu Puassona. Doklady Akademii Nauk SSSR 55, 103K 106. Chitashvili, R. J. /Baayen, R. Harald (1993), Word frequency distributions of texts and corpora as large number of rare event distributions. In: Quantitative Text Analysis. (Hrsg. Luděk Hřebíček/Gabriel Altmann). Trier: WVT, 54K135. Dacey, Michael F. (1967), A family of discrete probability distributions defined by the generalized hypergeometric series. In: Sankhyá B 34, 243K250. Dittrich, Heike (1996), Word length frequency in the Letters of G. E. Lessing. In: Journal of Quantitative Linguistics 3, 260K264. Egbers, Jannetje/Groen, Claudia/Podehl, Ralf/ Rauhaus, Esther (1997), Zur Wortlängenhäufigkeit in griechischen Koine-Texten. In: Best 1997, 108K120. Estoup, Jean-Baptiste. (1916), Les gammes sténographiques. Paris: Institute Sténographique. Fenk-Oczlon, Gertraud/Fenk, August (1995), Selbstorganisation und natürliche Typologie. In: Sprachtypologie und Universalienforschung 48, 223K238. Fickermann, Ingeborg/Markner-Jäger, B./Rothe, Ursula (1984), Wortlänge und Bedeutungskomplexität. In: Glottometrika 6 (eds. J. Boy/R. Köhler). Bochum: Brockmeyer, 115K126.
803 Fónagy, Ivan/Magdics, Klara (1960), Speed of utterance in phrases of different length. In: Language and Speech 3, 179K192. Frumkina, Revekka M. (1961), K voprosu o tak nazyvaemom zakone Cipfa. In: Voprosy jazykoznanija, Nr. 2, 117K122. Fucks, Wilhelm (1955), Theorie der Wortbildung. In: Mathematisch-physikalische Semesterberichte 4, 195K212. Fucks, Wilhelm (1956a), Die mathematischen Gesetze der Bildung von Sprachelementen aus ihren Bestandteilen. In: Nachrichtentechnische Fachberichte 3, 7K21. Fucks, Wilhelm (1956b), Mathematical theory of word formation. In: Information Theory (ed. C. Cherry). London: Butterworths, 154K170. Gačečiladze, T. G./Cilosani, T. P. (1971), Ob odnom metode izučenija statističeskoj struktury teksta. In: Statistika reči i avtomatičeskij analiz teksta, 113K133. Geršić, Slavko/Altmann, Gabriel (1980), Laut K Silbe K Wort und das Menzerathsche Gesetz. In: Frankfurter Phonetische Beiträge 3, 115K123. Geršić, Slavko/Altmann, Gabriel (1988), Ein Modell für die Variabilität der Vokaldauer. In: Glottometrika 9 (Hrsg. K. P Schulz). Bochum: Brockmeyer, 49K58. Good, Irving J. (1953), The population frequencies of species and the estimation of population parameters. In: Biometrika 40, 237K264. Grotjahn, Rüdiger (1982), Ein statistisches Modell für die Verteilung der Wortlänge. In: Zeitschrift für Sprachwissenschaft 1, 44K75. Guiter, Henry/Arapov, Michail V. (eds.). Studies on Zipf’s law. Bochum: Brockmeyer, 1982. Gurland, John/Tripathi, Ram C. (1975), Estimation of parameters of some extensions of the Katz family of discrete distributions involving hypergeometric functions. In: Statistical Distributions in Scientific Work 1, 59K82. Haight, Frank A. (1966), Some statistical problems in connection with word association data. In: Journal of Mathematical Psychology 3, 217K233. Hammerl, Rolf (1990), Länge-Frequenz, LängeRangnummer: Überprüfung von zwei lexikalischen Modellen. In: Glottometrika 12, Bochum: Brockmeyer 1K24. Hammerl, Rolf/Sambor, Jadwiga (1993), Synergetic studies in Polish. In: Contributions to Quantitative Linguistics (eds. R. Köhler/B. Rieger). Dordrecht: Kluwer, 331K359. Herdan, Gustav (1956), Language as choice and chance. Groningen: Nordhoff. Herdan, Gustav (1958), The relation between the dictionary distribution and the occurrence distribution of word length and its importance for the study of quantitative linguistics. In: Biometrika 45, 222K228.
804
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
Herdan, Gustav (1961), A critical examination of Simon’s model of certain distribution functions in linguistics. In: Applied Statistics 10, 65K76. Herdan, Gustav (1966), The advanced theory of language as choice and chance. Berlin: Springer. Hřebíček, Luděk (1995), Text levels. Language constructs, constituents and the Menzerath-Altmann law. Trier: Wissenschaftlicher Verlag. Hřebíček, Luděk (1997), Lectures on text theory. Prague: Oriental Institute. Hřebíček, Luděk (2000), Variation in sequences. Prague: Oriental Institute. Heups, Gabriele (1983), Untersuchungen zum Verhältnis von Satzlänge und Clauselänge am Beispiel deutscher Texte verschiedener Textklassen. In: Glottometrika 5 (Hrsg. R. Köhler/J. Boy). Bochum: Brockmeyer, 113K133. Job, Ulrike/Altmann, Gabriel (1985), Ein Modell für anstrengungsbedingte Lautveränderung. In: Folia Linguistica Historica VI/2, 401K407. Johnson, Norman L./Kotz, Samuel (1970), Continuous univariate distributions K 1. Boston: Houghton Mifflin. Johnson, Norman L./Kotz, Samuel/Kemp, Adrienne W. (1992), Univariate discrete distributions. New York: Wiley. Kai-hua Zhao (1990), Physics nomenclature in China. In: American Journal of Physics 58, 449K 452. Kapur, Jaget M. (1978), On generalized birth and death processes and generalised hypergeometric functions. In: Indian Journal of Mathematics 20, 57K69. Katz, Leo (1945), Characteristics of frequency functions defined by first order difference equations. Diss., Ann Arbor, Mi.: University of Michigan. Katz, Leo (1965), Unified treatment of a broad class of discrete probability distributions. In: Classical and Contagious Discrete Distributions. (ed. G. P. Patil). Calcutta: Statistical Publishing Society and Pergamon Press, 175K182. Kemp, Adrienne W. (1968), A wide class of discrete distributions and the associated differential equations. In: Sankhyá A, 30, 401K410. Kim, Icheon/Altmann, Gabriel (1996), Zur Wortlänge in koreanischen Texten. In: Schmidt 1996, 205K213. Köhler, Reinhard (1986), Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, Reinhard (1987), Systems theoretical linguistics. In: Theoretical Linguistics 14, 241K257. Köhler, Reinhard (1989), Linguistische Analyseebenen, Hierarchisierung und Erklärung im Modell der sprachlichen Selbstregulation. In: Glottometrika 11. (Hrsg. L. Hřebíček). Bochum: Brockmeyer, 1K18.
Köhler, Reinhard (1990), Elemente der synergetischen Linguistik. In: Glottometrika 12 (Hrsg. Rolf Hammerl). Bochum: Brockmeyer, 179K187. Köhler, Reinhard/Martináková-Rendeková, Zuzana (1998), A systems theoretical approach to language and music. In: Systems. New paradigms for the human sciences (eds. G. Altmann, W. A. Koch). Berlin: de Gruyter, 514K546. Krallmann, Dieter (1966), Statistische Methoden in der stilistischen Analyse. Bonn: Diss. Kromer, Viktor V. (1996), Zavisimost’ “rang-častota” na bol’šich rangach v russkom jazyke. Novosibirsk: Novosibirskij gosudarstvennyj pedagogičeskij institut. Kromer, Viktor V. (1997), Jaderno-veernaja model‘ vertikal’nogo raspredelenija slov v russkom jazyke. Novosibirsk: Novosibirskij gosudarstvennyj pedagogičeskij institut. Krott, Andrea (1996), Some remarks on the relation between word length and morpheme length. In: Journal of Quantitative Linguistcs 3, 29K37. Krylov, Jurij K. (1982a), Ob odnoj paradigme lingvostatističeskich raspredelenij. In: Lingvostatistika i vyčislitel’naja lingvistika. Tartu: Učenye zapiski Tartuskogo gosudarstvennogo universiteta 628, 80K102. Krylov, Jurij K. (1982b), Eine Untersuchung statistischer Gesetzmäßigkeiten auf der paradigmatischen Ebene der Lexik natürlicher Sprachen. In: Guiter/Arapov 1982, 234K262. Krylov, Jurij K. (1987), Stacionarnaja model’ poroždenija svjaznogo teksta. In: Učenye zapiski TGU 774, 81K102. Kuhr, Saskia/Müller, Barbara (1997), Zur Wortlängenhäufigkeit in Luthers Briefen. In: Best 1997, 55K62. Laass, Françoise (1996), Zur Wortlänge in koreanischen Texten. In: Schmidt 1996, 205K213. Lánský, Peter/Radil-Weiss, Tomas (1980), A generalization of the Yule-Simon model, with special reference to word association tests and neural cell assembly formation. In: Journal of Mathematical Psychology 21, 53K65. Leopold, Edda (1998a), Frequency spectra within word-length classes. In: Journal of Quantitative Linguistcs 5, 224K235. Leopold, Edda (1998b), Stochastische Modellierung lexikalischer Evolutionsprozesse. Hamburg: Kovač. Li, Wentian (1992), Random texts exhibit Zipf’slaw-like word frequency distribution. In: IEEE Transactions on Information Theory 38, 1842K 1845. Mandelbrot, Benoit (1953). An information theory of the statistical structure of language. In: Communication Theory. (ed. W. Jackson). New York: Academic Press, 503K512.
55. Unified derivation of some linguistic laws Mandelbrot, Benoit (1954), Structure formelle des textes et communication. In: Word 10, 1K27. Mandelbrot, Benoit (1959), A note on a class of skew distribution functions. Analysis and criteria of a paper by H. A. Simon. In: Information and Control 2, 90K99. Mandelbrot, Benoit (1961), On the theory of word frequencies and on related Markovian models of discourse. In: Structure of Language and its Mathematical Aspects. (ed. R. Jakobson). Providence: American Mathematical Society, 190K219. Mandelbrot, Benoit (1966), Information theory and psycholinguistics: A theory of word frequencies. In: Readings in Mathematical Social Science (eds. P. F. Lazarsfeld/N. W. Henry). Chicago: Science Research Associates, 350K368. Martindale, Colin/Gusein-Zade, S. M./McKenzie, Dean/Borodovsky, Mark Y. (1996), Comparison of equations describing the ranked frequency distribution of graphemes and phonemes. In: Journal of Quantitative Linguistics 3, 106K112. Martynenko, Grigorij J. (1965), Nekotorye statističeskie nabljudenija na materiale bol’garskogo jazyka. In: Statistiko-kombinatornoe modelirovanie jazyka. (ed. N. D. Andreev). Moskva-Leningrad: Nauka, 327K339. Meyer, Peter (1997), Word length distribution in Inuktitut narratives: Empirical and theoretical findings. In: Journal of Quantitative Linguistics 4, 143K155. Miller, George A. (1957), Some effects of intermittent silence. In: The American Journal of Psychology 70, 311K314. Muller, Charles (1968), Initiation à la statistique linguistique. Paris: Larousse. Muller, Charles (1969), Lexical distribution reconsidered: the Waring-Herdan formula. In: Statistics and Style (eds. R. W. Bailey/L. Dolezel). New York: Elsevier, 42K56. Muller, Charles (1979), Du nouveau sur les distributions lexicales: la formula de Waring-Herdan. In: Langue Française et Linguistique Quantitative (ed. Ch. Muller). Gene`ve: Slatkine, 177K195. Naranan, Sundaresan (1970), Bradford’s law of science bibliography K an interpretation. In: Nature 227, 361K362. Naranan, Sundaresan (1971), Power law relations in science bibliography K a self consistent interpretation. In: Journal of Documentation 27, 83K97. Naranan, Sundaresan (1989), “Power law” version of Bradford’s law: Statistical tests and methods of examination. In: Scientometrics 17, 211K226. Naranan, Sundaresan (1992), Statistical laws in information science, language and system of natural numbers: Some striking similarities. In: Journal of Scientific and Industrial Research 51, 736K755. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1992a), Information theoretic
805 models in statistical linguistics K Part I: A model for word frequencies. In: Current Science 63, 261K269. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1992b), Information theoretic models in statistical linguistics K Part II. Word frequencies and hierarchical structure in language K statistical tests. In: Current Science 63, 297K 306. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1993). Information theoretic model for frequency distribution of words and speech sounds (phonemes) in language. In: Journal of Scientific and Industrial Research 52, 728K738. Naranan, Sundaresan/Balasubrahmanyan, Vriddhachalam K. (1998), Models of power law relations in linguistics and information science. In: Journal of Quantitative Linguistics 5, 35K61. Nemcová, Emilia/Altmann, Gabriel (1994), Zur Wortlänge in slowakischen Texten. In: Zeitschrift für empirische Textforschung 1, 40K43. Niehaus, Brigitta (1997), Untersuchung zur Satzlängenhäufigkeit im Deutschen. In: Best 1997, 213K275. Ord, J. Keith (1967a), On families of discrete distributions. Ph. D. Thesis, University of London. Ord, J. Keith (1967b), On a system of discrete distributions. In: Biometrika 54, 649K656. Ord, J. Keith (1972), Families of frequency distributions. London: Griffin. Ord, J. Keith (1985), Pearson systems of distributions. In: Enycylopedia of Statistical Science 6 (eds. S. Kotz/N. L. Johnson/C. Read). New York: Wiley, 655K659. Orlov, Jurij K. (1976), O svjazi meždu respredeleniem Pareto i obobščennym zakonom CipfaMandel’brota. In: Bulletin of the Academy of Sciences of the Georgian SSR 63/1, 57K60. Orlov, Jurij K. (1982a), Dynamik der Häufigkeitsstrukturen. In: Guiter/Arapov 1982, 116K153. Orlov, Jurij K. (1982b), Ein Modell der Häufigkeitsstruktur des Vokabulars. In: Guiter/Arapov 1982, 154K233. Orlov, Jurij K./Boroda, Moisei G./Nadarejšvili, Isabela Š. (1982), Sprache, Text, Kunst. Quantitative Analysen. Bochum: Brockmeyer. Parker-Rhodes, Arthur F./Joyce, T. (1956), A theory of word-distribution frequency. In: Nature 178, 1308. Piotrovskij, Rajmond G./Bektaev, K. B./Piotrovskaja, A. A. (1979), Matematičeskaja lingvistika. Moskva: Vysšaja škola. [Dt. Mathematische Linguistik. Bochum: Brockmeyer]. Prün, Claudia (1994), Validity of Menzerath-Altmann’s law: Graphic representation of language, information processing systems and synergetic lin-
806
XI. Modelle, Methoden, Hypothesen und Gesetze / Models, methods, hypotheses and laws
guistics. In: Journal of Quantitative Linguistics 1, 148K155. Rapoport, Anatol (1982), Zipf’s law re-visited. In: Guiter/Arapov 1982, 1K28. Ratkowsky, D. A. (1979), Une nouvelle approche concernant l’application de la distribution de Waring aux fréquence des vocables dans les textes littéraires. In: Cahiers de Lexicologie 34, 3K18. Rothe, Ursula (ed.), Diversification processes in language: grammar. Hagen: Rottmann, 1981. Röttger, Winfred (1996a), Distribution of word length in Ciceronian letters. In: Journal of Quantitative Linguistcs 3, 68K72. Röttger, Winfred (1996b), Wortlängenhäufigkeiten lateinischer Texte deutschsprachiger Autoren. Göttingen: Ms. Rottmann, Otto (1997), Word-length counting in Old-Church Slavonic. In: Journal of Quantitative Linguistics 4, 252K256. Rouault, Alain (1978), Loi de Zipf et sources markoviennes. In: Annales de l’Institut Henri Poincaré 14, 169K188. Schmidt, Peter (ed.), Glottometrika 15. Trier: Wissenschaftlicher Verlag, 1996. Schroeder, Manfred (1990), Fractals, chaos, power laws. Minutes from an infinite paradise. New York: Freeman. Schweers, Anja/Zhu, Jinyang (1981), Wortartenklassifikation im Lateinischen, Deutschen und Chinesischen. In: Rothe 1981, 157K165. Shtrikman, S. (1994), Some comments of Zipf’s law for the Chinese language. In: Journal of Information Science 20, 142K143. Sichel, H. S. (1975), On a distribution law for word frequencies. In: Journal of American Statistical Association 70, 542K547. Sigurd, Bengt (1968), Rank-frequency distribution for phonemes. In: Phonetica 18, 1K15. Simon, Herbert A. (1955), On a class of skew distribution functions. In: Biometrika 42, 425K440. Simon, Herbert A. (1957), Models of Man. Mathematical essays on rational human behavior in a social setting. New York: Wiley. Simon, Herbert A. (1960), Some further notes on a class of skew distribution functions. In: Information and Control 3, 90K98 Somers, Herman H. (1959), Analyse mathematique du langage I. Louvain-Paris: Nauwelaerts. Spang-Hanssen, Henning (1956), The study of gaps between repetitions. In: For Roman Jakobson (ed. M. Halle). The Hague: Mouton, 497K 502. Steiner, Petra (1995), Effects of polylexy on compounding. In: Journal of Quantitative Linguistics 2, 133K140. Tuldava, Juhan (1974), O statističeskoj strukture teksta. In: Sovetskaja pedagogika i škola 9, 5K33.
Tuldava, Juhan (1979), O nekotorych kvantitativno-sistemnych charakteristikach polisemii. In: Učenye zapiski TGU 453, 115K135. Tuldava, Juhan (1993), The statistical structure of text and its readability. In: Quantitative Textanalysis (eds. L. Hřebíček/G. Altmann). Trier: Wissenschaftlicher Verlag, 215K227. Tuldava, Juhan (1995), Methods in quantitative linguistics. Trier: Wissenschaftlicher Verlag. Tuldava, Juhan (1996), The frequency spectrum of text and vocabulary. In: Journal of Quantitative Linguistics3, 38K50. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systemischen Lexikologie. Trier: Wissenschaftlicher Verlag. Uhlířová, Ludmila (1995a), On the generality of statistical laws and individuality of texts. A case of syllables, word forms, their length and frequencies. In: Journal of Quantitative Linguistics 2, 238K247. Uhlířová, Ludmila (1995b), O jednom modelu rozložení délky slov. In: Slovo a slovesnost 56, 8K14. Uhlířová, Ludmila (1997), Length vs. order: Word length and clause length from the perspective of word order. In: Journal of Quantitative Linguistics 4, 266K275. Uhlířová, Ludmila (1998), Linguistics vs. the public: An electronic database of letters to the language consultory service as a source of sociolinguistic information. In: Journal of Quantitative Linguistics 5, 262K268. Uhlířová, Ludmila/Wimmer, Gejza (2003), A Contribution to Word Length Theory. In: Festschrift für Werner Lehfeldt zum 60. Geburtstag (Hrsg. S. Kempgen/U. Schweier/T. Berger). München: Verlag Otto Sagner, 524K530. Vettermann, A./Best, Karl-Heinz (1997), Wortlängen im Finnischen. In: Journal de la Societé FinnoOugrienne 87, 249K262. Weber, Sabine (1998), Das Menzerathsche Gesetz in gesprochener Sprache. Trier: Magisterarbeit. Wimmer, Gejza/Altmann, Gabriel (1995), A model of morphological productivity. In: Journal of Quantitative Linguistics 2, 212K216. Wimmer, Gejza/Altmann, Gabriel (1996), The theory of word length: Some results and generalizations. In: Schmidt 1996, 112K133. Wimmer, Gejza/Altmann, Gabriel (1999a), Rozdelenie polysémie v maorčine. In: Pange lingua (eds. S. Ondrejovič/J. Genzor). Bratislava: Veda, 17K25. Wimmer, Gejza/Altmann, Gabriel (1999b), Thesaurus of univariate discrete probability distributions. Essen: Stamm-Verlag. Wimmer, Gejza/Altmann, Gabriel (2001), Two hypotheses on synonymy. In: Lexicographica ’99. Zborník na počest’Kláry Buzássyovej (eds. S. Ondrejovič/M. Považaj). Bratislava: Veda, 218K225.
55. Unified derivation of some linguistic laws Wimmer, Gejza/Köhler, Reinhard/Grotjahn, Rüdiger/Altmann, Gabriel (1994), Towards a theory of word length distribution. In: Journal of Quantitative Linguistics 1, 98K106. Wimmer, Gejza/Wimmerová, S. (1997), Exaktnejšie fromulácie zákonitostí v hudbe. In: Metódy analýzy a interpretácie hudby z historického a systematického aspektu I. Bratislava: VŠMU, 75K84. Woronczak, Jerzy (1967), On an attempt to generalize Mandelbrot’s distribution. In: To Honour Roman Jakobson Vol. 3. The Hague: Mouton, 2259K2268. Yngve, Viktor (1956), Gap analysis and syntax. In: IRE Transactions PGIT-2, 106K112. Ziegler, Arne (1998), Word class frequencies in Brazilian-Portuguese press texts. In: Journal of Quantitative Linguistics 5, 269K280. Zipf, George K. (1935), The psycho-biology of language. Boston: Houghton Mifflin. Zipf, George K. (1938), Homogeneity and heterogeneity in language; in answer to Edward L. Thorndike. In: Psychological Record 2, 347K367. Zipf, George K. (1940), On the economical arrangement of tools; the harmonic series and the properties of space. In: Psychological Record 4, 147K159. Zipf, George K. (1942), The unity of nature, leastaction and natural social science. In: Sociometry 5, 48K62.
807 Zipf, George K. (1945a), The meaning frequency relationship of words. In: The Journal of General Psychology 33, 251K256. Zipf, George K. (1945b), The repetition of words, time-perspective and semantic balance. In: The Journal of General Psychology 32, 127K148. Zipf, George K. (1946), The psychology of language. In: Encyclopedia of Psychology. New York: Philosophical Library, 332K341. Zipf, George K. (1949), Human behavior and the principle of least effort. Reading, Mass.: AddisonWesley. Zörnig, Peter/Altmann, Gabriel (1993), A model for the distribution of syllable types. In: Glottometrika 14 (ed. G. Altmann). Bochum: Brockmeyer, 190K196. Zörnig, Peter/Altmann, Gabriel (1995), Unified representation of Zipf distributions. In: Computational Statistics & Data Analysis 19, 461K473. Zörnig, Peter/Boroda, Moisei (1992), The ZipfMandelbrot law and the interdependencies between frequency structure and frequency distribution in coherent texts. In: Glottometrika 13 (ed. B. Rieger). Bochum: Brockmeyer 205K218.
Gejza Wimmer, Bratislava (Slovak Republic) Gabriel Altmann, Lüdenscheid (Germany)
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines 56. The statistical approach to natural language processing 1. 2. 3. 4. 5. 6.
Introduction The statistical approach POS tagging Machine translation Conclusion Literature
1.
Introduction
In this chapter, we consider the statistical approach to natural language processing (NLP). To be specific, we mention prototypical examples of tasks in natural language processing: K a text dictation machine (‘listening typewriter’) that converts the acoustic signal into written text (Jelinek 1976; Ney/Steinbiss/Haeb-Umbach et al. 1994). K a dialogue system that understands spoken natural language queries, asks for further information if necessary and produces an answer to the speaker’s query; typical applications are inquiry systems for train schedule and air travel information (Aust/Ney 1998; Gorin/Riccardi/ Wright 1997; Pieraccini/Levin/Vidal 1993). K POS tagging (Bahl/Mercer 1976; DeRose 1989) and parsing (cf. Naumann 2003; Art. No. 59). K a translation system (‘machine translation’), that translates a sentence from one language into another (Brown/Della Pietra/Della Pietra et al. 1993; Ney/Nießen/ Och et al. 2000). The important aspect about these examples is that there are comparatively simple and clear criteria for measuring the performance of these systems. In each of these examples, we can specify the desired ideal output of the system and can compare it with the actual output of the system. These simple and easy-to-measure criteria ensure an important requirement for the scientific methodology, which is the reproducibility of experimental results by other independent researchers. A good example of a step into this direction are the periodic evaluations that
are carried out under the aegis of the US DARPA agency. Originally, these evaluations started with speech recognition systems only, but meanwhile the same methodology is also used for dialogue understanding and for language translation tasks. The task of speech recognition was the area where the statistical approach started and, so far in all experimental evaluations, proved to be far superior to the competing approaches including the rule-based approach. Here, due to space limitations, we will focus on POS tagging and machine translation. Probabilistic parsing is the topic of a separate chapter (cf. Naumann 2003; Art. No. 59).
2.
The statistical approach
2.1. Why statistics? The principal goal of statistics is to learn from observations and make predictions about new observations. This point of view puts more emphasis on the prediction of new observations than on the retrospective interpretation of given observations, which is maybe more along the mainstream statistics as it is traditionally found in textbooks. In the NLP applications, the statistical models are simplifications of complex dependences in the real world of spoken and written language. Therefore in most cases, it is a mistake to assume that any such model is a true representation of the underlying processes for speech and language. What we require instead, however, is that the model is useful for predicting new observations. Often this requirement goes hand in hand with the desire to have a parsimonious description of the relevant dependences in speech and language data. The word statistics as used here stands for the fields of probability theory, information theory and statistics in the sense of statistical inference. Statistics is the science of learning from observations and experience (Efron/ Tibshirani 1993, pp. 1). Hence it is clear that
809
56. The statistical approach to natural language processing
statistics is indispensable for any kind of learning system. This has been the point of view in pattern classification for more than three decades (Duda/Hart 1973). Such a statistical approach to learning from observations includes decision trees like CART (Breiman/Friedman/Ohlsen et al. 1984) and (artificial) neural networks (Ney 1995). As to neural networks, we add the following statement: neural networks are not a replacement for classical methods in statistics and pattern classification, but rather they are valuable addition to the statistical tool box. 2.2. NLP and the statistical approach The use of statistics in computational linguistics has been extremely controversial for more than three decades. The controversy is very well summarized by the statement of Chomsky in 1969: “It must be recognized that the notion of a ‘probability of a sentence’ is an entirely useless one, under any known interpretation of this term” (Chomsky 1969, p. 57). This statement was considered to be correct by the majority of experts from artificial intelligence and computational linguistics, and the concept of statistics was banned from computational linguistics for many years. What is overlooked in this statement is the fact that, in an automatic system for NLP, we are faced with the problem of making decisions and learning from examples. It is exactly here where statistical decision theory comes in. In automatic speech recognition (ASR), the success of the statistical approach is based on the equation: ASR Z Acoustic-Linguistic Modelling C Statistical Decision Theory Similarly, for natural language processing (NLP) in general, the statistical approach is expressed by the equation: NLP Z Linguistic Modelling C Statistical Decision Theory For the low-level description of speech and image signals, it is widely accepted that the statistical framework allows an efficient coupling between the observations and the models, which is often described by the buzz word subsymbolic processing. The typical advantage in using probability distributions, which also holds for symbolic processing in NLP tasks, is that they offer an explicit for-
malism for expressing and combining hypothesis scores: K The probabilities are directly used as scores. These scores are normalized, which is a desirable property. When increasing the score for a certain element in the set of all hypotheses, there must be one or several other elements whose scores are reduced at the same time. K It is evident how to combine scores: depending on the task, the probabilities are either multiplied or added. K Weak and vague dependences can be modelled easily. Especially in spoken and written natural language, there are nuances and shades that require ‘grey levels’ between 0 and 1. The typical statistical approach to NLP is illustrated in Fig. 56.1. The most crucial role is taken by the probability model, which provides the link between the input data and the output data that have to be produced by the NLP system. The probability model has free parameters that are learned using a suitable training criterion from training examples that are representative of the NLP task to be performed. In addition, in Fig. 56.1, we have the decision rule that is used to select the most suitable output from the many possible outputs. Even if we think we can manage without statistics, we will need models which always have some free parameters. Then the question is how to train these free parameters. The obvious approach is to adjust these parameters in such a way that we get optimal results in terms of error rates or similar criteria on a representative sample. So we have made a complete cycle and have reached the starting point of the statistical modelling approach again. training data training phase & analysis of results
training criterion
refinements parameter estimates
probability model
test data
decision rule
testing phase & oerational phase
decision result
Fig. 56.1: Illustration of statistical approach to NLP.
810
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
When building an automatic system for NLP, we should try to use as much prior knowledge as possible about the task under consideration. This knowledge is used to guide the modelling process and to enable improved generalization with respect to unseen data. Therefore in a good statistical modelling approach, we try to identify the common patterns underlying the observations, i. e. to capture dependences between the data in order to avoid the pure black box concept.
3.2. The modelling task The Bayes decision rule is not constructive in the sense that the posterior probability N Pr (gN 1 K w1 ) requires some specific modelling assumptions before it can be used in practice. Generative model. As in speech recognition, the first step is to rewrite the posterior probability Pr (g1N K wN 1 ) using the identity: arg max {Pr (g1N K w1N)} Z N g1
Z arg max {Pr (g1N, w1N)} N g1
3.
POS tagging
Z arg max {Pr (g1N) · Pr (w1N K g1N)} N g1
For the task of part-of-speech (POS) assignment, statistical approaches were proposed already in the 60’s and 70’s (Stolz/Tannenbaum/Carstensen 1965; Bahl/Mercer 1976), before they started to find widespread use in the 80’s (Beale 1985; DeRose 1989; Church 1989). We will use the POS tagging task as a good opportunity to illustrate the key concepts of the statistical approach to NLP. 3.1. Bayes decision rule Knowing that a task like POS tagging is a difficult one, we want to keep the number of wrong decisions as small as possible. The resulting general concept is referred to as Bayes decision rule and is the starting point for many techniques in pattern classification (Duda/Hart 1973; Nadas 1985). For POS tagging, the starting point is the observed sequence of words w1N Z w1 ... wN, i. e. the sequence of words, for which the POS tag sequence g1N Z g1 ... gN has to be determined. In other words, the errors are counted at the sequence level and not at the level of single symbols. For this sequence level, we have the following form of the Bayes decision rule: w1N / gˆ1N Z arg max {Pr (g1N K w1N)} N
The resulting model is often referred to as generative model because we now have an explicit model for generating the observed word sequence wN 1. In the framework of information and coding theory, it is also called noisy-channel model. The approach is illustrated in Fig. 56.2. Word Sequence
Preprocessing
w N1
Global Search:
Pr (w N1 |g N1 )
Word-Tag Model
Pr (g N1 )
Word-Sequence Model
maximize Pr (g N1 ) Pr (w N1 |g N1 ) •
over g N1
Postprocessing
Tag Sequence
Fig. 56.2: Statistical approach to POS tagging.
g1
where the key ingredient is the posterior probability Pr (g1N K w1N ). Note that computing the maximizing tag sequence using this equation in the general case is not a trivial task: for a tag set of G classes and a sentence length of N words, there are GN possible POS tag sequences, e. g. 4010 y 1016 for typical values of G Z 40 and N Z 10. We will see that this computational complexity can be dramatically reduced by suitable model assumptions.
In a second step, the so-called chain rule is applied to factorize each joint probability into a product of conditional probabilities without any assumptions: N
Pr (g1N ) Z ∏ Pr (gn K g1nK1) nZ1 N
Pr (w1N K g1N ) Z ∏ Pr (wn K w1nK1, g1N) nZ1
with suitable definitions for the position n Z 1.
811
56. The statistical approach to natural language processing
So far, there has been no loss of generality. The third step is to make specific modelling assumptions by limiting the dependences to only a few of the conditioning events: Pr (gn K g1nK1) Z p (gn K g nK1 nK2) Pr (wn K w1nK1, g1N) Z p (wn K gn) For the tag sequence, we thus have arrived at a so-called second-order Markov model or trigram model. For the word-tag distribution, we make the assumption that the probability of word wn depends only on the tag gn in the same position n and on nothing else. Here and in the following, we distinguish between true probability distributions (which are typically unknown) and modelbased distributions. The notational convention is as follows. We use the symbol Pr (.) to denote general probability distributions with (nearly) no specific assumptions. In contrast, for model-based probability distributions, we use the symbol p (.). The above model is called a trigram model. For such a model, the most probable tag sequence in the Bayes decision rule can be computed efficiently by using the method of dynamic programming. We define the auxiliary quantity Qn (g#, g) as the score of the best partial tag sequence g1n with gnK1 Z g#, gn Z g. This quantity Qn (g#, g) can be viewed as a big table whose entries are computed recursively using the equation: Qn (g#, g) Z p (wn K g) · max {p (g K g$, g#) · QnK1 (g$, g#)} g$
The evaluation of this equation, i. e. the construction of the full table, requires N · G3 operations (as opposed to GN in the unrestricted case). As usual in dynamic programming, the optimal sequence is obtained by tracing back the decisions step by step. The resulting mathematical framework has a formal similarity to the so-called Hidden Markov Model (HMM). However, there is an important conceptual difference. The tag sequence is observable whereas in the Hidden Markov Model the state sequence is always hidden and cannot be observed. Direct model. Unlike the generative model, the direct model factorizes the posterior probability Pr (g1N K w1N ) directly: Pr
(g1N K w1N)
N
Z ∏ Pr nZ1
(gn K g1nK1,
w1N)
The specific assumptions now are that there is a second-order dependence for the tags
g1n and the dependence on the words w1N is limited to a window w nC2 nK2 around position n: nC1 Pr (gn K g1nK1, w1N) Z p (gn K g nK1 nK2 , w nK2)
The resulting model is still rather complex and requires further specifications. The typical procedure is to resort to log-linear modelling, which is also referred to as maximum entropy modelling (Ratnaparkhi 1996; Berger/Della Pietra/Della Pietra 1996). 3.3. The training procedure So far, we have said nothing about how we compute the model distributions. We consider the trigram-based model. The distributions p (g K g$, g#) and p (w K g) can be viewed as big tables: {p (w K g)} and {p (g K g$, g#)} whose entries are either stored as a real table in computer memory or computed on demand. The entries of these tables are the free parameters that have to be computed from a labelled training corpus, i. e. a collection of sentences where for each word the associated POS tag is given. In practice, the size of such a training corpus varies from 100 000 to 1 000 000 and more running words. In principle, the free parameters of the models are estimated as relative frequencies. Depending on how many training data are available, we might be faced with the so-called sparse data problem as it occurs typically in language modelling. Here, for tag n-grams, the sparse data problem depends on whether the training corpus is large enough to observe all n-grams that are linguistically possible. A related question is how to cope with unknown words, i. e. words that have not been seen in training. To handle these problems, we resort to smoothing methods that were developed for language modelling in speech recognition. In all these cases, the formal training criterion is the so-called maximum likelihood criterion, maybe extended by leaving-oneout or cross-validation to handle unseen events (Ney/Martin/Wessel 1997). Other training criteria like the tag posterior probability or the tag error rate do not seem to have been used so far. 3.4. Experimental results Of course, the performance of a POS tagger depends on the amount of training data. For a sufficiently large training corpus and a set of 40 POS tags, the POS error rates are most
812
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
often in the range of 3 % to 5 %. In particular, these error rates were obtained for English. For other languages, the results seem to be comparable although the effect of inflections in high inflecting languages has not been studied systematically. There are related tasks that can be tackled using the same concept: chunk parsing, named entity recognition, language understanding (Epstein/Papineni/Roukos et al. 1996; Koeling 2000; Kudo/Matsumota 2001; Macherey/ Och/Ney 2001; Zhang/Damerau/Johnson 2001). 3.5. Error criterion: symbol vs. sequence error Usually the form of the Bayes decision rule as given in Section 3.1. is taken for granted. However, for POS tagging, it can be argued that, instead of the sequence level, the level of single tag symbols should be considered because this is the level for which we compute the POS errors (Bahl/Cocke/Jelinek et al. 1974; Merialdo 1994). Using this symbol error rate as criterion, we have the Bayes decision rule for POS tag gˆn in position n: (w1N, n) / gˆn Z arg max {Prn (g K w1N)} g
In this rule, we have introduced the marginal probability distribution Prn (g K w1N ) for position n: Prn (g K w1N) : Z
∑
Pr (g1N K w1N)
gN 1 : gn Z g
where the sum is carried out over all tag sequences g1N with gn Z g, i. e. the tag gn in position n is fixed at gn Z g. For trigram-based models of the sequence posterior probability Pr (g1N K w1N), the above sum can be computed efficiently using the forward-backward algorithm (Bahl/Cocke/Jelinek et al. 1974). There is a remarkable property of this decision rule: for a given word sequence, the rule may produce a POS tag sequence which is linguistically not possible (Merialdo 1994).
4.
Machine translation
4.1. Bayes decision rule for machine translation In machine translation, the goal is the translation of a text given in a source language into a target language. We are given a source string f1J Z f1 ... fj ... fJ, which is to be translated into a target string e1I Z e1 ... ei ... eI. For
historical reasons (Brown/Della Pietra/Della Pietra et al. 1993), we use the symbols f (like French) for source words and the symbol e (like English) for target words. In this chapter, the term word always refers to a fullform word. Among all possible target strings, we will choose the string with the highest probability which is given by the Bayes decision rule (Brown/Della Pietra/ Della Pietra et al. 1993): ˆ
f1J / eˆ1I Z arg max {Pr (e1I K f1J)} I I, e 1
Z arg max {Pr (e1I) · Pr (f1J K e1I)} I I, e 1
Pr (e1I )
Here, is the language model of the target language, and Pr (f1J K e1I ) is the string translation model which will be decomposed into lexicon and alignment models. The argmax operation denotes the search problem, i. e. the generation of the output sentence in the target language. The overall architecture of the statistical translation approach is summarized in Fig. 56.3. Source Language Text
Preprocessing
f 1J
Global Search:
Pr (f J1|e 1I )
Lexicon Model
Alignment Model
maximize Pr (e 1I ) Pr (f J1 |e 1I ) •
over e 1I
Pr (e 1I )
Language Model
Postprocessing
Target Language Text
Fig. 56.3: Statistical approach to machine translation.
In general, as shown in this figure, there may be additional preprocessing steps to make the translation task simpler for the algorithm. In addition to straightforward operations, (e. g. in French des / de C les, see Fig. 56.4), these preprocessing steps may range from the categorization of single words and word groups to more complex preprocessing steps that require some parsing of the source string. We have to keep in
813
56. The statistical approach to natural language processing
though not always, there is an additional property: over large portions of the source string, the alignment is monotone. To arrive at a quantitative specification, we first define the
? proposal new the under fees collecting and administrating of cost
alignment mapping: j / i Z aj
prevu de administration et de perception de les droits ?
quel est le cout
proposition ,
En
vertu de les nouvelles
anticipated the is What
Fig. 56.4: Example of an alignment for a FrenchEnglish sentence pair.
mind that in the search procedure both the language and the translation model are applied after the text transformation steps. However, to keep the notation simple, we will not make this explicit distinction in the subsequent exposition. Related approaches. There are a number of related approaches that are also corpus-based and therefore closely related to the statistical approach: probabilistic finitestate approaches (Alshawi/Bangalore/Douglas 2000; Bangalore/Riccardi 2000; Casacuberta 2001; Vidal 1997), example-based approaches (Auerswald 2000; Richardson/ Dolan/Menezes et al. 2001; Sumita 2001), syntax-based statistical approaches (Alshawi/Xiang 1997; Wu 1997; Yamada/ Knight 2001). 4.2. Alignment and lexicon models A key issue in modelling the string translation probability Pr (f1J K e1I ) is the question of how we define the correspondence between the words of the target sentence and the words of the source sentence. In typical cases, we can assume a sort of pairwise dependence by considering all word pairs (fj, ei) for a given sentence pair (f1J; e1I ). Here, we will further constrain this model by assigning each source word to exactly one target word. Models describing these types of dependences are referred to as alignment models (Brown/Della Pietra/Della Pietra et al. 1993; Dagan/Church/Gale 1993). When aligning the words in parallel texts, we typically observe a strong localization effect. Fig. 56.4 illustrates this effect for an English-French sentence pair from the Canadian Hansard corpus. In many cases, al-
which assigns a word fj in position j to a word ei in position i Z aj. The general concept of word alignments was introduced in (Brown/Della Pietra/Della Pietra et al. 1993). Using the elementary theorems for factorizing the joint probability into a product of conditional probabilities (as in HMMs for speech recognition (Rabiner 1989)), we can rewrite the probability by introducing the ‘hidden’ alignments a1J : Z a1 ... aj ... aJ for each sentence pair (f1J ): Pr (f1J K e1I) Z ∑ Pr (f1J, a 1J K e1I) a J1
To clarify the meaning of the term ‘hidden’ in comparison with speech recognition, we note that the model states as such (representing words) are not hidden but the actual alignments, i. e. the sequence of position index pairs (j, i) with i Z aj. To draw the analogy with speech recognition, we have to identify the states (along the vertical axis) with the positions i of the target words ei and the time (along the horizontal axis) with the positions j of the source words fj. We can decompose the probability distribution Pr (f1J, a1J K e1I ) as follows: Pr (f1J, a1J K e1I) Z Z Pr (J K e1I) · Pr (f1J , a1J K e1I, J) J
Z Pr (J K e1I) · ∏ [Pr (fj, aj K a1
jK1
jZ1 J
Z Pr (J K e1I) · ∏ [Pr (aj K a1
jK1
jZ1
jK1
· Pr (fj K f1
jK1
, e1I, J)]
, f1
jK1
, f1
, e1I, J) ·
j
, a1 , e1I, J)]
The above formulation does not make any assumptions about the dependences in the probability distribution and results in three distributions which need further specifications: the length model Pr (J K e1I ), the alignment model Pr (aj K a1jK 1, f1jK 1, e1I , J) and the lexicon model Pr (fj K f1jK 1, a1j , e1I , J). These models are too general to be used directly and, in the following, we will limit the dependences in these models. We will consider two approaches to alignment modelling in
814
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
more detail, namely Hidden Markov Models and inverted alignment models. The first approach to alignment modelling will be based on Hidden Markov Models (HMM) as they have been used successfully in speech recognition for a long time (Jelinek 1997, chapter 2), (Rabiner/ Juang 1993, chapter 6). Thus the alignment mapping in translation is similar to the time alignment path (or state sequence) in speech recognition. By looking at real alignments for sentence pairs, it is evident that the mathematical model should try to capture the strong dependence of aj on the preceding alignment. Therefore, when simplifying the dependences in the alignment model, we would like to retain the dependence of Pr (aj K ·) on the position ajK1 of the immediate predecessor. Thus we obtain the alignment model: jK1
jK1
Pr (aj K a1 , f1 , e1I, J) : Z p (aj K ajK1, I, J) where we also have retained the dependence on the length J of the observed source sentence and the length I of the hypothesized target sentence. For the lexicon model Pr (fj K ·), we make the assumption that the dependence is limited to the target word ei with i Z aj, i. e. eaj, and nothing else: jK1
Pr (fj K f1
j
, a1, e1I , J) : Z p (fj K e{aj})
Finally, for the length model Pr (J K ·), we assume a dependence on the length I of the target sentence e1I , only: Pr (J K e1I ) : Z p (J K I) We mention that the length model has been included for the sake of completeness and is not very important in practice. In speech recognition, there is typically no length model. Instead, a special symbol for sentence end is added to the vocabulary. To render the alignment probability independent of absolute positions and also to reduce the number of alignment parameters (Dagan/Church/Gale 1993; Och/Ney 2002), we assume that the alignment probabilities p (aj K ajK1, I, J) depend only on the jump width (aj K ajK1) and nothing else: jK1
Pr (aj K a1
jK1
, f1
, e1I, J) Z p (aj K ajK1, I, J) q (aj K ajK1) :Z I ∑ q (i K ajK1) iZ1
with a non-negative table q (∆i) with ∆i b aj K ajK1, which has to be estimated from the bilingual training corpus (like all free parameters of the other models introduced). Instead of first-order dependences, we can also consider simple zero-order dependences which result in the so-called models IBM-1 and IBM-2 (Brown/Della Pietra/ Della Pietra et al. 1993; Och/Ney 2002). Although these models are less powerful, they will be helpful in the automatic training for initialization purposes (see later). For the purpose of generating the unknown target sentence, it is more convenient to invert the direction of the alignments, i. e. to consider a mapping from the target positions i to the source positions j: inverted alignment mapping: i /j Z bi which in (Brown/Della Pietra/Della Pietra et al. 1993) is referred to as distortion model. For space limitations, we can give only a simplified description of these models. To obtain these models, we assume that the probability distribution Pr (f1J, a1J K e1I ) is the result of a process consisting of three steps, each of which involves a (simple) probability distribution. The first step is the selection of a fertility φi for each (hypothesized) target word ei, i Z 1, ..., I, i. e. the number of source words corresponding to ei. The resulting model is referred to as model IBM-3. In the next step, for each target word ei, we generate the set of associated source words f according to the fertility φi, where the (final) positions are not specified yet. In the third step, the source words are permuted so that the observed sequence f1J is produced. The main advantage of the above interpretation is that, as we will see later, it is better suited for a search strategy that builds up partial string hypotheses e1i over target positions i Z 1, ..., I. For this inverted alignment b1I : Z b1, ..., bi, ..., bI, we assume a first-order dependence as for the HMM: p (bi K biK1, fbi, eiK1) Here, there is an additional dependence on the word context that is captured by the source word fj in position j Z bi and the target word eiK1. To really apply the above probability model, several refinements are needed. First, we must take into account that the fertility of word ei in position i may be different from 1. E. g. for a fertility larger than 1, several positions on the target axis j
815
56. The statistical approach to natural language processing
have to be produced. Second, the dependence on biK1 does not use the absolute positions, but only relative positions. Thus, we have a dependence on the ‘jump width’ ∆j Z bi K biK1 along the source axis j as for the homogeneous HMM along the target axis i. Third, to reduce the number of free parameters, the dependence on the words fbi and eiK1 is replaced by a dependence on the corresponding part-of-speech or word classes (Brown/Della Pietra/deSouza et al. 1992; Kneser/Ney 1993; Och 1999). The resulting approach is referred to as model IBM-4. Remarkably enough, the model IBM-4 is not normalized (as each probability distribution should be) because it puts probability mass on events that can never occur (for more details see (Brown/Della Pietra/Della Pietra et al. 1993)). From the model IBM-4, we obtain the model IBM-5 by enforcing the strict normalization of the probabilities. Although some of the above models take one-to-many alignments explicitly into account, the lexicon probabilities p (f K e) are still based on single words in each of the two languages. The lexicon model presented so far is very simple. In reality, the translation of a word may depend on the details of the word context. To capture these types of dependences, approaches for handling word groups or phrases were introduced (Och/ Tillmann/Ney 1999). In addition, maximum entropy models were proposed (Berger/ Della Pietra/Della Pietra 1996; GarciaVarea/Och/Ney et al. 2001). 4.3. The training procedure The free parameters of the probability distributions introduced are estimated from a corpus of bilingual sentence pairs. The training criterion is the maximum likelihood criterion. Since the models that have been introduced are complex, the training algorithms can guarantee only local convergence. In order to mitigate the problems with poor local optima, we apply the concept presented in (Brown/Della Pietra/Della Pietra et al. 1993). The training procedure is started with a simple model for which the problem of local optima does not occur or is not critical. In particular, the model IBM-1 has the advantage that it has only a single optimum and thus convergence problems cannot exist (Brown/Della Pietra/Della Pietra et al. 1993). The parameters of the simple model are then used to initialize the
training procedure of a more complex model. In such a way, a series of models with increasing complexity can be trained (Och/ Ney 2002). The training procedure is based on the maximum likelihood criterion, which however can be used only in an iterative way. For the models IBM-1, IBM-2 and HMM, this is the so-called expectation-maximization (EM) algorithm for which a closed-form solution is available within each iteration (Baum 1972). For the other models, namely IBM-3, IBM-4 and IBM-5, this is not the case anymore, and even within each iteration, numerical approximations have to be used (Brown/Della Pietra/Della Pietra et al. 1993; Och/Ney 2002). In systematic experiments, it was found that the quality of the alignments determined from the bilingual training corpus has a direct effect on the translation quality (Och/Ney 2002). By exchanging the role of target and source language in the training procedure, it was found that the quality of the alignments could be significantly improved. From a general point of view, the alignments can be interpreted as a method for finding words or word groups that are equivalent in source language and target language. After these equivalences have been found, they may be modelled in various, data-driven approaches to build a translation system. The language model Pr (e1I ) will be based on a trigram or, in the general case, an ngram approach as in speech recognition that is typically smoothed to counteract the sparse data problem. 4.4. The decision rule: generation process The task of the search algorithm is to generate the most likely target sentence e1I of unknown length I for an observed source sentence f1J. The search must make use of all three knowledge sources as illustrated by Fig. 56.5: the alignment model, the (bilingual) lexicon model and the language model. All three of them must contribute in the final decision about the words in the target language. To illustrate the specific details of the search problem, we will consider inverted alignments of the following form: B : i / Bi 3 {1, ..., j, ..., J} where several positions in the source language correspond to a single position in the target language. For this inverted alignment
816
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
mapping with sets Bi of source positions, we again assume a sort of first-order model: SENTENCE IN SOURCE LANGUAGE
PREPROCESSING
ALIGNMENT MODEL
WORD RE-ORDERING
ALIGNMENT HYPOTHESES
BILINGUAL LEXICON
LEXICAL CHOICE
WORD + POSITION HYPOTHESES
LANGUAGE MODEL
SYNTACTIC AND SEMANTIC ANALYSIS
SENTENCE HYPOTHESES
SEARCH: INTERACTION OF KNOWLEDGE SOURCES
KNOWLEDGE SOURCES
POSTPROCESSING
SENTENCE GENERATED IN TARGET LANGUAGE
Fig. 56.5: Generation process in statistical machine translation.
p (Bi K BiK1, eiK1) where we have dropped the dependence on I and J. To keep the presentation simple, we do not include the case of zero fertility. We replace the sum over all alignments by the best alignment, which is referred to as maximum approximation in speech recognition. Using iK 1 a trigram language model p (ei K e iK2 ), we obtain the following decision rule for generatˆ ing the unknown target sentence eˆ1I of unknown length Iˆ: ˆ
f1J / eˆ1I Z
{
I
iK1 Z arg maxI p (J K I) · ∏ p (ei K eiK2 ) I, e 1 I
iZ1
· max ∏ (p (Bi K BiK1, eiK1) · I B1
iZ1
}
∏ p (fi K ei))
j2Bi
As illustrated in Fig. 56.5, this decision rule and the associated generation process for the target sentence capture the interaction of the three probabilistic knowledge sources that govern the translation process: the tariK 1 get language model p (ei K e iK2 ), the align-
ment model p (Bi K BiK1, eiK1) and the lexicon model p (fj K ei). An important constraint for the alignment is that all positions of the source sentence should be covered exactly once. This constraint is similar to that of the travelling salesman problem where each city has to be visited exactly once (Knight 1999). This problem can be tackled by dynamic programming (Tillmann/Ney 2000), but the resulting time complexity is still exponential in the length of the source sentence. To reduce the complexity, typically additional constraints are imposed on how to re-order the words of the source sentence. Even after these simplifications, a full search is prohibitive, and heuristic search techniques are used where only the most promising candidates for target sentences are considered. Typically, these heuristic search techniques try to build up hypotheses of partial target sentences e1i of increasing length i (Och/ Ueffing/Ney 2001). More details on various search strategies can be found in (Berger/ Brown/Cocke et al. 1994; Ney/Nießen/Och et al. 2000; Och/Ueffing/Ney 2001; Tillmann/ Ney 2000; Wang/Waibel 1997). The experimental results show that a socalled beam search strategy tends to be the most efficient strategy. Here, partial sentence hypotheses in the target language are generated in a fashion that is quasi synchronous with respect to the positions of the source sentence (Tillmann/Ney 2000; Och/ Ueffing/Ney 2001). The spirit of this strategy is very similar to beam search in speech recognition (Ney/Ortmanns 2000). 4.5. Experimental results The first statistical system for machine translation was the Candide system by IBM research (Berger/Brown/Cocke et al. 1994). Here, we will consider experimental results that were obtained in two recent large-scale evaluations: the Verbmobil evaluation for spoken language translation and the NIST evaluation for translation of Chinese news texts. Verbmobil. The goal of the Verbmobil project (Wahlster 2000) was the translation of spoken dialogues in the domains of appointment scheduling and travel planning. In a typical situation, a native German speaker and a native English speaker conduct a dialogue where they can only interact by speaking and listening to the Verbmobil system. Whereas a large number of offline evaluations had been performed for differ-
817
56. The statistical approach to natural language processing
ent versions of the statistical approach to optimize and tune the system, the most important evaluation was the final evaluation of the Verbmobil prototype in spring 2000. This end-to-end evaluation of the Verbmobil system was performed at the University of Hamburg (Tessiore/Hahn 2000). In addition to the statistical approach, four other translation approaches had been integrated into the Verbmobil system and were evaluated: K a classical transfer approach (Emele/ Dorna/Ludeling et al. 2000), which is based on a manually designed analysis grammar, a set of transfer rules, and a generation grammar, K a dialogue act based approach (Reithinger/Engel 2000), which amounts to a sort of slot filling by classifying each sentence into one out of a small number of possible sentence patterns and filling in the slot values, K an example-based approach (Auerswald 2000), where a sort of nearest neighbour concept is applied to the set of bilingual training sentence pairs after suitable preprocessing, K a substring method (Block 2000), whose spirit is similar to the alignment template method used for statistical translation and which makes use of the alignments produced by the statistical approach. For training, each of the translation approaches had access to a set of about 58 000 German-English sentence pairs (resulting in about 550 000 running words for each of the two languages) that had been collected as examples of spoken dialogues for the Verbmobil task. The vocabulary size was about 11 000 words for German and 7 000 words for English. In the final end-to-end evaluation, human evaluators judged the translation quality for each of the four translation results using the following criterion: Is the sentence approximatively correct: yes/no? The evaluators were asked to pay particular attention to the semantic information (e. g. date and place of meeting, participants etc.) contained in the translation. A missing translation as it may happen for the transfer approach or other approaches was counted as wrong translation. The evaluation was based on 5069 dialogue turns for the translation from German to English and on 4136 dialogue turns for the translation
from English to German. The speech recognizers used had a word error rate of about 25 %. The overall sentence error rates, i. e. resulting from recognition and translation, are summarized in Table 56.1. As we can see, the error rates for the statistical approach are smaller by a factor of about 2 in comparison with the other approaches. Table 56.1: Sentence error rates of Verbmobil end-to-end evaluation (speech recognizer with WER Z 25 %; corpus of 5069 and 4136 dialogue turns for translation from German to English and from English to German, respectively (Tessiore/ Hahn 2000, pp. 629/630); * belated and partial evaluation only). Translation Method
Error [%]
Semantic Transfer Dialogue Act Based Example Based Substring Method Statistical
62 60 52 *33 29
In agreement with other evaluation experiments, these experiments show that the statistical modelling approach may be comparable to or better than the conventional rule-based approach. In particular, the statistical approach seems to have the advantage if robustness is important, e. g. when the input string is not grammatically correct or when it is corrupted by recognition errors. NIST Chinese News. The second evaluation we are reporting on took place in the framework of a DARPA-sponsored project that started about two years ago and in which mainly statistical systems were developed for the translation from Chinese into English (and of Arabic into English) (NIST 2002a). The research groups involved are CMU (Carnegie Mellon University), ISI/ USCLA (University of Southern California in Los Angeles) and IBM Research. In addition to these research groups, also external research groups participated in the evaluation; among them were the Systran research group (whose system had been optimized over a long period of time), Microsoft Research, the Chinese Academy of Sciences and the RWTH translation group. The evaluation was performed on Chinese news text. For training, there was a bilingual corpus of about 30 million running words in Chinese and English. The vocabulary size for the training corpus was about 50 000 words for English and 90 000 words for Chi-
818
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
nese. The evaluation measure was based on an extension of an automatic measure developed by the IBM group (NIST 2002b; Papineni/Roukos/Ward et al. 2001); it makes use of permutations of word n-grams and compares the output of the translation system with one or several reference translations. A summary of the results is shown in Table 56.2. The evaluation scores are not normalized; higher values are better. In this table, the RWTH system has the highest score. Table 56.2: NIST scores (‘higher values are better’) of June 2002 evaluation of systems for Chinese-to-English news translation (NIST 2002a). Translation Method
NIST score
RWTH’s research system other research systems best of 6 commercial systems
7.7K8.1 5.0K7.3 6.1
Of course, it might be questionable whether the evaluation criterion is sufficiently exact to give a detailed ranking of the various systems. Nevertheless, this evaluation produced the important result that the statistical translation systems are competitive with conventional systems (like Systran and the commercial systems). This success is remarkable because the statistical systems were built up with a relatively limited effort, whereas the conventional systems had been developed over a longer period of time and with a substantial amount of effort.
5.
Conclusion
In conclusion, the statistical approach does not solve the problems of NLP by itself, but defines a basis on which we can find the solutions to the problems. In contradiction to a widely held belief, a statistical approach very well requires a task-specific model, and statistics helps us to make the best of a given model. Since undoubtedly decisions are required to generate an output in an NLP task, it can only be a rhetoric question of whether we should use statistical decision theory at all. To make a comparison with another field: in constructing a power plant, it would be foolish to ignore the principles of thermodynamics! We want to make this point crystal clear: The characteristic property of the statistical approach to NLP tasks is not the use of Mar-
kov models, hidden alignments or the EM algorithm. These methods are only the timehonoured methods and successful methods of today. The characteristic property lies in the systematic use of probability models, in the statistical training of the free parameters of these models and in an explicit decision rule for generating the output of the NLP task.
6.
Literature (a selection)
Alshawi, H./Xiang, F. (1997), English-to-Mandarin Speech Translation with Head Transducers. In: Spoken Language Translation Workshop, Ass. for Computational Linguistics, Madrid, Spain, 54K 60. Alshawi, H./Bangalore, S./Douglas, S. (2000), Learning Dependency Translation Models as Collection of Finite-State Head Transducers. In: Computational Linguistics, Vol. 26, No. 1, 45K60. Auerswald, M. (2000), “Example-based Machine Translation with Templates”. In: (Wahlster 2000), 418K427. Aust, H./Ney, H. (1998), Evaluating Dialog Systems Used in the Real World. In: IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Seattle, WA, 10531056, 1053K1056. Bahl, L./Cocke, J./Jelinek, F./Raviv, J. (1974), Optimal Decoding of Linear Codes for Minimizing Symbol Error Rate. In: IEEE Trans. on Information Theory, Vol. 20, 284K287. Bahl, L. R./Mercer, L. R. (1976), Part of Speech Assignment by a Statistical Decision Algorithm. In: IEEE Symposium on Information Theory, Ronneby, Sweden, Abstract 88K89. Bangalore, S./Riccardi, G. (2000), Finite-State Models for Lexical Reordering in Spoken Language Translation. In: Int. Conf. on Spoken Language Processing, Bejing, China, Vol. IV, 422K 425. Baum, L. E. (1972), An Inequality and Associated Maximization Technique in Statistical Estimation of a Markov Process. In: Inequalities, Vol. 3, No. 1, 1K8. Beale, A. D. (1985), A Probabilistic Approach to Grammatical Analysis of Written English by Computer. In: 2nd Conf. of the European Chapter of the ACL, Geneva, Switzerland, 159K169. Berger, A. L./Brown, P. F./Cocke, J./Della Pietra, S. A./Della Pietra, V. J./Gillett, J. R./Lafferty, J. D./Mercer, R. L./Printz, H./Ures, L. (1994), The Candide System for Machine Translation. In: ARPA Human Language Technology Workshop, Plainsboro, NJ (Morgan Kaufmann Publishers, San Mateo, CA), 152K157. Berger, A. L./Della Pietra, S./Della Pietra, V. (1996), A Maximum Entropy Approach to Natu-
56. The statistical approach to natural language processing ral Language Processing. In: Computational Linguistics, Vol. 22, No. 1, 39K71. Block, U. (2000), “Example-based Incremental Synchronous Interpretation”, In: (Wahlster 2000), 411K417. Breiman, L./Friedman, J. H./Ohlsen, R. A./Stone, C. J. (1984), Classification And Regression Trees. Belmont: Wadsworth. Brown, P. F./Della Pietra, S. A./Della Pietra, V. J./ Mercer, R. L. (1993), Mathematics of Statistical Machine Translation: Parameter Estimation. In: Computational Linguistics, Vol. 19, No. 2, 263K 311. Brown, P. F./Della Pietra, V. J./deSouza, P. V./Lai, J. C./Mercer, R. L. (1992), Class-based n-gram Models of Natural Language. In: Computational Linguistics, Vol. 18, No. 4, 467K479. Casacuberta, F. (2001), Finite-State Transducers for Speech Input Translation. In: IEEE Automatic Speech Recognition and Understanding Workshop, Madonna di Campiglio, Italy, 8 pages, CD ROM, IEEE Catalog No. 01EX544. Chomsky, N. (1969), „Quine’s Empirical Assumptions“, In: D. Davidson, J. Hintikka (eds.): Words and Objections. Essays on the Work of W. V. Quine. Dordrecht: Reidel. Church, K. W. (1989), A Stochastic Parts Program Noun Phrase Parser for Unrestricted Text. In: IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Glasgow, Scotland, 695K698. Dagan, I./Church, K./Gale, W. A. (1993), Robust Bilingual Word Alignment for Machine-Aided Translation. In: Workshop on Very Large Corpora, Columbus, OH, 1K8. DeRose, S. (1989), Grammatical Category Disambiguation by Statistical Optimization. In: Computational Linguistics, Vol. 14, No. 1, 31K39. Duda, R. O./Hart, P. E. (1973), Pattern Classification and Scene Analysis. New York: John Wiley & Sons. Efron, B./Tibshirani, R. J. (1993), An Introduction to the Bootstrap. New York: Chapman & Hall. Emele, M. C./Dorna, M./Lüdeling, A. L./Zinsmeister, H./Rohrer, C. (2000), “Semantic-based Transfer”, In: (Wahlster 2000), 359K376. Epstein, M./Papineni, K./Roukos, S./Ward, T./ Della Pietra, S. (1996), Statistical Natural Language Understanding Using Hidden Clumpings. In: IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Atlanta, GA, Vol. I, 176K179. García-Varea, I./Och, F. J./Ney, H./Casacuberta, F. (2001), Refined Lexicon Models for Statistical Machine Translation using a Maximum Entropy Approach. In: 39th Annual Meeting of the Assoc. for Computational Linguistics, Toulouse, France, 204K211. Gorin, A. L./Riccardi, G./Wright, J. H. (1997), How May I Help You? In: Speech Communication, Vol. 23, 113K127.
819
Jelinek, F. (1976), Speech Recognition by Statistical Methods. In: Proceedings of the IEEE, Vol. 64, 532K556. Jelinek, F. (1997), Statistical Methods for Speech Recognition. Cambridge: MIT Press. Kneser, R./Ney, H. (1993), Improved Clustering Techniques for Class-Based Statistical Language Modelling. In: Europ. Conf. on Speech Communication and Technology, Berlin, Germany, 973K 976. Knight, K. (1999), Decoding Complexity in WordReplacement Translation Models. In: Computational Linguistics, No. 4, Vol. 25, 607K615. Koeling, R. (2000), Chunking with Maximum Entropy Models. In: 4th Conf. on Computational Language Learning and 2nd Learning Language in Logic Workshop, Lisbon, Portugal, 139K141. Kudo, T./Matsumoto, Y. (2001), Chunking with Support Vector Machines. In: 2nd Meeting of the North American Chapter of the Ass. for Computational Linguistics, Pittsburgh, PA. Macherey, K./Och, F. J./Ney, H. (2001), Natural Language Understanding Using Statistical Machine Translation. In: European Conf. on Speech Communication and Technology, Aalborg, Sweden, 2205K2208. Merialdo, B. (1994), Tagging English Text with a Probabilistic Model. In: Computational Linguistics, Vol. 20, No. 2, 155K168. Nadas, A. (1985), Optimal Solution of a Training Problem in Speech Recognition. In: IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-33, 326K329. Naumann, S. (2003), Probabilistic Parsing. This volume; see article 59. Ney, H. (1995), On the Probabilistic Interpretation of Neural Net Classifiers and Discriminative Training Criteria. In: IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. PAMI-17, No. 2, 107K119. Ney, H./Martin, S./Wessel, F. (1997), Statistical Language Modelling by Leaving-One-Out, In: G. Bloothooft, S. Young (eds.): Corpus-Based Methods in Speech and Language, Dordrecht: Kluwer Academic Publishers, 174K207. Ney, H./Nießen, S./Och, F. J./Tillmann, C./Sawaf, H./Vogel, S. (2000), Algorithms for Statistical Translation of Spoken Language. In: IEEE Trans. on Speech and Audio Processing, Special Issue on Language Modeling and Dialogue Systems, Vol. 8, No. 1, 24K36. Ney, H./Ortmanns, S. (2000), Progress in Dynamic Programming Search for LVCSR. In: Proceedings of the IEEE, Vol. 88, No. 8, 1224K1240. Ney, H./Steinbiss, V./Haeb-Umbach, R./Tran, B.-H./Essen, U. (1994), An Overview of the Philips Research System for Large-Vocabulary Continuous-Speech Recognition. In: Int. Journal of
820
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Pattern Recognition and Artificial Intelligence, Vol. 8, No. 1, 33K70. NIST (Z National Institute of Standards and Technology) evaluation conditions: http://www. nist.gov/speech/tests/mt/mt2001/resource/, 2002. NIST (Z National Institute of Standards and Technology) scoring: http://www.nist.gov/speech/ tests/mt/doc/ngram-study.pdf, 2002. Och, F. J. (1999), An Efficient Method to Determine Bilingual Word Classes. In: 9th Conf. of the Europ. Chapter of the Assoc. for Computational Linguistics, Bergen, Norway, 71K76. Och, F. J./Ney, H. (2002), A Systematic Comparison of Various Alignment Models. In: Computational Linguistics, in press, 2003. Och, F. J./Tillmann, C./Ney, H. (1999), Improved Alignment Models for Statistical Machine Translation. In: Joint SIGDAT Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora, University of Maryland, College Park, MD, 20K28. Och, F. J./Ueffing, N./Ney, H. (2001), An Efficient A* Search Algorithm for Statistical Machine Translation. In: Data-Driven Machine Translation Workshop, 39th Annual Meeting of the Assoc. for Computational Linguistics, Toulouse, France, 55K 62. Papineni, K./Roukos, S./Ward, T./Zhu, W.-J. (2001), BLEU: A Method for Automatic Evaluation of Machine Translation. IBM Research Report, 8 pages, Yorktown Heights, NY. Pieraccini, R./Levin, E./Vidal, E. (1993), Learning How to Understand Language. In: European Conf. on Speech Communication and Technology, Berlin, Germany, 1407K1412. Rabiner, L. R. (1989), A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In: Proceedings of the IEEE, Vol. 77, No. 2, 257K286. Rabiner, L. R./Juang, B. H. (1993), Fundamentals of Speech Recognition. Englewood Cliffs: Prentice Hall. Ratnaparkhi, A. (1996), A Maximum Entropy Model for Part-of-Speech Tagging. In: Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora, Sommerset, NJ, 133K 142. Reithinger, N./Engel, R. (2000), “Robust Content Extraction for Translation and Dialog Processing”, In: (Wahlster 2000), 428K437.
Richardson, S. D./Dolan, W. D./Menezes, A./ Corston-Olivier, M. (2001), Overcoming the customization bottleneck using example-based MT. In: Data-Driven Machine Translation Workshop, 39th Annual Meeting of the Assoc. for Computational Linguistics, Toulouse, France, 9K16. Schlüter, R./Macherey, W./Müller, B./Ney, H. (2001), Comparison of Discriminative Training Criteria and Optimization Methods for Speech Recognition. In: Speech Communication, Vol. 34, 287K310. Stolz, W. S./Tannenbaum, P. H./Carstensen, F. V. (1965), Stochastic Approach to the Grammatical Coding of English. In: Communications of the ACM, Vol. 8, 399K405. Sumita, E. (2001), Example-based Machine Translation using DP-Matching between Word Sequences. In: Data-Driven Machine Translation Workshop, 39th Annual Meeting of the Assoc. for Computational Linguistics, Toulouse, France, 1K8. Tessiore, L./v. Hahn, W. (2000), “Functional Validation of a Machine Translation System: Verbmobil”, In: (Wahlster 2000), 611K631. Tillmann, C./Ney, H. (2000), Word Re-ordering in a DP-based Approach to Statistical MT. In: Int. Conf. on Computational Linguistics, Saarbrücken, Germany, 850K856. Vidal, E. (1997), Finite-State Speech-to-Speech Translation. In: IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Munich, Germany, 111K114. Wahlster, W. (Ed.) (2000) Verbmobil: Foundations of Speech-to-Speech Translation. Berlin: Springer-Verlag. Wang, Y.-Y./Waibel, A. (1997), Decoding Algorithm in Statistical Translation. In: 35th Annual Conf. of the Assoc. for Computational Linguistics, Madrid, Spain, 366K372. Wu, D. (1997), Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora. In: Computational Linguistics, Vol. 23, No. 3, 377K403. Yamada, K./Knight, K. (2001), A Syntax-based Statistical Translation Model. In: Annual Meeting of the Ass. for Computational Linguistics, Toulouse, France, 523K530. Zhang, T./Damerau, F./Johnson, D. (2001), Text Chunking using Regularized Winnow. In: 39th Annual Meeting of the Association for Computational Linguistics, Toulouse, France, 539K546.
Hermann Ney, Aachen (Germany)
821
57. Machine learning of natural language
57. Machine learning of natural language 1. 2. 3. 4. 5. 6. 7.
Introduction The empirical revolution in Natural Language Processing Learning from examples Memory-based learning Decision tree and rule induction Discussion Literature (a selection)
1.
Introduction
In this article we provide an overview of recent research on the application of symbolic Machine Learning techniques to language data (Machine Learning of Natural Language, MLNL). Both in Quantitative Linguistics (QL) and in MLNL, the main goal is to describe the language as it is observed with rules, language models, or other descriptions. But whereas the motivation in QL is purely scientific (establishing the laws and mathematical properties of language), the motivation in MLNL is partly pragmatic: increasing the accuracy and efficiency of Natural Language Processing (NLP) systems, or the speed with which they can be built. Nevertheless, the extracted generalizations can provide worthwhile insight into the language task being studied in an MLNL framework. There are different ways in which the algorithmic acquisition of language knowledge and behavior is studied. We cannot possibly discuss all this relevant work in the context of this article. One important area of research that will be omitted in this overview is the computational modeling of human language acquisition using statistical, machine learning or neural network methods (McClelland/Rumelhart 1986; Brent 1996; Broeder/Murre 2000). Salient modeling results in this area include the learning of word meaning (Siskind 1996; Resnik 1996), finding structure in sequences (Elman 1990), bootstrapping word segmentation (Brent/Cartwright 1996), and setting parameters in a principles and parameters approach (Niyogi/Berwick 1994; Dresher/ Kaye 1990) as well as empiricist alternatives to the latter approach (MacWhinney/Leinbach 1991; Gillis/Durieux/Daelemans et.al. 1993; Gillis/Durieux/Daelemans 1995). The development of algorithms for the inference of formal grammars from (mostly artificial) language data is another relevant
area of research that will not be covered in this article. See Honavar and Slutzki (1998) for a collection of research in this area. We restrict our overview here to language learning in the context of Natural Language Processing and Computational Linguistics. We first provide a brief introduction to the ‘empirical revolution’ in NLP, and the increased attention for Machine Learning (ML) methods that followed it. Then we provide a general model of ML, and a taxonomy and overview of the main learning algorithms. We then restrict our attention to two main classes of symbolic ML methods applied to NLP (memory-based learning and rule learning), explain how they work, and describe some representative applications to language processing problems.
2.
The empirical revolution in Natural Language Processing
Natural Language Processing (NLP) studies the knowledge representation and problem solving issues involved in learning, producing, and understanding language. Although the origins of NLP are both knowledgebased and statistical, as in other disciplines of Artificial Intelligence, the knowledgebased approach has historically dominated this field. This has resulted in an emphasis on logical semantics for meaning representation, on the development of grammar formalisms (especially lexicalist unification grammars), and on the design of associated parsing methods and lexical representation and organization methods. Well-known textbooks provide an overview of this approach (Gazdar/Mellish 1989; Allen 1995). From the early nineties onwards, empirical methods based on corpus-based statistics, have gradually been re-introduced in the field, and have started to dominate it by the start of this century, as can be seen from the number of papers subscribing to this approach in computational linguistics journals and conference proceedings. There are many reasons for this. Firstly, computer processing and storage capabilities have advanced to such an extent that statistical pattern recognition methods have become feasible on the large amounts of text and speech data that are now available in electronic form. Secondly, there has been an in-
822
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
crease of interest within NLP (prompted by application-oriented and competitive funding) for the development of methods that scale well and can be used in real applications without requiring a complete syntactic and semantic analysis of text. Finally, simple statistical methods have been enormously successful in speech technology and information retrieval, and have therefore been applied to NLP as well. See Brill and Mooney (1998) and Church and Mercer (1993) for overviews of this empirical ‘revolution’ in NLP. The maturity of the approach is borne out by the publication of a few recent textbooks (Charniak 1993; Manning/ Schütze 1999). Comparing these empirical methods to the knowledge-based approach, it is clear that the former have a number of advantages. In general, statistical approaches have a greater coverage of syntactic constructions and vocabulary, they are more robust (graceful degradation), they are reusable for different languages and domains, and development times for making applications and systems are shorter. On the other hand, knowledge-based methods allow the incorporation of linguistic knowledge and sophistication, making them sometimes more precise. Three crucial problems for (statistical) empirical methods are (i) the sparse data problem: often not enough data is available to estimate the probability of (low-frequency) events accurately, (ii) the relevance problem: it is often difficult to estimate reliably the importance or relevance of particular statistical events for the solution of the NLP problem, and (iii) the interpretation problem: most statistical techniques do not provide insight into how a trained statistical system solves a task. The last few years have witnessed an increase of the use of machine learning methods in NLP. Some of these methods were created from within NLP (e. g. transformation-based error driven learning (Brill 1992), other techniques were imported from Machine Learning into NLP; e. g. induction of decision trees and rules (Quinlan 1993; Cohen 1995), inductive logic programming (Lavrac/Dzeroski 1994), memory-based learning (Aha/Kibler/Albert 1991), and support vector machines (Vapnik 1995). Machine Learning (ML) is the sub-discipline of Artificial Intelligence (AI) that studies algorithms that can learn either from experience or by reorganizing the knowledge they al-
ready have. See Langley (1996) and Mitchell (1997) for introductory material, Weiss and Kulikowski (1991) for methodological issues, and Natarajan (1991) for a formal-theoretical approach. There are also several recent collections of papers on Machine Learning applied to Natural Language (Wermter/Riloff/Scheler 1996; Brill/Mooney 1998; Daelemans/Weijters/Van den Bosch 1997; Cardie/Mooney 1999). Machine learning methods hold promise for solving the problems with statistical methods noted earlier. They incorporate new methods for smoothing data to solve sparse data problems and for assigning relevance to linguistic data, they allow the incorporation of linguistic background knowledge, and what they have learned is to a certain extent interpretable.
3.
Learning from examples
In the machine learning algorithms we will discuss here, learning works by extracting generalizations from a set of examples of a desired input-output mapping. For example, for learning the generalizations involved in predicting the right plural suffix for a German noun, several examples of nouns (described in terms of their phonology, lexical information such as gender, etc.) with their corresponding plural suffix would be given. The relations between input (typically a feature vector, here the properties of German nouns) and output (typically a symbol, here the plural suffix), implicit in these examples, are discovered by the algorithm, and are used to predict the correct output when presented with a new, previously unseen, input pattern. In other words, the algorithm classifies a new input pattern as belonging to a particular output category. A machine learning algorithm trained on a particular set of data is therefore called a classifier. This type of learning is often called supervised learning, and is contrasted with unsupervised learning, where examples are presented without information about the desired output. It is then up to the system to find similarities in the examples in such a way that they can be exploited in solving the task. We will not discuss unsupervised learning any further here. Many problems in NLP, especially disambiguation problems, can be formulated as classification tasks (Magerman 1994; Daele-
823
57. Machine learning of natural language Tab. 57.1: Tagging as a mapping from sentences to tag strings. Input John
Output will
join
The
board
Name
Modal
Verb
Determiner
Noun
Tab. 57.2: Tagging as a mapping from focus words with context to tags. Left Context
Focus
Right Context
Class
Z Z John will join
John will join the board
will join the board Z
Name Modal Verb Determiner Noun
Z John will join the
mans 1995; Cardie 1994). As an example, consider morphosyntactic disambiguation (part of speech tagging): learning the assignment of the contextually and lexically most probable word class of a word in context. E.g., in the old man the boats, context dictates that old is an adjective, and man a verb, contrary to what would be predicted by looking only at the lexical probabilities of these combinations of word and word class. This type of word class disambiguation has become a benchmark problem for learning approaches to NLP. An overview of machine learning work for tagging can be found in Daelemans (1999a). In morphosyntactic word class tagging, abbreviated tagging from here, a sentence should be mapped into a string of morphosyntactic tags (Table 57.1). By approximating this mapping with a function from a focus word and its context to the disambiguated tag belonging to the focus word in that context (Tab. 57.2), the mapping becomes a classification task amenable to Machine Learning approaches. Of course, instead of (only) the words in the context, more information would be added in real experiments: e. g. varying sizes of context, morphological, syntactic, or any other available linguistic information. It is easy to see how similar classification tasks can be set up for other NLP problems such as word sense disambiguation, term translation, morphology, etc. Even parsing can be handled this way by cascading different partial systems such as a tagger, a constituent finder, and a classifier disambiguating possible relations between constituents. In all these cases we have some focus unit (letter, word, constituent) and a representation of its context as features, and a unit at another linguistic level as output class.
Join The Board Z Z
3.1. Machine learning Conceptually, a learning system consists of a performance component which achieves a specific task (given an input, it produces an output), and a learning component which modifies the performance component on the basis of its experience in such a way that performance of the system in doing the same or similar tasks improves. As we have seen, examples take the form of pairs of inputs with their associated desired output. To achieve its task, the performance component uses an internal representation. The task of the learning component may therefore be construed as a search in the space of possible representations (often called the hypothesis space) for a representation that is optimal for performing the mapping. In this article, we will consider among others decision trees, rules, and case bases as types of languages/formalisms for internal representations for language processing. In most cases, finding the optimal representation given a set of examples and a representation language is computationally intractable. Some form of heuristic search is therefore used by all learning systems. In Machine Learning, the concept of bias refers to constraints on this search process. These constraints may be domain-dependent. In that case, knowledge about the task is used to make the search simpler. This bias may be present in the way the experience presented to the learning component (the training examples) is represented or in heuristic knowledge used to prune the search tree. The addition of linguistic bias to a learning system is the obvious way to let learning natural language processing systems profit from linguistic knowledge about the task. On top of that, there is also a more general notion of bias in the restrictions on
824
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
what can be represented in the representation language used (language bias), or in general principles guiding the search of the search algorithm implicit in the learning algorithm (search bias, e. g. Ockham’s razor). 3.2. Performance evaluations The success of a learning component in improving performance can be evaluated using a number of different quantitative and qualitative measures: Generalization accuracy. This is the performance accuracy of the system on previously unseen inputs (i. e., inputs it was not trained on). This aspect of learning is of course crucial: it gives an indication of the quality of the inductive leap made by the algorithm on the basis of the examples. A good generalization accuracy indicates that the learning system has not overfit its training examples, as would happen by generalizing on the basis of errors or exceptions present in them. To get a good estimate of the real generalization accuracy, cross-validation can be used, e. g. in 10-fold cross-validation an algorithm is tested on ten different partitions (90 % training material, 10 % testing material) of the full data set available. Each data item occurs once in one of the test sets. The average generalization accuracy on the ten test sets is then a good statistical estimate of the real accuracy. Apart from accuracy, for some NLP problems the notions of recall and precision are more appropriate. For example, when the task is chunking, i. e., finding noun phrases or prepositional phrases in text, precision measures the percentage of correct chunks in all chunks predicted by the algorithm, and recall measures the percentage of chunks present in the test data that was correctly identified by the algorithm. Combined precision-recall measures give a better indication of the goodness of a system in these cases than accuracy measurements. Space and time complexity. The amount of storage and processing involved in learning (training the system) and performance (producing output given the input). Explanatory quality. Usefulness of the representations found by the learning system as an explanation of the way the task is achieved. Especially with good explanatory quality, the machine learning results may provide useful and new linguistic insight into the task being learned.
3.3. Overview of methods To sum up this section, we will give an intuitive description of how a number of learning algorithms works. We discuss the algorithms in an order of increasing abstraction of the internal representation used by the performance component, and created by the learning component. We start from storage and table-lookup of the ‘raw’ examples as a nonlearning baseline. Table look-up. Store all examples (patterns of input and their corresponding output) in a table. When a new input pattern is given to the performance system, look it up in the table, and retrieve the output of the stored example. In this approach the system does not actually learn anything, and it fails miserably whenever an input pattern is not present in the table (there is no generalization). Nevertheless, for language problems, when sufficient training data is available and a simple heuristic is used for missing patterns (e. g. take the class most often occurring in the training data), sometimes an astonishingly high accuracy is already obtained with this non-learning method. Memory-based learning. Store all examples in a table. When a new input pattern is given to the performance system, look up the most similar examples (in terms of number of feature values common to the stored pattern and the new pattern, for example) to the new pattern, and extrapolate from the tags assigned to these nearest matches to the new case. Various statistical and information-theoretic techniques can be used to design the similarity metric. The similarity metric is also a place where linguistic bias can be introduced in the learning algorithm, making the definition of what is similar domain-dependent. Rule and decision tree induction. Use similarities and differences between examples to construct a decision tree or a rule set (these two are largely equivalent and can be translated to each other), and use this constructed representation to assign a class to a new input pattern. Forget the individual examples. A special subclass of these methods is Inductive Logic Programming, which in principle could learn problems for which feature-value-based algorithms fail by using first-order logic as a representation language.
825
57. Machine learning of natural language
Connectionism, Neural Networks. Use the examples to train a network. In back-propagation learning, this training is done by repeatedly iterating over all examples, comparing for each example the output predicted by the network (random at first) to the desired output, and changing connection weights between network nodes in such a way that performance increases. Keep the connection weight matrix, and forget the examples. Statistical methods. Compute a statistical model (e. g. about the n-grams occurring in the language) on the examples (the corpus), forget the examples, and use the model to extrapolate to the most probable analysis of new input. In terms of abstraction versus data-orientation, stochastic, neural network, and rule induction approaches are eager learning techniques. These techniques abstract knowledge from the examples as soon as they are presented. Memory-Based Learning is a lazy learning technique; generalization only occurs when a new pattern is offered to the performance component, and abstraction is therefore implicit in the way the contents of the case base and the similarity metric interact. A method that is unlike any other methods described in this inventory is the evolutionary programming approach (genetic algorithms and genetic programming). It is completely different from other learning methods, as it is not based on looking for similarity in data as the main bias. These methods basically perform a random search in the hypothesis space, directed by a heuristic fitness function. An initially randomly chosen population of representations (e. g. rules, or rule sets, or parametric descriptions of a neural network, etc.) is evolved over a number of generations. To decide survival into the next generation, a single fitness number is assigned to each individual in the population, based on an evaluation of the individual (e. g. testing the rule on some set of test data). The fittest individuals are selected for recombination and allowed to reproduce using crossover and mutation operators (Goldberg 1989; Mitchell 1996; Koza 1992). Applications to NLP are not (yet) numerous and mostly concern artificial language learning or the parameter optimization part of a hybrid approach in which the evolutionary method is combined with
some other learning method. Kazakov and Manandhar (1998) is a good example of this approach. Computational complexity of these algorithms still seems to be the main obstacle to applying them to solve realworld language processing problems. Popular as they may be, we will also not discuss neural network research further here. There is a considerable body of research on applying neural network technology to language processing problems (Reilly/Sharkey 1992; Sharkey 1992; Wermter/Riloff/Scheler 1996). In general, as with statistical methods, it is hard to interpret what has been learned from a trained neural network. In the remainder of this article, we will discuss two important types of symbolic ML methods in turn, and provide an overview of how they have been applied to NLP tasks. These symbolic methods allow, at least in theory, to obtain knowledge that is comprehensible, making it possible to manually edit it, integrate it with hand-built systems, etc.
4.
Memory-based learning
The memory-based learning paradigm is founded on the hypothesis that performance in cognitive tasks (in this case language processing) is based on reasoning on the basis of analogy of new situations to stored representations of earlier experiences rather than on the application of mental rules abstracted from representations of earlier experiences as in rule induction and rule-based processing. The concept has appeared in several AI disciplines (from computer vision to robotics), using apart from memory-based learning also labels such as memory-based reasoning, case-based reasoning, exemplarbased learning, locally-weighted learning, and instance based learning (Stanfill/Waltz 1986; Cost/Salzberg 1993; Riesbeck/Schank 1989; Kolodner 1993; Atkeson/Moore/ Schaal 1997; Aha 1997; Aamodt/Plaza 1994). Interestingly, when applied to NLP, it finds its inspiration not only in statistical pattern recognition (Fix/Hodges 1951; Cover/Hart 1967), but also in the linguistics of de Saussure and Bloomfield, and in the operationalisation of analogy in linguistics of the American linguist Royal Skousen (1989; 1992). The linguistic motivation for this and other memory-based approaches is (i) the
826
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
fact that in actual language use there is not a clear-cut all-or-none distinction between regular and irregular cases, (ii) the simplicity of the analogical approach as opposed to rule discovery, and (iii) the adaptability of the approach as opposed to the static, rigid rule-based alternative. Remarkably, seen from the outside, such an analogical approach appears to be rule-governed, and therefore adequately explains intuitions about linguistic generalizations as well. 4.1. Algorithm Examples are represented as a vector of feature values with an associated category label. Features define a pattern space. During training, a set of examples (the training set) is presented in an incremental fashion to the learning algorithm, and added to memory. During processing, a vector of feature values (a previously unseen test pattern) is presented to the system. Its distance to all examples in memory is computed using a similarity metric, and the category of the most similar instance(s) is used as a basis to predict the category for the test pattern. In this type of lazy learning, performance crucially depends on the similarity metric used. The most straightforward metric for a problem with nominal (non-numeric) feature values would be an overlap metric: similarity is defined as the number of feature values that are equal in two patterns being compared. In such a distance metric, all features describing an example are interpreted as being equally important in solving the classification problem, but this is not necessarily the case: e. g. in morphosyntactic disambiguation, the word class of the word immediately before a word to be tagged is obviously more important than the category of the word three positions earlier in the sentence. This is the feature relevance problem we introduced earlier as one of the problems for statistical methods. Various feature weighting and selection methods have been proposed to differentiate between the features on the basis of their relevance for solving the task (cf. Wettschereck/Aha/Mohri 1997) for an overview. Another addition to the basic algorithm that has proved relevant for many natural language processing tasks is a value difference metric (Stanfill/Waltz 1986; Cost/Salzberg 1993). Such a metric assigns different distances to pairs of values for the same feature. In tagging e. g., such a metric would as-
sign a smaller distance between noun-singular and noun-plural than between noun-plural and verb. These biases can of course also be added by hand to the learner (e. g., by a domain expert). Several other improvements and modifications to the basic case-based learning scheme have been proposed and should be investigated for linguistic problems. Two promising further extensions are weighting the examples in memory, and minimizing storage by keeping only a selection of examples. In example weighting, examples are differentiated according to their quality as predictors for the category of new input patterns. This quality can be based on their typicality or on their actual performance as predictors on a held-out test set. In example selection, memory is pruned by deleting those examples which are bad predictors or which are redundant. 4.2. Memory-based language processing (MBLP) Cardie (1993; 1994) addresses case-based lexical, semantic, and structural disambiguation of full sentences in limited domains, coreference and anaphora resolution. Her kenmore environment is presented as a general framework for knowledge acquisition for NLP using different symbolic machine learning techniques. As an instance of this general methodology, a memory-based learning approach is suggested for both morphosyntactic and semantic tagging. The architecture presupposes a corpus, a sentence analyzer, and a learning algorithm. During knowledge acquisition (training) for a specific disambiguation task (e. g. tagging), a case is created for each instance of the problem in the corpus. Each case is an example of the input-output mapping to be learned; the input part is a context describing the ambiguity, and the output part is the solution to the particular ambiguity. The examples may be produced from an annotated version of the corpus, or through human interaction. During application, the case-base is used to predict the solution to a new instance of the ambiguity given the input (the context) without intervention. Daelemans and colleagues in Antwerp and Tilburg have applied a specific approach to MBLP (based on global feature weighting, ib1-ig, and tree indexing for efficiency, igtree) to a large number of NLP tasks. The algorithms they use are described and reviewed in the documentation of the freely
827
57. Machine learning of natural language
available timbl package implementing a large range of memory-based algorithms (Daelemans/Zavrel/Van der Sloot et al. 1999). Lehnert (1987), and Weijters (1991) are early examples of memory-based learning applied to grapheme-to-phoneme conversion. Ng and Lee (1996), and Fujii, Inui, Tokunaga, and Tanaka (1998) apply memory-based techniques to the problem of Word Sense Disambiguation. Similar nearest-neighbor-inspired approaches have been applied to context-sensitive parsing (Simmons/Yu 1992), and machine translation (Hermjakob 1997). There are also memorybased approaches to text categorization and filtering (Masand/Linoff/Waltz 1992; Yang/ Chute 1994; Riloff/Lehnert 1994). Other NLP work in the memory-based tradition includes Data-Oriented Parsing (DOP) (Scha/Bod/Sima’an 1999), who use a corpus of parsed or semantically analyzed utterances (a Treebank) as a representation of a person’s language experience, and analyzes new sentences searching for a recombination of subtrees that can be extracted from this Treebank. The frequencies of these subtrees in the corpus are used to compute the probability of analyses. Such a method uses an annotated corpus as grammar, an approach formalized as Stochastic Tree Substitution Grammar (STSG). The advantage of STSG is that lexical information and idiomatic expressions (multi-word lexical items) can in principle play a role in finding and ranking an analysis. An approach in between DOP and more conventional memory-based methods is MBSL (Argamon/Dagan/Krymolowski 1998). Work on example-based machine translation, started by Nagao (1984), is also essentially memory-based. By storing a large set of (analyzed) sentences or sentence fragments in the source language with their associated translation in the target language as examples, a new source language sentence can be translated by finding examples in memory that are similar to it in terms of syntactic structure and word meaning, and extrapolating from the translations associated with these examples. A more complete overview of memory-based language processing research is provided in Daelemans (1999b). 4.3. Evaluation Advantages commonly associated with a memory-based approach to NLP include ease of learning (simply storing examples),
ease of integrating multiple sources of information, and the use of similarity-based reasoning as a smoothing method for estimating low-frequency events. Especially the last property is an important theoretical issue. In language processing tasks, unlike other typical AI tasks, low-frequency events are pervasive. Due to borrowing, historical change, and the complexity of language, most data sets representing NLP tasks contain few regularities, and many subregularities and exceptions. It is impossible for inductive algorithms to reliably distinguish noise from exceptions, so non-abstracting lazy memorybased learning algorithms should be at an advantage compared to eager learning methods such as decision tree learning or rule induction: ‘forgetting exceptions is harmful’ (Daelemans/van den Bosch/Zavrel 1999). Another important advantage of the memory-based approach is the flexibility of case representations: there are several types of information that can be stored in the memory base. Combined with feature weighting approaches, this flexibility offers a new approach to information source integration (data fusion) in NLP. Additional advantages include incremental learning (new cases can be added incrementally to the case bases without need for relearning), explanation capabilities (the best memory matches serve as explanations for the tagging behavior of the system), and learning and processing speed in some implementations of memory-based learning.
5.
Decision tree and rule induction
The decision tree-learning paradigm is based on the assumption that similarities between examples can be used to automatically extract decision trees and categories with explanatory and generalization power. In other words, the extracted structure can be used to solve new instances of a problem, and to explain why a performance system behaves the way it does. In this paradigm, learning is eager, and abstraction occurs at learning time. There are systematic ways in which decision trees can be transformed into rule sets. Decision tree induction is a well-developed field within AI; see e. g. Quinlan (1993) for a state-of-the-art system. More ancient statistical pattern recognition work (Hunt/
828
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Marin/Stone 1966; Breiman/Fiedman/Ohlsen et al. 1984) also still makes for useful reading. 5.1. Algorithm A decision tree is a data structure in which nodes represent tests, and arcs between nodes represent possible answers to tests. Leaf nodes represent answers to problems (classes). A problem is solved, by following a path from the root node through the decision tree until a leaf node is reached. The path taken depends on the answers that a particular problem provides to the tests at the nodes. Decision tree learning works by repeatedly dividing the set of examples into subsets according to whether the examples in a particular subset have a feature-value pair in common, until the subsets are homogeneous, i. e., all examples in the subset have the same category. The algorithm achieves this according to the simplified recursive scheme in Figure 57.1. Given a set of examples T K If T contains one or more cases all belonging to the same class Cj, then the decision tree for T is a leaf with category Cj. K If T contains different classes then K Choose a feature, and partition T into subsets that have the same value for the feature chosen. The decision tree consists of a node containing the feature name, and a branch for each value leading to a subset of T K Apply the procedure recursively to subsets created this way. Fig. 57.1: Recursive scheme for constructing decision trees
To classify new input patterns with a decision tree, start at the root node of the tree, and find the value in the input pattern for the corresponding feature. Take the branch corresponding to that value, and perform this process recursively until a leaf node is reached. The category corresponding to this leaf node is the output. Again, we are confronted with a feature relevance problem in this approach. In order to obtain a concise tree with good generalization performance (i. e. a tree reflecting the structure of the domain), we have to select at each recursion of the above algorithm a test that is optimal in achieving this goal).
The algorithm is non-backtracking (deterministic), and considering all trees consistent with the data is an NP-complete problem, so a reliable heuristic feature selection criterion is essential. Information-theoretic or statistical techniques maximizing homogeneity of subsets by selecting a particular feature are usually applied to this end. Several variants and extensions have been developed to the basic algorithm, e. g. for pruning (making the tree more compact by cutting off subtrees on the basis of a statistical criterion), grouping similar values of a feature into classes, making tree building incremental, etc. 5.2. Decision tree induction NLP Work on parsing (including tagging) of text with decision trees was pioneered at IBM (Black/Jelinek/Lafferty et al. 1992; Magerman 1994). spatter (Magerman 1995) starts from the premise that a parse tree can be viewed as the result of a series of classification problems (tagging, choosing between constituents, labeling constituents, etc.). The most probable sequence of decisions for a sentence, given a training corpus, is its most probable analysis. In the statistical decision tree technology used (based on Breiman/ Friedman/Ohlsen et al. 1984), decision trees are constructed for each sub-problem in the parsing task. In such a decision tree, leaf nodes contain distributions over categories instead of a single category. E. g., in tagging, the feature associated with the root node of the decision tree might be the word to be tagged. In case its value is ‘the’, the category ‘article’ can be returned with certainty. In case its value is ‘house’, a test at the next level of the tree corresponds to the feature ‘tag of the previous word’. In case its value is ‘article’, the probability distribution returned by the decision tree would be “noun (.8); verb (.2)”. In practice, spatter uses binary trees, however. Searching for the most probable series of decisions for a sentence is done by means of stack decoder search with a breadth-first algorithm and probabilistic pruning. Schmid (1994) describes treetagger, a tagger that takes basically the same approach as spatter, and Màrquez and Rodríguez (1998) is another approach to decision tree tagging that extracts separate decision trees for each tag (class) to be predicted. More recent work on dependency parsing (Haruno/Shirai/Ooyama 1999) for
57. Machine learning of natural language
Japanese suggests the viability of the approach for parsing. Other work using decision trees for NLP problems includes cue phrase disambiguation (Litman 1996), word sense disambiguation (Mooney 1996), and noun phrase coreference resolution (McCarthy/Lehnert 1995). 5.3. Evaluation Decision tree models are equivalent in expressive power to interpolated n-gram models (Magerman 1995), but whereas in ngram models the number of parameters to be estimated grows exponentially with n, in decision-tree learning, the size of the model depends on the number of training examples, and remains constant with the number of decisions taken into account. Also, the decision tree approach automatically selects relevant context size: uninformative context positions are not used in the tree, and because of its computational properties (constant with wider context) larger contexts (corresponding to 4 or 5-grams) can initially be considered. That way, decision tree approaches are potentially more sensitive to context and therefore better equipped to solve long-distance dependencies. Another useful effect of using decision trees is greater robustness to sparse data problems. Perhaps the most important advantage of the approach is the potential insight it may bring in what has been learned by the system. Rules, and to a lesser extent decision trees can be understandable ways of formulating the knowledge implicit in how the learning algorithm is trying to solve an NLP task. However, because of the complex interaction of regularities and exceptions, this is not always the case in practice. In Daelemans, Berck and Gillis (1997) a linguistic theory about Dutch morphology was (post hoc) discovered by a decision tree learning algorithm. 5.4. Rule induction and inductive logic programming It is possible to translate a decision tree into a rule set by extracting a rule for each path in a decision tree (the tests in the path constitute a conjunction of conditions, the leave node the conclusion of the rule), and then combining, and (statistically) simplifying the combined rules, and simplifying the resulting rule set by selecting a default rule (Quinlan 1993). Other strategies for extracting single rules or rule sets from data have been
829 explored as well, e. g. for learning set-valued features (Cohen 1995). However, these rules will be propositional, i. e., they have the expressive power of a propositional logic whereas the formulation of some rules of language may require a complete first-order language. A promising rule learning approach in this respect is Inductive Logic Programming (ILP, cf. Lavrac/Dzeroski 1994), in which background knowledge, and positive and negative examples are used to induce a logic program compatible with the background knowledge and all of the positive examples, but none of the negative examples. ILP can induce first-order theories from examples, and is therefore suited for domains where propositional algorithms fail, i. e., where the task cannot be represented using (fixedlength) vectors of feature values. Language processing is a good candidate for such a domain. It is also motivated by the fact that a lot of expert linguistic knowledge is available which could be used to guide the search for learning good rules solving an NLP problem. ILP is ideally suited to use this expert knowledge through the addition of background knowledge predicates. Part of speech tagging with ILP was thoroughly investigated by James Cussens (1997). Using a grammar as background knowledge made it possible to learn contexts more sophisticated than those allowed by propositional learners. E.g. it proved to be possible to learn rules of the type a word followed by a noun, followed by a verb phrase, followed by an adjectival phrase cannot be tagged as a conjunction. What constitutes a verb phrase and an adjectival phrase is defined in the background knowledge. ILP methods have been used in learning transfer rules translating between semantic representations (Boström/Zemke 1997) (rules that transform a quasi logical form, QLF, of a sentence in English to a QLF of an equivalent sentence in Swedish, from example QLF pairs), in learning rules for morphology (Dzeroski/Erjavec 1997; Mooney/ Califf 1996), and in other NLP applications, but without convincing results yet. The accuracy of these systems is often well below state of the art (this may be due to the limited size of the training sets used), and even with these small datasets, computational complexity is such that learning speed is prohibitive. The most impressive results to
830
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
date are the grammar and parser learning experiments of Zelle and Mooney (1993; 1996).
6.
Discussion
With the availability of only a relatively small body of empirical data and theoretical analysis on the applicability of inductive machine learning techniques to language learning (at least compared to other application areas of ML), it is too early for strong conclusions. On the empirical side, there is a hard-felt need for methodologically sound, reliable, comparative research on the application of these machine learning methods on diverse problems in language processing. As far as Quantitative Linguistics is concerned, these empirically learned generalizations could add useful insight which knowledge is used for learning specific language tasks. On the theoretical side, there is a need for more insight into the differences and similarities in how generalization is achieved in this area by different statistical and machine learning techniques. In the absence of this knowledge, our discussion will necessarily turn out to be preliminary and superficial. It will take the form of a number of theses. Symbolic ML methods work. These methods have been applied successfully to a large number of NLP problems, and produce state-of-the-art accuracy and efficiency in practical systems, when compared to statistical and handcrafted knowledge-based systems. This shows that they are capable of extracting useful linguistic knowledge from data. Symbolic ML implements a different type of statistics. Decision tree induction and memory-based learning are statistical methods, but they use a different kind of statistics than the more common maximum-likelihood and Markov modeling methods. E.g. in memory-based learning, no assumptions are made about the distribution of the data whereas most statistical techniques presuppose normal distributions. Different statistical methods have different properties that make them more or less suited for a particular type of application. If only for that reason, the applicability of all types of statistics to NLP problems should be studied thoroughly. Already from the preliminary empir-
ical data, important advantages of these methods compared to current statistical methods suggest themselves. (i) They require less training data. (ii) They require fewer parameters to be computed, and can therefore take into account more context. (iii) They provide elegant and computationally attractive solutions to the smoothing problem and to the integration of different information sources. (iv) Training is often much faster. A disappointing finding is that there are few clear demonstrations that these methods can provide new insights or reusable rules from data that can consequently be combined with other knowledge sources or used. Abstraction can be harmful. In many linguistic tasks, we have found (Daelemans/van den Bosch/Zavrel 1999) that an approach keeping complete memory of all training data provides better performance than techniques that abstract from low-frequency and exceptional events, such as rule(learning)based systems. Neural networks and stochastic approaches are similar to rule- and decision tree induction methods in that they abstract from their experience (to a matrix of connection weights in neural networks, to a set of probabilities in stochastic approaches, and to a set of rules in rule-induction approaches), and forget about the original data on which these abstractions were based. The effect that full memory of all examples yields better generalization is probably related to the fact that natural language processing tasks such as morphosyntactic disambiguation can be characterised by the interaction of regularities, sub-regularities, and pockets of exceptions. Abstracting away from these exceptions causes a performance degradation because new similar exceptions are overgeneralized: being there is better than being probable. Compared to the well-developed theoretical and empirical foundations of QL, the machine learning approach to linguistic knowledge discovery from language data has only just started. In all methods described, there is still a lot of room for improvement, especially in three areas: exploring variations or extensions of the basic algorithms, adding linguistic bias to the learning algorithms, and combining them with other approaches in hybrid architectures.
57. Machine learning of natural language
7.
Literature (a selection)
Aamodt, Agnar/Plaza Enric (1994), Case-based reasoning: Foundational issues, methodological variations, and system approaches. In: AI Communications, 7, 39K59. Aha, David W. (ed.), Lazy learning. Dordrecht: Kluwer Academic Publishers, 1997. Aha, David W./Kibler, Dennis/Albert, Marc (1991), Instance-based learning algorithms. In: Machine Learning, 6, 37K66. Allen, James (1995), Natural Language Understanding. Redwood City: The Benjamin/Cummings Publishing Company. Argamon, Shlomo/Dagan, Ido/Krymolowski, Yuval (1998), A memory-based approach to learning shallow natural language patterns. In: Proceedings of the 36th annual meeting of the ACL, 67K73, Montreal. Atkeson, Christopher/Moore, Andrew/Schaal, Charles (1997), Locally weighted learning. In: Artificial Intelligence Review, 11 (1K5), 11K73. Black, Ezra/Jelinek, Fred/Lafferty, John/Magerman, David/Mercer, Robert/Roukos, Salim (1992), Towards history-based grammars: using richer models for probabilistic parsing. In: Fifth DARPA Workshop on Speech and Natural Language (ed. Mitch Marcus). San Mateo, CA: Morgan Kaufmann. Boström, Henrik/Zemke, Stefan (1997), Learning transfer rules by inductive logic programming (preliminary report), Stockholm University. Breiman, Leo/Friedman, Jerome/Ohlsen, Richard/Stone Charles (1984), Classification and regression trees, Belmont, CA: Wadsworth International Group. Brent, Michael/Cartwright, Timothy (1996), Distributional regularity and phonotactic constraints are useful for segmentation. In: Cognition 61, 93K125. Brent, Michael (1996), Advances in the computational study of language acquisition. In: Cognition 61, 1K38. Brill, Eric (1992), A simple rule-based part-ofspeech tagger. In: Proceedings of the Third ACL Applied NLP, Trento, Italy, 152K155. Brill, Eric/Mooney, Raymond J. (1998), An overview of empirical natural language processing. In: The AI Magazine, 18 (4), 13K24. Broeder, Peter/Murre, Jaap (eds.), Cognitive Models of Language Acquisition. Cambridge: University Press, 2000. Cardie, Claire (1993), A case-based approach to knowledge acquisition for domain-specific sentence analysis. In: Proceedings of AAAI-93, 798K803. Cardie, Claire (1994), Domain Specific Knowledge Acquisition for Conceptual Sentence Analy-
831 sis. Ph.D. thesis, University of Massachusetts, Amherst, MA. Cardie, Claire/Mooney, Raymond J. (1999), Guest editors’ introduction: Machine learning and natural language. In: Machine Learning 11, 1K5. Charniak, Eugene (1993), Statistical Language Learning. Cambridge, MA: The MIT Press. Church, Kenneth W./Mercer Robert L. (1993), Introduction to the Special Issue on Computational Linguistics Using Large Corpora. In: Computational Linguistics 19, 1K24. Cohen, William W. (1995), Fast effective rule induction. In: Proceedings of the Twelfth International Conference on Machine Learning. Lake Tahoe, California, San Mateo, CA: Morgan Kaufmann. Cost, Scott/Salzberg, Steven (1993), A weighted nearest neighbor algorithm for learning with symbolic features. In: Machine Learning 10, 57K78. Cover, Thomas M./Hart, Peter E. (1967), Nearest neighbor pattern classification. Institute of Electrical and Electronics Engineers. In: Transactions on Information Theory 13, 21K27. Cussens, James (1997), Part-of-speech tagging using Progol. In: Proceedings of the 7 th International Workshop on Inductive Logic Programming (eds. Nada Lavrac/Saso Dzeroski), Berlin: Springer, 93K108. Daelemans, Walter (1995), Memory-based lexical acquisition and processing. In: Machine Translation and the Lexicon, Lecture Notes in Artificial Intelligence. (ed. P. Steffens). Berlin: Springer, 85K98. Daelemans, Walter (1999a), Machine learning approaches. In: Syntactic Wordclass Tagging. (ed. Hans van Halteren). Dordrecht: Kluwer Academic Publishers. Daelemans, Walter (ed.), Memory-based Language Processing, In: Special Issue of Journal of Experimental and Theoretical AI, 11 (3), 1999b. Daelemans, Walter/Berck, Peter/Gillis, Steven (1997), Data mining as a method for linguistic analysis: Dutch diminutives. In: Folia Linguistica, XXXI (1K2). Daelemans, Walter/Van den Bosch, Antal/Zavrel, Jakub (1999), Forgetting exceptions is harmful in language learning. In: Machine Learning 34, 11K41. Daelemans, Walter/Weijters, Anton/Van den Bosch, Antal (eds.), Workshop Notes of the ECML/MLnet familiarization workshop on Empirical learning of natural language processing tasks, Prague, Czech Republic. University of Economics, 1997. Daelemans, Walter/Zavrel, Jakub/Van der Sloot, Ko/Van den Bosch, Antal (1999), TiMBL: Tilburg Memory Based Learner, version 2.0, reference manual. Technical Report ILK-9901, ILK, Tilburg University.
832
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Dresher, Elan/Kaye, Jonathan (1990), A computational learning model for metrical phonology. In: Cognition 32 (2), 137K195. Dzeroski, Saso/Erjavec, Tomaz (1997), Induction of Slovene nominal paradigms. In: Proceedings of the 7th International Workshop on Inductive Logic Programming (eds. Nada Lavrac/Saso Dzeroski), Berlin: Springer, 141K148. Elman, Jeff (1990), Finding structure in time. In: Cognitive Science 14, 179K211. Fix, E./Hodges, J. L. (1951), Discriminatory analysis: nonparametric discrimination: consistency properties. Technical Report Project 21-49-004, Report No. 4, USAF School of Aviation Medicine, Randolph Field, Texas. Fujii, Atsushi/Inui, Kentaro/Tokunaga, Takenobu/ Tanaka, Hosumi (1998), Selective sampling for example-based word sense disambiguation. In: Computational Linguistics 24 (4), 573K597. Gazdar, Gerald/Mellish Chris (1989), Natural Language in LISP: an introduction to computational linguistics. Reading, MA: Addison Wesley. Gillis, Steven/Durieux, Gert/Daelemans, Walter (1995), A computational model of P&P: Dresher and Kaye (1990) revisited. In: Approaches to parameter setting (eds. M. Verrips/F. Wijnen), vol. 4, Amsterdam Studies in Child Language Development, 135K173. Gillis, Steven/Durieux, Gert/Daelemans, Walter/ Van den Bosch, Antal (1993), Learnability and markedness: Dutch stress assignment. In: Proceedings of the 15th Conference of the Cognitive Science Society 1993, Boulder, CO, 452K457. Goldberg, David (1989), Genetic Algorithms in Search, Optimization and Machine Learning. Reading, Mass.: Addison Wesley. Haruno, Masahiko/Shirai, Satoshi/Ooyama, Yoshifumi (1999), Using decision trees to construct a practical parser. In: Machine Learning 34, 131K 149. Hermjakob, Ulf/Mooney, Raymond J. (1997), Learning parse and translation decisions from examples with rich context. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics (ACL ’97), Madrid, Spain: Association for Computational Linguistics, 482K 489. Honavar, Vasant/Slutzki Giora (eds.), Grammatical inference: 4th international colloquium, ICGI98, Ames, Iowa, USA, July 12K14, 1998: proceedings, vol. 1433, Lecture Notes in Computer Science and Lecture Notes in Artificial Intelligence. New York: Springer-Verlag Inc., 1998. Hunt, Earl B./Marin, Janet/Stone Philip J. (1966), Experiments in induction. New York, NY: Academic Press. Kazakov, Dìmìtar/Manandhar, Suresh (1998), A hybrid approach to word segmentation. In: ILP98 (ed. D. Page), vol. 1446, Lecture Notes on Artifi-
cial Intelligence. Berlin: Springer Verlag, 125K 134 Kolodner, Janet (1993), Case-based reasoning. San Mateo, CA: Morgan Kaufmann. Koza, John R. (1992), Genetic Programming: on the programming of Computers by means of natural Selection. Cambridge, Massachusetts: The MIT Press. Langley, Pat (1996), Elements of machine learning. San Mateo, CA: Morgan Kaufmann. Lavrac, Nada/Dzeroski, Saso (1994), Inductive logic programming. Chichester, UK: Ellis Horwood. Lehnert, Wendy (1987), Case-based problem solving with a large knowledge base of learned cases. In: Proceedings of the Sixth National Conference on Artificial Intelligence (AAAI-87). Los Altos, CA: Morgan Kaufmann, 301K306. Litman, Diane J. (1996), Cue phrase classification using machine learning. In: Journal of Artificial Intelligence Research 5, 53K94. MacWhinney, Brian/Leinbach, Jared (1991), Implementations are not conceptualizations: Revising the verb learning model. In: Cognition 40 (1K2), 121K150. Magerman, David (1995), Statistical decision tree models for parsing. In: Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 276K283. Magerman, David M. (1994), Natural language parsing as statistical pattern recognition. Dissertation, Stanford University. Manning, Christopher D./Schütze, Hinrich (1999), Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: The MIT Press. Màrquez, Lluis/Rodríguez, Horacìo (1998), Partof-speech tagging using decision trees. In: Proceedings of the 10th European Conference on Machine Learning (ECML-98) (eds. Claire Nédellec/ Céline Rouveirol), vol. 1398 of LNAI, 25K36. Masand, Briji/Linoff, Gordon/Waltz, David (1992), Classifying news stories using memory-based reasoning. In: Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval (eds. Nicholas J. Belkin/Peter Ingwersen/Annelise Mark Pejtersen). Kobenhavn, DK. New York: ACM Press, 59K61. McCarthy, Joseph F./Lehnert, Wendy G. (1995), Using decision trees for coreference resolution. In: Proceedings of the 14th IJCAI. Montreal, Canada, San Mateo, CA: Morgan-Kaufmann, 1050K 1055. McClelland, James L./Rumelhart, David E. (eds.), Parallel Distributed Processing: Explorations in the Microstructure of Cognition, volume 2: Psychological and Biological Models. Cambridge, MA: The MIT Press, 1986. Mitchell, Melanie (1996). An Introduction to Genetic Algorithms. Cambridge, MA: The MIT Press.
57. Machine learning of natural language Mitchell, Tom (1997), Machine learning. New York: McGraw Hill. Mooney, Raymond J. (1996), Comparative experiments on disambiguating word senses: An illustration of the role of bias in machine learning. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP, 82K91. Mooney, Raymond J./Califf, Mary E. (1996), Learning the past tense of English verbs using inductive logic programming. In: Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing. (eds. S. Wermter/E. Riloff/G. Scheler). Berlin: Springer, 370K384. Nagao, Makoto (1984), A framework of a mechanical translation between Japanese and English by analogy principle. In: Artificial and human intelligence (eds. A. Elithorn/R. Banerji). Amsterdam: North-Holland, 173K180. Natarajan, Ballas K. (1991), Machine Learning: A Theoretical Approach. San Mateo, CA: Morgan Kaufmann. Ng, Hwee Tou/Lee, Hian Beng (1996), Integrating multiple knowledge sources to disambiguate word sense: An exemplar-based approach. In: Proceedings of the 34th meeting of the Association for Computational Linguistics. Niyogi, Partha/Berwick, Robert C. (1994), A Markov language learning model for finite parameter spaces. In: Proceedings of 32nd meeting of Association for Computational Linguistics. Quinlan, John R. (1993), C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufmann. Reilly, Ronan G./Sharkey, Noel E. (eds), Connectionist Approaches to Natural Language Processing. Hillsdale, NJ: Lawrence Erlbaum Associates, 1992. Resnik, Philip (1996), Selectional constraints: an information-theoretic model and its computational realization. In: Cognition, 61: 127K159. Riesbeck, Christopher/Schank, Roger (1989), Inside Case-Based Reasoning. Northvale, NJ: Erlbaum. Riloff, Ellen/Lehnert, Wendy (1994), Information extraction as a basis for high-precision text classification. In: ACM Transactions on Information Systems, 12 (3), 296K333. Scha, Remko/Bod, Rens/Sima’an, Khalil (1999), A memory-based model of syntactic analysis: dataoriented parsing. In: Journal of Experimental and Theoretical Artificial Intelligence 11, 409K440. Schmid, Helmut (1994), Probabilistic part-ofspeech tagging using decision trees. In: Proceed-
833 ings of the International Conference on New Methods in Language Processing. Sharkey, Noel (1992), Connectionist Natural Language Processing. New York: Weather Hill. Simmons, Robert F./Yu, Yeong-Ho (1992), The acquisition and use of context-dependent grammars for English. In: Computational Linguistics 18 (4), 391K418. Siskind, Jeffrey (1996), A computational study of cross-situational techniques for learning word-tomeaning mappings. In: Cognition 61, 39K91. Skousen, Royal (1989), Analogical modeling of language. Dordrecht: Kluwer Academic Publishers. Skousen, Royal (1992), Analogy and Structure. Dordrecht: Kluwer Academic Publishers. Stanfill, Craig/Waltz, David (1986), Toward memory-based reasoning. In: Communications of the ACM, 29 (12), 1213K1228. Vapnik, Vladimir N. (1995), The Nature of Statistical Learning Theory. New York: Springer. Weijters, Anton (1991), A simple look-up procedure superior to Nettalk? In: Proceedings of the International Conference on Artificial Neural Networks K ICANN-91. Espoo, Finland. Weiss, Sholom/Kulikowski, Casimir (1991), Computer systems that learn. San Mateo, CA: Morgan Kaufmann. Wermter, Stefan/Riloff, Ellen/Scheler, Gabriele (eds), Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing. Lecture Notes in Artificial Intelligence, vol. 1040. Berlin: Springer, 1996. Wettschereck, Dietrich/Aha, David W./Mohri, Takao (1997), A review and comparative evaluation of feature-weighting methods for a class of lazy learning algorithms. In: Artificial Intelligence Review 11, 273K314. Yang, Yiming/Chute, Christopher G. (1994), An example-based mapping method for text categorization and retrieval. In: ACM Transactions on Information Systems 12 (3), 252K277. [Special Issue on Text Categorization] Zelle, John M./Mooney, Raymond J. (1993), Learning semantic grammars with constructive inductive logic programming. In: Proceedings of the 11th National Conference on Artificial Intelligence, 817K822, Washington, D.C.: AAAI Press, Cambridge, Massachusetts: The MIT Press. Zelle, John M./Mooney, Raymond J. (1996), Comparative results on using inductive logic programming for corpus-based parser construction. In: Wermter/Riloff/Scheler 1996, 355K369.
Walter Daelemans, Antwerp (Belgium)
834
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
58. Quantitative methods in speech processing 1. 2. 3. 4. 5.
Introduction Acoustic speech processing High-level speech processing by quantitative methods Conclusion Literature (a selection)
1.
Introduction
Methods of speech processing are being developed predominantly relative to the tasks of human speech interaction with the computer. Feeding speech into the computer is one of the most complex problems in science and technology. Solving this problem will allow the solution of a number of urgent applied tasks: (1) information-reference systems; (2) systems of entry into information resources; (3) machine translation of speech; (4) speech control of technological devices; (5) automated shorthand; (6) professional training, and many others. This problem involves a number of adjacent tasks of acoustic, semantic-syntactic and pragmatic character, as well as the knowhow of such scientific fields as signal processing, linguistics, psychoacoustics, information theory, artificial intelligence, etc. Numerous attempts to perform these tasks one by one and then to unite them mechanically have not produced desirable results so far. Hence, there has cropped up the necessity of integrating all these tasks and sources of knowledge on a single conceptual and methodological basis. One possible approach to the solution of this problem is an integral quantitative approach which enables the researcher to extend principles of quantitative analysis to all components of the speech process, including acoustics, syntax, semantics and pragmatics. Thereby the speech message may be represented in a certain form, stable relative to variations of diverse nature, hence making it possible to employ in speech processing a hypothesis of compact placing of objects in a multidimensional space, as shown in 3.4 of the present paper. To avoid ambiguity in further discussion we must now deal with certain items of terminology.
NL K Natural Language. Usually linguists subsume here language of literary, business and other texts. In this paradigm linguistic research boils down to the study of texts. NSL K Natural Spoken Language. This is to mean an oral form of the language including spontaneous speech. The subject of research here is living speech, fed in through a microphone immediately in the course of an experiment, or special data bases containing records of speech signals obtained from various types of intercourse (telephone information about air flights, dinner reservation, etc.). Speech Processing, implying all possible mathematical transformations of speech signals including primary processing (discretization, scaling, filtering, etc.) and all types of further processing at the level of symbols and texts to stages of understanding, rendering, etc. Quantitative Processing, implying a variety of processing targeted at obtaining quantitative estimates (frequencies of distribution, similarity, difference, verisimilitude, etc.). As a rule these estimates possess a broad spectrum of quantitative values. As a counterbalance to such processing there exists Qualitative Processing, which operates on a true/false (yes/no) basis. Thus, quantitative processing may be regarded as a generalization of which qualitative processing is a special instance. Understanding of NSL is often divided into two stages which are termed Speech Recognition and Language Understanding, respectively. However, with regard to a clear-cut (and well-founded) tendency toward integrating various types of language and speech processing, it is preferable to use the term Speech Understanding or Spoken Language Understanding with an implication that recognition and understanding processes are closely interwoven. Considering the correlation of oral and written speech a paradox must be mentioned: written language, which appeared many millennia later than spoken language, has acquired unique rights to represent language in all its hypostases. All linguistic regularities found in texts have become language norms, and all speech deviations from
835
58. Quantitative methods in speech processing
these norms came to be called mistakes, incorrect usage, etc. At this juncture the fact is ignored that such mistakes do not as a rule prevent correct understanding of speech and hence are not mistakes at all from the perspective of the communicative function of language. At any rate, there arises a task of elaborating methods of automatic speech recognition which could obviate such mistakes as humans. Obviously, here is a contradiction between the logical paradigm of language, envisaging only two values K true/false K and the fuzzy nature of language itself which necessitates a broader scale of values. Therefore, the fuzzy character of language demands that a quantitative approach be applied to its processing. The above-mentioned paradox may be explained against a historical background. For a long time linguistics has evolved as a descriptive science. It is common knowledge that in scientific disciplines of that kind rules are grotesquely interwoven with a multitude of exceptions. The basic means here is constituted by if K then type productions, which create an illusion of a logical approach. In real life, language is not a logically built system. Nowadays, with the emergence of powerful PCs and a rapid development of computational linguistics, this paradigm of a logical essence of language is being reconsidered. Stochastic, associative models of language are being developed, and instead of correct language applied models more often than not contain data bases, corpora consisting of fluent speech fragments from a concrete field of linguistic usage. The terms Spoken Language, Natural Spoken Language, Fluent Speech, etc., came to be used. As far as the evolution of quantitative speech processing methods is concerned, its unevenness must be emphasized. Thus, all kinds of acoustic processing are effected quantitatively (though in the works dating back to the 50s and 60s many attempts may be found of applying decision trees concepts, etc., to the recognition of speech sounds and words). At higher levels, however, qualitative methods prevail, including decision tree, parsing, predicate calculus, and other methods ensuing from the logical model of language. In the Seventies speech recognition practice generated stochastic models of the language followed by stochastic grammars, associative models, etc., which constitute in
their essence quantitative approaches. These approaches are basically to be found on the grammatical level, and, to a lesser extent, in semantics, but hardly in pragmatics. Nonetheless, we shall show below that there have already been attempts to extend quantitative principles to all stages and levels of speech processing, enabling the researcher to solve the problem of speech understanding by methods of multi-level optimization, i. e. providing choice of optimal decision on the basis of estimates obtained at all levels. As far as adequacy of quantitative speech processing methods is concerned, it is noteworthy that brain mechanisms actually use quantitative processing. There are many hypotheses of brain functions, and detailed treatment of this issue certainly is beyond the scope of this paper, but one point is uncontroversial: in neurons a considerable part is played by accumulation of potential which, mathematically, is a quantitative process. From a psychological viewpoint there are also numerous observations indicating that a person engaged in speech activity (a writer, an editor, a translator, etc.) is able to carefully choose the best hypothesis from a set of formally correct variants. This fact confirms the hypothesis concerning quantitative mechanisms present in the human brain at various levels of speech and language processing.
2.
Acoustic speech processing
There are many types of speech signal processing which may be tentatively divided into three categories: (1) initial signal processing which changes the characteristics of the signal, but in principle retains its status as a speech signal (e. g. compression of its dynamic scale, transformation of its spectrum, filtering, etc.); (2) processing aimed at obtaining certain secondary functions (features), necessary for the recognition process; (3) recognition of speech elements (phonemes, diphones, syllables, words, syntagms) on the basis of speech signal characteristics. Thus, below we must consider basic characteristics of the speech signal from the viewpoint of the recognition process, and furthermore treat problems of singling out features and recognizing elements of speech. 2.1. The speech signal Speech sounds irradiate from the human speech apparatus in the form of an acoustic
836
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
signal of the sound field. This signal is transformed into an electric signal by the microphone. Speaking about characteristics of the speech signal one must note that it differs considerably from all artificial, technical signals. While the technical signal possesses quite a definite duration and form, the speech signal is characterized by instability and variance of its parameters. As the speech-producing organs are in a process of a continuous modification in producing a sound sequence, boundaries between individual sounds are not easily defined. These characteristics of the speech signal are not noticeable to the human ear, but they cause great difficulties when the computer is engaged in segmenting speech into phonemes and words. 2.2. Speech generation and speech sounds Speech generation is a complex psychophysiological process. The various levels of sounds, words, phrases and meaning are closely interwoven in it. As a result of inner speech processes in the brain, the speech intention arising there is transformed into a stream of neural impulses necessary to monitor the speech apparatus. The speech apparatus may be subdivided into the source of sound generation (the respiratory organs, the glottis) and the speech tract (the oral and nasal cavities). The movable organs of the speech tract are called the articulatory organs (the tongue, the soft palate, the lips, the mandible). In the former case, generating pressure in the lungs and making the vocal cords tense, we cause a vibratory movement of the cords. As a result air impulses enter the speech tract, their frequency being dependent mainly on the pressure difference in front of and behind the glottis, as well as on the mass and size of the vocal cords, and the degree of their tension. This frequency determines the pitch of the vocal tone. In the latter case the vocal cords are lax, and the free (unobstructed) stream of air, meeting a barrier, produces noise. The ensuing sound is determined by the character of excitation and configuration of the speech tract. With respect to tonal excitation, the speech tract appears to be a set of resonance cavities and at its exit a complex fading vibration is formed carrying various harmonics of the fundamental tone. If a considerable narrowing is formed in the tonally excited speech tract, the emanating signal will contain both the harmonic (tonal) and
the noise components, which is characteristic of voiced consonants (e. g. Russian з, ж). In case of noise generation only, voiceless consonants are formed (e. g. Russian с, ш). A particular place in speech generation is occupied by the dynamics of work performed by the articulatory organs. Some sounds may be pronounced while the speech tract is static, e. g. the so-called drawled sounds (for instance, а, о, с, х). Other sounds are characterized by certain dynamics of the articulatory organs. Thus, the Russian sound ц is characterized by an initial complete occlusion of the speech tract followed by a sharp increase of the noisy component. This sound can’t be drawled or pronounced slowly. 2.3. Features of the speech signal Recognition of speech elements is based on a certain system of features (parameters). Many various kinds of acoustic properties exist, only the most popular to be considered here in brief. The essence of all accepted approaches consists in the fact that the speech signal is viewed as a sequence of acoustic states, that is speech segments, each segment being described as a point in a multidimensional space of characteristics. The duration of the segment is usually constant, between 10 and 20 msec. Such duration is harmonized with the dynamics of the articulatory apparatus, making possible to take all natural variations of the sound into account (or to reflect all changes in the state of the articulatory organs). The procedure of analog-digital transformation turns the signal fed in through the microphone into a chain of digital values. These values are stored in computer memory for further processing. 2.3.1. Spectral description In the microphone the acoustic vibration of the sound is transformed into a corresponding electrical oscillation. A periodic function of any complex form may be factorized into harmonic (sine) components, multiples of the fundamental harmonic with frequencies that are multiples of the fundamental frequency: N
f (t) Z ∑ Cn cos n ω t,
(1)
nZ0
where n is the number of the harmonic; Cn is the amplitude of the harmonic. A more complex non-harmonic signal may be factor-
837
58. Quantitative methods in speech processing
ized into non-multiple harmonic components or represented as an integral of an infinite number of components. The vibration spectrum is a set of simple harmonic vibrations into which the given complex vibratory movement may be factorized. The harmonic vibrations have a peculiar line spectrum, while non-harmonic and fading vibrations possess a continuous spectrum. Due to the constant restructuring of the articulatory organs the speech signal totally lacks stationary areas and the energy spectrum of this signal is generally continuous. The final result of this processing is a sequence of spectral vectors or a spectral-temporal relief. Spectral description conforms very well to the physiology of hearing because the auditory membrane serves as a special biological filter which transmits information about frequency components of sound onto the sound receptors. In this respect the auditory analyzer is, of course, much more complex than any technological system: the number of auditory receptors connected with the auditory membrane amounts to approximately 30 thousand. A drawback of spectral description consists in its strong dependence on the level of the input signal, that is to say, the spectral description is not invariant to the loudness variance (dependent on a subjective ability of maintaining constant loudness of voice and on skills of handling the microphone). There certainly exist various methods of normalizing the spectrum, but they do not produce the desired effect, for they bring about a distortion of the natural spectral K temporal speech relief. 2.3.2. The auto-correlation function This transformation makes it possible to obtain a set (vector) of auto-correlation coefficients which characterize the given speech segment. The auto-correlation function (ACF) of the signal is in an one-to-one correspondence to its spectrum. The ACF of the speech signal is calculated either at comparatively long segments (lasting seconds and more) or at segments with a duration of 10K20 msec. In the former case generalized estimates of the signal are obtained, in the latter a description of the current signal adequate to the character of articulatory movements, i. e. parameters are obtained suitable for recognition of sounds.
Let the speech segment under analysis be represented by a sequence of references of the signal x1, x2, ., xn. Then for calculation of a short-time ACF the following expression can be used: NKτ
B (τ) Z [1 / (N K τ)] ∑ xt xt C τ
(2)
TZ1
At values of τ equaling, for instance, 0, 1, 2, ., 9 a set B (0), B (1), ., B (9) of coefficients of the ACF is obtained, which unambiguously describe the given segment. In calculation of B (τ) the factor 1 / (N K τ) may be suppressed as it practically does not influence the procedure of comparing such segments in speech recognition. 2.3.3. LPC-speech analysis A method based on computation of linear prediction coding (LPC) coefficients provides an opportunity of describing the speech signal in the most exact and at the same time compact form. In the course of processing current values of the signal with quantising intervals of 50K120 microseconds are compared with linear combinations of a limited sequence of the preceding values. These linear combinations are called predictable values. Coefficients in the linear combinations are obtained statistically at speech segments with the duration of 10K 20 msec reckoning that divergence between the predictable and current values is minimal (for instance, at mean-quadratic error minimum). Corpora of these coefficients are precisely the result of LPC-analysis. LPCparameters are in good conformity to speech tract representation as a multi-channel resonator. This type of analysis necessitates determining the excitation source parameters: purity of the fundamental tone, noise parameters, level of the signal. A strict mathematical foundation of the method with detailed exposition may be found in special literature (Gold/Morgan 2000). 2.4.
Recognizing segments and sounds of speech 2.4.1. Segments of speech Speech segmentation is the most widespread method of speech analysis. On the basis of quantising error minimization criteria, such a duration of speech fragments (segments) is chosen in which the signal parameters (the
838
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
spectrum, the auto-correlation function and others) are practically constant (inertia of signal parameters is associated with inertia of the articulatory organs). Such intervals equal 10K20 msec. As a rule, uniform temporal quantising is used. 2.4.2. Speech segment recognition: vector quantising Vector quantising is an efficient means of data compression prior to memorizing, communicating, and recognizing speech. Quantising is a process of continuous analog signal discretization. Independent quantising of each parameter is termed scalar quantising. In case of a joint quantising of a population of parameters it is called vector quantising. Essentially it means a multidimensional parameter space quantised onto a limited set of fields. This operation can be carried out by pattern recognition methods. In this case the pattern can be set, for instance, by providing the center of the field or by a standard vector. Thus, a set of standard points is to be placed onto a multidimensional field in a certain way. As a result of recognition the input set (vector) of parameters is mapped onto a certain standard number. Sometimes this procedure is called codebook mapping. The code-book contains a numbered set of standards. The book is filled out in the process of teaching. Any quantising is characterized by certain distortions. The main task of instruction consists in such placing of the standard which minimizes quantising error. As a result of the process of instruction a set of vectors (code-book elements) V Z {V1, V2, ..., Vi, ..., Vk}, is chosen where each vector Vi is represented by the corresponding set of features Vi Z b 1i, b 2i, b 3i, ..., b ni. In the process of vector quantising of an input vector sequence A Z A1, A2, ..., A j, ..., A t each vector A j is compared in turn with the code-book elements V and this vector is mapped onto the nearest element number. The rule of comparison may be expressed as follows: n
d (Aj, Vi) Z ∑ K asj K bsi K
(3)
sZ1
Resulting from the process of such quantising a multidimensional input vector is identified with the number of a standard. Thus, if the vector contains 20 parameters and is represented by 20 bytes, correspondingly, then in quantising the vector
space onto 256 fields the standard number is represented by one byte, which means 20fold data compression. 2.4.3. Phonemes The phoneme is the basic unit of sound structure of language. The sound inventories of various languages have their characteristics. Thus, there are 41 phonemes in the Russian language (though this segmentation is by no means definitive and may be open to doubt as any segmentation of a complex process into its constituent parts). Many consonants have two phonetic analogs: the non-palatalized and palatalized ones. Some vowels (diphtongs), on the contrary, have no phonetic analogs and are transcribed as double sounds (e. g. j C vowel). In acquiring written language we gradually master complex relations between what is written and what is pronounced (and heard). From this point of view phonetic transcription, directly indicating what must be pronounced, does not resort to an analysis of sound context and other factors. The concept of the phoneme may be viewed as an abstract, typified representation of a speech sound. In living speech, however, there exists an infinite number of physical realizations of each phoneme. One of the main regularities in phoneme variability is the influence of the neighbouring sounds. Varieties of a phoneme, conditioned by the surrounding sounds, are called its allophones. Allophones taken into account, the sound inventory of speech may include 100K140 and even more different sounds. Generally speaking, the phoneme is not a stationary segment of speech, but appears to be a sequence of shorter and, at times, very heterogeneous segments. For instance, the Russian sound ц contains an occlusion, the area of a rapid sound gradation and a quasistationary segment. This process can’t be described by any set of simultaneously existent features. The difficulty should be noted of singling out phonemes in their pure form from the stream of speech. Thus, it has been found out that the number of speech sound classes exceeds the number of speech phonemes considerably, and these classes overlap, i. e. they are not completely and precisely delineated. As a result, some researchers undertook a deeper study of co-articulation (that is mutual influence of articulatory movements in pronunciation of neighbouring sounds), and of the nature of sound vari-
839
58. Quantitative methods in speech processing
ability in general. It should be noted that exact recognition of phonemes remains an extremely complicated problem up to date. It cannot be solved in isolation from the whole complex of speech recognition tasks. In particular, automatic shorthand is only possible when the whole body of regularities of speech and speech comprehension is taken into account. The better the shorthand typist knows phonetics, lexics, grammar, inner logic of the subject discussed, the more carefully she follows speech characteristics and purposes of the speaker, the more successfully she works. Thus, the exact recognition of phonemes is an unattainable aim. Nevertheless, phoneme recognition is often integrated into word recognition (Jelinek 1998) and is realized in one and the same integral process. 2.5. Word recognition Nowadays methods of recognizing words in speech are essentially quantitative as they operate with quantitative assessment of hypotheses. Here two main approaches will be considered: an approach effected on the basis of dynamic programming (DP) methods and the other one called Hidden Markov Modeling (HMM). These two approaches do not of course exhaust all the problems of speech recognition, but they are basic for an overwhelming number of works in this field. One peculiarity of speech consists in the variable nature of its tempo. Speech tempo variability is expressed in spontaneous fluctuations of speech sound duration, as well as their segments and pauses. Neutralizing these deformities presents the most complex problem of speech recognition. The classical theory of pattern recognition does not consider this problem: it is studied and solved in the works on speech recognition exclusively. To overcome this factor methods of dynamic programming and Markov modeling were used in the late Sixties. 2.5.1. Word recognition by dynamic programming methods The input word, represented by a chain of vectors (a set of parameters) is compared with word standards of the given dictionary and as a result decision is taken in favour of the most suitable word. Speaking simplistically, in order to compare a word with the standard one needs to match segments corresponding to the same sounds by deforming the time axis, then to
measure the residual differences (distances) between them and to sum up these partial distances taken in combination with certain weight coefficients. To normalize the tempo, repeated attempts have been made at linear compression (extension) of speech descriptions. In the outcome of such experiments it has become clear that tempo deformities are of clearly non-linear nature, and they cannot be adequately compensated by linear methods. Let the descriptions of word A and standard B under comparison be represented by a sequence of feature vectors, measured at discrete moments of time with a constant quantising interval from the span of 10K20 msec: A Z a1, a2, ..., ai, ..., aI; B Z b1, b 2,..., b j, ..., bJ . Let a certain metric d (i, j) be given in feature-vector space allowing to determine the difference measure of corresponding vectors ai and bj. Then the task of normalizing the tempo reduces to finding an optimal trajectory (similarity trajectory) on the phase plane (i, j), which minimizes the distance as the sum of all d (i, j) encountered on this trajectory taken with definite weight coefficients. The work of DP-algorithms is based on recursive DP-equations. Varieties of these equations are directly connected with hypotheses about mutual deformities of sequences A and B. One of the simplest DP-algorithms is based on the following recursive equation: g (i, j) Z min {g (i, j K 1) Cd (i, j), g (i K 1, j K 1) C2d (i, j), g (i K 1, j) C d (i, j)}
(4)
where g (i, j) is a target function having the sense of DP-distance between i and j-long segments of A and B realizations; d (i, j) is the distance between vectors ai and b j, calculated on the chosen metric. Analysis of the given equation shows that an infinite number of iteration steps on indices i or j is assumed, which means an infinite word deformity. Such an algorithm is nonoptimal because only 2-fold deformity appears to be optimal. For a detailed study of various DP-equations with various deformity limitations see Rabiner (1993). 2.5.2. Markov modeling in word recognition Markov modeling belongs to the most efficient methods of speech recognition. The
840
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
HMM method enables the researcher to suppress speech tempo deformities and to translate the speech description into a more compact form, to operate at the same time word standards in the form of phonetic sequences, making it possible to work with very large dictionaries amounting to several thousand words. The term Hidden Markov Modeling (HMM) arose in the context of studies of stochastic processes, a reflecting speech in cerebral structures through another stochastic process, viz. speech, observed at the acoustic level (Levinson 1985). Thereby, the basic symbolic (linguistic) process is hidden as it goes on in the cerebral structures closed to direct observation. In the observable (acoustic) process measurable physical correlation of the linguistic structure are singled out. It is assumed that the main process is Markovian in the sense that at any time point its values depend only on a certain finite interval of its nearest prehistory. When using the HMM method recognition decisions are taken on a stochastic basis by Bayes’ criterion. One of the possible ways of applying the HMM method is discussed in Jelinek (1998). The basis of this system are such categories as standard (subjective) vectors, phonemic elements, basic word forms represented as phonemic sequences , the acoustic processor, the acoustic model. The standard vectors are elaborated by the acoustic processor (see figure 58.1) at the stage of training the system on a concrete voice. While putting the words in from the speech signal every 10 msec 20 main parameters are singled out to be varied in the 20 msec. analysis window. In the process of vector quantising these vectors of parameters are identified with the standard vectors (there is a total of 200 standards) as a result of which the input vectors receive the numbers of the nearest standards. These numbers are called the acoustic parameters. Thus, at the output of the acoustic processor there is a sequence of acoustic features A Z a1, a 2, ..., containing elements from alphabet  Z {a1, a 2, ..., a 200}. Phonetic elements belong to alphabet Bs Z {b1, b 2, .}. Each element b is matched by a Markov source (hidden Markov chain), which is an abstract model of the acoustic processor’s response to an impact of element b pronunciation (figure 58.2). Different sources corresponding to different pho-
Fig. 58.1: The Acoustic Processor
netic elements b of alphabet Bs are characterized by different probabilities with which these sources form transitions labeled with letters a of alphabet A. The acoustic model of word W from vocabulary W* is formed by joining the sources corresponding to sources corresponding to the elements of basic form B (w) of this word. Basic word forms B (w) do not depend on the speaker, they are oriented to the standard pronunciation, but the probabilities of different transitions ai are individual for each speaker. They are determined with the help of an algorithm of assessment both of the preceding and consequent states on the data of A obtained when training from a special text read by the speaker.
Fig. 58.2: The Acoustic Model of a) the Phoneme b) the Word
This model enables calculation of conditional probability P (A / W) that the acoustic processor will output a set of features A while the speaker is pronouncing word W. Taking into account that P (A) does not depend on W and using Bayes’ formula P (W / A) Z [P (W) P (A / W)] / P (A)
(5)
it is possible to calculate the conditional probability that word A was pronounced at the input if sequence A appeared at the out-
841
58. Quantitative methods in speech processing
put. Making such estimates for all words of the vocabulary one can arrive at the recognition solution: P (W / A) Z max P (W / A) W
2.5.3. Recognition of super-large vocabularies With the increase in vocabulary size, the number of recognition errors increases, and purely acoustic competence is not sufficient for an acceptable precision of word recognition. That is why it is no accident that distinctive characteristics of large (amounting to thousands of words) vocabulary recognition systems are multi-level processing and usage of high-level procedures and knowledge. These are realized in different ways: on the basis of statistical models, by way of semantic analysis of the context and other approaches. As an example of statistical model application Jelinek (1985) may be mentioned. This system is built as a work-place for document preparation and makes it possible to convert speech into a text which can be edited and corrected. The language model is based on assigning the conditional probability of the speaker’s pronouncing word i, provided he previously pronounced a given sequence of iK1 words. Such a model is elaborated in a numerical-statistical way on the basis of processing a text which comprises 25 million words. The application of syntax to the tasks of large vocabulary recognition was explored in Gallacher (1986). At the acoustic-lexical stage the system samples 150 word alternatives from 5000 words. As a result of a precise phonetic analysis this list shrinks to one to five words. Subsequently, the expert system integrated into the given system exacts the choice of words on the basis of grammatical correctness of the sentence and the contextual correctness of word usage. Tests have shown that word recognition is correct in 99 % cases. The vocabulary of the system is divided into classes to accelerate training to a concrete voice. Training time is 5 minutes only. Unlike the IBM software the system does not employ any complex statistical processing. At present systems of word recognition in vocabularies of 30,000 and more words are being created. Several leading companies of
the world have offered variants of such systems, which do not differ much in principle. In addition to an acoustic-lexical model the majority of these systems use a statistical model of the language. In the opinion of the system’s manufacturers such statistical models to a certain extent are substitutes for syntactic and semantic knowledge. As far as prospects of this trend are concerned, one should note the following. Originally such systems were created as dictation systems, i. e. as systems of automatic shorthand and they can be used for this purpose (given that a statistical language model is available for a given concrete applied field). Attempts of other applications (speech translation, dialogue information systems, speech control, etc.) face principal obstacles. The problem is that this kind of technology does not contain a level of understanding. Two routes are possible here in principle: (1) to strictly divide the task of speech understanding into word recognition and understanding of word sequences. But then two different types of high-level information will be used here, one at the level of words and the other at the level of sense, respectively, which will lead to a conflict of knowledge and to additional mistakes. Besides, at the stage of understanding a large amount of word hypotheses is necessary to choose a phrase hypothesis sufficiently conforming to high-level criteria. But in the standard dictation systems such a multi-alternative output is not envisaged; (2) to solve the problem of recognition and understanding integrally, in particular on the basis of the integral speech-understanding model offered by the author. So we see that at present all types of acoustic speech processing, from a preliminary processing of the input signal down to recognition of super-large vocabulary words on the basis of statistical language models are carried out quantitatively.
3.
High-level speech processing by quantitative methods
Among new trends in elaboration of quantitative methods of high-level speech processing one can mention first and foremost stochastic language models (see 3.1). These were initiated in the Eighties for automatic shorthand tasks. Attempts to extend the application of these models to dialogue and other intellec-
842
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
tual fields of speech technologies have not produced satisfactory results. Another trend is represented by stochastic grammars making it possible to estimate the degree of grammaticality, non-contextual, as a rule (see 3.2.). Further, it is important to note a new trend in stochastic speech understanding developed by A. Gorin et al. of AT&T (see 3.3.). A complete model of integrating heterogeneous knowledge in the course of speech understanding explored at SPIIRAS (St. Petersburg Institute for Informatics of the Russian Academy of Sciences) is discussed in 3.4. 3.1. Stochastic language models on the basis of bigrams and trigrams In order to recognize vocabulary of many thousands of words possible, not only acoustic-lexical, but also high-level information proved necessary. One of the first publications on the application of such models to large vocabularies belongs to an IBM research team (Jelinek 1985). A stochastic language model allows to make the probability of correct word recognition more precise by using probabilities of word sequences. In real models the number of preceding words influencing the choice of a given word equals 2. Thus, the model contains statistics of words, bigrams and trigrams of a limited language and of a definite subject field. Texts of business correspondence amounting to 25 million words were used in this case. The vocabulary of the system contained 5000 words. As the number of different trigrams for such vocabulary is 1.25 * 1011 it is obvious that their estimation on basic speech material of an acceptable size is problematic. That is why in addition to statistics certain calculable estimates for bigrams and trigrams not found in the basic material are used. Such models are aimed at rather narrow fields. For input of texts from a different field the precision of input decreases dramatically. 3.2. Stochastic grammars Such grammars arose not so long ago as a counterbalance to conventional strict-rule grammars. One of the pioneering works in the field (Lucke 1993) deals with the new mechanism of inference of stochastic context-free grammar rules from a body of
training data. This approach is based on Pearl’s theory of confidence degree estimates in cause-effect trees (Pearl 1987). Probability estimates obtained by grammar rules are used for building utterance segmentation trees. Then the confidence estimate belief is used to obtain posterior probability distribution for each grammar node. This algorithm does not require any markers or segmentation of the input signal and hence is totally unsupervised. According to the author, this method yields much better results than the popular method of bigrams and trigrams. Wolfgang Minker’s article (Minker 1998) presents LIMSI-CNRS research in the field of singling out a stochastic component of Natural Language understanding and applications of this stochastic component to various purposes and languages. This component was tested in an American application (ATIS: Air Travel Information Services) and French application (Multimodal-Multimedia Automated Service Kiosk). The research investigations showed that in limited applications the stochastic method produces a well-built and rule-based component. It has been also demonstrated that the application of the stochastic component may relieve human effort in attributing data to a certain category, and that this is much easier than by forming, maintaining, and extending rules. As the stochastic method automatically trains itself on the semantic formalism, it appears to be a comparatively easy and flexible method. 3.3. Superphrase stochastics for determining semantic-syntactic and pragmatic components In one AT&T research team’s works (Arai/ Wright/Riccardi et al. 1999) a method is explored for automatic formation of speech fragments in fluent speech understanding. This method is aimed at creating sets of fragments representing semantically and syntactically similar phrases. First, phrases are determined and assessed as to their frequencies as possible candidate. Each phrase is estimated stochastically according to the following three criteria: the preceding context, the following context and the associated semantic actions. Further, these three probability distributions are used for similarity assessment of candidate-phrases and clustering them into fragments. Then the
843
58. Quantitative methods in speech processing
most frequent fragments are singled out to form the basis for the recognition system’s work. The subject matter of understanding is represented in this work by a type of telephone inquiry; 14 types are considered. The essence of understanding boils down to attribution of the input phrase to a corresponding fragment and determining a semantic action associated with it. Thus, we find quantitative methods at all basic levels of speech and language. 3.4.
Integration of heterogeneous knowledge on the basis of a quantitative approach 3.4.1. A generalized model In the SPIIRAS research team’s works an integral quantitative speech process understanding model is used (Kosarev 1994; Kosarev/Ronzhin/Lee/Karpov 3002; Ronzhin/Karpov 2004). The research strategy is based on the hypothesis that all fundamental kinds of speech processing by a natural intellect at the subconscious level boil down to quantitative estimates of utterance correspondence to respective types of knowledge (acoustic-lexical, semantic-syntactic, pragmatic, etc.). This concept is not open to doubt as far as the acoustic level is concerned, but high-level processing is mainly realized by using the apparatus of mathematical logic (except for some new approaches). These considerations naturally lead to the following mathematical model of integrating heterogeneous knowledge (Kosarev/Mikhailov 1999). Let each kind of knowledge 1, 2, ., n allow for estimating a measure of correspondence between the input hypothesis about signal S and the given kind of knowledge. In the ideal case of total correspondence this idea may be represented as a system of n equations:
{
Knowledge 1 : Knowledge 2 : . . . . . . Knowledge n :
F1 (S) Z 0, F2 (S) Z 0, . . . . Fn (S) Z 0.
For example, on the level of word recognition these estimates may be obtained by the known DP or HMM methods as distances in a multidimensional feature space or as a probability estimate. It is clear that zero estimates can exist in ideal cases only. Hence in the real cases the right-hand parts of the equations will contain some residues:
{
F1 (S*) Z E1 , F2 (S*) Z E2 , . . . . . Fn (S*) Z En.
So, vector E Z E1, E2, . En may characterize the quality of the input hypothesis. Its length gives a measure of deviation of this hypothesis from a certain ideal hypothesis (associated semantic action), and may serve as a criterion for choosing the optimal decision on the semantics of the utterance. In other words, according to information, the decision is taken in this case according to the well-known principle of minimal deviation. The difference of the proposed integral method from the traditional one of sequential parsing may be illustrated by figure 58.3 and figure 58.4
Fig. 58.3: Sequential parsing
3.4.2. The acoustic level model The speech signal S* in the form of a sequence of spectral readings is segmented by the so-called word-by-word input into several segments that correspond to proper words: * , S* Z s1*, s2*, ..., s*i , ..., sL
where L is the number of words. By means of dynamic programming each s1* is matched
844
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ness by means of an association mechanism whereby both types of knowledge are realized in a single process. (2) Different sequences of words are estimated as to the degree of their coherence and are ranged according to these estimates. (3) Speech objects of one and the same class undergo compact placement in a certain multidimensional space. (4) These associations are susceptible to a quantitative estimate. We interpret the phrase as some network of inter-related elements. Let’s consider vocabulary W Z {w1, w2, ... , wi, ... , wN}, i Z 1, N. For each ordered pair of words (wi, wj) from the given set we can get indices aij that express the measure of connection between these words aij R 0. The resulting matrix is A [N, N] Z L aij L. with dimensionality N * N Matrix A was filled by an expert according to a 4-point scale. In calculation of D these initial estimates are transformed to secondary ones by the following rule: 1 O 1500, 2 O 300, 3 O 5, 4 O 0. For each arbitrary word sequence of length L
Fig. 58.4: Integral Method
to the subset W*i of the most probable candidate words from the given vocabulary W. As a result the sequence of subsets is formed: W * Z W1*, W2*, ..., Wi*, ..., WL* , Then the set F* of input hypothetical phrases which correspond to signal S* is created as the Cartesian product: F* Z
Wi* Z {fn Z wn , wn , ..., wn ∏ iZ1 1
2
L
K
wni 2 Wi*, i Z 1, L} , It is obvious that the full number of hypothetical phrases equals L
K F* K Z ∏ K W*i K, iZ1
And finally, the equation for the acoustic estimation of the arbitrary phrase after normalizing on its length L can be formulated as Qak (n) Z
1
L
∑ C (s*i, ei), L iZ1
i Z 1, L.
3.4.3. Association-based semantic-syntactic processing In order to arrive at a real model we shall assume the following hypotheses: (1) Knowledge usually called syntactic and semantic is realized in human subconscious-
fn Z wn1, wn2, ... , wni, ... , wnL , we extract from A the subset A* consisting of indices for all the word pairs within the phrase ordered according to i: A* Z {an1, n2, an1, n3, ..., an2, n3, an2, n4, ..., anLK1, nL}, K A* K Z CL2 ; after change an1, n2 / b1, 2, A* Z {b1, 2, b1, 3, ..., b2, 3, b2, 4, ... , bk, s, bk, sC1, ... , bLK1, L}. We sum all the elements of A* and intro1 duce the norming factor 2 . Then we get CL the association index for the 1 L phrase: Qass (n) Z 2 ∑ bks , k ! s. C L k, sZ1 3.4.4. Pragmatic processing based on the situational representation of the subject field It is well-known that speech understanding is possible only in a sufficiently broad situational context. This also applies to models of speech interaction with the computer. The necessity of using the context is asserted by many researchers of speech and text understanding systems. However, existing models do not produce a good effect, as they are based on logical methods of speech-situa-
845
58. Quantitative methods in speech processing
tion correspondence, though many scholars already admit the inadequacy of such an approach and hope for quantitative processing. The basis of the proposed method of pragmatic speech information processing is constituted by a technical analog of the world model, i. e. an activity model in the form of the well-known state diagram in combination with the user’s language rendered in a free, non-rigid form as a set of subsets of commands correlated with a set of situations (states) in the given subject field. The result of pragmatic processing is in essence an estimate of degree of correspondence between the hypothesis about the input signal with the current situation and an indication of the most probable command among those commands appropriate in the situation. The obtained pragmatic index is used in the model of comprehension together with the acoustic and semantic-syntactic components. The latter two components and their integration into a single model were considered in more detail earlier (Kosarev/Mikhailov 1999). The correspondence of a hypothetical phrase to a certain situation is determined by estimating the semantic similarity of this phrase to the corresponding subset of canonical phrases. In the general case these estimates depend on the vocabulary of the compared phrases and on semantic weights of words (which are determined by experts). As a result of pragmatic processing we obtain a subset of pairs. Situation name
CQpr (n), jn D where i is the situation number; j is the number of the canonical phrase for the given situation; k is the number of the equivalent phrase for concrete meanings (i, j). We use the following assumptions: (i) Each speech act is accomplished within the respective situational context. (ii) A purposeful human activity in some applied area can be represented by means of some ordered structure of situations. This conforms
to human nature, and with regard to the modeling problem it could be said that the situational analysis is simpler than the nonsituational one. In particular, being mentally placed in some concrete situation, people manage with a very restricted vocabulary as compared to a full one. It raises the energy and operativeness of the processing. Moreover, from the point of view of high-level processing, many topics are simplified here, such as influences of homonymy, antonymy, polysemy, ellipsis, anaphora, discourse, etc. For example, dealing with homonyms anyone will hardly come across the identically sounding words stolb (telegraph-pole) and stolp (pillar of society) in one and the same situation. Situational context accompanies all dialogues: we understand each other well when both interlocutors are mentally included in the corresponding situation. And vice versa, we can easily be included in a comic and even dramatic stance when we confuse the situation. Such a discrepancy in mental notions usually serves as a basis for the literary genre of humorous writing. The purpose of pragmatic processing as viewed in our work is to estimate a degree of input phrase K current situation correspondence through comparison of input hypotheses with possible canonical phrases foreseen by the model. A situational data base is used for this goal, which consists of fragments like the following ones: Name 1 of following situation
Phrase 1.1 Phrase 1.2 ........
Weight of words Weight of words ........
Name 2 of following situation
Phrase 2.1 Phrase 2.2 ........
........
........
........
........
i. e. each fragment contains information on possible transitions and on possible phrases producing such transitions. To obviate a total enumeration of all the possible phrases in the model language (canonical phrases) by their coordination with the input utterance, we use quantitative comparison as we did at the acoustic-lexical level. In this case a correct solution can be found not only by exact coincidence, but also by all the differences which do not exceed a certain value.
846
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
For this goal the SWS method, elaborated previously in SPIIRAS, has been used. Its essence is that both compared phrases are presented as sets of words whereby the canonical phrase words are provided with their own weights. A semantic difference is expressed as some function using a regular operation on the sets, taking into account lengths l1 and l2 of phrases and words’ weights: E (Phr1, Phr2) Z F (l1, l2, w1 , w2, ..., ws). In the latest version of this approach a pragmatic analysis based on the syntagms is carried out (Kosarev/Mikhailov 1999) which yields a more adequate and compact presentation of the speech utterance. It should be mentioned that such formulae have been created by heuristics, so their adequacy can be estimated by experiment only. Yet the proposed approach cannot be considered an exhaustive and adequate solution for pragmatic analysis. 3.4.5. Integral estimate Besides the above-mentioned problem of syntactic and semantic knowledge realization there arises an urgent problem of unifying the results of a heterogeneous analysis. The classical principle of layer-by-layer parsing which consists in a hierarchical choice of speech pattern elements from the correct elements of a lower level has proved to be ineffective. This is the reason why we use the principle of quantitative estimation according to various criteria, and that of hypothesis selection on the basis of an integral criterion (Kosarev 1994). According to the compactness hypothesis we represent the location area of input message hypotheses by a certain measure of integral (acoustic and semantic-syntactic) deviation from the norm as D Z (Dak C Dass). (The application of Euclidean metric to this case does not rule out other kinds of metrics). 3.4.6. Sense interpretation Sense interpretation of an oral command ki 2 K is defined as the mapping of signal S* to one of the canonical phrases kfi 2 KF on the basis of all the available linguistic and extra-linguistic a priori information taken into account. We shall formulate the integral estimate of hypothesis fn as a weighted sum of individual estimates:
Qn Z α1 Qak (n) C α2 Qass (n) Cα3 Qpr (n, jn). Then the decision of the sense interpretation on the basis of the integral estimate will have the form j* Z arg min {Qn (jn)}. n
4.
Conclusion
Requirements of vocal human-to-computer communication have triggered off a rapid development of quantitative multi-level speech processing methods. Obtaining quantitative estimates based on criteria of different types of knowledge paves the way for solving the problem of speech understanding by means of multi-level optimization methods. Furthermore, it is expected that an optimal combination of qualitative and quantitative approaches will be most fruitful.
5.
Literature (a selection)
Arai, Kazuhiro/Wright, Jeremy H./Riccardi, Giuseppe/Gorin, Allen L. (1999), Grammar Fragment Acquision using Syntactic and Semantic Clustering. In: Speech Communication 27 (1), 43K62. Gold, Bernard/Morgan, Nelson (2000), Speech and Audio Signal Processing. John Wiley and Sons. Gallacher, Richard (1986), Speech Recognition System. In: Electronics 10, A McGraw-Hill Publication. Jelinek, Frederick (1985), The Development of an Experimental Discrete Dictation Recognizer. In: Proceedings of the IEEE 73 (11), 1616K1624. Jelinek, Frederick (1998), Statistical Methods for Speech Recognition, MIT Press. Kosarev, Yuri A. (1994), The Model of Oral Speech Semantic Interpretation: Quantitative Processing and Integration of Acoustic, Syntactic, Semantic and Pragmatic Data. In: Proc. German Acoustics Conference DAGA-94, Drezden, 1281K 1284. Kosarev, Yuri A./Mikhailov, Andrei (1999), The SPIIRAS Approach to the Speech Understanding for Dialog Systems. In: Proc. of Intern. COST 254 Workshop on Intelligent Communication Technologies and Applications. Neuchatel, 103K110. Kosarev, Yuri A./Ronzhin, Andrey L./Lee, Izolda V./Karpov, Alexey A. (2003), Continuous Speech Recognition without Use of High-Level Informa-
59. Probabilistic parsing tion, In: Proc. of the 15-th Intern. Congress of Phonetic Sciences, Barcelona, 1373K1376. Levinson, Stephen (1985), Structural Methods in Automatic Speech Recognition. In: Proceedings of the IEEE 73 (11), 1625K1650. Lucke, Helmut (1993), Interface of Stochastic Context-Free Grammar Rules from Example Data Using the Theory of Bayesian Belief Propagation. In: The Proc. of Eurospeech 93, Berlin, 1195K1198. Minker, Wolfgang (1998), Stochastic versus RuleBased Speech Understanding for Information Retrieval. In: Speech Communication 25, 223K247.
847 Pearl, Judea (1987) Probabilistic Reasoning in Intelligent Systems. Morgan & Kaufmann. Rabiner, Lawrence/Juang, Biing-Hwang (1993), Fundamentals of Speech Recognition, Prentice Hall, Engelwood Cliffs, NJ. Ronzhin, Andrey L./Karpov, Alexey A. (2004), Implementation of morphemic analysis for Russian speech recognition, In: Proc. of 9-th Intern. Conference SPECOM’2004, St. Petersburg, 291K 296.
Yuri A. Kosarev, St. Petersburg (Russia) Andrey L. Ronzhin, St. Petersburg (Russia)
59. Probabilistic parsing 1. 2. 3. 4.
7. 8.
Introduction Parsing probabilistic context-free grammars Evaluation of parsing performance Shortcomings of probabilistic context-free grammars History-based grammars Lexicalized probabilistic context-free grammars Data-oriented parsing Literature (a selection)
1.
Introduction
5. 6.
As a result of the Chomskyan revolution, quantitative methods only played a minor role in linguistics in Western Europe and North America for a couple of decades. For Chomsky, stochastic reasoning had no place in a theory of linguistic competence, and competence theory was what real linguistics was all about. But in the 1980s, this situation began to change, and today, it is not only research in corpus linguistics which heavily relies on quantitative methods. This development was the result of a number of quite different reasons: (a) The competence-oriented approach in linguistics was confronted with a number of fundamental theoretical and practical problems. (b) In certain domains, such as speech technology, probabilistic systems proved to be so superior in performance that they nearly completely superseded simple rule-based systems. (c) In the 1950s, when the American structuralists formulated their empiricist program, the descriptive and techno-
logical basis for the statistical analysis of natural language was clearly insufficient. Today, for a great number of languages, large corpora based on spoken and written language are available, and computers are powerful enough for analyzing these corpora. The design of a probabilistic model adds a further source of information to a natural language system or a parser. There are at least three ways a parser can profit from statistical information: Disambiguation The structural descriptions generated by the parser can be sorted by descending probability: the most probable parses are presented first. Efficiency Parsing can be viewed as a search problem. In many cases, it is sufficient to find only the best or the n best parses for a sentence, and the statistical information provides a way to drastically reduce the search space for the parser. Language model In speech recognition the identification of the discrete units which make up an utterance is a non-trivial problem. In a situation like this, a probabilistic parser which operates on a word lattice can be used to generate hypotheses about the words uttered. When looking at probabilistic parsing, it is useful to consider the following aspects:
848
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
(a) What kind of (parsing) algorithms are used in probabilistic parsing systems? (b) How can we compare the results produced by different probabilistic parsers? (c) What kind of parameters does a probabilistic grammar use to define the probability distribution for the set of structural descriptions it generates?
2.
Parsing probabilistic context-free grammars
Probabilistic context-free grammars (PCFGs) constitute a natural starting point for a discussion of the different approaches to probabilistic parsing. PCFGs were the first grammar formalism used for probabilistic parsing. PCFGs can be viewed as a simple extension of context-free grammars, and most parsing algorithms used in natural language processing (NLP) systems were designed for grammars of this type. A PCFG G Z ! VN, VT, S, R O is a context-free grammar which assigns probabilities to rules, so that for each X 2 VN the probability of all rules expanding X sums to 1:
∑i P (X / αi) Z 1,
for all X 2 VN.
(1)
The term P (X / α) expresses the probability that in a derivation the symbol X is replaced by α; i. e. P (X / α) is an abbreviation for the conditional probability P (X / α K X). For a PCFG G the following properties hold (cf. art. no. 21): (a) The probability of a derivation equals the product of the probability of the rules applied in the derivation. (b) The probability of a structural description equals the probability of the underlying canonical derivation (leftmost derivation, for example). (c) The probability of a string w 2 L (G) equals the sum of the probabilities of all its structural descriptions. (d) If standard estimation procedures are used to assign rule probabilities, the probability of L (G) equals 1. Most probabilistic parsing systems are based on a chart parser, which uses a probabilistic variant of the CKY or the Earley algorithm (cf. Kasami 1965; Younger 1967; Earley 1970). Only few systems use other algorithms like Tomita’s GLR algorithm (Bris-
coe/Carroll 1993) or a left-corner algorithm (Manning/Carpenter 1997). We start with a non-probabilistic version of both algorithms and use them to show how statistical information can guide a parser. Given a sentence w Z w1 ... wn (wn1 for short) and a context-free grammar G in Chomsky Normal Form (i. e. G contains only rules of the form X / Y Z and X / α, with X, Y, Z 2 VN and α 2 VT), the CKY algorithm computes the chart bottom-up. Each item stored in the chart has the form [i, j, X], with 1 % i % j % n and X 2 VN. PROCEDURE CKY (wn1 , G) For i from 1 to n: If X / wi 2 R then [i K 1, i, X] 2 CHART. For k from 2 to n: For i from 0 to n K k: For m from i C 1 to i C kK1: If X / Y Z 2 R and [i, m, Y], [m, k, Z] 2 CHART then [i, k, X] 2 CHART. Return CHART. The Earley algorithm differs from this algorithm in several ways: (a) It can handle arbitrary context-free grammars. (b) It uses top-down filtering to minimize the number of useless items. (c) Items are of the form [i, j, X, α, β], with i, j as before and X / αβ 2R. α represents the part of the constituent which has already been processed, and β the unprocessed part. If β Z 2, the item is called passive; otherwise it is called active. PROCEDURE EARLEY (wn1 , G) For i from 1 to n: If X /wi 2 R then [i K 1, i, X, wi, ε] 2 CHART. AGENDA:Z {[\, \, i, S, ε, α] K S / 2 R}. While AGENDA s \ and [0, n, S, α, ε] ; CHART: (*AGENDA Z ! i1, ..., in O, n R 1*) K :Z i1. AGENDA :Z !i2, ..., in O. CHART :Z CHART g {K}. If K Z [i, j, X, α, Y β] then For all [j, k, Y, γ, ε] 2 CHART: [i, k, X, α Y, β] 2 AGENDA. For all Y / γ 2 R: [j, j, Y, ε, γ] 2 AGENDA. else
849
59. Probabilistic parsing
For all [h, i, Y, γ, X δ] 2 CHART: [h, j, Y, γ X, δ] 2 AGENDA. Return CHART. Both algorithms are easily adapted for parsing PCFGs. But first we have to introduce a further argument into the items stored in the chart ([i, j, X, γ] vs. [i, j, X, α, β, γ]), which stores structural information about the parsed constituent (e. g. either a partial structural description or backpointers to those items or rules its generation is based upon). We do not specify the details of the neccessary bookkeeping operations. The chart generated for a string Wn1 can be visualized as a pyramid of (n2C n) / 2 fields. An item [i, j, X, ...] is stored in the (i C 1)th field of the (j K i)th row.
S NP
VP NP N1 AP
he
v
art
degr
bought
a
pretty
adj
n
old house
S NP
VP
S
NP VP
N1
NP N1 AP NPpro
v
n
art
N1 N1
degr adj
adj
Fig. 59.1: A Simple Chart
The CKY algorithm is perfectly well suited for showing how parsing can be speeded up considerably by statistical information providing it produces just the most probable parse. Instead of storing all items [i, j, X, γ1], [i, j, X, γ2], ..., [i, j, X, γm], which represent different ways a constituent X stretching over wiC1 can be structured, one only stores j the most probable item. The probability of an item is computed as follows: For lexical items, it is identified with the probability of the underlying lexical rule. For all other items, the probability is calculated by multiplying the rule probability with the probability of the two items which correspond to its right-hand side. In this way, the parser is guaranteed to produce just the most probable parse for Wn1 . This kind of optimization is called Viterbi optimization and consequently the parser a Viterbi parser. Example (1) Consider a syntax which assigns the sentence he bought a pretty old house the following two parses:
he
v
art
adj
adj
n
bought
a
pretty
old
house
Fig. 59.2: Structural Ambiguity S
Depending on the lexical probability of pretty occurring as a degree modifier (a very old house) or as an adjective (a house, pretty and old) and the probability of the competing rules, the more likely interpretation is chosen and recorded in the chart. The nonprobabilistic algorithm would store both readings (i. e. there would be two items for all the symbols in bold face, cf. Fig. 59.1). While it is possible to use a Viterbi-style optimization technique for the Earley algorithm as well, the agenda allows more flexibility. By sorting the items in the agenda by descending probability (or better, by descending length), and items of the same length by probability, the agenda can be utilized as a priority list (cf. Jelinek 1969). Using the agenda in this way, it is guaranteed that the most probable parse will be generated first, but other parses (sorted by decreasing probability) can be retrieved on demand.
850
3.
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Evaluation of parsing performance
A comparison of competing systems should be guided by precise and rational evaluation standards. Comparing different parsing systems seems to be an easy task: Given a parsed test corpus, one just has to count the number of hits each system comes up with. And a structural description generated by a parser can be counted as a hit only when it is identical with the structural description recorded in the test corpus. But things are not always that easy. (a) If the grammars used by the parsing systems and for the annotation of the test corpus are based on different grammatical formalisms, it is very likely that they will use different sets of categories and structural principles. In that case, complete identity is hard to achieve. (b) Even if the parsers use the grammar which was used to annotate the test corpus, it may be desirable to drop certain categorial distinctions made in the corpus grammar. (c) Instead of just distinguishing correct parses from incorrect ones, it can be sensible to use a more fine-grained classification which allows distinctions between different degrees of correctness. This situation has led to the formulation of a number of evaluation metrics for parsing systems, most of which are based upon the concepts precision and recall. The following overview is based on the detailed exploration of these metrics found in (Goodman 1996b, 1998). For an arbitrary task α, let the solution set τ1 be the set of results a system generates, and the target set τ2 be the set of results it should produce. Precision measures to what extent the solution set is included in the target set: Precision Z
K τ1 h τ2 K K τ2 K
(2)
Recall, conversely, measures to what extent the target set is part of the solution set: Recall Z
K τ1 h τ2 K K τ1 K
(3)
When parsing a sentence, the solution set (target set) can be considered as the set of constituents which make up the structural description generated by the parser (stored
in the test corpus). As long as we restrict ourselves to structures which contain no cycles, a constituent of type X, which stretches from wi to wjK1, can be represented unambiguously by a triple ! i, X, j O. A constituent k Z ! i, X, j O 2 τ1 can be considered as correct iff (a) it is identical with a constituent k# 2 τ2 (Labelled Match), or (b) there is a structural identical constituent k# Z ! i, Y, j O 2 τ2 (Bracketed Match), or (c) there is no constituent k# Z ! i#, Y, k# O 2 τ2 such that i# ! i ! j# ! j or i ! i# ! j ! j# (Consistent Brackets). Let L (τ1, τ2) / B (τ1, τ2) / C (τ1, τ2) be the number of correct constituents according to Labelled Match/Bracketed Match/Consistent Brackets. Then we have the following metrics: (1) Labelled Tree Rate LTR (τ1, τ2) Z 1 iff L (τ1, τ2) / K τ2 K; 0 otherwise. (2) Labelled Recall Rate LRR (τ1, τ2) Z L (τ1, τ2) Z K τ2 K. (3) Labelled Precision Rate LPR (τ1, τ2) Z L (τ1, τ2) / K τ1 K. (4) Bracketed Tree Rate BTR (τ1, τ2) Z 1 iff B (τ1, τ2) Z K τ2 K; 0 otherwise. (5) Bracketed Recall Rate BRR (τ1, τ2) Z B (τ1, τ2) / K τ2 K. (6) Bracketed Precision Rate BPR (τ1, τ2) Z B (τ1, τ2) / K τ1 K. (7) Consistent Brackets Recall Rate CBRR (τ1, τ2) Z C (τ1, τ2) / K τ1 K (8) Consistent Brackets Tree Rate CBTR (τ1, τ2) Z 1 iff C (τ1, τ2) Z τ1; 0 otherwise. One has to distinguish between (a) the metric which is used to evaluate a system and (b) the metric the system itself is trying to maximize. While most of the metrics mentioned above have been applied to evaluate the performance of parsing systems, it is just one metric, the LTR, which nearly all of the parsing algorithms attempt to maximize. Goodman has argued, and the experiments he conducted confirm his claim, that performance is optimal if both metrics are the same; i. e. if the parsing algorithm maximizes
851
59. Probabilistic parsing
precisely that metric which is used to evaluate its performance (cf. Goodman 1998, 102 ff.).
4.
Shortcomings of probabilistic context-free grammars
PCFGs use context-free rule probabilities, i. e. the probability of a rule X / α is conditioned by nothing but the category X itself. This simple probability model leads to a number of severe empirical problems. 4.1. Minimal derivation length A best-first parser for PCFGs has a strong tendency to favor flat structures, which are generated by a few rules with a high branching factor. Since the probability of a constituent is defined as the product of the rule probabilities of the rules used in its generation, its probability tends to decrease as the number of rules applied increases. Take PP-attachment as an example. A typical environment where attachment ambiguities arise are sentences in which a verb is followed by a nominal object and a prepositional phrase. The parser can either attach the PP to the verb (VP / ν NP PP) or to the NP (VP / ν NP, NP / NP PP), but the parser will choose the NP-attachment only if the product of the probabilities of the last two rules is greater than the probability of the first rule. Almost always the product of two rules is less than the probability of any one rule.
analysis of a syntactic constituent is not influenced or even guided by its lexical context and the lexical items covered by the constituent. In analyzing a VP e. g., the valency information of the lexical head can be used to eliminate all VP-rules which are not compatible with the subcategorization frame of the verb. But as long as lexical information is not smuggled into syntax by introducing a set of new symbols (VPinf, VPitrans, VPtrans, ...), this information simply is not accessible. Neither is lexical information percolated up the tree (bottom-up parsing), nor is the parser able to see in advance what kind of arguments the verb expects (top-down parsing). While a loss of efficiency is regrettable but can in many cases be regarded as tolerable, a loss of precision clearly constitutes a severe problem. A closer look at PP-attachment reveals that attachment decisions are heavily influenced by the lexical material within the constituent that is being analyzed. As Hindle and Rooth and others have argued (cf. Hindle/Rooth 1993; Franz 1995), when dealing with V-NP-PP constructions, a high rate of success can be achieved if the attachment decision is conditioned on the verb, the nominal head of the NP, and the preposition heading the PP. In sentences like the following, simple lexical statistics can rule out the NP-attachment reading. ... drove the car into the garage
4.2. Structural independence Another consequence of this approach is that the probability of a constituent is not influenced by the structural position it occupies. But, as is well-known, there are a number of languages where, for example, pronominal NPs are not equally distributed over the nominal slots available within a sentence. In German, personal pronouns are more frequently found in the subject position than in the object position, and reflexive pronouns exclusively occupy the object position.
In other cases, it is necessary also to regard the head of the NP contained in the PP:
4.3. Lexical independence Even more harmful than the structural independence assumption implicit in PCFGs is their missing lexicalization. Lexical information can be used to speed up parsing and to dissolve ambiguities. But in PCFGs, the
One way to overcome the deficiencies of PCFGs is to use a context-sensitive probability model for parsing, which calculates the probability of a rule by considering certain aspects of its structural and lexical context. Pearl, an earley-based probabilistic
... searched the car with great care ... searched the car with the broken window As (probabilistic) context-free grammars can make no use of lexical information, many of the most probable parses of sentences containing PP-attachments are deemed to be wrong.
5.
History-based grammars
852
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
parser designed in the early 1990s by Magerman and Marcus (cf. Maggerman/Marcus 1991), is a good example of this approach. (a) It uses a probability model for which the probability of a rule r is determined in terms of its parent rule and the tagtrigram centered at the left corner of the rule. (b) The probability of a constituent is not determined by multiplying the probability of its sub-constituents as in PCFGs, but by taking the geometric mean of their probabilities. While this procedure has the advantage not penalizing rules with a high branching factor, it clearly is heuristic in nature. It can no longer be guaranteed that the probability distribution imposed by a grammar G is proper (namely, that Sw2L (G) P (w) Z 1 holds). (c) It incorporates a simple model for dealing with unknown words: They are assigned to every open word class. The probability of lexical items formed by this process is determined by the relative frequency of the assigned lexical category within the training corpus. Pearl and Picky, a CKY-based parser developed by Magerman and Weir two years later (cf. Magerman/Weir 1992), were two steps which led to the design of the history-based grammar (HBG) model by the IBM Language Modeling group (cf. Black/Jelinek/ Lafferty et al. 1992). While Pearl uses only a small subset of the contextual information available, HBG is based on the idea that all information contained in the derivational history of a parse tree is relevant for determining the probability of the rule to be applied next. Given a sentence w1 ... wn (wn1 for short), HBG defines the joint probability of generating wn1 and a parse tree T as: m
p (T, wn1 ) Z ∏ p (ri K tK i ),
(4)
iZ1
with tK i as the (left) sentential form obtained just before the rule r expands the node i. As the huge number of histories would lead to a serious sparse data problem, decision trees are used to partition the set of histories into a manageable number of equivalence classes. In empirical tests the HBG approach proved to be quite successful. Based on a broad-coverage unification grammar with
nearly 700 rule templates encoding several hundred thousands of rules (cf. Black/Garside/Leech 1993), the IBM Language Modeling group designed a HBG model which was tested against a PCFG model using the Lancaster Computer Manual Corpus. In the HBG model, the joint probability of a sentence wn1 and a tree T was determined as the product of the probabilities of all categorial nodes in T. For each categorial node, 5 parameters were considered: its syntactic and semantic category, the rule to expand it, and the primary and secondary (lexical) head of this rule. The probability of a category node c was conditioned on its parent node cp and the position P of c in cp’s list of children: p (T, wn1 ) Z
∏
p ([syn, sem, r, h1, h2]K
[syn, sem, r, h1, h2]2T
[syn, sem, r, h1, h2] p, P),
(5)
Even with this restricted use of contextual information, the HBG model clearly outperformed the PCFG model. Tested on 760 sentences, the PCFG model achieved an LTR of about 60 %, while using the HBG model, this rate was increased to 75 % (cf. Black/ Jelinek/Lafferty et al. 1992; Magerman 1994, 54 ff.). Like most probabilistic parsers, Pearl and the HBG model are grammar-based; i. e., they use the probabilistic model as a filter which allows the parser to select the correct parse out of the set of parse trees which are licensed by the underlying grammar. Extending the way decision trees were used in the HBG model, Magerman developed SPATTER (Statistical PATTErn Recognizer), a statistical parser, which does not need an extensive hand-written grammar, but uses decision-tree learning techniques to assign parse trees to sentences (cf. Magerman 1995). SPATTER uses three decision tree models: a part-of-speech model, a node-extension model, and a node-labeling model. The parsing algorithm generates a parse tree bottom-up, starting with the sentence’s words as leaves. The tree-growing and nodelabelling actions are based on linguistic information available in a five-node window (the selected node plus two nodes to the left/ right of this node). For training the system, a parsed corpus (tree-bank) is needed. In a test on the Penn Treebank Wall Street Journal Corpus, SPATTER showed good results: For sentences of 40 words or less, it produced an LPR of 84.5 % and an LRR of 86 %.
853
59. Probabilistic parsing
6.
p (h (n)) z p (h (n) K c (n), c (p (n)), h (p (n)))
Lexicalized probabilistic context-free grammars
Formally, a lexicalized probabilistic contextfree grammar (LPCFG for short) is nothing but a simple attribute grammar. Each nonlexical category occurring in the rules of the grammar is associated with a word or a word and a tag (cf. Fig. 59.3). S
NP
VP
fpunc
(6)
On the other hand, p (r(n)) is conditioned on n’s head and category and on the category of n’s parent node: p (r (n)) z p (r (n) K c (n), h (n), c (p (n)))
(7)
Deleted interpolation is used to smooth the obtained probabilities. The probability of a parse T for a sentence wn1 is computed as the product of these probabilities for all non-leaf nodes n of T: p (T, wn1 ) Z ∏ p (h (n)) ! p (r (n))
(8)
n2T
adj
n
v
Corporate
profits
rose
.
S(rose)
NP(profits)
VP(rose)
adj
n
v
Corporate
profits
rose
fpunc(.)
.
Fig. 59.3: Lexicalized trees
Using the simple context-free probability model as employed by PCFGs would lead to a massive sparse-data problem: Lexicalization increases the number of parameters to be estimated considerably. One way to overcome this problem is to view the generation of a constituent as an act which depends on a number of factors whose probability can be estimated independently. Probability models for LPCFGs differ with respect to the number and nature of factors which are used to approximate rule probabilities. Charniak (cf. Charniak 1997) determines the probability of a constituent C which is created by expanding a node n with head w (h (n) Z w) by applying a rule r as the product of (a) the probability p (h (n)) that w appears as the head of n and (b) the probability p (r (n))) that rule r is used to expand n. Charniak assumes that p (h (n)) depends just on n’s category c (n) and on the category c (p (n)) and head h (p (n)) of its parent node:
At first sight this probability model looks pretty much like the ones used by Pearl and HBG. But the incorporation of lexical heads has an important consequence: It enables the model to capture information about dependency relations between words, which may be vital for selecting the correct parse (cf. Fig. 59.4). While head and rule selection probabilities for the VP may not be discriminating in this case, the head selection probabilities for the PP (p (as K joined, PP, VP) vs. p (as K board, PP, NP)) clearly favors the VP attachment. Trained on The Penn Wall Street Journal and tested on the same Data as SPATTER, Charniak’s parser produced excellent results. It achieved a LRR of 87.5 % and a LPR Z 87.4 %, an error reduction of 18 % over Magerman’s system. M. Collins has developed a series of probability models for LPCFGs which incorporate a number of further parameters (cf. Collins 1996; 1997; 1999). The generation of a constituent by expanding a node n is taken to be a three-step process: First, the category of the head daughter is computed, then the left modifiers, and finally the right modifiers. The generation probabilities are conditioned on n’s head word h (n) and category c (n) and for modifiers additionally on the category of n’s head daughter. Unlike Charniak, Collins does not use a fixed grammar K His parser, after being trained on an annotated corpus, produces constituent structures ‘on demand’. To improve parsing performance, a heuristic distance measure is introduced, which enables the parser to decide if there is a head-modifier relationship between two words or not. Collins extends this basic model (Model 1)
854
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines VP(joined) NP(board)
PP(as)
v
joined
the board
as a nonexecutive director
VP(joined) NP(board) v PP(as)
NP(board)
joined
the board
as a nonexecutive director
Fig. 59.4: Attachment ambiguity
step-wise by adding further parameters leading to probability models which are sensitive to the complement/adjunct distinction and subcategorization frames (Model 2), and traces and wh-movement (Model 3). Trained and tested on the same data as SPLATTER and Charniak’s parser, his parser proved to be superior to its competitors. Using the most elaborate probability model, it produced a LRR of 88.6 % and a LPR of 88.7 %, the highest rates achieved so far.
7.
Data-oriented parsing
As long as grammatical structures are built by combining local trees (i. e. trees of depth 1), one has to introduce appropriate parameters into the probability model to capture lexical and structural dependencies. Tree grammars like tree-adjoing grammar and tree insertion grammar (cf. Schabes 1992; Schabes/Waters 1995), which use more complex trees as basic objects, can cover these dependencies more directly. Data-oriented parsing (DOP) as R. Bod suggestively coined his approach developed in the early 1990s (cf. Bod 1992; 1993; 1998), uses trees of arbitrary complexity as basic objects. A DOP grammar is a stochastic tree-substitution grammar (STSG) which is induced from an annotated corpus. The set of all subtrees of all parse trees encountered in the corpus is taken as rule set (cf. Fig. 59.4). The probability of an elementary tree (i. e. a tree contained in the rule set) is determined by its relative frequency in the corpus.
Trees are combined by leftmost substitution. The leftmost leaf node of a tree labelled with a nonterminal is substituted by a matching tree. The most appealing feature of the DOP approach is its conceptual simplicity. It is easy to extend the basic model which we discussed, and Bod calls DOP 1, in several ways: Mechanisms for dealing with unknown words and structures can be added, and compositional semantics can be integrated quite naturally. Lately, a DOP model for lexical-functional grammar (LFG-DOP) has been proposed (cf. Bod/Kaplan 1997; 1998a; 1998b). But there are problems. (1) Although in (P)CFGs there is a one-to-one correspondence between canonical derivations (leftmost derivations, for example) and parse trees, this correspondence does not hold for STSGs. Most parses can be generated by a number of canonical derivations which simply employ different sets of elementary trees (cf. Fig. 59.5). As a consequence, the most probable derivation is not guaranteed to produce the most probable parse, and it is not possible to use a Viterbi-style optimization technique. Even worse, it has been proven that there is no polynomial time algorithm for identifying the most probable parse (cf. Sima’an 1996). The solution Bod offers is to apply a Monte Carlo strategy to approximate the most probable parse. By sampling a number of random derivations, the most probable parse is taken to be the parse which is generated most often. By enlarging
855
59. Probabilistic parsing S fpunc VP
NP
fpunc .
S n
adj
NP corporate
VP
fpunc
profits VP
NP
v rose
v
adj
n
corporate
profits
rose
Fig. 59.5: Some of the trees induced by the parse tree in fig. 2 (a)
S
NP
VP fpunc
adj
n
corporate
profits
(b)
NP
VP
fpunc
v
.
rose
S
VP
v rose
fpunc
fpunc
NP
n
adj
corporate
.
profits
Fig. 59.6: Two derivations for the sentence Corporate profits rose.
the number of random derivations, the error rate can be reduced below any given value. In his tests, Bod sampled 100 random derivations for each sentence. (2) The naive induction algorithm leads to grammars which are considerably larger than comparable PCFGs. (3) Grammar size and the need to sample many derivations of each sentence lead to poor parsing performance. Bod reports that it took more than 18 hours to parse a 75 sentence test corpus with
an unrestricted DOP 1 grammar using a SGI Indigo 2 (cf. Bod 1998, 53). (4) Test results reported by Bod are promising, but other workers in the field had problems in reproducing the success rates he has reported (cf. Goodman 1996a). Though some of these problems might be overcome, it is hard to imagine how the DOP approach could lead to a cognitively plausible model of human language performance as Bod claims.
856
8.
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Literature (a selection)
Black, Ezra/Garside, Roger/Leech, Geoffry (1993), Statistically-Driven Computer Grammars of English: The IBM/Lancaster Approach. Rodopi, Georgia. Black, Ezra/Jelinek, Fred/Lafferty, John et al. (1992), Towards history-based grammars: Using richer models for probabilistic parsing. In: DARPA 1992. Bod, Rens (1992), A computational model of language performance. In: Proceedings of COLING92, Nantes France. Bod, Rens (1993), Data oriented parsing as a general framework for stochastic language processing. In: Parsing Natural Language. (Eds. K. Sikkel/ A. Nijhol), TWLT6. Twente University, The Netherlands. Bod, Rens/Kaplan, Ronald (1997), On performance models for lexical-functional analysis. In: Computational Psycholinguistics Conference, Berkeley (Ca). Bod, Rens/Kaplan, Ronald (1998a), Grammaticality, robustness, and specifity in a probabilistic approach to lexical-functional analysis. In: Proceedings LFG Conference and Workshop. Brisbane, Australia. Bod, Rens/Kaplan, Ronald (1998b), A probabilistic corpus-driven model for lexical-functional analysis. In: COLING-98. Montreal, Canada. Bod, Rens (1998), Beyond Grammar. CSLI Publications. Stanford, California. Briscoe, Ted/Carroll, John (1993), Generalized probabilistic LR parsing of natural language (corpora) with unification-based grammars. In: Computational Linguistics, 19 (1), 25K61. Charniak, Eugene (1997), Statistical parsing with a context-free grammar and word statistics. In: Proceedings of the AAAI, 598K603. Collins, Michael J. (1996), A new statistical parser based on bigram lexical dependencies. In: Proceedings of the ACL, 184K91. Collins, Michael J. (1997) Three generative, lexicalized models for statistical parsing. In: Proc. of the EACL, 16K23. Collins, Michael J. (1999), Head-driven Models for Natural Language Parsing. PhD thesis. University of Pennsylvania, Philadelphia. Earley, Jay (1970) An efficient context-free parsing algorithm. In: Communications of the ACM, 13, 94K102.
Franz, Alex M. (1995) A Statistical Approach to Syntactic Ambiguity Resolution. PhD thesis. CMU. Goodman, Joshua (1996a) Efficient algorithms for parsing the DOP model. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing, 143K152. Goodman, Joshua (1996b), Parsing algorithms and metrics. In: Proceedings of the 34th ACL, 177K83. Goodman, Joshua (1998), Parsing Inside-Out. PhD thesis. Harvard University. Hindle, Donald/Rooth, Mats (1993), Structural ambiguity and lexical relations. In: Computational Linguistics, 19, 103K120. Jelinek, Fred (1969), Fast sequential decoding algorithm using a stack. In: IBM Journal of Research and Development, 675K85. Kasami, Tadao (1965), An efficient recognition and syntax analysis algorithm for context-free languages. Technical report, Air Force Cambridge Research Laboratory, Bedford, Mass. Magerman, David M. (1994), Natural Language Parsing as statistical pattern recognition. PhD thesis, Stanford University. Magerman, David M. (1995), Statistical desiciontree models for parsing. In: ACL 95, 276K83. Magerman, David M./Marcus, Mitch P. (1991), Pearl: A probabilistic chart parser. In: EACL 1991. Magerman, David M./Weir, Carl (1992), Efficiency, robustness and accuracy in picky chart parsing. In: ACL 92. Manning, Christopher D./Carpenter, Bob (1997), Probabilistic parsing using left corner language models. In: Proceedings of the Fifth International Workshop on Parsing Technologies, 147K158. MIT. Schabes, Yves (1992), Stochastic tree-adjoining grammars. In: DARPA Workshop, 140K45. Schabes, Yves/Waters, Richard C. (1995), Tree insertion grammar: A cubic-time, parsable formalism that lexicalizes context-free grammars without changing the trees produced. In: Computational Linguistics 21 (4), 479K513. Sima’an, Khalil (1996), Computational complexity of probabilistic disambiguation by means of tree grammars. In: COLING-96. Younger, Daniel (1967), Recognition and parsing of context-free language in time n3. In: Information and Control, 10, 189K208.
Sven Naumann, Trier (Germany)
857
60. Quantitative linguistics and information theory
60. Quantitative linguistics and information theory 1. Introduction 2. Types of information and their measures 3. An experiment on text guessing by model language speakers 4. Informational structure of the text 5. Lexical and grammatical conditioning of textual units 6. Informational structuring of the word 7. Measuring of sense information contained in the signifie´ of the sign 8. Sense information of the context 9. Information estimates of morphology 10. Concluding remarks 11. Literature (a selection)
1.
Introduction
The term information serves to denote a very capacious and broad concept (Harris 1988, Newman 1996, 120), based on the categories of variety and reflection. At the same time, this term is treated in two aspects. On the one hand, information is regarded as a measure of organization of a certain variety (to be more exact, of a system or a process). On the other hand, information may serve as an estimate of reflection of a variety in another one. This means the following: if in the course of an interaction (communication) of systems or processes A and B certain changes have occurred in system B reflecting the action of system (process) A, then one may suppose that system B has become a bearer of information about system (process) A. From this it follows that the category of information and more particular notions associated with it must be applied to speech-and-thinking activity (STA) of man or to natural language, which is a specific system of signs performing two basic functions: a) the reflecting and cognitive function and b) the communicative function. The former consists in the fact that language is a means of cognition and reflection of the diversity of the surrounding world in human mind. The latter is that language is the basic means of human communication, i. e. of sign variety transfer from one communicant to the other. Prior to consideration of linguistic information and informational measurements of language and speech, it is necessary to agree as to what will be implied by the terms sign, reflecting function of the latter, and communication process. Dealing with the solution of linguistic information
problems we shall rely upon the semiological concept in accordance with which the sign is a bilateral psychic entity, whose signifié reflects a certain object or situation of the surrounding world (referent), and whose signifiant is a psychic replica of the signal standing for the referent (Saussure 1959, 114K115). The basic scheme of the sign, which does not only reflect its internal structure, but also its connections with other signs in the language system (values) and prognostic combinations of the sign with other signs in the text (valencies), is shown in Fig. 60.1, while Fig. 60.2 represents the scheme of generation and perception of a message by the communicants. The latter takes into account individual volumes and qualitative peculiarities of thesauruses (Θ# s Θ$), linguistic competencies (LC# s LC$), presuppositions (Pr# s Pr$) and communicative-pragmatic operators of the sender and addressee of the message. These schemes will be helpful in future in localizing estimates of information obtained for certain stages of the communication process (CP). Object
Connotatum
Values (valeurs)
Designatum
Denotatum
Signifier (name)
Valencies
Signal
Fig. 60.1: Graphical presentation of language sign (Nauta 1972, 292K294; Paškovskij/Piotrowskaja/ Piotrowskij 1994, 8K21).
2.
Types of information and their measures
Signs conveying a message have a complex structure. Therefore, the communication process and speech-and-thinking activity of its participants serve as conductors of different information types (Wells 1961, 237 f.). Of special interest are the following five types. 1. Pragmatic i. which takes into account relations of the sign with each of the communicants and characterizes (in quantitative
858
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines Response Metaobserver Metaobserver
Sender (author or source) of message
Receiver (adressee) of message Completion
Noise
Level of readiness to message reception
Message generation – semiosis – 1 ( 1)
Noise
Linguistic competence (system, norm, text generation mechanisms) (LC)
Linguistic competence (system, norm, message decoding mechanisms (LC')
Message interpretation
Thesaurus ( )
Thesaurus ( )
Action
Message decoding – semiosis – 2 ( 2)
communication channel Fact
Fig. 60.2: A stratified scheme of message generation and perception (Nauta 1972, 84 f.; Levelt 1993, 2; Piotrowski 1994, 18K21).
terms) the value of the message relative to the aims of both the sender and the recipient of the message. Nevel’skij/Rozenbaum (1971, 137) were the first to pay attention to the necessity of such a separate assessment of information. 2. Semantic i. which explores relations between the designatum and the referent. This type is subdivided into the lexical and grammatical information depending on its concentration either in a lexical sign or in a grammatical one. 3. Sigmatic i. which estimates correlation between the denotatum and the referent reflected by the former, i. e. a fact of the surrounding world; this type of information usually bears a lexical character. 4. Connotative (stylistic) i. which estimates expressive qualities of the sign and perspectives of its resignification (i. e. secondary semiosis). 5. Syntactic i. which assesses statistics and combinatorics of the signals and their constituent elements. In the study of the communication process of the man-to-man and man-to-machine type, there would be of great interest measurement of the pragmatic, semantic and sigmatic information (further to be united under the term of sense information). It is exactly at the level of sense that the real process of speech communication is materialized
to its full extent. Carnap/Bar-Hillel (1952, 2K5), however, showed that calculations of sense information imply stochastic evaluation of all those situations which may be encountered by the communicants who have correctly sent and deciphered a meaningful message. As it is impossible to solve this problem directly relative to real communication in natural language, one has to start the informational description of the text with a more accessible measurement of syntactic information. Two approaches have been used here: a combinatory one and a probabilistic one (Kolmogorov 1965, 3 f.; Cover/ Thomas 1991). The former approach implies that variable x can achieve values belonging to set (alphabet) X consisting of s elements (in our case, of letters, phonemes, words, etc.). So far as binary logarithms are used, entropy (i. e. indefiniteness) of variable x will equal H (x) Z log 2 S bits. With a certain value x Z i, we eliminate this entropy and communicate information (I) which equals I Z H (x) bits. If variables x1, x2, ., xn can independently run through the sets, consisting respectively of S1, S2, . Sn elements then H (x1, x2, ... , xn) Z H (x1) C H (x2) C ... C H (xn) bits.
(2)
60. Quantitative linguistics and information theory
859
The combinatory approach makes it possible to evaluate flexibility of speech, i. e. to specify the degree of its branching for its continuation at every node of the text. Thus there emerges an opportunity to assess the structural variety, which characterizes either the alphabet of the language on the whole or a set of linguistic units, which may be potentially used in the given stretch of the text. (Chi 1999, 132). Entropy characteristic of these sets and, respectively, the amount of information received due to elimination of this entropy will be symbolized H0 Z I0. The combinatory approach yields overestimated quantitative assessments of the combinatory and statistical organization of the text. It ignores the circumstance under which the norm ascribes to each element of the NL (a phoneme, a word, etc.) certain probabilities of speech occurrence. That is the reason why the second, i. e. probabilistic approach yields more adequate results in information studies. Thus, having a distribution of only unconditional probabilities p1, p2, . ps for the elements forming alphabet S, we can calculate a medium specific entropy of order one falling onto a single element of alphabet S. According to the second theorem of Shannon (1948, 394 f.) it is expressed as
This value indicates a mean choice indefiniteness of a linguistic element in position n, when chain n K 1 is known. If interconnections of the elements stretch infinitely far, entropy per a single linguistic element will equal HNZ lim Hn.
S
H Z K∑ pi log2 pi bits.
(3)
iZ1
The problem becomes more complicated when the necessity arises to change the frequency distribution of the alphabetic elements depending on their positions in the text. In the latter case, entropy is calculated with regard to the following considerations. Given a certain chain of linguistic elements bnK1 Z l1, l2, . lnK1 as a random event, obtaining value i. Immediately after chain bnK1 there follows position ln. The occurrence of a certain element in this position is also considered as random quantity with the value jk (1 % k % s). For each value i obtained by bnK1 there is a conditional probability p (ji, k / bnK1i) of ln obtaining value jk. Mean conditional entropy Hn Z In for position ln will be obtained as a result of averaging the entropy calculated on all values of bnK1, with weights corresponding to the probabilities of chains n K 1. S
S
bnK1
kZ1
Hn Z K∑ p (bnK1 ) ∑ p (ji, k / bnK1 ) i i log p (ji, k / bnK1 ) i
(4)
n/N
Values of the mean conditional entropy (and, correspondingly, of information) depend on a distribution of elemental probabilities at the n-th step of the text and on the probability of occurrence of bnK1. Therefore, these values can be obtained from statistics of k-element combinations by a formula, ensuing from (2): Hk Z H (j / bnK1 ) i Z H (bni ) K H (bnK1 ). i
(5)
Thus, H3 Z I3, i. e. the entropy of the third letter in a three-letter combination can be obtained as the difference of the entropies of the tri- and digrams (HIII K HII). It is now quite easy to calculate estimates HII, HIII, HIV for letter and phonemic alphabets from machine text corpora (Wang 1984, 372 f.; Brown/Della Pietra/Della Pietra et al. 1992, 34). There also exist realistic techniques of HI estimation for syllables, as well as for syllabic and morphemic structure of the word (Fucks 1955, 23 f.; Somers 1965, 154 f.; Bektaev 1978, 106K108) and also for words, word forms and even word combinations in case frequency dictionaries are used (Te˘šitelová 1965, 302 f.; Bektaev/Maškina/Mikerina et al. 1966; Kromer 1997a, 30; 1997b 31). Furthermore, Küpfmüller (1954, 265 f.), Jaglom/Jaglom (1973, 236 f.) and Cover/King (1978, 414 f.) have described methods for quantitative estimation of Hk values (the letter k occurs rather far from the beginning of the text) by means of processing statistical distributions of syllables and words together with a sample guessing. Estimates of Hk Z Ik, obtained by probabilistic methods, are approximated closer than H0 Z I0 to eigenvalues of the syntactic information, characterizing the text structure. However, these estimates are only of restricted interest for theoretical and applied linguistics. First, these methods are not able to trace the distribution of information deeper than a four-letter step of the text (or two syllables, correspondingly). Second, values Hk Z Ik, obtained from letter statistics, reflect only the syntactic information characterizing variety of the message source and,
860
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
possibly, some structural peculiarities of the language in which the message was sent. The quantitative estimates obtained on the analysis of lexical statistics, contain semantic and syntactic information merged together and inseparable. Third, the measurements described are performed in abstraction from informational features of the recipient of the message and the mechanism of its decoding (Fig. 60.2), whose quantitative characteristics are of special interest for applied linguistics and information science. It is possible to assess the bulk of information extracted by the addressee from different stretches of the text, including those distant enough from its beginning, only indirectly, by observing output reactions of the recipient to linguistic signals received by him. Two conditions are to be satisfied in solving this problem. On the one hand, there should exist certainty that speech-and-thinking activity of the recipient observed rests on a sufficient thesaurus and linguistic competence in the given language, including professional knowledge, if a special sub-language is involved (Nevel’skij/Rozenbaum 1971, 134 f.). Linguistic competence (LC) and Θ of the testee must also contain sufficient knowledge of valence of linguistic units and of their textual occurrence probabilities. On the other hand, the testee should be in a cheerful mood and his psyche and nervous system must not exhibit any deviations (Slama-Cazacu/Ročeric 1960, 63 f.). Finally, the addressee’s reactions must be present in the form suitable for information measurement procedures. These conditions are met by the experiment described below.
3.
An experiment on text guessing by model language speakers
The experiment is arranged in the following way. The experimenters have a text, which is wholly or partially unknown to the guesser. The latter has to reconstruct the unknown part, consecutively guessing letters (hieroglyphs, syllables, phonemes) of the text. In solving the problem, the guesser or a collective of guessers depart from their expectation as to what linguistic units are more preferable in the given position of the text. This certainty is based on 1) the content of the decoded part of the text (chain n K 1), 2) subjective probabilities of possible continuations included in Θ$ and LC$ of the
guesser, 3) an estimate of the content of the text proper and the communicative situation 4) an auxiliary statistical and lexicographic apparatus. In possessing this information the guesser forms a spectrum of probabilities of possible letters (syllables, morphemes, etc.) for each of the oncoming positions of the text. Each spectrum reflects variety and indefiniteness of the choice of continuation. Applying a corresponding mathematical procedure to the spectrum one can assess the entropy, quantitatively equal to the amount of information the addressee receives when the correct continuation of the text has been offered to him. Usually two types of guessing are used: collective and individual. The former is used when a large team of language speakers is available. If not, then one has to be content with the individual guessing. Team guessing results are processed by formula (3), with pi determined from fi Z Fi / N, where Fi is the number of guessers, who offered letter i in the n-th letter position, and N is the total number of testees (Bajtanaeva 1985). The individual guessing is performed in two variants: 1) guessing in the full experimental design or abridged experimental design by the Shannon-Piotrowskij method (Piotrowskij 1968, 12 f.), 2) guessing by the Kolmogorov method (Jaglom/Jaglom 1973, 258K260). Either design is realized by a single language-competent guesser, who additionally uses lexico-statistic reference materials. In conformity with the Shannon-Piotrowskij method, the testee is to consecutively guess a sufficiently large number of texts (usually about 100), each containing 100K200 letters. In the course of the full experimental design guessing of every letter position goes on until the correct result is obtained. The abridged one comprises naming a letter the guesser considers most probable for the given position. In response the experimenter says that the letter was guessed correctly or otherwise names the correct letter. Each time the protocol of the full experimental setup fixes the number of attempts the testee needed to guess the letter at the n-th step of the text. Reliable continuations are specially singled out. Considered as such are letters and intervals (#), whose occurrence at the n-th step is predetermined by the preceding nK1 letter-string (cf. letters e, r, # in the English word other #). The protocol of the abridged experiment marks one of the following three results for each n-th position
60. Quantitative linguistics and information theory
861
of the l-th text: reliable continuation (0), the first-attempt guess (1), an incorrect guess (2). The results of guessing after correcting them with the help of explanatory and spelling dictionaries (Boguslavskaja/Koženec/ Piotrowski 1971, 461) are generalized in the form of a matrix. There one finds values indicating the number of attempts the testee needed to get the correct information about the letter. If the full experimental design is applied, which takes into account probabilities of reliable continuations qn0 and probabilities qn of guessing a letter at the k-th attempt, the true value of the information of a linguistic unit positioned at the n-th step of the text is estimated by the following double inequality:
to consecutively guess the n-th, (n C 1)-th, . (n C v)-th letter of the same passage. While guessing the letter positioned at the corresponding step of the text, the testee is to give one of the following answers: 1) I name the letter with a great degree of certainty, a1 being the number of correct predictions, a2 being the number of incorrect predictions, 2) I name the letter with a little degree of certainty, a3 K the number of correct predictions, a4 K the number of incorrect predictions, 3) I name two (or three) letters possible on the given stretch of the text, each of them equally probable according to the guesser, a5 being the number of correct guesses, a6 K the number of incorrect guesses, 4) I name two (or three) probable letters, indicating that one of them is more probable, a7 being the number of correct predictions of a more probable letter, a8 K the number of correct predictions of a less probable letter, a9 K the number of incorrect guesses, 5) I refuse to guess, a10 being the number of refusals. The results of such guessing are processed in accordance with the following formula:
s
∑ k (qkn K qnkC1) log2 k % In kZ2 % (1 K q0n) log2 (1 K q0n)
(6)
s
K ∑ qkn log2 qkn . kZ1
Here the left-hand part of the inequality is the lower bound (Hn Z In) and the rightI˘ (ν C 1) Z K
γà νC1 γб
K
νC1
[f0 log2 f0 C (1 K f0) log2 (1 K f0)] K [f1 log2 f1 C (1Kf1) log2 (1K f1)] K
C (1 K f2) log2 (1 K f2)] C
γб νC1
f2 K
C (1 K f3 K f4) log2 (1 K f3 K f4)] K hand indicates the upper bound (Hn Z In) of the interval, which contains the true value of information In. For the abridged design, the upper, raised estimate of In is as follows: I¯# Z HIII (1 K q0n K q1n) C (1 K q0n) log2 (1 K q0n) K K
(7)
q1n log2 q1n K (1 K q0n q1n) log2 (1 K q0n K q1n)
where HIII is the uncertainty borne by the third letter of the text under the condition that all the preceding letters are known. Guessing in accordance with the method proposed by A. N. Kolmogorov follows a different scheme. The testee is told the n K 1-th letter of an extract and is expected
γг νC1
γϐ νC1
[f2 log2 f2 C
[f3 log2 f3 C f4 log2 f4 C
Sa10 CSa2 a4 CSa6 a9 , νC1
where I˘ is the mean information per letter in a stretch of the text from the n-th letter to the (n C v)-th letter (with the total number of letters to be guessed equalling v C 1; furthermore, by γx the number of predictions of a certain type is taken into account: for instance, γa is the number of correct and wrong predictions of one letter with a great degree of certainty, γб designates the number of all predictions of one letter with little certainty, γв is the number of all predictions of two letters with a great degree of certainty, γг is the number of all predictions of two letters with a different degree of certainty. Empirical probabilities f are calculated in the following way: f0 Z a2 / (a1 C a2),
862
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
f1 Z a4 / (a3 C a4), f2 Z a5 / (a5 C a6), f3 Z a7 / (a7 C a8 C a9), f4 Z a8 / (a7 C a8 C a9). Further, Σa10 is the sum total of refusals, Σa2 a4 is the sum of mistakes in cases 1 and 2, and Σa6 a9 is the sum of mistakes in cases 3 and 4. Guessing according to Kolmogorov yields information estimates approximating the true value per one letter in the extract under study. This experiment does not describe dynamics of information distribution. Application of traditional certainty estimates in informational measurements meets with two obstacles: the non-stationary character of textual entropy and the application of logarithmic measure. That is why one has to resort to such empirical techniques as comparison of informational estimates, obtained by various methods of guessing (Table 60.1). Besides, results of guessing are compared with informational estimates obtained either by calculation of probability spectra of words, syllables, or by studying distant correlation ties in the text. Some attempts have been made in this direction to apply the normalized χ2-criterion, as well as the criterion of the signs (Altmann 1974, 125; Piotrowski 1984, 189). Observations of the progress of both collective and individual guessing indicate that maximum uncertainty in predicting of a letter or another linguistic unit is evident at the very beginning of the text. Afterwards, in the course of rightward movement into the text it gradually diminishes like this: (H1 Z I1) O (H2 Z I2) O ... (Hn Z In) O... (HN Z IN)
(8)
The last element of inequality (8) estimates the information the guesser extracts in guessing the letter positioned infinitely far from the text’s beginning. We shall call value IN the limit syntactic information of the connected text. The limit information in the ideal scheme of the text will always exceed zero. This is understandable. Any text, having been formed from complex signs (words, word combinations, sentences) which possess a practically unlimited combinatory capability, may have several continuations, or otherwise, is always characterized by indeterminacy of choice. Even in those cases when the given step of a certain text implies a single possible continuation, there may be
found further steps which will give several possible continuations. Value IN may be considered as a summary informational estimate, obtained by an addressee-guesser, ideal for the given language or its variant, from a single letter at the n-th position of the text, influenced by combinatory-statistical, semantic-syntactic and pragmatic limitations of the preceding context (n-1 letters). Nauta (1972, 260) evaluates them by means of contextual coherence of the text Kn Z I0 K In bits, which tends to the limit contextual coherence of the text KN Z I0 K IN bits while infinitely moving through the text. Absolute values In and IN can’t be compared in different languages as they depend on the number of letters in each national alphabet. Therefore, in comparing informational properties of different languages and their variants, as well as in constructing probabilistic grammars it is more convenient to use redundancy value (R) by which the above-mentioned values are correlated with the entropy of the alphabet and thus do not depend on its size (Herdan 1964, 173K175; Walker 1993; Mark/Miller/Grenander et al. 1996, 131 f.; Della Pietra S. A./Della Pietra V.c J./Lafferty 1997, 2 f.), i. e. R Z (H0 K HN) / H0) 100% or R Z (KN / H0) 100%
(9)
For estimates of values HN Z IN and R in different languages see Table 60.1. The analysis of the data obtained indicates that typologically and genetically different languages have an approximately equal redundancy level. Differences in values of R are to be found in comparisons of variants and styles of one language; results of guessing native and foreign languages; texts generated by normal and insane persons. From this it follows first, that basic deep-level informational characteristics of the text do not depend on the structure and origin of the language, but are determined by physiological and communicative-semiotic features of our mind, and that fluctuations of these characteristics depend on the situation of communication and the state of STA (speech-and-thinking activity), as well as on the degree of language competence of the communicants. As values of R do not depend on the length and character of the alphabet, redundancy can serve as a measure of synergetic organization of the text. This makes it pos-
863
60. Quantitative linguistics and information theory
Table 60.1: Entropy/information (bits/letter) and redundancy for fifteen languages including the guessing data received from non-native Hertzen University students of foreign languages institute (Bajtanaeva 1985, 8K9; Piotrowskij 1968, 60K61, 77; 1997, 236K237; SL 1971, 47, 67, 340K341) Individual guessing Languages and stylistic varieties 1 English K spoken texts K fiction K scientific and journalistic texts K tower K pilot communication K language as a whole 1) natives 2) Russian students 1-st year 2-nd year 3-rd year 4-th year German K spoken texts K fiction K scientific and journalistic texts K language as a whole Russian K spoken texts K fiction K scientific and journalistic texts K tower K pilot communication K language as a whole K schizophrenic speech Polish K spoken texts K fiction K scientific and journalistic texts K language as a whole Czech K fiction
_ _ НN Z IN 2 1,47 1,10 0,82
1,35
Collective guessing
HNZ IN 3
R 4
_ R 5
0,90 0,65 0,37
69,1 76,9 82,8
81,1 86,4 92,2
0,74
71,6
84,5
1,24 1,36 0,97
0,74 0,83 0,56
73,9 71,4 79,6
84,4 82,5 88,5
1,36
0,71
71,4
85,1
1,40 1,19 *1,10 0,83
0,83 0,70
72,0 76,3 *78,0 83,4
83,4 86,0
0,49
1,37 1,52
0,82
72,8 69,6
83,6
1,18 1,29 0,83
0,69 0,83 0,53
76,3 74,5 83,6
86,3 83,6 89,5
1,28
0,76
74,7
85,0
1,38
0,78
73,9
85,3
K scientific and journalistic texts
1,32 1,36 *1,11 0,77 *0,61
0,81 0,78 0,45
72,0 71,0 *76,3 83,9
R 7
0,24
95,0
1,13
76,3
1,59 1,31 1,22 1,30
66,6 72,5 74,4 72,7
**1,3
**70,0
90,1
Bulgarian K language as a whole French K spoken texts K fiction
HN Z IN 6
0,25
95,0
0,91
81,6
82,8 83,6 90,4
*87,0 (continued next page)
864
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Table 60.1: (continued) Individual guessing Languages and stylistic varieties 1 K language as a whole: 1) natives
_ _ НN Z IN 2
HNZ IN 3
1,38 *1,00
0,79
Collective guessing R 4 70,6 *78,7
_ R 5 83,4
2) Russian students 1-st year 2-nd year 3-rd year 4-th year 5-th year Spanish K language as a whole: 1) natives 2) Russian students 1-st year 2-nd year 3-rd year 4-th year Romanian K spoken texts K fiction K scientific and journalistic texts K language as a whole Armenian K fiction K scientific and journalistic texts Azerbaijanian K language as a whole Kazakh K spoken texts K fiction K scientific and journalistic texts K language as a whole Uzbek K language as a whole
1,24 1,26 1,23
0,71 0,78 0,68
74,2 73,8 74,4
85,4 83,8 85,7
1,34
0,72
72,1
85,0
1,38 1,08
0,78 0,46
73,9 79,6
85,3 91,2
1,17
1,07
65,2
79,0
1,56 1,35 1,18
0,79 0,61 0,65
70,0 74,3 77,3
84,8 88,3 87,5
1,51
0,82
70,9
84,2
1,48
0,79
72,0
85,0
Estonian K spoken texts K fiction K scientific and journalistic texts K language as a whole Adigeh K fiction
2,26
1,52
56,0
HN Z IN 6
R 7
1,05
77,7
1,74 1,39 1,35 1,32 1,28
63,0 70,5 71,3 72,0 72,8
1,05
77,8
1,81 1,32 1,15 0,97
61,7 72,1 75,7 79,5
0,73
83,8
1,52 1,15 1,18
67,3 75,9 74,6
1,27
72,6
68,2
Note: The signs * and ** before a number mean that these information (and accordingly redundancy) estimations are obtained using Kolmogorov’s (*) or Küpfmüller’s (**) methods.
865
60. Quantitative linguistics and information theory
sible to use the value of R and partially of K and H Z I as diagnostic indicators of the communicants’ psychic state (Andreev/Aminev 1968, 410 f.) as well as estimates of their linguistic competence and richness of their thesaurus (Bogodist 1978, 9K13; Celikovskaja 1969; Boguslavskaya/Zel’cman/Piotrowskij, 1968, 37 f.).
4.
Informational structure of the text
Values IN Z HN and R are summary estimates of various linguistic and extra-linguistic phenomena. However, information science, theoretical and applied linguistics are not so much interested in summary data, but rather in separate indicators of the share of lexical, morphological information and semantico-syntactic contextual constraints in languages of different types, as well as in informational weights of a separate morpheme, word and, last, in measurement of semantic information, contained in words and word-combinations. The solution of these problems was initiated by studying dynamics of values Hn Z In, estimating the values of information extracted by the guesser progessing through the text. These values decrease depending on the increase of values n. If one visualizes this chain as a continuous function of argument ξ, standing for discrete values of n, then it may be approximated by the exponent Iξ Z (I0 K IN) eKsξ C IN ,
(10)
where IN is the limit information of the language or its variant, serving as the asymptote of curve Iξ and s is a coefficient specially calculated for each curve. Substituting the right-hand part of expression (10) for value Iξ Z In and making a few simplifying transformations we arrive at a general expression of context constraints on stretch ξ of our text: Kξ Z (I0 K IN) (1 K eKsξ).
(11)
Piotrowski (1968, 62K67) showed that curve Iξ describes the process of extracting statistical and semantic information from the text, while Kξ reflects the dynamics of interaction of the guesser’s thesaurus and presuppositions with the information extracted from the text. Coefficient s plays the part of an indicator of the rate at which values Iξ and Kξ change. The bigger s, the more the values of Kξ increase (and, correspondingly, values of Iξ decrease). In other words, coefficient s is an indicator of the growth rate of context ties. It is natural that the biggest value of s is found in business style (see Table 60.2), whereby contextual connections of language units are traced quicker than in other sublanguages due to the presence of numerous regular word combinations and lexical scarcity. The linguistic nature of coefficient s is rather complex. The original development of the exponent from n Z 0 to n Z 3 reflecting the testees’ guessing strategy is conditioned by statistical limitations imposed on the usage of initial letters of the word, which are inherent in their linguistic competence. Then, at n O 3 the progress of the curve is determined by morphemic combinations. Later on, statistical limitations, imposed on combinations of words with their grammatical forms, are active and still later there appear limitations, connected with combinatory characteristics of bigger units and with the content of the text. At a distance of 30 and more letters from the beginning of the text the coefficient demonstrates infinitesimal alterations with the progress of the exponent, which coincides in value with IN. Accordingly, values of Kξ approximate a certain constant KN, representing the limit context constraints. Values of KN and s are again summary estimates of various linguistic and extra-linguistic phenomena. Meanwhile, it is interesting for information science and linguistics to stratify these summary estimates and to de-
Table 60.2: Estimates of context coefficient s Russian Sublanguages and styles K K K K
spoken texts fiction scientific and journalistic texts language as a whole
French
Lower boundary
Upper boundary
Lower boundary
Upper boundary
0,2 0,21 0,24 0,19
0,31 0,29 0,32 0,31
0,22 0,26 0,34 0,30
0,31 0,29 0,42 0,36
866
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Fig. 60.3: Information scheme of a 15-word English text (upper boundary of syntactic information)
termine the informational weights of a separate morpheme, word, lexical and semanticsyntactic connections, as well as to measure sense information in typologically different languages. In order to obtain these data various methods of regrouping of individual guessing results are to be employed which help form spectrums of initial and final parts of words, word combinations, intervals, as well as of the final phonemes (Boguslavskaja/Koženec/Piotrowski 1971, 467K468). Such a reshuffle provides an opportunity to obtain an averaged model of the text, where not only beginnings and ends of averaged word occurrences comprising the text are marked, but also intervals separating them (Fig. 60.3). These word-to-word schemes of Indo-European as well as Turkic texts invariably show that distribution of statistic information in them is quantized. Initial parts of words used carry maxima of information, while middles and especially intervals are either informationally scarce or even redundant. As far as the final letters are concerned, they carry little information. The quantum structure of the text is also found in the process of collective guessing (see Fig. 60.7 below). It is confirmed by an experiment on restoration of letters omitted from a connected text (Piotrowski 1984, 211K212).
5.
Lexical and grammatical conditioning of textual units
In the course of the experiment, it was found out that while progressing in the text, the testee more often is able to guess the second and sometimes the first letter in a word, relying not so much on the letter combinations but rather on the preceding lexical content. Raitar (1980) showed that it was possible to
estimate the growth of lexical connections in a text by studying the decrease of information sums, falling onto the first and second letter of a word. This growth reflecting an increase of lexical constraints Lξ is estimated with the help of demonstrative curve of the type Л Lξ Z (IIЛ K IN ) (1 K eKlξ),
IIЛ
(12)
where is the arithmetic mean of informations calculated for the upper and lower bounds falling onto the first and the second Л letters of the first word of the text, IN , is the limit of lexical conditioning of the text, l is the lexical coefficient characterizing lexical connections growth rate in the text (cf. coefficient s in expressions (10) and (11)), the rest of the notation having the same sense as in the previous expressions. To characterize the limit to which the lexical conditioning in the text tends, the notion of the limit lexical constraint is introduced LNZ (Л) I (Л) K IN , analogous to the limit context constraint KN. The proportion of LN in the sum of all contextual connections is Л Z (LN / KN) 100 %. Though values I Л, LN, Л (Table 60.3) are syntactic-informational values by their nature, they quantitatively characterize interaction of the text with lexical mechanisms of the guesser’s linguistic competence and thesaurus. The more the guesser knows about the content of the text and the better he feels the right lexical valencies of individual word forms, the better he guesses the first letters of text word. According to the rules of the experiment, all the guessers irrespective of the language are placed in equal conditions, both from the point of view of their knowledge of the text subject-matter and the availability of reference apparatus. Therefore, conspicuous differences between
867
60. Quantitative linguistics and information theory
Table 60.3: Contextual and lexical constraints in three languages with grammatical constraints in Russian (Piotrowskij 2005, § 5.5) _ _ _ Languages KN bits LN bits Л % | GN bits Г % English French: K spoken texts K fiction K scientific and journalistic texts K language as a whole Russian
3,41
0,69
20,2
3,29 3,38 3,56 3,36 3,63
1,07 1,22 1,49 1,17 0,80
32,5 36,1 41,9 34,8 22,0
languages as to values of LN and Л may not be attributed to extralinguistic factors, but rather to the lexical structure of the text, including its valencies. Thus, high values of LN and Л in French may be attributed to a more restricted usage of lexical units as compared with that in English and Russian. As for French itself, maximum lexical predictability is demonstrated by the business text. The reason consists, first, in the use of numerous set expressions, connected with a given subject; second, in a comparatively narrow lexicon, the bulk of which is comprised by terminology of the given specialty, and third, in a normalized sentence structure. A low redundancy of literary style is the result of higher uncertainty in the choice of language elements as compared with business language. Lexical connections here are much weaker: clichés are used more rarely, and a lot of unexpected word combinations are used (to form metaphors and other figures of style), and the lexicon is much wider than is the case with business texts. If in recognition of initial letters of a word in the text the informant uses lexical mechanisms of linguistic competence (LC) and thesaurus, then in guessing final letters of word forms in inflectional and agglutinative I bits 4 K∞ 3 G∞ 2 L∞
1
n 50
100
Fig. 60.4: Increases of lexical (LN), grammatical (GN) and overall contextual constraints (KN) in Russian
1,35 37,0
languages knowledge of morphology is applied. That is why the syntactic information contained by the final letters of word occurrences, taken from different parts of the text, serves to estimate quantitatively the interaction of grammar mechanisms of the guesser’s LC and thesaurus. Departing from these considerations a procedure, analogous to the method of LN and Л calculations, just described, has been applied to study the decrease of half-sums of informations falling onto the last and last but one letter of a word in the word-to-word scheme of the Russian text. As a result estimates have been obtained of the limit grammatical constraints (GN) and of proportion Г occupied by GN in the sum total of the contextual constraints (Table 60.3; Fig 60.4).
6.
Informational structuring of the word
In estimating the total amount and distribution of information in the word, the experiment and calculation methods remain the same as in text studies. Here again individual and collective letter-by-letter guessing is resorted to, which this time is applied either to context-free word forms extracted from the context (dictionary words/isolated words) or on condition that the guesser knows all the preceding context (textual w.) Samplings of isolated, or dictionary words usually contain words occurring at the beginning of the texts to be guessed. Sets of textual words consist of words occupying the fifth, the sixth, etc. place of the same texts. If after an individual guessing a necessity arises of obtaining an informational scheme of the word at the letter level, generalizing tables of text matrix type are built for sampling words of the given length. Each column is processed by formulae (3), (6) or (7).
868
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Table 60.4: Main information per dictionary (isolated) word (Bektaev 1978, 113; Bajtanaeva 1985, 13; Muchamedov/Piotrowskij 1986, 134; Kromer 1997a, 31; 1997b, 30) Languages
_Individual guessing I K:K I
English
12,59
Russian French Romanian Uzbek Kazakh
13,50 10,88 13,02
11,59
19,91
12,43
Collective guessing I
Frequency dictionaries Î 10,70* (8,63 K:K 9,68) 11,03* (11,04K:K12,03) (9,43)
12,0 12,23**(12,11 K:K 12,73)
* Kromer’s data, ** Bektaev’s data.
Fig. 60.5: Letter distribution of information in German dictionary (dots) and texts (dots and dashes).
Using results of an individual and collective guessing in typologically different languages, one is in a position of determining the mean amount of information, сontained in dictionary and contextual words from the point of view of the recipient of the message, as well as of comparing these data with the results of a collective guessing in order to verify certainty. Then all of them are com-
pared with word information estimates obtained from lexical spectra (frequency dictionaries). The latter estimates point out the amount of syntactic information which the sender of the message puts into his word forms on average. Besides, based on these are averaged word schemes of information distribution (Boguslavskaja/Koženec/Piotrowski 1971,
869
60. Quantitative linguistics and information theory a
b
4
4
– I
– I
3 in bit
in bit
3
2
2
1
1 n
n 0
1 1.S.
2
3 4 2.S.
5 6 7 8 3.S. 4.S.
9 10 11 12 5.S. 6.S.
0 1 2 3 4 5 6 7 8 9 10 11 12 1. Morphem 2.M. 3.M. 4.M 5.M
Fig. 60.6: Morphemic distribution of information in Romanian textual words (Piotrowskij 1984, 230)
470 f.; cf. Carson 1961, 8). Its distribution in short (up to three letters) and mediumlength (3K7 letters) words, on the one hand, and in long ones (eight letters and more), on the other hand, is different. Short and medium-length words show monotone decrease of information from the beginning of the word to its end. This decrease is even, and polygons of such words have a compact Lshape form (Fig. 60.5). Distribution of information in German dictionary words has a compact L-shape form (Fig. 60.5). This is explained by the fact that the schemes under consideration basically include uninflected forms of the type of English a, of, and; German ab, und; Russian да, еще; French a, on, oui; Kazakh да, бул which have a limited number of continuations in the final letter positions. In synthetic languages long words (usually non-textual ones) gradually acquire U-shape form. Information maxima are concentrated in the beginning of a word form and in the final affixes. Letters in the middle of a word form carry little information (Fig. 60.5). Letter distributions generalizing word forms of different structure (inflected and uninflected, mono- and polysyllabic) yield a rather approximate and rough information distribution scheme. With a view to deeper understanding of information structure of the word, morphemic and syllabic distribution of information has been considered (Piotrowskij 1968, 83K88; Boguslawskaja, Koženec, Piotrowski 1971, 473K480; Bajtanaeva 1985; cf. Tamaoka, Lim, Sakai 2004, 239K249). The structure of syllabic and morphemic schemes appeared to be such as to allow observing seams between syllables and boundaries between word forming morphemes. In all languages syllabic division is
apparent only at the border between the first and second word. In course of righthand shifting of the curve syllabic boundaries are increasingly blurred and starting with the forth syllable disappear altogether. Morphemic structure of the word reveals quite a different picture. Here within the whole length of both textual and dictionary words morpheme boundaries are clear-cut. These boundaries coincide with the boundaries between the last letter of the preceding morpheme (minimum of information) and the first letter of the next morpheme (maximum of information): see Fig. 60.6. Thus both the word and the text have an expressly granular (morphemic, to be exact) structure, which suppresses its letter and syllable division. Correlation of letter and syllable syntagmatics on the one hand, and that of morphemes on the other sheds light onto the interaction of different mechanisms of the guesser’s thesaurus and LC. Speech is a complex Markov process of figure and sign sequence (Hjelmslev 1953, § 14). Figure combination probabilities interact with sign combination probabilities. The textual material indicates that probabilistic statistical ties characterizing figure combinations (letters, syllables) within short initial stretches of the text do not go beyond the length of a morphemic sign. As soon as the successive figures form a sign, regularities of its combinations with subsequent signs come to the foreground. Being guided by information about combinations of signs inherent in his LC and thesaurus, the guesser superimposes it onto probabilistic spectra of letter-syllabic combinations and selects only those letter combinations, which correspond to the rules of sign combinations. As a result figure com-
870
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
binations in the generalized scheme of the word and the text are suppressed by probabilities of sign combinations. Departing from these observations, Bektaev (1978, 139K142) and Piotrowski/Lesochin/Luk’janenkov (1990, 243K245) offered methods of measurement of semantic information, contained in words, word combinations and textual fragments of greater length in different stretches of the text.
7.
Measurement of sense information contained in the signifié of the sign
Sense information, contained in the denotatum, designatum and connotatum of a morpheme, word form or word combination is estimated through collective guessing employing the following technique. Let there be a text consisting of a word string W1, W2, W3, . Wk, ., and we want to estimate the amount of information carried by word W1 (in Fig. 60.7 and Table 60.5 this word is japonec). To solve this problem, a collective guessing is done of textual segment W2 O Wk (it is the word kričit). At first the team is given word W1, for example, japonec preceding the control segment kričit (Table 60.5 and Fig. 60.7). For the second time the guessing starts immediately with word W2. It is taken for granted that considerable time should elapse between the two guessings, sufficient for the testees to forget the text. Guessings must be organized in two different teams, identical in thesaurus and LC. It is only natural that the two guessings are expected to yield different results. Information I (W2 O Wk) Z H (W2 O Wk) bits will be greater than information I (W2 O Wk / W1) Z H (W2 O Wk / W1) bits obtained on condition that word W1 is known to the testees. Remainder И (W1) Z I (W2 O Wk) K I (W2 O Wk / W1) is a quantitative estimate of the sense information including its valencies contained in word W1. It was exactly this information that decreased indeterminacy of the control segment and made the second guessing easier (Bogodist/Georgiev/Pestunova/Piotrowski/Raiter 1975, 228 f.). In order to carry out a strict comparison of sense information estimates on different words one and the same language and on one word in different languages, as well to quantitatively compare the information extracted from the lexicon by representatives of differently ed-
ucated groups, native and foreign language speakers, it is necessary to possess averaged sense information estimates. To solve this problem Bogodist (1978, 8K13) conducted an extensive experiment with more than five hundred native French speakers and Russian students of the French department of a Pedagogical University. He showed that such data may be obtained for each lexical unit by averaging semantic information estimates received for it from different contexts. Similar data on more than 3500 Russian speakers have been obtained by V. N. Pestunova and R. G. Piotrowski; S. V. Raiter has carried out the same experiment on 800 Estonian students. H. Ts. Georgiev has tested 300 Bulgarian students (Bogodist/ Georgiev/Pestunova/Piotrowski/Raitar 1975, 222K230), while D. A. Bajtanajeva and K. B. Bektaev have organized semantic guessing with 900 Kazakh students (Bajtanajeva 1985, 14K15). Experimental data are shown in table 60.6. See Fig. 60.7 on syntactic and sense information in a Russian utterance. H = I bits 4 3 2 1 n ja p o n e c
#
k r i c i t #
Fig. 60.7: Syntactic and sense information in a Russian utterance K summary syntactic information K information taken off by the sense of the word japonec
The results of measuring sense information (И) contained in lexical units of the abovementioned languages make it possible to arrive at the following conclusions. K 1. In values of И semantic information is summed with its lexical and grammar varieties as well as connotative, sigmatic and pragmatic information plus quantitative estimates of valency restrictions of the word or word combination under study. K 2. As expected, in analytical languages (French and Bulgarian) the word form carries less information than in synthetic languages (the inflectional Rus-
60. Quantitative linguistics and information theory
871
sian language and the agglutinative Estonian language). The amount of sene information extracted from a word by a testee depends on the richness of his thesaurus an LC. Thus French lycée teachers are able to extract 1.5 times more information from words than their students are. Similar results are also demonstrated by Russian informants. Students of pedagogical universities extract 11.36 bits from a word form on the average, whereas students of secondary technical schools extract only 9.75 bits (Piotrowski 1984, 261). Similar data have been obtained by Nevelskij/Rozenbaum (171, 140 f.) on guessing Russian finance and economics texts. K 4. The results of the experiment described above may be used for determining dynamics of LC and thesaurus growth in students of a foreign language. (Table 60.7). For other attempts of sense information estimates including question-answer methods see the following works: Drozen/Langer 1966, 259K263 and Chu-Carrol/Carpenter 1999, 362 f.
characterizes a probability distribution of letters and syllables, as well as the syntactic information estimating the mean amount of sense information, contained in the lexicalgrammatical links of the previous W1 O WhK1 fragment with word form Wh (Goldenberg/Rumpel 1983, 143 f.). The latter type of information determining pragmatic lexicogrammatical, connotative, and pragmatic predictability of word Wh can be obtained from K (WhT) Z I (W1) K I (Wh) bits, because starting with the second word guessing on the text is done relying on the previously received sense information. The proportion of sense ties (i. e. constraints) in the context relative to the sum total of constraints in the textual word is obtained from A1 Z [K (WhT) / K(Wh)] 100 % which may serve as an estimate of the language’s analyticity. Certainty of the data obtained may be verified by comparison of A1 estimates with values of analyticity coefficient A2 for the given languages, obtained irrespective of the experiment discussed, from expression A2 Z L / V, where L is the number of word forms, and V is the number of words which have generated those forms in a sufficiently representative text sample (Tuldava 1998, 48K51). All the estimates enumerated above are shown in Table 60.5. Comparison of A1 and A2 values demonstrates that on the whole they reflect traditional notions of analyticity of the languages under consideration. This enables us to speak about certainty of the described information measurement results.
8.
Sense information of the context
If the mean length of a word in the given language equals λ letters, then the maximum amount of syntactic information conveyed by such a word will be I (W0) Z λI0 Z λH0. As a matter of fact the word carries much less information, this being conditioned by various distributional-statistical and semantic-statistical constraints. Resorting to the techniques described above, let us determine the amount of syntactic information per word of mean length out of context, i. e. I (W1), and in context, i. e. I (Wh) Z λIN Z λHN. Then the sum total of contextual constraints imposed on a word in the text will be K (Wh) Z I (W0) K I (Wh) bits. These constraints include the information which
9.
Information estimates of morphology
Using techniques of regrouping of the results obtained from guessing makes it possible to measure grammar information that is contained firstly in suffixes, internal and
Table 60.5: Contextual restrictions (bits) and indexes of analytism (%%) for five languages (Alekseev 1984, 78; Bektaev 1978, 21K22; Piotrowski/Lesochin/Luk’janenkov 1990, 245) Informational value
English
Russian
French
Romanian
Kazakh
I (W0) I (W1) I (Wh) K (Wm h) K (Wh) A1 A2 *
25,97 12,59 5,41 7,18 20,56 35,00 67,66
31,85 13,50 8,15 5,35 23,70 22,57 31,53
25,23 10,88 6,46 4,42 18,77 23,55 56,39
27,07 13,02 7,77 5,25 19,30 27,01 39,93
37,95 18,04 13,69 4,35 24,26 17,93 32,48
* For the Spanish languages A2 Z 56,03 (Michajlova 1972, 6).
872
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Table 60.6: Morphological information (MrphI) per word in three languages (I bits), K cf. Boguslavskaja 1966, 114K116; Petrova/Piotrowski/Giraud 1970, 23K25; Novak/Piotrowski 1971, 347K350. Languages
Mean information per
Morphological information (MrphI)
dictionary word in bits (I d)
textual word in bits (I t)
per dictionary word _ (Igrd) in bits and in % to I d
per _ textual word (Igrt) in bits and in % to I t
removed by _ context _ (Igrd KIgrt) in bits and in % to MrphI of dictionary word
English
12,60
5,40
0,79 (6,3 %)
0,18 (3,5 %)
0,61 (77,2 %)
Russian
13,50
8,15
2,30 (17,0 %)
1,70 (8,6 %)
0,60 (26,1 %)
French
6,45
2,59 (22,0 %)
0,88 (16,0 %)
1,71 (66,0 %)
Romanian
7,77
2,99 (23,0 %)
1,01 (13,0 %)
1,91 (63,9 %)
external inflexions of autosemantic words (to be called morphological information, MrphI, for short) and, secondly, in function words. MrphI is estimated from the sum of syntactic informations, falling onto each letter position of the above-mentioned grammatical affixes. For this purpose, all letter positions and concrete letters occupying them are grouped into two categories. The first category embraces those positions and graphemes, which belong to a grammatical affix. Found here are also letters which do not compose a grammatical fragment of the word, but have an alternative grapheme which does enter a grammatical affix of the given word or another concrete word. The second category is comprised by letters and positions which do not belong to a grammatical affix. Letters in the letter positions of the first category are grouped according to the number of guessing attempts. All letters of the second category are considered to be true grammatical continuations (cf. guessing at the “zero” attempt) irrespective of the number of attempts which were necessary for guessing each of these letters. This is done so because non-grammatical letters as well as letters of the first category guessed at the “zero” attempt do not carry MrphI. Spectra obtained in this way, are calculated by formulae (3), (6) and (7). Data on MrphI, contained in English, Russian and French mean words, as well as contextual influences on them are shown in Table 60.6. For the purpose of a quantitative estimate of grammatical information contained in
syntactic words [termed information of analytic morphology (IAM)], values of syntactic information per two initial letters of a syntactic word are used. The reverse value of this sum Ba Z 1 / (I1 C I2) is considered to be a measure of connection of the syntactic word with the preceding context. Analogously, preceding context connections of inflexions (Bj) and textual autosemantic words (Bw) are determined K see Table 60.7. Table 60.7: Numerical values of Ba, Bw , Bf (Piotrowski 1968, 94; Boguslavskaja 1969, 270) Language
Syntactic word
Autosemantic word
Inflexion of autosemantic word
English Russian French
0,22 0,21 0,24
0,17 0,19 0,19
0,50 0,46 0,66
Comparison of information and statistical estimates in Tables 60.5K60.7 reveals the following typological peculiarities of the languages considered. (1) As to the number of lexemes and word forms generated by them, English on a par with Romance languages exhibits a higher percentage of analyticity (A2) as compared with Russian and Kazakh. This is in good accord with traditional notions of analyticity/syntheticity ratio in these languages. (2) Comparison of the ratio of lexico-grammatical constraints of the context against the sum total of constraints per textual word (analyticity coefficient A1)
60. Quantitative linguistics and information theory
873
yields, as expected, a much higher ratio of A1 in English than in Russian, while the analytic Romance languages exhibit unexpectedly low values of this coefficient, which are close to those in Russian. (3) The inflectional-synthetic Russian language as well as the analytic English and French languages exhibit equally strong connections of autosemantic and function words with the preceding context, whereby the function word is much less dependent on the context, than the inflection. (4) The information ratio of inflectional morphology in the French and Romanian textual and dictionary word is several times greater than the informational weight of English inflections. These results which at first glance run contrary to the traditional concepts of the synthetic nature of the Russian language as opposed to the analyticity of western Indo-European languages, are commented by Piotrowski/Lesochin/Luk’janenkov (1990, 245) upon in the following way. The written and oral texts are of a linear nature, and the Indo-European function words (first of all, prepositions and auxiliary verbs) precede autosemantic words governed by them. That is why inflections often dub the meanings of function words, which carry the main information and grammar load in substantive and verbal groups. Redundancy of inflections is demonstrated in particular by high values of Bf coefficient in the languages under consideration, while this redundancy is not only determined by the grammatical information of the antecedent word, but also by sense and syntactic information of the lexical base with which the inflection is combined. As for Russian, the quantitative indicators of inflectional redundancy are in accord with the data of auditory and spectral analysis testifying to reduction and shift of both nominal and verbal inflections (Verbickaja 1996, 48K49). Thus function words, due to their position on the syntagmatic axis have fewer contextual restraints and simultaneously carry more syntactic and grammatical information than inflections. The advantages of the analytical morphology in comparison with the inflectional morphology are also conditioned by the fact that shorter words comprising a majority of function words are more vulnerable to contextual influences than medium-length and long words, as far as the amount of information conveyed is concerned. Thus short words in Russian used in a context lose from
30 % to 33 % of information, while long and medium words sustain an informational loss from 47 % to 58 % (cf. 25K30 % and 62K 87 % for French, respectively). The mechanism of this phenomenon becomes clear if we compare the increase of contextual restraints in the scheme of the textual and dictionary word with its increase in a connected text. As mentioned above, the curve of contextual restraints Kξ is described by dependencies (10) and (11) where LN characterizes the limit to which the information in the given type of message tends. It should be stressed that the limit information of the connected text, with n / N, will be more than zero. With the word the matter is different. It consists of figures (letters, phonemes, syllables) and simple signs (morphemes) having a limited combinatorial potential, and what is most important, the word is a quantum of information in the text. Hence, with n / N, i. e. with lengthening of the word ad infinitum, information of constituent figures and signs will tend to zero. Therefore the expression describing the increase of intra-word contextual constraints will assume the form: (c)
Kξ Z I0 K I0 eKsξ. Comparison of contextual constraint distributions in the schemes of text and dictionary words (Fig. 60.8) reveals the fact that lexicogrammatical context considerably accelerates the increase of the intra-word contextual constraints. Coefficient s of the text word is double the analogous coefficient for the dictionary word. The curve of contextual constraints within the text word is especially steep on the stretch from the first to the fourth letter (Petrova/Piotrowski/Giraud 1971, 23K25; Kamimura 1989, 276 f.). After the fourth letter the curve of contextual constraints is appreciably close to its limit KN. As far as the dictionary word is concerned, the increase of contextual constraints is more slanting. The curve of constraints reaches its limit only after the twelfth letter. The rapid increase of overall textual constraints between the first and the fourth letter, an increase which is constantly observed in the process of the experiment, has important consequences for the information structure of the text word. As mentioned above, the main part of grammatical information contained in long and medium words is concentrated on the fifth, sixth, etc.
874
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
(b) I bits
(a) I bits 3 2
3 2
4
4
3
1
1
3
2
2
1
1 n 1
3
5
7
9
11
n 1
3
5
7
9
11
Fig. 60.8: Increases of lexical (LN), grammatical (GN) and overall contextual constraints (KN) in Russian (a) and French (b) words and texts. 1 K text, 2 K dictionary word (isolated), 3 K text word (situated word).
letter. When words of this type get into context, overall contextual constraints increase so rapidly, that the final letters carrying information, as well as letters in the middle of the word are almost totally predetermined by the preceding context. This is exactly why they lose a considerable part of their grammatical information. The matter is different with short words. Their use in a text is accompanied with a rather quick increase of contextual constraints. However they do not manage to reach their limit by the end of the word (as a rule the length of short words does not exceed four letters). As a result, all letters here retain their informational weights. Hence, short word forms, the bulk of which is comprised by function words, are less vulnerable to contextual influences than long and medium autosemantic word forms (Piotrowski 1984, 240K242). Low indicators of analyticity and a high ratio of morphology in Romance languages is to be explained, evidently, by the following typological peculiarities of these languages. K 1. In Romance languages frequent function words, playing the main part in conveying grammatical information, have inflections. Cf. the forms of different articles in French (le, l’, la, les) or Romanian (al, a, ai, ale), as well as conjugation of the Spanish auxiliary verb haber (he, has, ha, hemos, habeis, han), or the Italian one avere K ho, hai, ha, etc. As for Rusian and English function words, they are for the most part uninflected. K 2. Romance verbal paradigms are characterized by a considerable number of inflectional graphic forms (cf. French Conditionnel, Présent, Passé simple, Imparfait,
Imparfait du Subjonctif and the corresponding tense forms in other Romance languages). In this respect they surpass both English and Russian. Romance verbal inflexions are not always predetermined by the form of the preceding noun or pronoun, cf. French Il chante (chantait, chantai, chanterei; chanterais, chantasse), or Rumanian eu cânt (cântam, cântai, cântsem). A similar picture is observed in other Romance languages. This peculiar inflectional-analytic structure has found a reflection in informationstatistical properties of the Romance text, which seem unexpected at first glance.
10. Concluding remarks The results of informational measurements are not only used in the solution of theoretical problems, but also in applied ones. First of all this concerns the issues of synergetic organization of the language on the whole; and of its varieties (Altmann 1989, XI; Kamimura 1989, 264 f.; Altmann/Köhler 1996, 62 f.; Piotrowski 2005, § 5.8), as well as idiolect of writers (Fucks 1955, 89K95; Marcus 1970, 198K208). Besides, attempts have been made to apply informational-statistical measurement to the speech of insane people (Somers 1965, 153 f.; Andreev/Aminev 1968, 409 f.; Kromer 1997a, 5). It has been found out, that meaningful deviations of the text entropy from its standard level towards its increment testify to weakening of self-regulatory mechanisms in the language and speech systems. This is primarily observed
60. Quantitative linguistics and information theory
875
in the individual speech of patients suffering from mental and speech disorders (see Section 79). An increase of entropy is also observed in languages of minor nations, which are open to a strong interference from imperial languages, very often detrimental to the norms of the former. Thus an informational experiment has revealed that russified documents in Romanian written in the former Soviet Socialist Republic of Moldavia exhibit higher entropy than autochthonous Romanian texts (Novak/Piotrowski 1971, 336). High entropy in Adygei languages is evidently due to an analogous pressure exerted by the Russian language (Table 60.1). As for the adjacent fields of knowledge, the information measurements in the texts of natural languages were originally prompted by the tasks of statistics and those of secret code algebra (Shannon 1949, 680 f.). Later, knowledge of granular distribution of information in the text as well as informational load of word initials and redundancy of their middle parts were used in solution of the problems connected with coding and compressing of textual information. This has proved to be essential in making up linguistic data bases, as well as programs of text analysis and synthesis for pocket mini-computers (Mikhlin/Piotrowski/ Frumkin 1974, 73 f.). It has been found out, in particular, that in forming compressed codes (curtailments) to reduce the corps of input information it was expedient to store the codes of initial letters of the word and sometimes the final ones. Such compressions are quite possible for English, Russian and Romance. However, they are inapplicable to long German words, which are often composites containing several bases. At present, information measurements, maximum entropy among them, are used in elaborating probabilistic context-free grammars (Miller/O’Sullivan 1992, Chi 1999, 132 f.), as well as stochastic modeling of language and speech for machine translation using the maximum-entropy principle (Berger/Della Pietra S. A./Della Pietra V. J. 1996, 40 f.; Ratnaparkhi 1997; Garcia-Varea/Och/ Casacuberta 2001, 1235 f.; Och/Ney 2005, 295K302; 2004, 420, 431).
Altmann, Gabriel (1974), Review of Piotrowski, R. G. ‘Informacionnye izmerenija jazyka’. Leningrad 1968. In: Linguistics. An International Review 127, 125. Altmann, Gabriel (1989), Japanese quantitative linguistics. In: Japanese quantitative linguistics. (Ed. Shizuo Mizutani). Bochum: Brockmeyer, IK XIII. Altmann, Gabriel/Köhler, Reinhard (1996), “Language forces” and synergetic modelling of language phenomena. In: Glottometrika 15. Issues in General Linguistic Theory of Word Length. (Ed. P. Schmidt). Trier: Wissenschaftlicher Verlag Trier, 62K76. Andreev M. P./Aminev G. A. (1968), Éntropijnye pokazateli reči pri šizofrenii i organičeskich zabolevanijach mozga. In: Žurnal nevropatologii i psichiatrii im. S. S. Korsakova 68 (3), 409K412. Bajtanaeva, Dinaida Abiševna (1985), Informacionnye charakteristiki kazachskogo texta. Avtoreferat kandidatskoj dissertacii. Alma-Ata: Institut Jazykoznanija Akademii Nauk Kazachskoj SSR. Bektaev, Kaldybaj Bektaevič (1978), Statistiko-informacionnaja tipologija tjurkskogo teksta. AlmaAta: Izdatel’stvo Nauka Akademii Nauk Kazachskoj SSR. Bektaev, Kaldybaj Bektaevič/Maškina, Ljudmila Evgen’еvna/Mikerina, Tat’jana Anatol’evna/Rotar’ Aleksandra Sergeevna (1966), Éntropija slovoformy i slovosočetanija v anglijskich i nemeckich tekstach. In: Éntropija jazyka i statistika reči. Minsk: Gosudarstvennyj institut inostrannych jazykov, 173K183. Berger, Adam L./ Della Pietra Stephen A./Della Pietra Vincent J (1996), A Maximum Entropy Approach in Natural Language Processing. In: Computational Linguistics 22 (1), 39K68. Bogodist, Valentin (1978), Informativnost’ slova dlja nositelej jazyka i dlja inostrancev. In: Linguistica X. Acta et commentationes Universitatis Tartuensis. Tartu: Tartu Riiklik Ülikool, 5K14. Bogodist, Valentin/Georgiev, Christo/Pestunova, Valentina/Piotrowski, Rajmund/Raitar, Siiri (1975), Semantische Information und Arten ihrer Messung. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 28 (2), 221K235. Boguslawskaja, Galina Petrovna (1966), Informacionno-statističeskoe stroenie anglijskoj slovoformy. In: Éntropija jazyka i statistika reči. Minsk: Minskij gosudarstvennyj pedagogičeskij institut inostrannych jazykov, 90K117. Boguslawskaja, Galina Petrovna (1969), Informacionno-statiatičeskaja ocenka analitizma v anglijskom jazyke. In: Statistika teksta. Sbornik statej. Materialy seminara ‘Obščie problemy jazykoznanija i lingvostatističtskie metody issledovanija’ (1968K69 gg.). T. I. Lingvostatističeskie issledovanija. Minsk: Izdatel’stvo BGU, 260K270.
11. Literature (a selection) Alekseev, Pavel Michajlovič (1984), Statistische Lexikographie. Zur Typologie, Erstellung und Anwendung von Frequenzwörterbüchern. Lehrbuch. Bochum: Brockmeyer.
876
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Boguslawskaja, Galina/Koženec, Tamara/Piotrowski, Rajmund (1971), Informational Estimates of Text. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 24 (6), 455K486. Boguslawskaja, Galina Petrovna/Zel’cman, Marina A./Piotrowskij, Rajmund Genrichovic/Šabes, Vladimir Jakovlevic/Šuntova, Raisa A. (1969), Informacionnyje izmerenija teksta i ocenki vladenija inostrannym jazykom. In: Inostrannyje jazyki v škole 2, 37K43. Brown, Peter F./Della Pietra, Stephen A./Della Pietra, Vincent J./Lai, Jennifer C./Mercer Robert L. (1992), An estimate of an upper bound for the entropy of English. In: Computational Linguistics 18 (1), 31K40. Brown, Peter F./de Souza, Peter V./Mercer, Robert L., Della Pietra,Vincent J./Lai, Jennifer C. (1992), Class-based n-gramm models of natural language. In: Computational Lingustics 18(4), 467K479. Сarnap, Rudolf/Bar-Hillel, Yehoshua (1952), An outline of a theory of semantic information. Massachusetts Institute of Technology, Research Laboratory of Electronics, Technical Report No 247, October 27. Cambridge Mass.: MIT Press. Сarson D. H. (1961), Letter constraints within word in printed English. In: Kybernetik 1 (1). Celikovskaja, Ija Petrovna (1969), Opredelenie urovnja jazykovych umenij s pomošč’ju informacionno-statisticeskich metodov. In: Problemy prikladnoj lingvistiki. Tezisy mežvuzovskoj konferencii 16K19 dekabrja 1969 g. Moskva: MGPIIJA im. M.Toreza. Chi, Zhiyi (1999), Statistical Properties of Probabilistic Context-Free Grammar. In: Computational Linguistics 25 (1), 131K160. Chu-Carrol, Jennifer/Carpenter, Bob (1999), Vector-based Natural Language Call Routing. In: Computational Linguistics 25 (3), 361K388. Cover, Thomas M./King, Robert D. (1978), A convergent gambling estimate of the entropy of English. In: IEEE Transactions on Informational Theory 24 (4), 413K421. Cover, Thomas M./Thomas, Joy A. (1991), Elements of Information Theory. New York: John Wiley & Sons, Inc. Della Pietra Stephen A./Della Pietra, Vincent J./ Lafferty, John (1997), Inducing Features of Random Fields. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 19 (4), 1K13. Drozen, Vladimir/Langer, Stanislav (1966), Statistický odhad sémantické informace. Kybernetik 2, 259K263. Fucks, Wilhelm (1955), Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen. In: Arbeitsgemeinschaft für Forschung des Landes Nordrhein-Westfalen. Heft 34a. Köln/Opladen: Westdeutscher Verlag.
Garcia-Varea, Ismael/Och, Franz J./Casacuberta, Francisco (2001), Refined lexicon models for statistical machine entropy approache. In: Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL), Toulouse, 1235K1238. Georgiev, Hristo/Piotrowski, Rajmund (1976), A new method of measurement of information. In: Language and Speech 19 (1), 41K45. Goldenberg, D./Rumpel, Dieter (1983), Recognition of abbreviated context-words by man. In: International Classification 10 (3), 143K146. Harris, Zellig S. (1988), Language and information. New York: Columbia University Press. Herdan, Gustav (1964), Quantitative linguistics. London: Butterworths. Hjelmslev, Louis (1953), Prolegomena to a Theory of Language. Baltimore: Waverly Press. Jaglom, Akiva Moiseevič/Jaglom, Isaak Moiseevic (1973), Verojat-nost’ i informacija. Moskva: Nauka. Glavnaja redakcija fiziko-matematičeskoj literatury. Kamimura, Ryotaru (1989), A study on a optimal latent structure of language. In: Japanese quantitative linguistics. (Ed. Shizuo Mizutani). Bochum: Brockmeyer, 265K283. Kolmogorov, Andrej Nikolajevič (1965), Tri podchoda k opredeleniju ponjatija “količestvo informacii”. In: Problemy peredači informacii 1 (1), 3K11. Kromer, Viktor Vilgelmovič (1997a), Jaderno-veernaja model’ vertikal’nogo raspredelenija slov v russkom tekste. Novosibirsk: Novosibirskij gosudarstvennyj pedagogičeskij universitet. Kromer, Viktor Vilgelmovic (1997b), Podpornoe˙ksponencialnaja model’ generalnoj leksičeskoj sovokupnosti anglijskogo jazyka. Novosibirsk: Novosibirskij gosudarstvennyj pedagogičeskij universitet. Küpfmüller, K. (1954), Die Entropie der deutschen Sprache. In: Fernmeldetechnische Zeitschrift 7 (6), 265K272. Levelt, Willem J. M. (1993), The Architecture of Normal Spoken Use. In: Linguistic Disorders and Pathologies. An International Handbook. (Eds. G. Blanken/J. Dittmann/H. Grimm/J. C. Marshall/C.W. Wallesch). Berlin/New York: Walter de Gruyter, 1K15. Mark, Kevin E./Miller, Michael I./Grenander, Ulf/ Abney, Steven P. (1996), Parameter Estimation for Constrained Context-Free Languages Models. In: Proceedings of the DARPA Speech and Natural Language Workshop, Image Models (and Their Speech Model Cousins). Harriman, NY: Morgan Kaufmann, 146K149. Marcus, Solomon (1970), Poetica matematică. Bucuresti: Editura Academiei Republicii Socialiste România.
60. Quantitative linguistics and information theory
877
Michajlova, Irina Viktorovna (1972), Osnovy avtomatičeskogo segmentirovanija ispanskogo teksta. Leningrad: Leningradskij gosudarstvennyj pedagogičeskij institut im. A. I. Gercena. Mikhlin, Grigorij Z./Piotrowski, Rajmund G./ Frumkin, Vladimir A. (1974), Word code contraction in automatic text processing. In: Automatic Documentation and Mathematical Linguistics 8 (3), 73K77. Miller, Michael I./O’Sullivan, Joseph A. (1992), Entropies and Combinatorics of Random Branching Processes and Context-Free languages. In: IEEE Transactions on Information Theory 38 (4), 1292K1310. Muchamedov, Sabit Aripovič/Piotrowskij, Rajmund Genrichovič (1986), Inženernaja lingvistika i opyt sistemno-statističeskogo issledovanija uzbekskich tekstov. Taškent: Fan. Nauta Jr., Doede (1972), The Meaning of Information. The Hague/Paris: Mouton. Nevel’skij, Pëtr Borisovič/Rozenbaum, Michail D. (1971), Ugadyvanie professionalnogo teksta specialistami i nespecialistami. In: Statistika reči i avtomatičeskij analiz teksta. Leningrad: Nauka, LO, 134K148. Newman, Julian (1996), Semiotics, Information and Cooperation. In: Linguistic Concepts and Methods in GSCW (Eds. J. H. Connolly/L. Pemberton). London: Springer, 110K121. Novak, Lidia/Piotrowski, Rajmund (1971), Esperimento di predicione ed entropia della lengua rumena. In: Statistica linguistica (con l’aggiunta di due appendici). Bologna: Casa editrice Prof. R. Patron, 325K363. Och, Franz J./Ney, Hermann (2002), Discriminative training and maximum entropy models for statistical machine translation. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, 295K302. Och, Franz J./Ney, Hermann (2004), The Alignment Template Approach to Statistical Machine Translation. In: Computational Linguistics 30 (4), 417K449. Paškowskij, Wladimir Éduardovič/Piotrowskaja, Weronika Rajmundovna/Piotrowskij, Rajmund Genrichovič (1994), Psichiatričeskaja lingvistika. Sankt-Peterburg: Nauka. Petrova, Natal’ja/Piotrowskij, Rajmund/Giraud, Raymond (1970), Caractéristiques informationnelles du mot français, In: Bulletin de la Société de linguistique de Paris 65 (1), 24K28. Piotrowskij, Rajmund Genrichovič (1968), Informacionnye izmerenija jazyka. Leningrad: Nauka. Piotrowski, Rajmund (1984), Text K Computer K Mensch. Bochum: Brockmeyer. Piotrowski, Rajmund (1994), Psycholinguistical basis of the linguistic automaton. In: International Journal of Psycholinguistics 1 (27), 15K32.
Piotrowski, Rajmund (1997), Text informational estimates and synergetics. In: JQL 4 (1K3), 232K 243. Piotrowskij, Rajmund Genrichovič (2005), Lingvističeskaja sinergetica (ishodnye položenija, pervye rezul’taty, perspektivy). Sankt-Peterburg: Filologičeskij fakul’tet. Sankt-Peterburgskij universitet. Piotrowski, Rajmund/Lesochin, Michail/Luk’janenkov, Kuz’ma (1990), Introduction of Elements of Mathematics to Linguistics. Bochum: Brockmeyer. Raitar, Siiri (1980), Wechselwirkung der semantischen und strukturell-syntaktischen Information in der Sprache. In: Linguistica XIII. Acta et commentationes Universitatis Tartuensis. Tartu: Tartu Riiklik Ülikool, 127K131. Ratnaparkhi, Adwait (1997), A Linear Observed Time Statistical Parser Based on Maximum Entropy. In: Proceedings of the Second Conference in Empirical Methods in Natural Language Processing. Providence, RI: American Mathematical Society. Saussure Ferdinand de (1959), Course in general linguistics/Transl. Wade Baskin. Glasgow: Fontana/Collins. Shannon Claude E. (1948), A mathematical theory of communication. In: Bell System Technical Journal 27 (3), 379K423; (4), 623K656. Shannon Claude E. (1949), Communication theory of secrecy systems. In: Bell System Technical Journal 28 (4), 656K715. Slama-Cazacu, Tatiana şi Ročeric, Alexandra (1960), Statistica fone-melor şi valoarea “experimentului de predicţie”// Fonetică şi Dialectologie. Vol. II. Bucureşti: Editura Academiei Republicii Socialiste România, 63K70. Somers, H. H. (1961), The measurement of grammatical constraints. In: Language and Speech 4 (3), 150K156. Somers, H. H. (1965), Grammatical constraints in pathological speech. In: Language and Speech 9 (3), 153K160. Tamaoka, Katsuo/Lim, Hyunjung/Sakai, Hiromu (2004), Entropy and Redundancy of Japanese Lexical and Syntactic Compound Verbs. In: Journal of Quantitative Linguistics 11 (3), 230K250. Tešitelová, Marie (1965), K entropie jazyka z hlediska frekvence slov. In: Kybernetika a její využití (Ed. A. Perez). Praha. 302K305. Tuldava, Juhan (1998), Probleme und Methoden der quantitativ-systematischen Lexikologie. Aus dem Russischen von Gabriel Altmann, Reinhard Köhler. Trier: WVT Wissenschaftlicher Verlag Trier. Verbickaja, Ljudmila Alekseevna (1996), Orfoépija i voprosy kultury reči. In: Prikladnoje jazykoznanie. Učebnik. (Ed. A. S. Gerd). Sankt-Pe-
878
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
terburg: Izdatel’stvo S.-Peterburgskogo Universiteta. Walker, Marilyn A. (1993), Informational Redundancy and Resource Bounds in Dialogue. Ph. D. thesis, University of Pennsylvania.
Wells, Rulon (1961), A Measure of Subjective Information. In: Proceedings of the Twelfth Symposium in Applied Mathematics Held in New York City. April 14K15, 1960 (Ed. R. Jakobson). Providence, RI: American Mathematical Society, 237K 244.
Wang, A.-L. (1984), First-, second- and third-order entropies of printed Malay. In: Sankhya. The Indian Journal of Statistics 46, 372K376.
Rajmund G. Piotrowski, St. Petersburg (Russia)
61. Entropy, information, and complexity 1. 2. 3. 4.
9.
Introduction Origin of the concept of entropy Entropy in communication theory Language discourses, Zipf’s law, and other entropies Gell-Mann’s characterization of complexity Schroedinger’s work on the extension of Boltzmann-Gibbs-Shannon entropy Entropy in isolated systems and systems far from equilibrium Entropy, complexity, and the physics of information: some general remarks Literature (a selection)
1.
Introduction
5. 6. 7. 8.
The concept of entropy was introduced in the study of thermodynamics and statistical mechanics almost a century and a half ago. Even in the early stages, its possible relationship with information was vaguely recognized. In his mathematical theory of communication, Shannon (1948) postulated entropy to be related to the quantity of information involved in the process of communication. Through coding processes in binary notation, entropy could be generalized to systems which were partly random and partly ordered; such systems have associated with them other useful entropies. A higher order entropy called Gell-Mann entropy C z 1, seems to be a common feature of several complex adaptive systems such as language discourses and DNA sequences of biological organisms. Early applications of entropy in physical systems were for statistical mechanical systems in equilibrium, isolated systems with no exchange of energy or matter with the environment. These systems obey the second law of thermodynamics with entropy never decreasing but tending to increase to a maximum value. When these conditions are
relaxed, we get open or dissipative systems which show order on larger scales (macroscopic order) as seen in phenomena such as Benard thermal convection (which shows ordered cellular structure and Belusov-Zhabatinsky reactions (which display many regular geometric features). The emergence of orderly behavior at the edge of chaos in several phenomena is typical of non-linear dynamics where the usual increase of entropy and disorder is replaced by a decrease of entropy and emergence of large scale order under some conditions. The connection between physical entropy and information-entropy is probably much more than just an analogy though all the ramifications of this connection are not yet clear. Future studies will hopefully clarify this deep and challenging philosophical question.
2.
Origin of the concept of entropy
The concept of entropy in physics was recognized, albeit in a vague manner, in the studies of the French engineer Sidi Carnot in 1824, when he was investigating the working rules for converting heat energy into mechanical work. Clausius (1865), who actually introduced the word entropy by formulating the two fundamental laws of thermodynamics in 1865, may have successfully summarized the knowledge available in his formulation of the laws as follows: Die Energie der Welt ist konstant. (Conservation of energy of the universe) Die Entropie der Welt strebt einem Maximum zu. [The entropy of an isolated system (universe) increases to a maximum].
It was in the detailed work of Boltzmann (1872) and Gibbs (1902) that the concept of entropy took a concrete shape and its con-
879
61. Entropy, information, and complexity
nection to its probabilistic nature and randomness of molecular motion (molecular chaos) became clearer. The classic formulation of the entropy of an isolated system always increasing to its maximum value and its logical pessimistic conclusion of the inevitable heat (or cold) death of the universe K a universe monotonous and homogeneous without any change and without any phenomena K was accepted as inevitable by many thinkers in the final decades of the last century. Boltzmann had some intuitive ideas on the possible connection between entropy and information, when he referred to entropy as missing information. The research work of Shannon (1948), who developed a mathematical theory of communication, helped to clarify this connection considerably.
3.
Entropy in communication theory
Shannon is to be credited with a clear formulation of a mathematical theory of communication where the concept of entropy was related closely with a quantitative definition of the amount of information conveyed by a message in a communication process. Shannon’s information theory is schematically shown in Figure 61.1. All the essential elements of a communication system can be seen in the figure. TRANSMITTER
CHANNEL OF COMMUNICATION
RECEIVER
ENCODER
NOISE
DECODER
SENDING END
RECEIVING END
Fig. 61.1: Shannon’s model of a communication system for messages
Shannon’s theory is a mathematical theory and gives theoretical limits for the performance requirements needed and achievable by the different units constituting a communication system. The theory has been very influential in the design and improvements of practical communication systems as well as in clarifying the essentials of the nature of information, coding and error-free transmission of messages in the presence of noise. The most significant aspects of the theory for our purposes are the definition of the
quantity of information conveyed in a message and the relationships between coding of signals for error-free transmission and the redundancies of signals necessary for achieving these ends. Shannon recognized the role of information as reducing the uncertainty in a situation of receiving the message. Shannon postulated the amount of information as being equal to the uncertainty reduced by receiving the message. The message for this purpose is considered to be a statistical collection of symbols transmitted by the system. The other aspects of a message, for example the meaning conveyed by it or its significance, was not considered and was out of the purview of the theory. In this sense the theory is an abstract theory with its own axioms, rules etc. Its correspondence to the real world was in its usefulness in the development of efficient codes for transmission of messages (Huffman, 1952, 1098) and error correcting codes by many workers and in motivating others to use these ideas to study problems in fields other than communication engineering. 3.1. Shannon entropy Kapur (1980) has summarized all the characteristic essentials of Shannon entropy, which can be considered as a very useful measure of the quantity of information for a message. It equates the quantity of information in a message to the uncertainty decreased by the receipt of the message. A message is treated as a random collection of symbols, which can be transmitted and received by the communication system. Treating the collection of symbols as purely governed by the rules of probability, the aim of the communication process is to transmit messages efficiently and without error so that the receiver of the message can get the message faithfully and reconstruct what was sent by the sender. Let the probabilities of n symbols (e. g. all the alphabets, number digits and the space symbol) be p1, p2, ... pn. The probability distribution associated with the transmission of these n symbols as possible outcomes is denoted by P Z {pi, i Z 1 ... n}. n
∑ pi Z 1, pi iZ1
O 0 (i Z 1 ... n)
(1)
(a) Any measure of the entropy treated as a decrease of uncertainty, denoted by H, should be a function of P. H Z Hn (P) Z Hn (p1, p2, ... pn)
(2)
880
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
(b) H should be a continuous function of P; i. e., no discontinuities and only smooth changes of H with small changes of p’s are allowed. (c) If the p’s are rearranged, H should not change, e. g., Hn (p1...pn) Z Hn (pn, ... p1)
(3)
(d) If a zero probability event is added to the outcome, H should not change. Hn (p1 ... pn, 0) Z Hn (p1....pn)
(4)
(e) H should be a minimum when an event of certainty (i. e., p Z 1) is added. Hn (p1 ... pn, 1) Z 0
(5)
(f) H is a maximum when the probabilities pi’s are all equal. pi Z (1 / n) (i Z 1 ... n)
(6)
(g) The maximum value of H increases as n increases. HnC1 O Hn
(7)
(h) If P and Q are two independent probability distributions: P Z {pi, i Z 1 ... n}, Q Z {qi , j Z 1 ... m}, with Σpi Z 1, Σ qi Z 1, then the joint outcome of P UQ HnCm (P U Q) Z Hn (P) C Hm (Q) If however, P and Q are not independent, the above expression can be generalized to n
HnCm Z Hn (P) C ∑ pi H (i) (Q)
(8)
iZ1
Here H (i) (Q) can be regarded as a measure of uncertainty of Q when event Ai (with probability pi) has occurred. Khinchin (1957) showed that the only function that satisfies all these conditions is n
Hn Z K λ ∑ pi log pi
(9)
iZ1
where λ is a positive constant. Shannon had guessed this function on the basis of earlier work of Boltzmann and Gibbs in thermodynamics and statistical mechanics. Recognizing the deep analogy between Shannon entropy as uncertainty remover and thermodynamic entropy, and the close mathematical properties, Shannon postulated that entropy defined as n
Hn Z K ∑ pi lg pi iZ1
(9a)
characterizes the quantity of information in a communicated message. The constant λ in equation (9) is set equal to 1, and ‘lg’ is the logarithm to base 2. By relaxing some of the eight constraints given above, one can define new entropies such as Renyi entropy (Renyi, 1961). But these turned out to be mathematical curiosities and did not result in great use for general problems. Shannon entropy is the most useful concept applicable to many general situations and has proved to be a fundamental concept in applications of information theory. Another development pioneered by Shannon leading to many useful applications, was to show the equivalence of entropy, defined by the probabilistic considerations above, to the optimum number of bits (‘0’ and ‘1’) per symbol needed to encode the message for transmission. Shannon entropy for a message of N symbols is n
HN,n Z K N ∑ pi lg pi,
(10)
iZ1
the number of bits needed to encode the message. This result has a parallel in Boltzmann’s ideas of the probability of a macrostate in a thermodynamic system being related to the number of microstates (or complexions or configurations) which result in that particular macrostate. A macrostate is defined by system parameters such as temperature, mass, volume, pressure and entropy, whereas the microstates are related to the molecular characteristics like position and momenta of individual molecules. Shannon entropy also characterizes the macrostate or the entire message. The detailed distributions of the positions of symbols in the message do not figure in the calculation of Shannon entropy. The Shannon entropy turns out to be the theoretical minimum of the number of bits needed to encode the message. This is a useful starting point to extend the idea of entropy to other situations and characteristics of collections of symbols. The generality of this definition of ‘information’ in terms of bits can even be extended to situations where the probabilistic framework does not hold good and some rule-based behaviour determines the collection of symbols. These problems will be dealt with in the following sections. Shannon’s theory does not concern itself with the important feature of messages that results in their conveying ‘meaningful’ con-
881
61. Entropy, information, and complexity
tent to the receiver. From the Shannon theory point of view, the constraints that convert a random collection of symbols into a ‘meaningful’ message are not considered to play any role. Thus Shakespeare’s works could have been produced by monkeys typing at random! However, it should be noticed that Shannon, in order to estimate the entropy of an alphabetic letter or a word in English language, did use the strategy of word building or sentence building games by people with good knowledge of English. Messages are not random collections of symbols but governed by rules of word formation, syntax, context, and also have considerable freedom regarding choice of words, style etc., which may be considered to represent non-rule-based behaviour or random features. Recent developments in complex systems theory, non-linear dynamics and chaos theories have been applied to clarify fundamental organizational principles of linguistic discourses and other information conveying systems.
4.
Language discourses, Zipf’s law, and other entropies
In a language discourse, for example, while the choice of topic, style, and even words to be used can be subject to the choice of the speaker or writer, the syntax and other general rules governing a discourse are the same for all discourses in that language. Even in the use of words in discourses, regularities have been discovered by several investigators. The main regular feature discovered is ascribed to Zipf (1935, 1949) and Dewey (1923) and is named Zipf’s law. Irrespective of the topic chosen, or author, or even the language of the discourse, there was found a stability in the occurrence frequency of word types with respect to each other. Expressed mathematically, defining rank ‘1’ for the most frequently occurring word and higher ranks for occurrence frequencies in decreasing sequence, Zipf found that the probability of occurrence p (r) of words of rank r is given by p (r) Z A / r
(11)
where A is a constant. Zipf also formulated the law in an alternate form as
(word-types) with the occurrence frequency k, and B is a constant. Mandelbrot (1953, 1966, 1983) made pioneering attempts to derive Zipf’s law on the basis of Shannon’s information theory, applied to linguistic discourses on a scheme similar to the ones extensively applied in statistical thermodynamics. The linguistic discourse is considered to be a random collection of alphabetic symbols and the space symbols grouped into words delimited by the space symbol. This derivation of Zipf’s law, however, was subject to criticism (Naranan/Balasubrahmanyan, 1992a, 261; 1992b, 297) as some hidden assumptions about brain mechanisms preferring shorter words to longer words were assumed and the expected word length distributions on this model are exponential, contradicting the actually observed lognormal distributions of word lengths in natural languages. The point to be noted is, that words in language discourses are not random selections of alphabets or phonemes, but subject to a high degree of correlation and governed in many cases by regular rules of word formation as emphasized by ancient linguists like Panini. For example, in English, the past tense of a verb is generally formed by adding ‘ed’ to the present tense root of a verb and plurals of a vast majority of nouns are formed by the addition of ‘s’ to the singular noun. Mandelbrot’s derivation of Zipf’s law may be more suitable for ‘monkey languages’ rather than for natural languages which have both rule-based syntax and freedom of choice of words. A different derivation of Zipf’s law based on Shannon’s information theory was given by Naranan/Balasubrahmanyan (1992a, 261; 1992b, 297; 1993, 728) who took the word as a fundamental symbol characterizing a discourse. The word could have a graphic form consisting of a collection of alphabets grouped into words for the written script and a collection of phonemes for the spoken form. If a linguistic discourse has a total of N words (word tokens) and a vocabulary of V words (word types), and W (k) is the different word types that occur k times, (k Z1, 2, . km), then km
(12)
∑ kW (k) Z N kZ1
where k is the frequency of a word type, W (k) is the number of different words
∑ W (k) Z V. kZ1
W (k) Z B / k
2
(13)
km
(14)
882
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
The Shannon entropy Hs is given by km
Hs Z lg N K∑ kW (k) lg k .
(15)
kZ1
A new entropy called ‘degenerate entropy’ Hd was defined as km
Hd Z lg N K∑ kW (k) lg k W (k).
(16)
kZ1
In defining Hd, the word types occurring k times, i. e., W (k) word types are treated as indistinguishable as far as the counting process is concerned. The statistics that such indistinguishable entities follow, is different from the statistics of ordinary distinguishable entities in the counting process. The idea is fairly important in quantum phenomena where indistinguishable quantum particles obey Bose-Einstein statistics, while ordinary classical distinguishable particles obey Boltzmann statistics (cf. Huang, 1987). The degenerate entropy formalizes the general observation that word types which occur with the same occurrence frequency are a regular feature of linguistic discourses and removes randomness (unpredictability) by having a relative stability of occurrence of different word types. Equations (15) and (16) are obtained from equations (9a) and (13). For Hs, pi Z p (k) Z k / N and the sum is taken over k Z 1, 2, . km remembering there are W (k) words each occurring k times. For Hd, pi Z p (k) Z kW (k) / N instead of k / N. Treating equations (13), (14) and (15) as constraints and maximizing for the degenerate entropy Hd, using the method of undetermined Lagrange multipliers, yields the optimum word frequency distribution W (k) Z B eKµ / k kKγ
(17)
where B, µ and γ are constants. Parameter µ is usually small (0 to 1) and affects the W (k) values at low k (near k Z 1). B is a normalization constant that depends on N and γ is the index of the power law. Even for modest values of k, the exponential term z 1. W (k) z B kKγ
(18)
Rigorous statistical analysis and tests of several sample discourses in several languages showed that equation (17) is obeyed very closely and that γ has a value close to 2, as Zipf had postulated. 4.1. Algorithmic entropy Shannon entropy and degenerate entropy depend only on the occurrence frequencies
of symbols and can so be considered purely on probabilistic grounds and as characterizing macrostates of the entire discourse. In a linguistic discourse, however, the symbols (words) have a well defined position. If a word is changed from its position to somewhere else arbitrarily, the discourse loses its coherence and the meaning becomes distorted. So, a linguistic discourse is a sequentially ordered collection of symbols and any code developed to represent it should preserve this property, if the meaningful content is not to be lost. Shannon has considered the effects of noise and other errors which arise in the faithful reproduction of symbols in the transmission process by suitable coding, redundancy etc. The consideration is an overall reduction in the percentage of errors for the entire message to an acceptable limit. Shannon’s work showed that as long as the channel capacity (bandwidth) is adequate, a message could be coded to be transmitted to any degree of acceptable error limits. Here, we are considering a linguistic discourse which is not merely a stochastic collection of signals but an ordered sequence of signals. Balasubrahmanyan/Naranan (1996, 177; 2002, 1) have discussed this essential feature of linguistic discourses and have developed an optimal meaning preserving code (OMPC) to efficiently code them. The OMPC has close similarities to the algorithmic or Kolmogorov entropy developed to represent a particular binary string following the work of Kolmogorov (1965, 3) and Chaitin (1987). Zurek (1989, 4731) has clarified the role of algorithmic entropy in the case of gases at equilibrium and its relationship to coding problems. A simple introduction to algorithmic (or Kolmogorov) entropy is to consider the concept of computational complexity involved in describing any string of digits, e. g. a binary sequence. If one produces a computer program to describe that string, one quickly finds that the length of the program needed to reproduce the binary string will depend on the regularities inherent in the string. For illustration let us take two strings: (a) 100100001101....... K a random string with no regularities in the symbols (b) 101010101010....... K a string with ‘1’ and ‘0’ alternating regularly. String (b) can be represented by a very simple program which repeats ‘10’ the required
883
61. Entropy, information, and complexity
number of times, whereas the string (a) has to be copied as it is. The program for reproducing (a) will be at least as long as the number of bits in it, whereas for (b) it can be much shorter. Here, we are considering strings of considerable length so that the overheads for the computer program is dominated by the data and not by the initializing and other start-up needs. It should be noted that for two random strings of the same length, the number of 1’s and 0’s will be nearly equal and the Shannon entropy which is a maximum will be nearly the same. But the strings are different because the actual sequence of 1’s and 0’s are very different and can convey different messages. Here algorithmic entropy comes to our help and gives a clue to the coding problems of particular binary strings. For example, it is possible to conceive of strings which are partly ordered and partly random, with algorithmic entropy lying between the very low values characteristic of very ordered systems and the high values of totally random systems. Balasubrahmanyan/Naranan (1996, 177) have extended the concept of algorithmic entropy to such systems. They have considered several systems for which the sequential order in which symbols occur is an important feature. Prominent examples of such systems are language discourses, DNA sequences, bibliographic listing of scientific papers in a particular topic, etc. Many of these systems obey Zipf’s law. In the particular case of scientific bibliography, the law has been called Bradford’s law (Naranan, 1970, 227) and several explanations for the regularities observed are available now (cf. Naranan/Balasubrahmanyan 1998, 35 and references therein; cf. art. No. 50). The algorithmic entropy approach seems to provide a unifying background for many of these phenomena on a common conceptual mathematical basis even though the components and the phenomena appear to belong to vastly diverse fields with apparently no common connecting thread of unity. The algorithmic entropy for language discourse, regarded as an OMPC, can be expressed as
Ha Z x (Hm K Hd) C (1 K x)Hm
(19)
kZ1
For language discourses f (k) f k or (1 / k) depending upon whether the word type is a content word (c-word) or a grammatical word (s-word). C-words are generally nouns, verbs, adjectives, adverbs etc., which domi-
(20)
Here Hm (Z lg N) is the maximal entropy of the total number of words N in the discourse, Hd is the degenerate entropy, x is an order parameter representing the role played by the order introduced by syntax, context and constraints of coherence in content. x lies between 0 and 1. Equation (20) can be interpreted as follows: the OMPC with Ha bits per symbol may be regarded as a mixture of orderly and random components, somewhat similar to the strings (a) and (b) used for illustration of Kolmogorov entropy. If x is the fraction of orderly component in the OMPC it contributes x (Hm K Hd) bits to Ha, since Hm K Hd is a measure of ‘order’ (Shannon entropy Hd is a measure of ‘disorder’). The random component accounts for (1 K x) Hm bits (the second term in equation 20), since Hm is the number of bits per symbol needed to encode a totally random string. Solving equation (20) for x, we obtain x Z (Hm K Ha) / Hd. x, the order parameter is therefore determined by the three entropies Hm, Hd and Ha. This approach has been seen as very useful in understanding the behaviour of several complex systems of interest.
5.
km
Ha Z ∑ kW (k) lg [f (k). kW (k)]
nate the frequency domain W (k) O 1. Swords, on the other hand, are the grammatical words (articles, prepositions, conjunctions, auxiliary verbs etc.) for which W (k) Z 1. When Ha is minimized under the constancy constraints of the total number of words N and the total number of word types V (equations 13, 14) the optimum word frequency distribution is the Zipf’s law. Ha has the regular features imposed by syntax, context and coherence of content, as well as the freedom of choice exercised by the speaker or writer. Balasubrahmanyan/ Naranan (1996, 177; 2002, 1) have explored the consequences of treating algorithmic entropy as consisting of the combination of randomness and rule-based order of the form
Gell-Mann’s characterization of complexity
Gell-Mann (1994), Bennett (1990, 137) and others have noted one aspect of complex systems which is of great interest. These systems, sometimes called complex adaptive systems, are neither fully ordered like a crys-
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
tal where the constituent atoms or ions are arranged in a regular crystal lattice nor fully random like the molecules in a gas at equilibrium. In a crystal, if one knows how to characterize a unit cell, a large crystal, which is w109 times bigger along the rectangular coordinate axes x, y, z, can be easily described as a repetitive unit having 109 units cells along each axis. There is no size-dependent difficulty in describing a system with a larger number of constituents or orderly structures. In the same manner, for a gas at equilibrium, each cm3 volume with a huge number of molecules is like any other cm3 volume. In some sense, there is no great addition or increased informational requirements describing the larger volume in terms of the unit cell chosen. But for many practical systems of interest like language discourses or DNA sequences, the increase of information with size, needed to describe a large collection, is quite unlike that of a crystal or a gas in terms of a coarse unit cell of macroscopic (not molecular) dimensions. A simple prokaryotic cell (cell without a nucleus) may have w4000 genes while a human being has w40.000 genes in each cell. The number of different cell types and variety of different organisms on the evolutionary scale increase as the number of genes increases. These types of systems which scale up in observed complex behaviour, are according to Gell-Mann (1994) of higher effective complexity and have been described qualitatively by behaviour sketched in Figure 61.2. While crystals and gases at low and high entropy ends have near zero complexity, systems which have both part orderly and part random behaviour have a higher effective complexity or Gell-Mann complexity. Balasubrahmanyan/Naranan (1996, 177; 2002, 1) have quantified this concept. They treat Gell-Mann complexity as an entropy characterizing systems with a lot of information organized according to regularity (i. e., order introduced by rules) as well as randomness. In language, order is represented by syntax, context and coherence, whereas randomness is reflected in the freedom of choice of words (especially c-words). Shannon entropy deals with the whole message as a macroscopic whole without taking into account the organizational features which make up the message. Gell-Mann complexity is a parameter which separates complex adaptive systems, with a lot of inner organization, hierarchical components etc., from
Effective Complexity
884
0
Max Algorithmic Information Content
Order
Disorder
Fig. 61.2: A schematic showing that “effective complexity” of a system is maximum at an intermediate value of “algorithmic information content”, between extreme values of 0 (for ordered system) and 1 (for totally disordered system).
simple systems with only the same repetitive constituents present in large numbers. The major advantage of this separation is that several systems of great practical use such as language discourses, DNA sequences, bibliographic listings of scientific literature and many other evolutionary schemes fall into this category and their detailed characteristics can be explored from a unified systems point of view. 5.1. Effective or Gell-Mann complexity Balasubrahmanyan/ Naranan (1996, 177; 2002, 1) have defined a new entropy C, which captures the essential feature of complex adaptive systems described above. C Z lg (1 C αy ) K α y lg (α y) / (1 C α y)
(21)
Here α Z (Hm K Hd) / Hm, is the redundancy and y Z x / (1 K x) Z (‘order’/ ’disorder’). C is a function of one variable (x) with one parameter (α) and one maximum. C, x, α all lie in the interval 0 to 1. C / 0, as x / 0 and x / 1. C is maximum (Z 1) when x Z 1 / (1 C α). This entropy has a mathematical form somewhat similar to that of Shannon entropy and is also an ensemble property
885
61. Entropy, information, and complexity Table 61.1: Entropies, complexity parameters for language discourses Discourse
Hm
Hs
Hd
Ha
Alpha
x
C
C-words C-words (Shakespeare) S-words (Shakespeare & Doyle) S-words (Dewey) Phonemes
13,132 17,571 17,935 15,299 13,158
10,573 13,485 4,939 4,748 4,278
4,567 6,223 4,939 4,7482 4,278
10,581 14,381 15,294 12,66 10,788
0,651 0,646 0,725 0,690 0,675
0,559 0,513 0,535 0,563 0,554
0,991 0,973 0,994 0,998 0,993
Row 1: Data from seven different discourses (English, Chinese, Russian, Latin) Row 3: Data from Shakespeare (complete works) and Conan Doyle (Sherlock Holmes collection) Row 5: Data from English and six other Indian languages [for details see Balasubrahmanyan and Naranan (1996, 177)] For definitions of parameters see sections 4 and 5. Definitions of x, alpha are slightly different from the definitions given in the above reference.
(macroscopic parameter) and is identified as a measure of effective complexity of GellMann. Unlike Shannon entropy, which depends solely on the probability distribution of symbols, Gell-Mann complexity C depends on two parameters x and α. x is the order parameter depending on rule based order; α is the redundancy parameter depending on the probabilistic entropies Hm and Hd representing the random features enabling personal choice of words etc. For very orderly collection and totally random collection of symbols C z 0. For systems investigated, such as language discourses or DNA sequences, C is very close to 1, the maximal value possible. See Table 61.1 for data from linguistic discourses. The algorithmic entropy Ha for these systems at the maximum value of C, gives a measure of the information in the discourse with the symbols coded and the sequence preserved. Thus the three characteristics which characterize a meaningful collection of words, viz. near maximum value of C, the algorithmic entropy at that value and the applicability of Zipf’s law, are not necessarily totally independent. Other entropies like Shannon entropy or the redundancy are purely probabilistic and do not take care of the position dependence of symbols. They represent only macrostate parameters and ignore the sequential arrangement of symbols in a meaningful discourse.
6.
Schroedinger’s work on the extension of Boltzmann-GibbsShannon entropy
From the observation, that increases of entropy of physical systems decrease the organization, Schroedinger (1944), in his path breaking book “What is Life?”, explores the
relationship between entropy and information. It is common knowledge that the entropy of a certain amount of gas is much more than that of the same mass of gas cooled to form a liquid. Further, if the liquid is solidified to form a solid (say a simple crystal), the crystal has less entropy than the liquid (and the gas). The randomness of motion of the molecules introduced by the change of state from the solid to the gaseous state results in a loss of information about the position and velocity of the constituent atoms or molecules. The increase of entropy is associated with the loss of information. It is pertinent to recall that Boltzmann had related increase in entropy with decrease of information in his earlier work. Schroedinger was greatly impressed with the important observation that, while the second law of thermodynamics predicts increasing entropy and disorder in isolated systems, as we look around our world we find that evolution has been producing organisms which progress in complexity both in terms of structure and function as time increases. The progress of living organisms from monocellular bacteria to Homosapiens is in complete contrast to the scenario of the second law of thermodynamics. Organisms keep living, reproducing and evolving by taking food from their surroundings and interacting with the environment. The higher organisms feed on plant life and other animals and, according to Schroedinger, keep their entropies low “sucking in negative entropies” from the environment. The so called arrow of time as seen from the evolutionary perspective is quite opposite to the arrow of time for isolated systems as predicted by the second law of thermodynamics. The inflow of energy from the sun and the exchange of matter between highly orga-
886
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
nized biological organisms and food play important roles in the progress of complexity. In complex adaptive systems, Gell-Mann complexity hovers near the maximum value of 1, rather than deteriorate to value near zero that is characteristic of random collection of atoms and molecules. The Boltzmann equation for entropy S is S Z K log D
(22)
where D is a quantitative measure of atomic or molecular disorder and K is the Boltzmann constant. Disorder is partly due to molecular chaos (random distribution of velocities due to thermal agitation) and the randomness due to the mixing up of the molecules in the state being described. For example, if we take a sugar cube, all its molecules are concentrated in a small volume occupied by the sugar cube K a low entropy state. If the same sugar cube is dissolved in a container of water, the sugar molecules diffuse through the whole volume and there is an increase of disorder as any molecule could be present anywhere in the entire available volume. Thus there is a loss of information about the position coordinates of any molecule. Similarly if a crystal is melted, the neat orderly arrangement of the atoms is converted to random distribution K a state of greater disorder and entropy with a loss of positional information compared to the original state. Schroedinger modified equation (22) as S Z KK log (1 / D).
(22a)
Taking Schroedinger’s definition of entropy, Stonier (1990) relates entropy and information in a quantitative way. Stonier defines order O as the reciprocal of disorder, i. e., O Z (1 / D) and information I as a function of order I Z F (O)
(23)
To avoid conceptual difficulties when one relates changes in information content with changes in entropy, Stonier defines information I as being linearly related to order (or organization) I Z κ O or O Z I / κ
(24)
where κ is a constant. Then D Z (1 / O) Z κ / I and substituting in equation (22) S Z K log (κ / I) or I Z κ eKS/K
(25)
The above equation according to Stonier, defines the fundamental relationship be-
tween information I and entropy S. Recognizing that different systems (e. g. different crystals) can have different constants κ, equation (25) is rewritten in a more general way as S Z K log (I0 / I) or I Z I0 eKS/K
(25a)
I0 is the information at S Z 0. An important feature of this equation is that S can take negative values, whereas I is always positive. This relation between entropy and information is based purely on physical considerations; information is treated as a fundamental constituent of the universe like matter and energy. It is also assumed that organization as opposed to randomness exists in a system, information is present whether there is any mechanism to observe those patterns or not. This can be thought of as an ontological view regarding information rather than an epistemological point of view. In this study departures from randomness are attributed to probabilistic factors alone. This viewpoint cannot be adapted to the use of man-made symbols (as in language discourses) which display organization based on rules (for example syntax) and randomness (freedom of choice). For example, the ideas of an author are coded into printed symbols on paper in a book or on magnetic tape; here the organization is governed not by just the physical properties of the medium, the materials involved and the recording process etc., but also by the constraints due to syntax, coherence of content, and the style of the author etc. Thus, while organization contains potential information, all practical complex adaptive systems are governed by probabilistic as well as rule-based behavior playing important roles in the final organization. Algorithmic entropy takes into account this feature in a quantitative way by the use of the order parameter x and the redundancy α. Stonier, while recognizing the inadequacy of Shannon’s entropy to capture all aspects of information, treats the whole problem purely on the basis of physical processes alone. As Stonier points out, Shannon’s measure of information treats information as remover of uncertainty and does not take into account adequately the phenomenon of information interacting with matter to produce structure and organization. In his view “simple systems become more complex, more differentiated, more in-
887
61. Entropy, information, and complexity
tegrated both within the system and with the environment outside the system K in short, biological systems evolve to become thermodynamically increasingly improbable.” He quotes approvingly of Paul Davies’ (1987) statement: “there exists alongside the entropy arrow another arrow of time equally fundamental and no less subtle in nature [...] the universe is progressing through the steady growth of structure, organization and complexity to ever more developed and elaborate states of matter and energy.” Stonier has investigated the relationship between different forms of energy and concludes that information work involves work in which part of the energy applied ends as an increase of information in the case of physical systems.
conditions in a system far from equilibrium. The self-organization on these macroscopic scales, which display a high degree of order, is quite in contrast to the predictions of the second law of thermodynamics for isolated systems. Here the flow of energy from outside (heating of the bottom plate) results in a system of macroscopic order with low entropy. The mechanisms which lead to these states of high order are attributed to fluctuations that build up to orderly states. There is considerable contemporary interest in the study of behaviour at the edge of chaos and a lot of work is being done for understanding these systems which are governed by dynamical processes characteristic of non-linear systems with feedback from resulting states influencing the history and state of these systems.
7.
7.2. Belusov-Zhabatinsky Reaction Another example is from chemical reactions, illustrated by the Belusov-Zhabatinsky (B-Z) reaction. In a well stirred chemical reaction tank filled with reactants Ce(SO4)3, NaBrO3, CH2(COOH)2 and H2SO4, a complex sequence of reactions involving 25 chemical species takes place in a
Entropy in isolated systems and systems far from equilibrium
Nicolis/Prigogine (1989) have described some experiments involving physical and chemical systems, where large scale order sets in, replacing microscopic molecular disorder under certain conditions far away from equilibrium, modifying the general expectations of increasing disorder as predicted by the second law of thermodynamics. 7.1. Benard Convection In Benard’s experiment on convection of fluids, a fluid is contained between two horizontal plates, the top plate at a temperature T1 and the bottom plate at temperature T2. When ∆T Z T2 K T1 is 0, the system attains equilibrium with all parts at the same temperature. When ∆T is a small positive quantity, the heat given to the system at the bottom plate is conducted upwards and will be lost at the top plate. Depending on the thermal losses there will be a small thermal gradient. As ∆T is increased further by heating the bottom plate, convection cells called Benard cells, which have a regular structure, get established at a certain ∆T O Tc, a critical temperature difference. Figures 61.3(a) and 61.3(b) show two views of Benard cells which have a regular structure on a macroscopic scale (w 0.1 cm) quite distinct from the molecular chaos scale of 10K10 cm. Mareschal et al. (1988) have done a numerical experiment in which long range order emerges out of molecular chaos under certain
R
L
R
L
R
L
(1)
(2)
(3)
(4)
(5)
(6)
(a)
T1< T2
T2 (b) Fig. 61.3: (a)(b) Two views of convection (Benard) cells. Notice the direction of rotation in any two adjacent cells.
888
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Fig. 61.4: Wave propagation in a two-dimensional layer of BZ reagent. (a) Target patterns (b) Spiral waves (c) Multiarmed spirals
homogeneous state. If the B-Z reaction is carried out without stirring, local spatial inhomogeneities develop and regular patterns in space and time are seen in the form of propagating wave fronts. The waves shown in a thin layer of the reagents are shown in Figure 61.4. They display primarily a pattern of spiral fronts showing rotation in space (clockwise or counter clockwise) or patterns displaying cylindrical symmetry around an axis perpendicular to the layer (called target
patterns). Under some conditions, multiarmed spirals develop. The point to be emphasized is the development of highly ordered patterns with low entropy and considerable information content instead of uniform molecular chaos. Non-linear dynamics provides instances of self-organization in many systems. Nicolis/Prigogine (1989) have given several examples from biology and many other disciplines for the development of self-organization through the fluctuations
889
61. Entropy, information, and complexity
leading to more and more macroscopic order, low entropy and higher states of organization. 7.3. Evolutionary Biology According to Darwin, natural selection aiding the survival of the fittest leads to evolution of higher forms of life. Random mutations of the genes occasionally give some organisms an edge in the battle of reproductive success race; thus natural selection is the arbiter playing a dominant role in evolution. This paradigm of Darwinian evolution has reigned supreme for almost a century and appeared to have vanquished rival theories such as Lamarckian (genetic inheritance of acquired characteristics) or creationism. Recently Kaufman (1993, 1995) has proposed some distinct improvement within the general framework of Darwinian evolution. Kaufman simulated evolution on a computer, using a random assembly of interacting elements (e. g., genes in an organism) in a Boolean network K subject to some simple rules of ‘evolution.’ When the total number of elements exceeds a threshold, spontaneous order or self-organization emerges; this ‘emergent order’ is essential not only for evolution to be sustained by natural selection, but also for the origin of life itself. In a Boolean network logical elements (e. g. genes) act as switches which are interconnected with inputs fed back in a random manner. Kaufman found that k, the number of inputs to each element is a critical parameter. When k Z 1, evolution of the network is too slow to be interesting for biology and when k O 2, it leads to random chaotic behaviour. Most significant results for biology obtain for k Z 2. The evolutionary behaviour of the network successfully simulates several key observed characteristics of cells, such as the dependence of number of cell types on the number of genes in an organism, the number of gene expression patterns in a cell type, presence of a large core of genes active in all cell types of an organism and the high complexity of all viable life forms including the most primitive ones on the evolutionary time scale. These studies are recent and their implications for evolutionary biology yet to be explored in detail. They have the potential to solve the mystery of the emergence and progress of order in living organisms, in contrast to the inevitable increase of disorder
and entropy ordained by the second law of thermodynamics. We have dealt with the three examples above from physics, chemistry and biology to illustrate the universal co-existence of order and disorder in a variety of complex adaptive systems. The relevance of these ideas for language as a complex adaptive system has only just begun to be explored (cf. art. No. 50, Balasubrahmanyan/Naranan, 2002, 1).
8.
Entropy, complexity, and the physics of information: some general remarks
The two faces of entropy as revealed by physics and information theory prompt one to ask, whether they have any deep connection or, like so many words, are just two different meanings for the same word. The problem of a subjective aspect for information and the objective nature of entropy, which is a physical quantity out there in the outside world, presents conceptual difficulties in identifying both these concepts within a single unified framework rigorously. Stonier (1990) treats information as representing organization which has an objective existence irrespective of an observing mechanism or an observer. Thus a book with several symbols is a collection of information irrespective of whether anyone reads it or not. Phrases like ‘dialogue with nature’ refer to the observation of regularities in natural phenomena and extracting useful information from them, rather than studying nature as it is. The famous controversy between Bohr and Einstein as to the status of quantum physics reveals a profound difference in perspective relevant to this issue. According to Einstein the role of science is to reveal the regularities in a nature out there, through careful observation, experimentation and theorizing. The final goal is to discover physical reality. One may call this process as a march towards an ontogenic goal K i. e., discovery and understanding the physical world as it is in its essential being. Bohr’s view can be treated as an epistemological approach; the world cannot be studied except through observation (senses, physical instruments, experiments) and so what we get is a knowledge of the world as revealed through our methods. The information is a product of the interaction between
890
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
the observer (along with his methods, equipment etc.) and the world. There is no way the interaction can be reduced K except in an approximate or arbitrary way K to give a clean objective physical reality which is universal and has a separate existence apart from the process used to study it. This controversy presents profound differences in approach to knowledge and is likely to continue before any clear cut resolution, if any, is achieved. Entropy is a number and whether it is obtained from a probabilistic point of view (the summation for the system of the number of complexions in a particular state as compared to the number of possible complexions) or the number of bits needed to characterize a discourse, involves the simple computational steps of counting, grouping, comparing, classifying and adding in the applicable group K all simple arithmetical operations. While in the case of physical systems, mass, energy etc., of the constituent molecules are physical quantities, the entropy itself only involves computational processes and essentially deals with organizational features. The physical world has attributes like mass, energy, time, space etc., and entropy is the feature that characterizes the nature of its organization. Many people like e. g. Wheeler (1984) have done some loud thinking on whether information (related to entropy) is also a basic constituent of nature. Bohm (1980) has hypothesized that total randomness is also a measure of organization as inferences can be drawn based on probability theory. The role of consciousness in nature is still not clear but whether self organizing features so evident in several physical, chemical and biological systems contribute to evolution of organisms and the emergence of consciousness is still only in speculative phases. One can wonder whether a deeper understanding of entropy and its significance could lead to clarification of these fundamental issues in the future. The so called mindKbody problem has had a distinguished history involving the attention of great philosophers of the past. It will be interesting if entropy-information with its connection to organization of material and nonmaterial features of the world would play a role in carrying these discussions onward in coming years.
9.
Literature (a selection)
Balasubrahmanyan, Viddhachalam K./Naranan, Sundaresan (1996), Quantitative Linguistics and Complex System Studies. In: Journal of Quantitative Linguistics 3 (3), 177K228. Balasubrahmanyan, Viddhachalam K./Naranan, Sundaresan (2002), Algorithmic Information, Complexity and Zipf’s Law. In: Glottometrics 4, 1K26. Bennett, C. H. (1990), How to define Complexity and Why? In: Complexity, Entropy and the Physics of Information 7, 137K148. Bohm, David (1980), Wholeness and the Implicate Order. London: Routledge and Kegan Paul. Boltzmann, Ludwig (1872), Weitere Studien über das Warmgleichgewicht unter Gasmolekülen. In: Wiener Berichte 66, 275K370. Chaitin, Gregory J. (1987), Algorithmic Information Theory. Cambridge: Cambridge University Press. Clausius, Rudolf (1865), On Several Convenient Forms of the Fundamental Equations of the Mechanical Theory of Heat. In: Annals of Physics p 353. Davies, P. (1989), The Cosmic Blue Print. London: Penguin. Dewey, Godfrey (1923), Relativ Frequencies of English Speech Sounds. Cambridge, MA: Harvard University Press. Gell-Mann, Murray (1994), The Quark and the Jaguar, Adventures in the Simple and the Complex. New York: W. H. Freeman. Gibbs, Josiah Willard (1902), Elementary Principles in Statistical Mechanics. New Haven: Yale University Press. Huang, Kerson (1987), Statistical Mechanics (2nd edition). New York: John Wiley. Huffman, David A. (1952), A Method for the Construction of Minimum Redundancy Codes. In: Proc. Inst. Radio Engineers, 40, 1098K1101. Kapur, Jagat N. (1980), Minimum Entropy Models in Science and Engineering. New Delhi: Wiley Eastern. Kaufman, Stuart A. (1993), The Origins of Order: Self-Organization and Selection in Evolution. Oxford: Oxford University Press. Kaufman, Stuart A. (1995), At Home in the Universe. Oxford: Oxford University Press. Khinchin, Aleksandr I. (1957), Mathematical Foundations of Information Theory. New York: Dover. Kolmogorov, Andrej N. (1965), Three Approaches to the Quantitative Definition of Information. In: Problems in Information Transmission 1, 3K7. Mandelbrot, Benoit (1953), An Informational Theory of the Statistical Structure of Language.
891
62. Quantitative linguistics and neurolinguistics In: Communication Theory (Ed. W. Jackson). London: Butterworths, 486. Mandelbrot, Benoit (1966), Information Theory and Psycholinguistics: A Theory of Word Frequencies. In: Readings in Mathematical Social Sciences (Eds. P. F. Lazarsfield/N. W. Henry). Cambridge: MIT Press, 151K168. Mandelbrot, Benoit (1983), The Fractal Geometry of Nature. San Francisco: W. H. Freeman. Mareschal, Michel/Malek Mansour, Mamad/Puhl, A./Kestemont, E. (1988), Molecular Dynamics versus Hydrodynamics in a Two-dimensional Rayleigh-Benard system. In: Phys. Rev. Letters 61, 2550K2553. Naranan, Sundaresan (1970), Bradford’s Law of Science Bibliography: An Interpretation. In: Nature 227, 631K632. Naranan, Sundaresan/Balasubrahmanyan, Viddhachalam K. (1992a), Information Theoretical Models in Statistical Linguistics K Part I: A Model for Word Frequencies. In: Current Science 63, 261K269. Naranan, Sundaresan/Balasubrahmanyan, ViddhachalamK. (1992b), Information Theoretical Models in Statistical Linguistics K Part II: Word Frequencies and Hierarchical Structure in Language. In: Current Science 63, 297K306. Naranan, Sundaresan/Balasubrahmanyan, Viddhachalam K. (1993), Information Theoretic Model for Frequency Distribution of Words and Speech Sounds (Phonemes) in Language. In: Journal of Scientific and Industrial Research 52, 728K738. Naranan, Sundaresan/Balasubrahmanyan, Viddhachalam K. (1998), Models for Power Law Relations in Linguistics and Information Science. In: Journal of Quantitative Linguistics 5 (1K2), 35K 61. Nicolis, Grégoire/Prigogine, Ilya (1989), Exploring Complexity. New York: W. H. Freeman. Renyi, Albert (1961), On Measures of Entropy and Information. In: Proc. Fourth Berkeley Symposium of Mathematical Statistics and Problems 1, 547K561.
Schrödinger, Erwin (1944), What is Life? Cambridge: Cambridge University Press. Shannon, Claude E. (1948), A Mathematical Theory of Communication, I, II. In: Bell System Technical Journal, 27, 379K423, 623K656. Reprinted in: Shannon, C. E. & Weaver, W. (1949), The Mathematical Theory of Communication. Urbana IL: University of Illinois. Stonier, Tom (1990), Information and the Internal Structure of the Universe. London: Springer-Verlag. Wheeler, John A. (1984), Bits, Quanta, Meaning. In: Problems in Theoretical Physics. (Eds. A. Giovanini/M. Mancini/A. Rimini). Salerno: University of Salerno Press, 121K141. Zipf. George K. (1935), The Psycho-biology of Language. New York: Houghton Mifflin Co. Reprinted (1968) Cambridge: MIT Press. Zipf, George K. (1949), Human Behavior and the Principle of Least Effort. Reading: Addison-Wesley. Zurek, Wojciech Hubert (1989), Algorithmic Randomness and Physical Entropy. In: Physical Review A 40, 4731K4751.
Acknowledgments We thank Prof. R. Köhler, Editor, Journal of Quantitative Linguistics for allowing printing of Figure 61.2 (Balasubrahmanyan/Naranan, 1996, 177), and Prof. G. Nicolis and Prof. I. Prigogine for permission to reproduce Figures 61.3, 61.4 (Nicolis/Prigogine, 1989). Prof. R. Ramachandran, Director, Institute of Mathematical Sciences, Chennai (India) has kindly made available to us the excellent e-mail facilities of the Institute; and we are grateful to him. V. K. Balasubrahmanyan, St. Paul, Mn. (U.S.A.) S. Naranan, Chennai (India)
62. Quantitative linguistics and neurolinguistics 1. 2. 3. 4. 5.
Introduction Phonology Morphosyntax and syntax Pragmatics Literature (a selection)
1.
Introduction
The scope of the present survey of quantitative aspects of neurolinguistics will be delim-
ited to a sub-area of what Caplan (1987) calls linguistic aphasiology, i. e. to linguistic (or rather, grammatical) studies of adult/acquired aphasia. A further restriction is that we will confine ourselves to linguistic analyses of the spoken language output of these aphasics. The reasons for these limitations are the following: (i) Although data on language processing in the brain is rapidly accu-
892
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
mulating through various non-invasive methods such as evoked response potentials (ERP’s) and imaging techniques (e. g. positron emission technique, PET, functional magnetic resonance imaging, fMRI, and magnetoencephalography, MEG, cf. Hugdahl 1995, Stemmer/Whitaker 1998, eds.), we may safely claim that the added value to our knowledge of the functional partitioning of language (grammar) that these methods unravel is either relatively crude (like overall syntactic category distinctions) or the data tap with relatively general time-course of information flow in the brain (Helenius/ Salmelin/Service et al. 1998). Thus, up to now very few grammatically interesting aspects have been revealed using imaging methods only. (ii) Likewise, inclusion of language reception studies would not have significantly added to the present discussion (cf. Bates/Wulfeck 1989; Caplan 1987; Caplan 1992; Stemmer/Whitaker 1998, eds.). Thus, we claim that for a linguist, the prototypical reader of the present volume, the speech output tasks administered to single aphasics and aphasic groups are relevant in terms of grammatically-oriented questions of language processing and representation. Major metatheoretical issues regarding linguistic studies of aphasia are the following: Does acquired aphasia involve disorder in the representation (“competence”, knowledge) or processing (“performance”) of language, or both? A classical procedure in locating the disorder in the functional network is to test its modality-specificity or amodality by administering the aphasic subject(s) tasks and experiments with different permutations of the input and output modalities and functions (e. g. spontaneous speech, repetition, picture naming, sentence completion and various writing tasks). Following the terminology of Parallel Distributed Processing (PDP) we may claim that the dysfunctional linguistic performance of the damaged processor (brain) of an adult aphasic is characterized by graceful degradation, which, inter alia, implies that higher cortical functions are not strictly local and that there is no critical point at which the performance breaks down (Hinton/ McClelland/Rumelhart 1986). A common clinical and experimental reflection of this is the varying performance of a single individual in the same tasks and the modality-specificness of the affected function(s) as well as the so-called spontaneous (semi-)recover-
ies of impaired functions. It is also typical of many surface manifestations of aphasia of moderate severity that the aphasic errors differ from normal slips (of the tongue, for instance) as a matter of degree only. It is granted that aphasic errors tend to be more permanent in their character and more detrimental in their socio- psychological repercussions, but they typically represent patterns similar to normal errors (thus making linguistic aphasiology ontologically possible and methodologically interesting!) (cf. Buckingham 1980; Söderpalm 1979). Carrying this gedanken experiment to its extreme we might claim that the term neurolinguistics should not be restricted to pathological language-users only (cf. Eikmeyer/Schade 1993). A major methodological issue in the 1980s was single vs. group studies (cf. Caramazza 1988; Caplan 1988). Since each case of aphasia is K when taken to its minutest detail K unique, both in its neuroanatomical, neurophysiological and behavioral aspects, suspicion was raised about the reliability of group studies, since leveling-out effects may conceal the validity of the quantitative results obtained. On the other hand, an age-old issue is whether any single-case study has sufficient enough predictive power over (near-)similar cases? What counts as an error and what counts as an error of a specific kind is an issue that is deeply entrenched in any linguistic work involving actual language data, and very much so in any work involving pathological speakers. Since language is, using the wornout metaphor, a dynamic system, it is a necessary task for the linguist to disentangle normal errors from pathological ones. Granting that most aphasic output errors resemble those of normal output (see above), the criteria are usually non-structural, i. e. the relative stability of error patterns across time and task type as well as frequency of occurrence and lack of self-repair (for repairs in aphasic communication, see the section on Pragmatics 4.).
2.
Phonology
Within linguistic aphasiology the theoretically most interesting field of study has been, and will be the so-called agrammatism exhibited in Broca’s aphasia (for reviews, cf. Caplan 1987; Caplan 1992; Menn/Obler 1990, eds.; see also the section on Morphosyntax and Syn-
62. Quantitative linguistics and neurolinguistics
tax 3. for further discussion). In phonology, Broca’s agrammatic aphasics produce errors that indicate problems in the phonologicalphonetic implementation stages of speech production. The errors, for instance, typically show close phonological proximity between error and target, being usually one feature amiss (only). Moreover, the errors usually affect content morphemes (e. g. stems) only. The latter observation may, however, be due to ceiling effects, as grammatical items are of high frequency. (Blumstein 1973, Miller/Ellis 1987) In contrast to Broca’s aphasics, the phonological (or non-morphological word-form) errors in Wernicke’s aphasia are more gravely defective. For instance, these speakers typically produce extra syllables of the target in such constrained tasks as in object and picture naming. Moreover, their sequential and repeated attempts at the correct form tend to deteriorate during the search process (cf. Valdois/Joanette/Nespoulous 1989). Moreover, Wernicke speakers’ speech output is characterized by neologistic and jargon forms (cf. Blumstein 1973; Brown 1981; Miller/Ellis 1987). Taken all this together, it has been suggested that these speakers exhibit difficulties in accessing their phonological output lexicon (cf. Burns/Canter 1977).
3.
Morphosyntax and syntax
The breakdown of (morpho)syntactic abilities is a frequent phenomenon in aphasic persons, i. e. grammatically well-formed structures are not produced when intented and conversationally required (Benson/Ardila 1996). Structures are aborted, incomplete or blended. Widely accepted are two major forms of syntactic breakdown: so-called agrammatism and so-called paragrammatism. Both disorders are syndroms (bundles of symptomes) rather than unitary symptoms. Agrammatism has been of special interest to linguists for decades and still is a major field of linguistic aphasiology (cf. Kean 1985; Whitaker 1997). Agrammatism is characterized by the following symptoms (cf. Menn/Obler 1990, eds.): overrepresentation of open-class items (nouns, verbs, adjectives); selective disturbance of closed class items (determiners, pronouns, prepositions, etc.) and inflectional morphology; nouns lack case markings,
893 verbs lack inflection; low number of pronouns and determiners; structural simplicity; lack of complex sentences and subordination; problems with verbs (omission, underrepresentation in contrast to nouns, lack of inflection). Due to the skeletal form of agrammatic utterances, the term “telegraphic language” has been applied to agrammatism, but this is a misnomer, since telegrams and agrammatism share only superficial similarities (Tesak/Niemi 1997). Cross-linguistic research (Menn/Obler 1990, eds.) has shown that impairment of grammatical morphology seems to be the hallmark of agrammatism regardless of the language. However, language specific aspects have to be taken into account to describe the agrammatic pattern(s) in different languages; e. g. the aspect of omission vs. substitution of grammatical morphemes. In morphologically poor languages like English omission seems to be the dominant feature through deletion of closed class items, whereas in languages like Finnish also substitution of grammatical morphemes may be observed in agrammatism (Niemi/Laine/ Hänninen et al. 1990). The challenging question to linguists has been from the beginning whether elements affected in agrammatic spontaneous speech have an inherent connection. A major interest in agrammatism has come from Chomskyan linguistics and has generated a series of theoretical accounts of agrammatism (cf. Penke 1998, for an overview). A well-known hypothesis is the trace deletion hypothesis (TDH) by Grodzinsky (1990) in the GBframework where it is postulated that traces are absent from agrammatic structural representations (cf. summary and critique in Kolk 1998). Another hypothesis under the minimalist program is the Tree Pruning Hypothesis (TPH, cf. Friedmann/Grodzinsky 1997) that tries to relate the deficit in tense inflection, the selective deficit in subordination production, and the deficit in producing WH-questions. Agrammatic deficit is seen as a deficit in the Tense node; the above mentioned structures depend on information from nodes higher up in the hierarchical syntactic structure so that they are all impaired. Problems for linguistic-descriptive accounts come from several facts: (i) variability of error patterns, (ii) dissociations of error patterns within and between tasks, (iii) changing grammatical theories. Conse-
894
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
quently, many contemporary approaches focus on processing deficits rather than structural descriptions since processing approaches seem to be more adequate to deal with variable agrammatic “behavior”. Several research groups favor a so-called “limited capacity” approach, i. e. the assumption is that agrammatic speakers are unable to build up syntactic structures due to either temporal or spatial restriction in the language processing machinery (cf. Kolk 1998, for an overview). Finally, a number of researchers entertain the option that agrammatic surface behavior is influenced by communicative and social aspects (Heeschen/Schegloff 1999), and indeed, it seems that individual agrammatic speakers consciously simplify their spoken output. In contrast to agrammatism, paragrammatism has received little attention in the linguistic literature (cf. de Bleser/Bayer 1993). Paragrammatism is a grammatical deviation that violates the normative rules of morphosyntactic convention, and it is characterized by substitutions of grammatical morphemes, by blending and overlapping sentence structures (... when I saw the woman gave me bread ...), and by sharing the same constituents (... not even in the hospital they could not help ...) (Huber/Schlenck 1988). Sentential structures tend to be long and complex. Paragrammatism may result from (i) overuse of grammatical elements (particularly connectors) with a decrease in the number of lexemes, (ii) an erroneous selection of grammatical elements, (iii) an absence of defining limits in sentences and utterances (and correlated often with an excessive verbal output). It remains unclear whether paragrammatism is mainly a purely linguistic or rather a cognitive deficit (related to disordered monitoring mechanisms). Matters become more complicated still, when we note that paragrammatism is often connected to semantic and phonological errors (paraphasias) that may lead to socalled jargon (fluent speech production, not making sense to listeners). In the case of phonological jargon, syntactic frames are filled with neologisms in the positions of lexical items whereas grammatical morphology seems intact. Paragrammatism is often conceptualized as the opposite to agrammatism but both phenomena share certain features (esp. concerning the proper use of grammatical mor-
phemes related to syntactic processing). Thus there seems to be an overlap between agrammatic and paragrammatic symptoms (Wallesch/Kertesz 1993). An interesting, process-oriented explanation for paragrammatic behavior is the loss of inhibition during production so that competing structures are put forward to production, which leads K under the necessity to produce only one item at a time K to substitutions of grammatical morphology and sentential blends (Huber/Schlenck 1988).
4.
Pragmatics
Pragmatics is a wide field and for many it can be defined similar to the following: pragmatics deals with the use of language in context and discourse; it also deals with intentions of speakers and thus incorporates even interlocutors (cf. Levinson 1983). Topics of pragmatics range from the relation between linguistic and non-linguistic signs, over deixis, reference, anaphora (all of which deal with the problem of the connection between language and the outer world) to conversational analysis (CA) dealing with turn taking/turn exchange, construction of texts and narrative discourse, conversational sequences, openings and closings, and repairs in conversation (cf. aphasia-related overview in Perkins/Crisp/Walshaw et al. 1999). Pragmatics has not been a focal topic in the tradition of classical aphasiology originating from the 19th century, partially because aphasic persons are per definitionem unimpaired when it comes to pragmatic skills, i. e. aphasic persons with left hemisphere lesions are supposed to know the rules for communication (e. g. turn taking) and have the usual communicative intentions. (Another reason is of course metatheoretical: the pragmatic revolution in linguistics is a late 20th century phenomenon.) The aphasic problem supposedly is on the level of linguistic means. Pragmatic problems in isolation such as in Alzheimer patients and patients with right hemisphere lesions are not usually labeled aphasic (Joanette/Ansaldo 1998). The classical view of language (and aphasia) as a property of the left hemisphere only has been in fact been challenged by various analyses of the linguistic and communicative abilities of speakers with right hemisphere lesions. The steadily accumulat-
895
62. Quantitative linguistics and neurolinguistics
ing evidence from brain-damaged and normal populations counters the classical hypothesis about the gross neuronal correlates of language: Language need not be constrained by the left-hemisphere peri-Sylvanian language zone, since studies with various methodologies have shown that the right hemisphere is involved in the processing of lexical semantics, metaphor, verbal reasoning, textual integration and overall theme of discourse (for reviews, cf. Chiarello 1988; Wapner/Hamby/Gardner 1981; Zaidel 1983). Communicative and discourse problems are usually only connected to non-aphasic neurological populations. However, this position may not be justified, since pragmatics and grammar are deeply interrelated like being two sides of one coin (cf. Lesser/Milroy 1993). Thus it seems that aphasiology will have to broaden its focus. Researchers like Gibbs (1999) stress the point that pragmatic aspects are integrated in language processing and not just as a special level on top of language processing per se. Thus pragmatic impairment is on its way to become an integral part of the definition of aphasia. And indeed, recent research shows several problematic pragmatic domains for aphasic persons (cf. Stemmer 1999; Paradis 1998). In reviewing communicative aspects of aphasia, Feyereisen (1993) discusses two standpoints in relation to gestural and other non-linguistic expression modes: on the one hand, some authors report equally disturbed linguistic and non-linguistic expression, on the other hand, aphasics overuse the nonlinguistic channel (probably in order to compensate for their linguistic deficit). Aphasic narrative discourse seems to preserve its semantic content and textual macro-structure (where the disturbance is often considered cognitive rather than linguistic in origin), but several deviations from normal discourse can be observed: Word ratios (e. g. verb to noun) are different (cf. Berko-Gleason/Goodglass/Obler et al. 1980); sentences are syntactically less rich in terms of length and complexity (cf. Ulatowska/North/ Macaluso-Haynes 1981); aphasic speakers use more deictics than usual (Dressler/Pléh 1988); anaphoric pronouns are often used without clear reference, which indicates deficits in the use of referential systems (cf. Cardebat 1987); such lexical items are reduced which are used to express the narra-
tive message (Berko-Gleason/Goodglass/ Obler et al. 1980). Finally, conversational discourse has only recently received serious attention within neurolinguistics (cf. overview in Chantraine/ Joanette/Cardebat, 1998). Repair of errors is particularly relevant to aphasic persons, since in aphasic communication difficulties emerge so routinely that repair processes are expected to be much more frequent than in normal, non-aphasic conversation. The most important repair pattern seems to be the so-called collaborative repair where both the speaker and the hearer contribute to successful problem solving. Perkins/Crisp/Walshaw (1999) describe various repair patterns and the complicated interconnection between trouble source, linguistic deficits, cooperativeness of interlocutors and individual aspects. Generally, self repairs are more frequent in clinical situations than in conversations with nonaphasic family members. Other-initiated repairs are more frequent in familial situations, where family members are often routinely engaged in repairs (Lesser/Milroy 1993). (For an overview on aphasia and repairs cf. Lindsay/Wilkinson 1999.)
5.
Literature (a selection)
Bates, Elizabeth/Wulfeck, Beverly (1989), Crosslinguistic Studies of Aphasia. In: The Crosslinguistic Study of Sentence Processing. (Eds. B. MacWhinney/E. Bates). New York: Cambridge University Press, 328K371. Benson, D. Frank/Ardila, Alfredo (1996), Aphasia: A Clinical Perspective. New York: Oxford University Press. Berko-Gleason, Jean/Goodglass, Harold/Obler, Loraine/Green, Eugene/Hyde, Mary R./Weintraub, Sandra (1980), Narrative strategies of aphasics and normal-speaking subjects. In: Journal of Speech and Hearing Research 23, 370K382. Blanken, Gerhard/Dittmann, Jürgen/Grimm, Hannelore/Marshall, John C./Wallesch, Claus-W. (eds.) (1993), Linguistic Disorders and Pathologies: An International Handbook. Berlin: Walter de Gruyter, 1993. Blumstein, Sheila (1973), A Phonological Investigation of Aphasic Speech. The Hague: Mouton. Brown, Jason (ed.), Jargonaphasia. New York: Academic Press, 1981. Buckingham, Brian (1980), On correlating aphasic errors with slips of the tongue. In: Applied Psycholinguistics 1, 199K220.
896
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Burns, Martha/Canter, Gerald (1977), Phonemic behavior of aphasic patients with posterior cerebral lesions. In: Brain and Language 4, 492K507. Caplan, David (1987), Neurolinguistics and Linguistic Aphasiology. Cambridge: Cambridge University Press. Caplan, David (1988), On the role of group studies in neuropsychology and pathopsychological research. In: Cognitive Neuropsychology 5, 535K 548. Caplan, David (1992), Language: Structure, Processing, and Disorders. Cambridge, MA: MIT Press. Caramazza, Alfonso (1988), On drawing inferences about the structure of normal cognitive systems from the analysis of patterns of impaired performance: The case for single-patient studies. In: Brain and Cognition 5, 41K66. Cardebat, Dominique (1987), Incoherence narrative: Analyse comparée de récits de patients aphasiques et de patients aphasiques et de patiens déments. In: Cahiers du Centre Interdisciplaire des Sciences du Langage 6, 151K175. Chantraine, Yves/Joanette, Yves/Cardebat, Dominique (1998), Impairments of discourse-level representations and processes. In: Stemmer/Whitaker 1998, 261K274. Chiarello, Christine (ed.), Right Hemisphere Contributions to Lexical Semantics. Berlin: SpringerVerlag, 1988. de Bleser, Ria/Bayer, Josef (1993), Syntactic Disorders in Aphasia. In: Blanken/Dittman/Grimm et al. 1993, 160K169. Dressler, Wolfgang/Pléh, Csaba (1988), On Text Disturbances in Aphasia. In: Dressler/Stark 1988, 151K178. Dressler, Wolfgang/Stark, Jaqueline (eds.) (1988), Linguistic Analyses of Aphasic Language. Wien: Springer, 1988. Eikmeyer, Hans-Jürgen/Schade, Ulrich (1993), The role of computer simulation in neurolinguistics. In: Niemi/Laine/Tesak 1993, 153K169. Feyereisen, P. (1993), Communicative Behavior in Aphasia. In: Blanken/Dittmann/Grimm et al. 1993, 288K303. Friedman, N./Grodzinsky, Y. (1997), Tense and agreement in a grammatic production: Pruning the syntactic tree. In: Brain and Language 56, 397K425. Gibbs, Raymond (1999), Interpreting what speakers say and implicate. In: Brain and Language 68, 466K485. Grodzinsky, Yosif (1990), Theoretical Perspectives on Language Deficits. New York: MIT Press. Heeschen, Claus/Schegloff, Emanuel A. (1998), Agrammatism, adaptation theory, conversation analysis: On the role of so-called telegraphic style
in talk-in-interaction. In: Aphasiology 13, 365K 406. Helenius, Päivi/Salmelin, Riitta/Service, Elisabet/ Connolly, John (1998), Distinct time course of word and context comprehension in the left temporal cortex. In: Brain 121, 1133K1142. Hinton, Geoffrey/McClelland, James/Rumelhart, David (1986), Distributed Representations. In: Parallel Distributed Processing, Vol. 1. (Eds. D. Rumelhart/J. McClelland). Cambridge, MA: The MIT Press, 77K109. Huber, Walter/Schlenck, Klaus-Jürgen (1988), Satzverschränkungen bei Wernicke-Aphasie. In: Sprachproduktionsmodelle. (Hrsg. G. Blanken/J. Dittmann/C. Wallesch). Freiburg: Hochschulverlag, 111K149. Hugdahl, Kenneth (1995), Psychobiology: The Mind-Body Perspective. Cambridge, MA: MIT Press. Joanette, Yves/Ansaldo, Ana Inés (1999), Clinical Note: Acquired pragmatic impairments and aphasia. In: Brain and Language 68, 529K534. Kean, Mary-Louise (ed.) (1985), Agrammatism. Orlando: Academic Press, 1985. Kolk, Herman (1998), Disorders of Syntax in Aphasia. In: Stemmer/Whitaker 1998, 249K260. Lesser, Ruth/Milroy, Lesley (1993), Linguistics and Aphasia: Psycholinguistic and Pragmatic Aspects of Intervention. London: Longman. Levinson, Stephen C. (1983), Pragmatics. Cambridge: Cambridge University Press. Lindsay, Jayne/Wilkinson, Ray (1999), Repair sequences in aphasic talk: a comparison of aphasicspeech and language therapist and aphasic-spouse conversations. In: Aphasiology 13, 305K325. Menn, Lise/Obler, Loraine (1990) (eds.), Agrammatic Aphasia: A Cross-Language Narrative Sourcebook. 3 Volumes. Amsterdam: John Benjamins. Miller, Diane/Ellis, Andrew (1987), Speech and Writing Errors in “Neologistic Jargonaphasia”: A Lexical Activation Hypothesis. In: The Cognitive Neuropsychology of Language. (Eds. M. Coltheart/G. Sartori/R. Job). London: Erlbaum, 253K 272. Niemi, Jussi/Laine, Matti/Hänninen, Ritva/Koivuselkä-Sallinen/Päivi (1990), Agrammatism in Finnish: Two Case Studies. In: Menn/Obler 1990, Vol. 1, 1013K1085. Niemi, Jussi/Laine, Matti/Tesak, Jürgen (1993) (eds.), Special Issue: Neurolinguistics. In: Nordic Journal of Linguistics 16 (2). Paradis, Michel (1998) (ed.), Special Issue: Pragmatics in Neurogenic Communication Disorders. In: Journal of Neurolinguistics 11 (1K2). Penke, Martina (1998), Die Grammatik des Agrammatismus. Tübingen: Niemeyer. Perkins, Lisa/Crisp, Jenni/Walshaw, David (1999), Exploring conversation analysis as an assessment
63. Computer-assisted language learning. The quantitative-linguistic basis of CALL methods tool for aphasia: The issue of reliability. In: Aphasiology 13, 259K281. Söderpalm, Eva (1979), Speech Errors in Normal and Pathological Speech. In: Travaux de l’Institut de Linguistique de Lund, 14. Lund: Gleerup. Stemmer, Brigitte (1999) (ed.), Special Issue: Pragmatics: Theoretical and Clinical Issues. In: Brain and Language 68 (3). Stemmer, Brigitte/Whitaker, Harry (1998) (eds.), Handbook of Neurolinguistics. San Diego: Academic Press. Tesak, Jürgen/Niemi, Jussi (1997), Telegraphese and agrammatism: A cross-linguistic study. In: Aphasiology 11, 145K155. Ulatowska, Hanna/North, Alvin/Macaluso-Haynes, Sara (1981), Production of narrative and procedural discourse in aphasia. In: Brain and Language 13, 345K371.
897
Valdois, S./Joanette, Yves/Nespoulous, Jean-Luc (1989), Intrinsic organization of sequences of phonemic approximations. In: Aphasiology 3, 55K73. Wallesch, Claus/Kertesz, Andrew (1993), Clinical Symptoms and Syndromes of Aphasia. In: Blanken/Dittman/Grimm et al. 1993, 98K119. Wapner, Wendy/Hamby, Suzanne/Gardner, Howard (1981), The role of the right hemisphere in the apprehension of complex linguistic materials. In: Brain and Language 14, 15K33. Whitaker, Harry (ed.) (1997), Agrammatism. San Diego: Singular Publishing, 1997. Zaidel, Evan (1983), On Multiple Representations of the Lexicon in the Brain: The Case of the Two Hemispheres. In: Psychobiology of Language. (Ed. M. Studdert-Kennedy). Cambridge, MA.: MIT Press, 105K125.
Jussi Niemi, Joensuu (Finland) Jürgen Tesak, Kreischa (Germany)
63. Computer-assisted language learning. The quantitative-linguistic basis of CALL methods 1. 2. 3. 4. 5. 6. 7.
Introduction Statistical learning theory (SLT) Statistical choice of language material as a means of optimizing CALL CALL and NLP systems The tutoring linguistic automaton Conclusion Literature (a selection)
1.
Introduction
Statistical methods are used in the theory and practice of computer-assisted language learning (CALL) in several directions. First, in the studies of psycholinguistic aspects of language learning. Second, in the process of learning material selection. Third, in algorithmizing and programming of didactic procedures and compiling computer-based manuals. Speaking about two basic approaches to contemporary CALL-systems K construction-behaviourist (Kwapisz 1988) and cognitive-intellectual (Chapell 1989, 59K70; Bailin 1988, 29K51; Bailin 1995, 375K387), one can assert that the former has long been using statistical selection of the language material and statistics of psycholinguistic testing, the latter (i. e. cognitive-intellectual approach) relies on all the three directions of linguostatistical research.
2.
Statistical learning theory (SLT)
SLT took shape as a separate branch of research in the works on experimental psychology as early as the 50s. First steps in application of this theory to language teaching were made in teaching vocabularies of foreign languages (Mille/McGill 1952, 369K 396). The basic scheme of that experiment looked as follows. The testee was read a list of N monosyllabic words whereupon he was asked to put down those words he had memorized. The experimenter did not inform the testee about the degree of success in doing his task. The experiment went on until the ratio of words memorized had reached an asymptotic value. Such an experimental scheme was named a linear twooperator model. The main assumption made by the researchers consisted in the fact that the N words offered to the testee were not mutually dependent, which meant that the set of response probabilities after event i depended only on the set of probabilities existing before i, and on the operator connected with this event. Another basic axiom was that the event operators were linear. Thus, the probability law for this model is of the following form: (1) pi, nC1 Z Q2pi, n Z pi, n , pi, nC1 Z Q1pi, n
898
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
where Q1 and Q2 are operators used when responses A1 or A2 follow, and pi is the probability of a certain event. It is supposed that increase of knowledge is jump-like. In accordance with this supposition the starting period is followed by a sharp rise in acquired knowledge with regard to memorizing of foreign vocabularies the process, named the Krechevsky model (Rastrigin/Erenstein 1988, 80), is of the following form. Let us assume that prior to tuition the testee did not know word i, i. e. he was in state S2. While learning this word, in a certain test n he gives a correct answer and transfers himself to state S2 where he stays until the end of the experiment. Then the model has the form: Pin Z
stochastic theoretical ideas with methods of adaptive control made it possible for the authors to devise a harmoniously-built methodology for designing a large class of foreign language teaching systems. The scheme of this methodology can be outlined as follows. In the process of instruction the learner must acquire an ability of giving the correct keyboard-handled answer at the moment of displaying a foreign lexical unit. During each working session the system realizes the following two functions: (a) it communicates an new portion Uk of instruction information and trains the learner to comprehend it; (b) it tests the learner in the previously studied material. Testing is carried out on the sample
{
1K γ# if in the n-th trial the learner is in state S1 0 if in the n-th trial the learner is in state S2
where 0 ! γ# ! γ$ ! 1K are parameters characterizing the individual ability of the learner, i Z 1, 2, ..., N, pin Z pn, n Z 0, 1, ..., p0 Z 1. Besides, the probability of transfer in the n-th trial, given that on the nK1st he was in state S2 is introduced: P {S2 given n K S1 given n K 1} Z γ$ However, calculations of ignorance level in the proposed models proved to be unsatisfactory because of lack of adaptation and learner model in these systems. The next step in the application of SLT to language teaching was made at Stanford University (Atkinson/Bower/Crothers 1965) where one of the first foreign language vocabulary teaching programs was devised. For each lexical unit three states were introduced in that model: Perfectly, Well and Bad. The aim of teaching consisted in transferring every word into the first of these states as quickly as possible. At each step of instruction these states change according to the given probability law which envisages a state-to-state transfer when word i was learned or when a mistake occured in the process of testing. This work already features a simple learner’s model, though it is neither parametrically nor structurally adaptable, which prevents ist effective adaptation to the real object of study. A decisive step in creating a really adaptive computer system supplied with a learner’s model was made in the process of the ASOLIJA system’s elaboration (Rastrigin/Erenstein 1988). An integration of
Vk 2 Ωk
(Ω
kK1 i
k
)
Z g Ui
where Ω Z {ωi}, i Z 1, N is some set of pairs. Here, testing, on the one hand, performs the part of an answer correctness sensor, and, on the other hand, realizes the function of support, secondary retention and instruction. The teaching results are estimated on a random sample. With regard to this, value N
Q Z ∑ qi pi , iZ1
is calculated where qi is a significance coefficient of lexical unit i in set
(∑ N
U
iZ1
)
qi Z 1 ;
pi is the probability of lexical unit i being unknown to the testee. It is assumed that prior to tuition the vocabulary of set U is not known to the learner, i. e. for all i, pi Z 1, pi Z 0 at the moment of instruction. The learner’s model is a function P (t, C), describing the dynamics of probability variation with regard to the learner’s ignorance of a certain lexical unit, where C is a set of the learner’s individual peculiarities, t is the time of the latest displaying of couple i. The solution of the assigned task by the above algorithm is called quasi-optimal. Despite obvious suc-
63. Computer-assisted language learning. The quantitative-linguistic basis of CALL methods
cess in SLT application to foreign language teaching, however, the above-mentioned works were of theoretical-mathematical character and did not go through serious experimental testing. Knowledge of statistical and informational structure of speech as well as experience gained in optimal methods of language study were not taken into account either. The language did not constitute the aim of study, but rather a means of demonstrating the non-contradictory character of the theory offered. Introducing a stochastic approach into SLT and considering the problem of comprehension of new words (Kalinin 1973) thought that the most important characteristic of methodological efficiency was the time spent on the whole text processing as well as on individual words after having processed the whole text. Besides, he asserted that the number of words memorized by the learner as a result of a given instruction cycle should be taken into account. Finally, it was pointed out that learning and recognition of lexical units depends on their frequency. For instance, as regards reading fluency, we should say that the learner’s reading speed is maximal in case the time of his response to the word is proportional to the logarithm of ist probability. In other words, the oftener the word occurs, the less time is spent on its recognition and understanding in the process of reading. Because of the fact that a transfer to oral speech understanding often occurs after written speech has been mastered, response to the word takes less time than its pronunciation. Violation of this condition leads to a familiar situation, when a complicated oral text appears to be easier for the learner to understand in written form than orally. This means, if response to the word takes more time than ist pronunciation the brain is engaged in its processing too long, and the words which follow remain unprocessed. Then, the next quantitative requirement on optimal methods of teaching consists in forming probability connections between lexical units. These connections reduce the time of response to the word in a context and make further oral speech processing easier. Thus language study should realize Shannon’s theorem limit passage to optimal coding, providing for a maximum capacity of verbal-mental activity of the speaker as a link in the channel of communication. Violation of this condition leads to the occurrence of numerous mistakes in
899
speech. As follows from the above passages, in computer assisted language learning a statistical selection of vocabulary and probably grammar patterns plays a decisive role.
3.
Statistical choice of language material as a means of optimizing CALL
3.1. General points The above statistical theory of language learning suggests several ways of informational statistical optimization of vocabulary and grammar acquisition in the process of mastering the language. Its essence consists in the optimal choice of the most widelyused language material which is minimally sufficient for understanding texts of the given thematic content. Such a minimum must be determined by finding out what language facts are most frequent, informative and important for text understanding. Units having the highest specific informational weight constitute the basic core of a language, usually called Statistical Basic Language (Alekseev/German-Prozorova/Piotrowskij et al. 1974, 209). In other words, SBL as the didactic tool of natural language teaching optimization is built in the form of a concise description of its system. In SBL the most essential linguistic phenomena are registered and the most widely-used evenly distributed language units are included (Carrol/Davies/Richman 1971; Kašyrina 1974; Zolotova 1988) irrespective of their structural complexity or simplicity, or their semantic load. This method was more consistently used by methodologists from the linguistic center in Saint-Cloud (Gougenheim/ Michéa/Rivenc et al. 1967; West 1965; German-Prozorova 1968). With regard to computer-assisted language learning SBL must answer the question: “What in the given concrete language must be taught first and foremost?” The nucleus of SBL is constituted by frequency dictionaries playing the part of word and word-combination probability distribution model. By means of these models we can describe such regularities important for computer-assisted language learning as ratio of text covered by certain zones of a frequency dictionary (see art. No. 38). These lists enable us to single out the most widelyused lexical as well as grammatical units necessary for instilling speech skills in the
900
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
learner and to adopt them as tuition units; to determine their order of presentation in the teaching process on the basis of their frequency; to calculate informational load on the learner’s memory in mastering various word groups and grammatical forms. Frequency and alphabetic-frequency dictionaries of the input and output languages are also used in devising computerized rapid-learning courses of related languages assisted by phonetic-graphic and lexicalgrammatical keys connecting these languages with the learner’s mother tongue (Eaton 1961; Kita/Ogata 1997; Ovsjannikov 1997). Some epistemological and ontological obstacles are in the way of an uncompromising statistical methodology applied to CALL. The gravest among them are (a) the conflict between the formation of the SBL, in particular, of the frequency dictionary as its nucleus, on the one hand, and the real text structure, on the other; (b) the antinomy of a linguistic object’s probability and informativeness; (c) the conflict between the system of SBL and the paradigmatics of the natural language. We shall consider each of these conflicts separately. 3.2. SBL and real text It is known that in speech, linguistic units, including word ocurrences, interact with each other in accordance with complex regularities of lexico-grammatical and stylistic combinatories. These regularities are completely ignored in compiling frequency dictionaries of words and word forms. That is to say that an indiscriminate use of frequency dictionaries for making up SBL is based on an assumption distorting the real nature of speech, according to which a text is a sequence of discrete word occurences independent of each other. This conflict can be alleviated, and SBL can be approximated to the real nature of the text, by taking into account the right and left valence of the word forms it consists of (Artem’eva 1999). This problem is solved by way of statistical computer processing of large text corpora in order to compile frequency lists of the most frequent two-, three-, and more rarely, fourword combinations of various structure (table 63.1). It appears impossible to single out a sufficient number of longer recurrent word combinations even sieving through gigantic text samples. The matter is that probability-va-
Table 63.1: A fragment of an alphabetic-frequency list of English word-combinations (Alekseev/German-Prozorova/Piotrowskij et al. 1974, 214) i
F*
n
F
word-combinations
7687 7688
24151 1 24156 1
4 5
7689 7690 7691 7692 7693
24159 ........... 24163 24167 24172
1 ...... 2 1 1
3 ... 2 4 5
7694 7695 7696 7697
24174 24176 24178 24180
1 1 1 1
2 2 2 2
It can be seen It can cause reduced efficiency It can leave ................... It consists It develop XZ It does not suffer corrosion It drains It is difficult It is essentially It is established
Table 63.2: Frequency list of syntactic patterns of the English sentence (Piotrowski 1984) i
Grammatical patterns of the predicate
1 Finite verb form 3rd person singular, present tense 2 Finite verb form plural, present tense 3 Is C participle 4 Are C participle I 5 Is C adjective 6 Verb in the past tense, -ed
F
f
F*
742
0.178
0.178
360
0.086
0.264
355 252 234 206
0.085 0.060 0.056 0.049
0.349 0.409 0.465 0.514
lence connections between words of one and the same sentence fade out beyond 5K6 words (art. no. 74), therefore exact recurrence of long syntagms is an extremely rare case. In building SBL, frequency lists of grammatical forms are also used, among them syntactic sentence patterns (table 63.2). 3.3. The probability of a linguistic object and its informativeness The amount of syntactic and sense information contained in textual units is determined from their probabilities. It follows that frequent words and syntagms carry less information, than frequent lexical units (art. no. 74, 75). In carrying out a consistent statistical choice many of these words and word combinations, serving as key semantic landmarks for decoding of the real text, may turn out to be ousted from the vocabulary of SBL. To relieve this conflict the following
63. Computer-assisted language learning. The quantitative-linguistic basis of CALL methods
techniques are used: (1) application of a reserve dictionary of “necessary” but rare words and word combinations (Gougenheim/Michéa/Rivenc et al. 1967); (2) teaching learners typical word-formation models which help recognize a new word on the basis of a familiar lemma, and also techniques of decoding internationalisms (Alekseev/ German-Przorova/Piotrowskij et al. 1974, 223). 3.4. Paradigmatics of natural language and the SBL system The statistically selected most frequent and evenly distributed lexical units are paradigmatically grouped in the SBL. Therefore, SBL is not only a statistical, but also a structured construction. The systems of declension and conjugation are, however, reduced as compared with natural language paradigms. Thus, out of the 8 forms of the English verb ‘to be’ in the SBL of electronics only 7 forms must be included in its paradigm because the form of the 1st person singular (I am) is not used in these texts (Alekseev/German-Przorova/Piotrowskij et al. 1974, 223). Analogously, archaic verb forms are not included in paradigms of Romance (Korneev/Piotrowskij/Byčkov 1996). No single “prescription” as to the relief of this conflict has been worked out yet. The choice between using a reduced paradigm or completing it to the full set of morphological forms is made in each case by considering a broad context of linguistic, computationallinguistic and didactic features.
4.
CALL and NLP systems
By the end of the 90s CALL uses various professional computer technologies and media (class-room computer editing (Azimov 1997; Azimov 1995, 141K152), distance computer assisted language learning (Polat 1998), multi-media devices (Hagan-Brun/ Whittle 1998), e-mail (Beauvois 1993K1994, 177K190) and the Internet (Vallance 1997, 201 f.)). CALL-programs are even produced for deaf users and for various age groups (Bates/Wilson 1981; Button 1989). A most exhaustive review of CALL applications is to be found in Jung (1993), Holland/Kaplan/ Sams (1995), and Spolsky (1999). The traditional bifurcation of behaviorist and cognitive-intellectual approaches has not lost its relevance up to date. Adherents to the be-
901
haviorist trend (Skinner 1990) have been improving their approach mainly by way of resorting to several techniques. First, there has been a deductive check of the answers (Sioran 1990, 38 f.). The essence of this control with respect to grammar tasks is that the learner receives a series of computer-served additional loaded questions based on statistical rules of grammatical and lexical-grammatical class determination. This makes him think about the functions of this class in the sentence and to form his own recognition techniques. Second, universal data bases have been created. With them word forms from large corpora of training texts are supplied with grammatical information. This, in its turn, opens up a prospect of creating algorithms for the statistical analysis of the learner’s answers (Kecskés 1986, 37K53; McEnery/Baker/Wilson 1995, 259K274). Third, the teaching material is supported by level-specific reference information organized in the form of hypertexts (Thomas 1997, 479K492). Simultaneously methods of assessment of foreign language comprehension level are being developed. Information measurements of the text are used for this purpose (art. no. 74, 75) by means of a guess-work experiment on the text. Its results are processed according to the formula: S
I Z K ∑ pi log pi bits, iZ1
where I is the information on the letter; pi is the probability of guessing the i-th letter, and S is the size of the alphabet. Data illustrating the dynamics of acquisition by Russian students of Romance languages (Boguslawskaja/Zel’cman/Piotrowskij et al. 1969; Bogodist 1984), are shown in table 63.3. Despite all the improvement the behaviorist methodology of computer assistance cannot overcome certain mechanistic character and the lack of development of learners’ cognitive abilities inherent in programmed (noncomputer-assisted) language learning. The core of the cognitive-intellectual approach in any concrete forms of tuition consists in realization of methods aimed at enhancing the learner’s cognitive functions. The starting condition of succesful application of this approach to teaching is creation of powerful universal media (CALL-Software) which have to consist of powerful text processors, automatic dictionaries, spellers, grammar reference books, automatic ren-
902
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
dering, text synopsis and machine translation devices, etc., together with a broad technical interface (Bailin 1988, 25 f.; Bailin 1995). Table 63.3: Informational measurements of languages and levels of comprehension French Levels of acquisition
Information Redundancy (bits)
1) Native speakers 2) Russian students 1st year 2nd year 3rd year 4th year 5th year
1.05
77.7
1.74 1.39 1.35 1.32 1.28
63.0 70.5 71.3 72.0 72.8
Spanish Levels of acquisition
Information Redundancy (bits)
1) Native speakers 2) Russian students 1st year 2nd year 3rd year 4th year
1.05
77.8
1.81 1.32 1.15 0.97
61.7 72.1 75.7 79.5
The enumerated modules function as NLP systems, independently elaborated on an informational-statistical basis, which are selfsufficient, yet assisted by various data bases and technical supports. Their didactic adaptation envisages, firstly, devising techniques of applying each of these system to CALL, and secondly, their integration into a multifunctional linguo-didactic medium. Let us now consider the experience accumulated in didactic application of individual NLP systems and modules. The simplest form of NLP which is used in language teaching is represented by text preparation systems, i. e. text processors which enable us to put the text in from the computer’s keyboard, to edit it repeatedly and to arrange it (Azimov 1997; Brent 1997). As an example of such methods the didactic “What-If” strategy may be mentioned (Kelly/Raleigh 1990, 5K13), which consists in the learner’s ability to introduce stylistic and semantic changes in the offered text with the help of the computer. Fulfillment of this task is accompanied by a few commentaries which can be created by the teacher of the learners themselves by means of macros.
More complex is the use of automatic dictionaries, which are sometimes transformed into automatic tutorial dictionaries (ATD) (Galiulin/Valiachmetova/Šarkisjanova 1990, 14K15). ATD are usually built as multiaspectual lexicons, which contain statistically selected information about every lexical unit, i. e. morphological, syntactic, semantic-encyclopedic, orthographic and even phonetic information. The data base consists of a basic glossary or bilingual dictionary and interconnected entries containing multiaspectual characteristics of lexical units. One advantage of such computer assistance is that it does not only provide an opportunity to enter ATD through the word-form itself, but also through its linguistic and informational characteristics contained in a dictionary article. Sometimes the electronic dictionary is put in residentially and thus can work within any computer device of text preparation (Dobrin 1990, 67K80). As an example of an electronic dictionary organized in this way, “Choice Words” (Brink 1990, 133 f.) can be mentioned, which consists of residential electronic dictionaries and thesaurus, built on the basis of the well-known Merriam-Webster dictionaries. The “Choice Words” dictionary enables the learner to obtain information on the part of speech, on the most frequent types of inflections, the origins of a particular word or its part, as well as on all word meanings. One more type of intellectualized NLP systems used in CALL is represented by advanced automatic orthography correctors, or spellers. As a rule, spellers are a constituent part of a textual processor. Therefore their usage techniques are similar to the use of textual processors in CALL (Kelly/Raleigh 1990, 5K14). It should be mentioned here that sometimes the speller is appended with an information system of statistically selected morphological help which supports tutorial functions (Simov/Angelova/Paskaleva 1990, 455 ff.). The most interesting application of artificial intelligence ideas to CALL is the use of systems with procedures of morpho-syntactic sentence analysis, or parsers. Systems containing parser modules enable the learner to carry out a stage-by-stage grammar testing at the level of morphology, syntax and style of the input text (O’Brien 1990, 86K108) and may be used by the learner as grammar consultants for composition writing. In the process of syntactic analysis the
63. Computer-assisted language learning. The quantitative-linguistic basis of CALL methods
parser can also be used for developing learner’s guesses (Benwell 1990, 7K13; Leech 1986) with statistical estimation of the learner’s response correctness. In order to achieve a high level of syntactic parsing as well as adequated error messages, strict limitations of the linguistic base are introduced such as narrow problem-statistical orientation of dictionaries and inclusion only of definitely formalizable syntactic rules. These limitations must be taken into account when modeling didactic tasks on the basis of parser systems to provide for an adequate level of study material comprehension by the learner (Paramskas 1986, 625 f.). Works on creation of semantic-pragmatic parsers aimed at learners’ recognition of both the contextual meaning of the word and the sense of the whole sentence are of purely experimental character. On the word level the semantic-parser technique is supposed to be realized by means of taxonomic classes and semantic nets, and at the level of the most widely-used sentences by means of syntactic cliches (frames). Using frame technology, American and Russian scholars try to create some adventure games aimed at teaching conversational language (Culley/ Milford/Milbury-Steen 1986, 69K73; Sanders/Sanders 1995, 141K152; Gajdaj 1999). They employ implications which do not directly result from literal reading of the text. The intellectual model of such a game must generate new information which is not explicitly input into the teaching system’s data base (Bailin 1988, 25K51). Considerable experience has been gained in the field of tutorial machine translation (Language Engineering. Progress and Prospect ’98. Telematics Applications Programme 1998; Farrington 1990, 23K30; art. no. 93). Thus, all behaviorist and cognitive-intellectual efforts in the field of CALL require unification and arrangement in the form of a single system which may be tentatively called Tutoring Linguistic Automaton (TLA).
5.
The tutoring linguistic automaton
Starting with the late 50s the majority of NLP systems were built as static, non-modifiable and undevelopable monosystems. Their structure was not subject to a single target criterion providing for a constant feedback between new theoretical ideas and
903
their practical implementation. In the 70s this brought about an idea of constructing polyfunctional NLP systems, easily adaptable to the user’s interests and capable of development, which were called linguistic automata (LA) (Piotrowski 1984; art. no. 93). The task of computer-assisted language learning has given rise to the theory of the teaching linguistic automaton, which exists in the form of a learning medium consisting of LA, which has undergone necessary didactic adaptation, as well as soft-and hardware enabling the teacher and the learner to solve their own concrete didactic problems utilizing the functional potential of LA. By the didactic adaptation of LA we mean teaching orientation which is acquired by LA through certain modifications in its information base, creation of teaching subsystems and modules on the basis of LA and of individual subsystems and modules of LA in the teaching process. The teaching linguistic automaton (TLA) is also characterized by an open stratified (module-level) organization which is manifested by every module being correlated with definite aspects of the didactic process and the level of generation and comprehension of the teaching message. As to the building of TLA, it should be carried out by iterative upward development from elementary phonetic (or spelling), vocabulary and morphological procedures to more complex lexical-grammatical procedures. Piotrowskaja distinguishes between two mutually supplementing representations of TLA K structural and functional-decisive. The former has as its objective a statistical correlation of different blocks, the latter describes the dynamic interaction with the participants of the pedagogical process as well as the interaction of components within the automaton itself (Piotrowskaja 2002, 5K14). 5.1. Structural description of TLA TLA is built on the basis of a linguistic automaton containing soft- and lingware which carry out hardware-assisted text processing. Lingware includes a linguistics informational database (LIDB) and a procedure library which help build functional modules forming the automaton’s linguo-didactic ware (LD-ware) by means of didactic incrementation through adding new procedures or using cognitive-intellectual methods. Its further didactic adaptation is effected by
904
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
tools for tutorial process implementation (TTPI) which consist of three interrelated blocks. (1) Courseware includes stimulations of various teacher’s actions presenting the material to be taught, analyzing and correcting errors, as well as simulations of instillment of certain habits and skills, tests of attainment, linguistic games. Though courseware is characterized by a strictly fixed script, built on behaviorist principles, it ensures universality of TLA by reasonably supplementing blocks which realize the cognitive-intellectual approach. (2) Tutor-learner didactic support is realized in the form of tutorial text processors equipped by electronic dictionaries and grammar references as well as automatic text-processing facilities. (3) Tutor tools consist of service and instrumental devices. They provide for statistic processing of teaching, for instance, registering and analyzing of errors, vocational diagnostics of learners by means of local network program support as well as creation of manuals for text-processor assisted classes. With the help of author’s systems the tutor tools ensure the incrementation and modifications of the texts and simulations which have already been formed. Together with tutorially adapted tasks of LA and hardware assistance the TTPI makes it possible to organize an automated tutor workstation (ATW) consisting of the tutor-learner support plus the tutor tools and an automated learner workstation (ALW) consisting of courseware plus tutor/learner support. Besides, adjoining the TTPI are the author’s tools, i. e. is the system of statistical text processing for selection of the material as well the author tools systems for the development of TLA. The main author’s task consists in correcting and improving TLA. A consistent structural description of TLA can be conceived as a hierarchical system consisting of the following three strata (levels): (1) the lower stratum in the form of a linguistic-encyclopedic and didactic data base; (2) the middle stratum described by means of two sets: F Z {fj} of NLP procedures
and functions and set LD consisting of modules, Si (LD Z {Si}, i Z 1, n) which are created from set F components for fulfilling certain linguostatistical tasks, and are a logical function of the following form Si Z f1 o fj o .. o fn , where fj 2 F, j Z 1, m (3) the upper stratum, the control layer enabling man-machine interaction and the control of the following processes: (a) tutoring (simulators, tests, games, i. e. courseware) (b) learning (learner’s text processors equipped with electronic dictionaries, grammar reference, NLP facilities and tutor tools, TLA service functions for TLA correction and development). 5.2. The functional-decisive scheme of TLA The work of the TLA control layer consists in a multi-stage selection of functions and in ensuring feedback with the user based on the analysis of results in the course solution of the linguo-didactic tasks. Depending on the user’s type, the control layer provides for the character and degree of influence on the TLA system on the whole, as well as on the tools offered. When TLA is used by the author or the tutor in the functional modes of correction and development of the system as well as for the purposes of lesson planning, the author enjoys top priority because he is in the position of modifying the data base and the system’s modules, while modification opportunities open to the tutor are limited to courseware and preparation of tutorial scripts and texts by means of tools. On swiching into the tutorial teacher-learner communication, TLA can work in two modes: behaviorist and cognitive-intellectual. In both cases the control layer’s functions boil down to formation and control of didactic modules conforming to that strategy and to those tasks of learning which have been determined by the teacher by means of the control layer and learner-teacher feedback.
63. Computer-assisted language learning. The quantitative-linguistic basis of CALL methods
While employing the behaviorist approach, the solution of linguo-didactic tasks is carried out in a closed chain of blocks: courseware K learner K tutorial support. All the operations aimed at solving such a problem are strictly determined by a rigid script: the tutorial program, the simulator or the game. The learner is devoid of initiative and of access to data bases not sanctioned by the script. While solving a cognitive-intellectual task, the learner faces a general task, the pedagogical scenario is orienting, rather than rigid. The learner himself selects a way to task solution having the right of free access to electronic dictionaries, references and learner’s text processors. He may also activate the necessary functional modules of the LD block on his own. On obtaining the operative information about the learner’s work, the tutor can change local aims of the lesson, ask loaded questions by using service tools for conducting the lesson. Finally, TLA can be used by the learner for self-study purposes. Depending on the character of the task and the rating of his knowledge, the learner takes an independent decision on the choice of either the behaviorist or cognitive-intellectual strategy of learning. In the former case the courseware subsystem, and in the latter case tutor support is used. The learner also enjoys the right to switching from the behaviorist scheme to cognitive-intellectual and backwards. While fulfilling strictly determined substitutions tasks of courseware he may resort to the learner support block for consultations. And vice versa, interrupting the cognitive-intellectual reading of the text done with the help of tutor support as well as blocks of data bases blocks of the learner gets an opportunity to pass over to fulfillment of a determined courseware task (for example, a particular skill simulator). The results of the user’s work are analyzed by an error classification and statistical processing block and are subsequently used for TLA correction and improvement. The work of TLA in any mode can be realized by means of a local network support program. 5.3. Tutorial translation support system TLA ideas were pioneered in creating the TUTSY system (Tutorial Translation Support System) (Piotrowskaja 2002, 27K31). The task consisted in supplying a non-pro-
905
fessional translator (for instance, a postgraduate student, a non-language student or a school-child) with a computer device to work on a foreign-language drill text. Such a system must include all the components of an ideal TLA. Presently the project includes only a system of tutor and learner support equipped by modules of drill text analysis and synthesis. As a result, TUTSY takes on the form of a lexico-grammatical manual (henceforth Manual). As the basic linguistic automaton TUTSY uses MULTIS, a French-Russian version of a machine translation system whose main features are as follows: binary and multilevel character, independence and a bias towards transfer strategy (Apollonskaja/Sokolova 1981, 38). The Manual includes: (a) a morpho-syntactic and semantic reference (henceforth Reference), which contains particular grammatical information on the possibility of actualizing lexical units in text, and on the resolution of conversion homography. (b) tables offering generalized information about the grammatical category referred to; (c) a terminological reference explaining the meanings of the terms used in the Manual. The main component of the Manual is its morpho-syntactic and semantic reference service. Information of the Reference is contained in a specially devised data base accessible on the basis of lexico-grammatical characteristics of a lexicon entry (LE), AD MULTIS which feed necessary information to the procedures providing for morphological, syntactic and semantic analysis of the text. The Lexic grammatical field (LGF) is a set of codes embracing various thematic zones and reflecting lexic grammatical connections of lexical units in a network (Oudart 1996). This informational content of MULTIS aimed at learning tasks is both superfluous and deficient, in some cases. Therefore, to be used in the Reference this information should be statistically and tutorially selected and reconsidered. Due to the necessity of forming information accessible and understandable to the learner, the Reference should possess the following features: (1) to be able to decode the necessary information of LGF in a LE of the lexicon, (2) to extend an LE when necessary, (3) to supplement the information of LGF by refer-
906
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ring to generalized grammatical tables and grammatical terms. The structure of an entry in the Reference includes: (a) the initial code field, (b) informational line (particular LGF position decoding field), (c) an example (the field of an illustrative example or additional informational line). A particular word form in the tutorial text is marked by the user from the keyboard. After that lexical and grammatical analysis of the word form is carried out: reference is made to an automated lexicon, to the morphological analysis block, the LGF information of the LE is stored, and a Russian translation is formed. Then LGF positions are analyzed as to their use in the Reference and each necessary position is supplied with the initial code which yields access to decoding information and an illustrative example. On this basis a particular Reference of the following structure is formed: (1) the word form and its translation into Russian, (2) homonymy resolution rules, (3) morphological and syntactic information with illustrative examples and tables. Access to the latter is allowed for specifying information provided by the Reference. Tables contain general information on the main sections of French grammar. Their major aim is to specify and supplement information of the Reference and to provide the user with a concise autonomous grammar manual to repeat grammatical paradigms. This grammar manual is also aimed at explication of the Reference metalanguage. The criterion for including a grammatical phenomenon in the Reference is its frequency of occurence in social and political texts, as well as presence of this grammatical material in the curriculum for students and post-graduate students of nonphilological schools of higher education. TUTSY provides an opportunity not only to realize preparatory and special-aspect grammatical and lexical exercises (receptive, reproductive, substitution, and transformation), but also creative tasks (translation from French, reproduction of the text read, editing of the translation done by MULTIS). An experimental efficiency test of TUTSY showed that its application to French language learning at a non-linguistic higher educational institution reduces the duration of learning by 1.5 times together with a rise of intellectual level of tutorship, also creating a positive emotional background and interest of the students (Karamyševa 1998).
6.
Conclusion
The history of the application of quantitative methods to CALL is almost half a century long. Within this period a long way has been gone starting from the use of such purely theoretical approaches as the stochastic theory of teaching. At present serious research is being done in the field of verbal-mental activity and mechanisms of written and oral speech comprehension as well as statistical selection of the learner’s lexical and, partially, grammar material and its unification in a network (Fellbaum 1998) with the purpose of optimizing language learning. Besides, attempts have been made at using information measurements in order to compare the learner’s level of language attainment with the synergetics of the linguistic level of native speakers. Integration of the results of linguo-statistical studies of texts and text-books (Zubov 2000, 4K14) with the ideas of the cognitive-intellectual trend in CALL, as well as overcoming the specifically behaviorist approach, leads to the TLA concept. One of the latest implementation efforts of this concept is manifested by the TUTSY Z automated system of teaching, reading and translation skills with a French-Russian version of the MULTIS machine translation system as its basic module.
7.
Literature (a selection)
Alekseev, Pavel M./German-Prozorova, Ljucija P./ Piotrowskij, Rajmond G./Ščepetova, Ol’ga P. (1974), Osnovy statističeskoj optimizacii prepodavanija inostrannych jazykov. In: Statistuka reči i avtomatičeskij analiz teksta, 195K234. Apollonskaja, Tat’jana A./Sokolova, SvetlanaV. (1981), Urovnevoe postroenie algoritmov mašinnogo perevoda. In: Inženernaja lingvistika i prepodavanie inostrannych jazykov s pomošč’ju TSO. Leningrad: LGPI, 38K46. Artem’eva Ol’ga A. (1999), Obščepedagogičeskie osnovy aktivizacii poznavatel’noj dejatel’nosti studentov vuzov pri obučenii inostrannomu jazyku na osnove sistemy učebno-rolevych igr. Sankt-Peterburg: RGPU. Atkinson, Richard C./Bower, Gordon H./Crothers, Edward J. (1965), An Introduction to Mathematical Learning Theory. New York et al.: J. Wiley & Sons. Azimov, E˙ldar G. (1997), Komp’jutornye tekstovye redaktory na uroke inostrannogo jazyka. In: Inostrannyi jazyk v škole 1, 54K57.
63. Computer-assisted language learning. The quantitative-linguistic basis of CALL methods Bailin, Alan (1988), Artificial Intelligence and Computer-Assisted Language Instruction: A Perspective. In: CALICO 5 (3), 25K51. Bailin, Alan (1995), Intelligent Computer-Assisted Language Learning: A Bibliography. In: Computers and the Humanities 29 (5), 375K387. Bates, M./Wilson, K. (1981), ILIAD: Interactive Language Assistance for the Deaf. Report #4771. Cambridge, MA: Bolt, Beranek and Newman Inc. Beauvois, Margaret H. (1994K1995), E-Talk: Attitudes and Motivation in Computer-Assisted Classroom Discussion. In: Computers and the Humanities 28 (3), 177K190. Beliaeva, Larissa N. (2001), Lingvističeskie avtomaty v sovremennych informacionnych tehnologijach. Sankt-Peterburg: RGPU im. A. I. Gercena. Benwell, Anita (1990), Call in a Flexible Learning Environment. In: Language Learning via CALL, 7K13. Bogodist, Valentin I. (1974), Izmerenie smyslovoj informacii lingvističeskich edinic franzuskogo teksta. Leningrad: LGPI im. A. I. Gercena. Boguslawskaja, Galina P./Zel’cman, Marina A./ Piotrowskij, Rajmond G./Šabes, Vladimir J./Šuntova, Raissa A. (1969), Informacionnye izmerenija teksta i ocenki vladenija inostrannym jazykom. In: Inostrannyie jazyki v škole 2, 37K43. Brent, Michael R. (1997), Computational Approaches to Language Acquisition. Cambridge, MA: The MIT Press. Brink, Daniel (1990), Choice Words, ver. 2.1. In: Computers and Humanities 24 (1K2), 133K134. Button, C. (1989), An Intelligent Tutoring System for Helping Children Aged 7 to 15 to Acquire a Second Language. In: Instructional Science 18 (1), 27K43. Carroll, John B./Davies, Peter/Richman, Barry (1971), Word frequency book. New York: American Heritage Publishing Co., Inc. Chapelle, Carol (1989), Using Intelligent Computer Assisted Language Learning. In: Computers and Humanities 23 (1), 59K70. Culley, G./Milford, G./Milbury-Steen, J. (1986), A Foreign Language Adventury Game: Progress Report on an Application of AI to Language Instruction. In: CALICO 4 (2), 69K87. Dobrin, David N. (1990), A New Grammar Checker. In: Computers and Humanities 24 (1K2), 67K80. Eaton, Helen S. (1961), An English-French-German-Spanish Word Frequency Dictionary. A Correlation of the First Six Thousand Words in Four Single-Language Frequency Lists. New York: Dover Publication, Inc. Farrington, Brian (1990), An Experimental CALL System for L2-L1 Translation. In: Language Learning via CALL, 23K30. Fellbaum, C. (1998), WordNet. An Electronic Lexical Database. Cambridge, MA: MIT Press.
907
Gajdaj, Nadezˇda (1999), Kompjuternye igry v obučenii inostrannym jazykam. Sankt-Petersburg: RGPU im.A.I. Gercena. Galiulin, Kamil’ R./Valiachmetova, Diana R./Šakirsjanova, Gjul’nara R. (1990), Compleksnyj učebnyj slovar’ russkogo jasyka na baze computera. In: Computer Assisted Language Learning, 25K30: KGU, 14K15. German-Prozorova, Lucìja P. (1968), Ėksperimental’noe učebnoe posobie po anglijskomu jazyku (čast’I, čast’II). Leningrad: Voennaja ordena Lenina Krasnoznamënnaja Akademija Svazi. Gougenheim, Georges/Michéa, René/Rivenc, Paul/Sauvageot, Aurelien (1967), L’élaboration du français fondamental (1er degré). Études sur l’établissement d’un vocabulaire et d’une grammaire de base. Nouvelle édition refondue et augmentée. Paris: Didier. Hogan-Brun, Gabrielle/Whittle, Ruth (1998), The Potential of Multi-media for Foreign Language Learning: A Critical Evaluation. In: Computers and Humanities 31 (5), 451K457. Holland, V. M./Kaplan, J./Sams, M. (1995), Intelligent Language Tutors: Theory Shaping Technology. New Jersey: Lawrence Erlbaum. Jung, Udo O. H./Lieber, G. (1993), An International Bibliography of Computer Assisted Language Learning. Vol 2. Frankfurt a. M.: Peter Lang Verlag. Kalinin, Valentin M. (1973), Mathematische Aspekte der Apperzeption eines fremdsprachigen Textes. In: Sprachstatistik (Hrsg. P. M. Alexejev/ V. M. Kalinin/R. G. Piotrowski. Übersetzung: L. Hoffmann). München: Wilhelm Fink. Also: Berlin: Akademie-Verlag. Karamyševa Tat’jana V. (1998), Puti razvitija sistem kompjuternogo obučenija jazykam: pis’mennaja forma reči. In: Novyje technologii v prepodavanii inostrannych jazykov. Sankt-Peterburg: RGPU im. A. I. Gercena. Kašyrina Marianna E. (1974), O tipach raspredelenija leksičeskich edinic. In: Statistuka reči i avtomatičeskij analiz teksta. Kecskés, István J. (1986), Complex, Cyclical, General Programs to Teach Grammar. In: The 1st International Symposium on Computer-Assisted Language Learning in Hungary, 37K35. Kelly, Erna/Raleigh, Donna (1990), Integrated Word Processing Skills with Revision Skills. In: Computer and Humanities 24 (1K2), 5K13. Kita, Kenji/Ogata, Hiroaki (1997) Collocations in Language Learning: Corpus-Based Automatic Compilation of Collocations and Bilingual Collocation Concordancer. In: Computer-Assisted-Language-Learning 10 (3), 211K228. Korneev, Lev A./Piotrowskij, Rajmond G./Byčkov, Valerij N. (1998), Komp’juter v prepodavanii jazykov. Novgorod: NovGU im. Jaroslava Mudrogo.
908
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Kwapisz, Wiesław (1988), Aspecty zastosowania techniki komputerowej w procesie dydactycznym K na przykładzie nauczania języków obcych. In: Seminarium naukowodydaktyczne. Komputer w Edukacji. INFOSYSTEM 88. Poznań: Ogólnopolska Fundacja Edukacji Komputerowej. Language Engineering. Progress and Prospects ’98. Telematics Applications Programme (1998). DG XIII Telecommunications, Information Market and Exploitation of Research. Luxembourg: LINGLINK. Leech, G./Candlin, C. N. (1986), Computers in English Language Teaching and Research. London: Longman. McEnery, Tony/Baker, John P./Wilson, Andrew (1995), A Statistical Analysis of Corpus Based Computer vs Traditional Human Teaching Methods of Part of Speech Analysis. In: Computer-Assisted-Language-Learning 8 (2K3), 259K 275. Miller, George A./McGill, W. J. (1952), A Statistical Description of Verbal Learning. In: Psychometrika 17 (4), 369K396. O’Brien, Paul (1990), El: Using AI. In: CALL. In: Language Learning via CALL, 86K108. Oudart, Paul (1996), L’enseignement des langues en réseau. In: Le français dans le monde 285. Ovsjannikov, Aleksandr O. (1997), Avtomatizirovannyi učebnyj kurs “Metod klučej” v obučenii vtoromu blizkorodstvennomu jazyku (ot francuzskogo k ispanskomu). Sankt-Peterburg: ABEVEGA. Paramskas, D. M. (1986), Artificial Intelligence in Computer Assisted Language Instruction. In: The Canadian Modern Review 42 (3), 619K627). Piotrowskaja, Ksenija R. (2002), Obučajuščij lingvističeskij avtomat. Učebnoe posobie k speckursu “Osnovy kvantitativnoj lingvodidaktiki”. SanktPeterburg: Interlajn. Piotrowski, Rajmond (1984), Text K Computer K Mensch. Bochum: Brockmeyer. Polat, Elena (1998), Nekotoryje konceptual’nyje položenija distancionnogo obučenija inostran-
nomu jazyku na baze komp’juternych telekommunikacij. In: Inostrannyi jazyk v škole 5, 6K10. Rastrigin, Leonard A./Erenštein, Marina C. (1988), Adaptivnoje obučenie s model’ju obučaemogo. Riga: Zinatne. Sanders, Ruth H./Sanders, A. (1995), History of an AI Spy Game: Spion. In: Thirty Years of Computer Assisted Language Instruction. Festschrift für John Russel. CALICO Monograph Series, vol. 3, 141K152. Simov, Kiril/Angelova, Galina/Paskaleva, Elena (1990), Morpho-Assistant: Paper Treatment of Morphological Knowledge. In: COLING-90 3, 455K457. Sioran, Siril (1990), Deductivnaja metodologia v komp’uternom obučenii. In: Medunarodnaja kohferehcija CALL, 38K39. Skinner, Berres F. (1990), Special Problems in Programming Language Instruction for Teaching Machines. In: Language Teaching Today (Ed. F. G. Oinas). Mouton, 167K184. Spolsky, Bernard (1999), Concise Encyclopedia of Educational Linguistics. Oxford: Pergamon. Thomas, Herbert (1997), The New Literacy? The Challenges of Hypertextual Discourse. In: Computer-Assisted-Language-Learning 10 (5), 479K 490. Vallance, Michael (1997), The Design and Utilisation of an Internet Resource for Business English Learners. In: Computer-Assisted-LanguageLearning 10 (2), 201. West, M. (1965), A General Service List of English Words with Semantic Frequencies and a Supplementary Word-List for the Writing of Popular Science and Technology. London: Longman. Zolotova, Galina A. (1988), Sintaksičeskij slovar’. Moskau: Nauka. Zubov, Aleksandr V. (2000), Komp’juternaja lingvistika i inostrannyj jazyk (k 25-letiju kafedry informatiki i prokladnoj lingvistiki MGLU). In: Komp’juternaja lingvistika i obučenie jazykam. Sbornik naučnych statej. Minsk: MGLU.
Xenia Piotrowska, St. Petersburg (Russia)
909
64. Text comprehensibility
64. Text comprehensibility 1. 2.
6. 7.
Introduction The establishing of measures for the comprehensibility of texts Rules for comprehensible writing Readability formulae Optimal values of measures for the comprehensibility of texts Conclusion Literature (a selection)
1.
Introduction
3. 4. 5.
Texts are written to be understood and therefore comprehensibility is an inevitable characteristic of every text. Text comprehension depends on the texts’ characteristics and the readers’ ability to understand the text. The author of the text has to think not only about the content of the text but about its comprehensibility for intended readers as well. Incomprehensible texts do not fulfil their most important function K they do not transfer information or emotions. Misunderstanding of a text may sometimes have serious outcomes. Let us have two examples. A note to the Japanese government was once misunderstood and the states came near the war. The textbooks in some countries are very difficult to students and many of them harm their physical and mental health trying for long hours to comprehend and acquire the content of their textbooks. The importance of text comprehensibility is evident in its long history, also. The famous philosophers Plato and Aristotle paid attention to the comprehensibility of speeches. Hebrew scholars analysed the vocabulary of the Bible (Chall 1988, 2) and Talmudist scribers made word and idea counts to distinguish usual words and expressions from the unusual ones (Zakaluk/ Samuels 1996, 41). The present-day history of comprehensibility research begins with the publication of Thorndike’ s frequency dictionary of 10.000 words in the 1920s (Anderson 1997, 342; Vanecek 1995). B. A. Lively and S. L. Pressey introduced their Index Number based on the word frequencies in the dictionary in 1923. The index can be seen as the first readability formula (Chall 1958, 48). The terms text readability and text comprehensibility are used as synonyms (Klare 1988, 14).
Readability research became popular after the extensive work by William S. Gray and Bernice E. Leary (1935). Many readability formulae were developed in the 1940s. The readability formulae were intensively programmed for computerised application in the 1980s (Schuyler 1982). The next decade can be characterised by the inclusion of reader characteristics into the readability formula (Mikk 2000; Zakaluk/ Samuels 1988b). The rich history of text comprehensibility research has been surveyed by Jeanne S. Chall (1958; 1988), George R. Klare (1963; 1984) and others. We will proceed to the establishing of the measures of the comprehensibility of texts and the lists of the measures. Relying on the characteristics of a comprehensible text, the rules for understandable writing are referred to and readability formulae are discussed. The development of the formulae and the search for the criteria of optimal values of the measures for the comprehensibility of texts also depicts the history of the text comprehensibility research.
2.
The establishing of measures for the comprehensibility of texts
In every science, good results of research can be achieved if the methods for research are appropriate. So, the measures for the comprehensibility of texts can be reliably established if the methods for establishing are valid. Therefore we will give a short survey of the methods and illustrate them by some examples. Extensive lists of measures of comprehensible texts can be composed by experts. Teachers, librarians, communication specialists, editors can say which characteristics of a text foster text comprehension. There are many suggestions how to gather expert opinions K how to formulate questions, to select experts, to analyse their answers, etc. (Čerepanov 1991). A list of questions to assess text comprehensibility can be found in Reutlinger Raster (Rauch/Tomaschewski 1986). One example of using expert opinions can be found in the research by William S. Gray and Bernice E. Leary (1935). They have
910
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
asked librarians, publishers and teachers to indicate which characteristics make a book readable by people. The experts indicated 44 characteristics, which could be grouped as follows: (1) content (actual, persons, etc.), (2) style (vocabulary, clear presentation, etc.), (3) format, (4) organisation. Relying on the characteristics, the authors developed two readability formulae, which included nine and five predictor variables. An interesting approach was used by Juhan Tuldava (1993a). He relied on his knowledge of text analysis and proposed many different methods for calculating text readability measures, for example, the relative vocabulary richness of text or the index of rarity. He has developed a readability formula based on theoretical considerations (Tuldava 1993b). The next example is the research by Inghard Langer, Friedemann Schultz v. Thun, and Reinhard Tausch. The researchers had some texts of different comprehensibility and they asked experts to characterise the texts. The experts deduced 18 paired characteristics in their assessments. The characteristics were grouped using factor analysis. The following four groups of measures for the comprehensibility of the texts were found (Langer/Schultz v. Thun/Tausch 1981, 14K19): (1) (2) (3) (4)
understandability, organisation, shortness, emotionality.
The authors are convinced that expert assessments of text comprehensibility are broader and deeper than counting of any formal characteristics. Many other researchers, on the contrary, are convinced that counting of some text characteristics may result in reliable measures of text comprehensibility. To find out which text characteristics contribute to its comprehension, correlation coefficients are usually calculated between the hypothetical measures of text comprehensibility and some experimentally evaluated indices of text comprehension. The comprehension level of texts in W. A. McCall and L. M. Crabbs Standardised Test Lessons was often used. Many readability formulae are based
on the test lessons, for example, Flesch (1948), Dale-Chall (Chall/Dale 1995) and others. Texts from standardised tests present an easily accessible criterion for validating text comprehensibility measures. However, the criterion is not an ideal one. To assess the comprehension level of a text in experiments, the difficulty of questions to different texts should be proportional to the complicacy of the texts. In reading tests, the proportionality is not evaluated and so some texts may have relatively difficult questions and the others easy ones. The easiness distorts the comprehension values of texts and therefore special experiments are needed to compose a set of criterion passages for validating the comprehensibility measures. Experimental assessment of the comprehension level of the criterion passages should be carried out keeping in mind the following suggestions: (1) the criterion passages should be representative to the corpus of texts to which the conclusions should be generalised or the developed readability formula applied, (2) questions to every text passage should be representative to the context of the text, (3) all the testees should read all the criterion passages or, even better, all the passages should be read by a representative sample of testees, (4) different methods for the assessment of the comprehension level might be used: questions, cloze procedure (Bormuth 1968), summarising the content of the texts (Gray/Leary 1935), etc. It is difficult to find an investigation which completely follows all the suggestions but attempts were made and long lists of measures for the comprehensibility of texts and related reading outcomes were composed. Let us name some of them. John R. Bormuth (1969) took 330 text passages from school textbooks, used the cloze procedure to assess their comprehension level and counted the values of 130 text characteristics to select the most predictive of them for a readability formula. He counted vocabulary variables (word length, word frequency, etc.), syntactic variables (transformations, sentence structure characteristics), parts of speech (linking verbs, compound adjectives etc.), and anaphora.
911
64. Text comprehensibility Table 64.1: Validity of some text characteristics in predicting reading outcomes No Characteristic
1
2
Average
3
8. Proportion of sentences of 10 or more 0.77 words 30. Proportion of sentences of 80 or more 0.69 letter spaces 33. Proportion of sentences of 110 or more 0.48 letter spaces 52. Proportion of segments of 8 or more 0.45 words between two successive verbs 58. Proportion of segments of 14 or more 0.21 words between two successive verbs 60. Proportion of segments of 16 or more 0.16 words between two successive verbs 65. Nominal phrases of 2 or more nouns 1.22 in the sentence 78. Proportion of words of 9 or more 0.26 letters 89. Mean number of words in sentence 15.8 90. Number of letter spaces in sentence 119 91. Number of letters in word 6.3 93. Modification ratio 0.44 97. Frequency of the text’s words in the 968 SLD* 101. The percentage of words that exist 62.8 less than 30 times in the SLD 103. Frequency of the text’s nouns in the 26.6 SLD 104. Repeating rate of the nouns in the text 1.35 108. The percentage of nouns which exist 93.6 less than 80 times in SLD 109. Percentage of nouns in the text 34.8 116. Percentage of verbs in the text 11.0 119. The percentage of adjectives that do 64.6 not exist in SLD 130. Percentage of adverbs in the text 6.8 138. Frequency of the text’s pronouns in 1395 the SLD 144. Percentage of pronouns in the text 8.2 231. Mean abstractness of nouns 1.81 233. Mean terminological index of nouns 1.53 234. Percentage of concrete nouns 42.9 236. Percentage of abstract nouns 23.6 240. Percentage of nouns in every day use 58.2 which are not terms 241. Percentage of terms encountered in 23.2 every day speech 242. Percentage of terms which are not used 13.4 in every day speech
Standard deviation
Correlation* with Interest in Cloze reading procedure No. 202 No. 211
Post-test score No. 212
4
5
6
7
0.17
K.63
K.60
K.70
0.22
K.71
K.67
K.74
0.24
K.72
K.71
K.69
0.15
K.58
K.54
K.51
0.11
K.53
K.55
K.48
0.10
K.48
K.57
K.45
0.58
K.65
K.73
K.64
0.07
K.76
K.75
K.78
4.1 36 0.6 0.09 205
K.54 K.66 K.75 .21 .55
K.58 K.69 K.73 .24 .52
K.54 K.65 K.76 .29 .56
5.3
K.65
K.71
K.64
17.2
.50
.48
.48
K.48 K.51
K.37 K.53
K.47 K.49
5.0 2.4 14.4
K.63 .49 K.49
K.66 .51 K.46
K.62 .43 K.52
2.3 411
.27 .30
.34 .32
.35 .31
.36 K.62 K.64 .54 K.70 .49
.41 K.52 K.62 .45 K.64 .48
.35 K.66 K.56 .58 K.71 .40
9.0
.16
.06
.16
11.2
K.71
K.67
K.64
0.13 4.4
2.6 0.35 0.24 17.4 16.0 13.9
* Correlation coefficients with the absolute value .29 or above are statistically significant at .95 level. * SLD K spoken language dictionary composed in Moscow University by Buchstab and colleagues.
In another research, Hasso Kukemelk and Jaan Mikk (1993) assessed the difficulty and interest level of 40 sections from physics
textbooks. They counted in the sections values of about 400 text characteristics using computers. More than sixty characteristics
912
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
found by them had a statistically significant correlation with the student final achievement level or text interest ratings. Comprehensibility measures with a high validity were the average abstractness level of nouns and the percentage of nouns in the sections. Later Jaan Mikk and Jaanus Elts have investigated 48 popular scientific texts in an analogous way. They have found more than 200 valid measures of text comprehensibility (Mikk 2000). Some of them are given in Table 64.1. We see in Table 64.1 that the percentage of sentences of 80 or more letter spaces proved to be a better predictor of text acquisition than the average sentence length. The modification ratio, proposed by Osmo A. Wiio (1968), was not a measure of biology text comprehensibility. The percentage of terms, not used in everyday speech, was a valid predictor of text difficulty. The last example is about mathematical tasks. Madis Lepik (1990) calculated correlations between 31 characteristics of 100 algebraic word problems and the correctness of solving the problems and solving time. The linguistic variables of the problems had a statistically significant correlation with the solving time only, but the structural variables correlated with the proportion of correct answers as well. The structural variables were analysed using problem graphs. Altogether 31 characteristics were studied and 23 of them were valid measures of verbal problem solving efficiency. Besides complex studies of text comprehensibility measures, there are many investigations of only some of them. Norbert Groeben (1982) has made a meta-analysis of these investigations. He pays keen attention to text structure: advance organisers, questions in text, summaries, etc. A. Granowsky and M. Botel (1974) have composed a list of complicated constructions in the sentence.
3.
Rules for comprehensible writing
The first systematic overview of the rules was written by Rudolf Flesch (1946). He applied the rules in composing his newspaper and the circulation of the newspaper doubled in some years. Afterwards the overviews were written by many authors (Baumann/Eckenhoff/Geiling et al. 1987; Faulseit 1965; Flesch 1960; Fry 1988; Gal’ 1972; Klare 1985; Langer/Schultz
v. Thun/Tausch 1981; Mikk 1981; Mikk 1984; Mikk 2000). The texts and the textbooks changed but even nowadays they are often too complicated (Chall/Conard 1991, 108; Chavkin 1997; Harvey 1997). Especially complicated are the textbooks for middle grades (Vanecek 1995). Enormous numbers of concepts have been found in textbooks (Eesmaa/Nilson/Prikk 1975; Graf 1989; Merzyn 1996). The first group of rules for comprehensible writing recommends the writers to prefer familiar words. The terms to be included in the text should be carefully selected. Antonina V. Usova (1978) insists on seven steps to introduce new notions in science teaching. George R. Klare (1985, 95) recommends the author of the text to have four familiar words on both sides of an unfamiliar word. The words more frequent in a language are better understood but a frequent polysemantic word causes difficulties in text comprehension if the word is used in a less frequent meaning (Mason/Kniseley/Kendall 1979). Violetta A. Kondrateva (1974) has found that introducing the words of the same root together facilitates considerably their acquisition in foreign language learning. The other aspect of semantic difficulty of words is their abstractness. The words signifying directly perceivable objects should be preferred to words, which denote directly imperceivable notions. The words with abstract suffixes (Gillie 1957, Groeben 1982, 226) should be replaced by the words without such suffixes if possible. A text about people is better understandable than a text about scientific notions (Flesch 1950; 1960). Concrete and familiar words are shorter as a rule. Jaanus Elts (1995) has found correlation 0.96 between the average noun length and its abstractness level, and correlation 0.86 between the length and average terminologicality index of the nouns. Therefore the suggestions above can be summarised in a very simple way: prefer shorter words. The word length is an indicator of the semantic complicacy of texts. Many suggestions are known for writing comprehensible sentences. Grammatically connected words should be closely placed in sentences (Schlesinger 1968, Strietzel 1969, Lurija 1979, 231K232). Some verb forms are more frequent in language (Taylor/Taylor 1983, 285; Tuldava 1978), need less time for comprehension (Hörmann 1967, 260K270)
913
64. Text comprehensibility
and need less space in short term memory (Savin/Perchonock 1965). The most comprehensible ones are active, affirmative, declarative sentences (Klare 1985, 104). Complicated constructions in sentences (Granowsky/Botel 1974) should be replaced by less complicated ones if possible. The structure of a text unit can be analysed by matrixes (Rosenberg 1975, Åhlberg 1991) and graphs (Sochor 1974). Cohesive ties in the text (Halliday/Hasan 1993, Julkunen 1991) facilitate its comprehension. Adversative and covariant forms of text organisation are better remembered than attributive forms (Klare 1985). Deductive texts are more efficient than inductive ones (Nestler 1982). The best organisation of a deliberative text is (1) to give empirical data, (2) to make a generalisation and (3) to apply generalisation in practice (Graumann/ Meyer/Wünschmann 1984; Nguyen, Sy Ty 1984; Stolarow 1965). Text comprehension can be facilitated by illustrations (Bransford/Johnson 1972). The conclusion is supported by the fact that pictures are remembered better than words (Levie 1987, 10; Fleming 1987, 108). Illustrations foster students’ thinking (Mayer 1989; Krause 1990) and transmitting the main idea of a text (Peeck 1987). Good illustrations are connected to texts and they have labels to denote objects on illustrations (Hegarty/ Carpenter/Just 1991; Mayer 1989). An optimal connection of text and illustrations can reduce the cognitive load of the readers (Mayer/Moreno 2003; Plass/Chun/Mayer/ Leutner 2003). The number of objects in an illustration might be limited by Miller’s magic number 7 G 2 (Fleming 1987, 139). The objects and symbols should be familiar to readers (Wilk 1979). Inspection of the background in illustrations takes extra time (Antonov 1988, 103) and might often be omitted. Further recommendations on composing and analysis of illustrations can be found in many books (Hartley 1988; Houghton/Willows 1987; Mandl/Levin 1989; Schnotz/Kulhavy 1994; Weidenmann 1994; Willows/Houghton 1987). People can understand a complicated text if the text is interesting and people are motivated to read it. Reading motivation can be enhanced by new information in the text (Carnegie 1989, 65), by interesting topics such as love and career, by problems in the text (Strietzel 1983; Schwier 1982), by pointing out the importance of the content (Bau-
mann 1980), by figurative representation (Geiling 1980), and emotions in the text (Gal’ 1972; Langer/Schulz v. Thun/Tausch 1981). Experimental investigations have revealed that statistical characteristics of an interesting text are much the same as the statistical characteristics of a comprehensible text. The most important exception is that a text with repeating words or high frequency words is boring (Mikk 2000). The suggestions for comprehensible writing have been repeatedly tested. Mostly the suggestions proved to be effective (Bjørn/ Rossel/Holm 1999; Baumann/Geiling/Nestler 1986; Klare 1963; Mikk 1984; Mikk 2000). The most important exception is mechanical cutting of sentences into shorter ones that may hinder grasping of connections between ideas and may lead to a lower comprehension level of the text.
4.
Readability formulae
Another application of the measures for the comprehensibility of a text are the readability formulae. The formulae enable the researchers to assess how complicated a text is (The higher the readability index, calculated by most of the readability formulae, the more complicated the text is. Therefore, the readability index is, by its content, an index of text complicacy.). To elaborate a readability formula, a sample of texts, representative of the texts in the area of intended formula application, should be taken. The comprehension level of the texts is measured by some experiments and the texts are analysed to establish the values of the hypothesised measures for the text comprehensibility. The comprehension level and the comprehensibility measures are tied in a formula by multiple regression analysis. The most valid comprehensibility measures intercorrelations of which are low are included in the readability formula as the result of the analysis. Usually there are two predictor variables in the formula: one for the complicacy of text content (vocabulary measure) and the other for structure complicacy (sentence length). There are more than 100 readability formulae developed all over the world (Klare 1995) and many reviews have been written on them (Chall 1958; Davison/Green 1988; Klare 1963; Klare 1974K1975; Klare 1984; Zakaluk/Samuels 1988a). Most of the for-
914
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
mulae are for English texts but in recent years formulae for other languages have also been published (Bamberger/Vanecek 1984; Baumann/Geiling/Nestler 1982; Elts 1992; Henry 1975; Mackovskij 1976; Mikk 1981; Rabin 1988, Tuldava 1993b; Vanecek 1995). Roy B. Clariana and Carroll L. Bond (1993) found that the Flesch-Kincaid formula, FOG, and ARI formulae were the best to measure the readability of computer software. Susan Homan, Margaret Hewitt and Jean Linder (1994) developed a readability formula for single-sentence test items. The most popular readability formula is very likely the Flesch Reading Ease (RE) formula: RE Z 206.835K 0.846 wlK1.015 sl
(1)
where: wl K the number of syllables per 100 words, sl K the mean sentence length in words. Multiple correlation coefficient of the formula was 0.70. The Reading Ease index varies from 0 K a very complicated text to 100 K a very comprehensible text (Tuldava 1993b). G. R. Klare (1988) gives a detailed table for the interpretation of the Flesch Reading Ease scores. A nomogram, graph, or table can sometimes replace a readability formula. The best known among the graphs is the one elaborated by D. Fry in 1977 and included in a computer program (Schuyler 1982). Nomograms have been elaborated by Beverley L. Zakaluk and S. Jay Samuels (1988b) and by Juhan Tuldava (1993b). Jeanne S. Chall and Edgar Dale (1995) have published extensive tables to replace their new readability formula. The idea of predicting reading outcomes relying on text characteristics is very inviting and so formulae have been elaborated to predict other outcomes of reading as well. Rudolf Flesch (1948) elaborated a Human Interest formula, Hasso Kukemelk and Jaan Mikk (1993) developed physics text interest and effectiveness formulae. A formula for predicting the reading time of a text was elaborated by Hasso Kukemelk (1993) and the formula for predicting the verbal problem solving time and correctness by Madis Lepik (1988; 1989). Peter B. Mosenthal and Irwin S. Kirsch (1998) have suggested an in-
teresting readability assessment procedure for the documents K lists, graphs, maps, etc. Nowadays the application of many readability formulae is computerised. The computer programs were very popular in the USA and other countries at the beginning of the eighties (Anderson 1983; Gross/Sadowski 1985; Keller 1982; Moe 1980; Readability program for the IBM, PC, XT and AT 1988; Schalow/Mears 1986; Schilkowsky/ Peck/Fortier et. al.1983; Schuyler 1982). Nowadays the programs are also used. For example, Micro Power & Light Co proposes programs for eight readability formulae (Gulp 1997) and some formulae have been programmed for the most popular word processors (Microsoft Office 1997) and text editing systems (Grammatik 5.0 1993). “[.] readability measurement with all its pitfalls is not going to go away” (Standal 1987, 131). Computerised readability measurement enables to apply the formulae with many predictor variables (Bormuth 1969; Kukemelk/Mikk 1993). The formulae are difficult to “deceive”; i. e. to rewrite a text in short sentences and in short words without really changing the complicacy of the text. There is some experimental evidence about the validity of readability measurement. Nelda Spinks and Barron Wells (1993) have found the correlation coefficient -0.63 between the course grade average and the readability levels of the textbooks used. Jaan Mikk (1991) has established that more complicated textbooks caused more students to fail in the subject. Julia Chamberlain and Leal Dorothy (1999) have analysed the readability of Caldecott Medal books. The books were very simple. The more readable the newspapers are, the more readers they have (Björnsson 1983). Readability formulae have been widely used, especially in the USA, but they have been criticised as well (Baker/Atwood/Duffy 1988; Bruce/Rubin 1988; Nonnenmacher 1994). One of the points of criticism has been that readability formulae do not consider reader characteristics. An attempt to overcome the shortcoming has been made by Beverley L. Zakaluk and S. Jay Samuels (1988b) in their nomogram, which considers inside and outside head factors to predict the level of reading comprehension. The other possibility is to develop a reading comprehension formula, which includes, besides text characteristics, the reader characteristics as well as predictor variables for the
64. Text comprehensibility
text comprehension level. Jaan Mikk and Jaanus Elts (1999) have developed such a formula using the data of studying every text by every testee in the experiment as the basis for regression analysis. Readability formulae, elaborated for one language, are sometimes used for texts in another language. The attempts are unsuccessful in general, because the influence of a certain text characteristic on text comprehension may be different in different languages. For example, Flesch Reading Ease formula is not applicable to texts in Russian (Mikk 1977). Alfonso Contreras, Rafael GarciaAlonso, Marta Echenique et. al. (1999) have elaborated formulae to transfer SMOG readability score (McLaughlin 1969) for texts in Spanish into meaningful readability indices but I think that more valid readability indices can be found if readability formulae are developed for every language, for every age group, and for every subject area.
5.
Optimal values of measures for the comprehensibility of texts
The readability index, calculated by the most of the readability formulae, is the reading grade level needed for a satisfactory comprehension of the text. But the satisfactory comprehension level has been different by the development of different formula K sometimes 50 % of correct answers, sometimes 75 %, and even 100 % of correct answers (Klare 1988). We have to know which level is optimal in text comprehension. Above we listed some research in which texts have been found to be too complicated for readers. However, sometimes texts were too simple as well. E. J. O’Brien and J. L. Myers (1985) have found that rewriting a very simple text into a more complicated one enhances its acquisition. Cheryl Metoyer-Dyran (1993) has found that the papers accepted by a journal were more complicated than the rejected ones. Heli Uibo (1995) has established that sentences were too short in many textbooks for middle and upper grades of Estonian schools at the beginning of the nineties. Optimal values of readability and other measures for the comprehensibility of texts are highly needed. To establish the values, corresponding research methods should be used. The simplest method for establishing optimal values of text characteristics is expert
915 opinions about optimality of texts. The method has been used by Brenda M. Weaver (1992) who accepts, however, that the opinions are subjective. The second method is based on the assumption that people can understand texts on a complicacy level of their own writings. To use the method, the testees should be stimulated to write at the maximum complicacy level of their writings (Kübarsepp/Mikk 1993). The third method is most widely used. It consists in computing values of text characteristics that enable to achieve the optimal level of text comprehension. However, the optimal level of comprehension is to be established by special experiments (Mikk 2000) that are analogous to the next method. The method is based on the fundamental idea of optimal values of comprehensibility measures: the value of a measure is optimal if the effectiveness of reading is maximal. The idea has been used by Violetta A. Kondrateva (1974) to establish an optimal percentage of new words in foreign language texts for independent reading. The fifth method for establishing optimal values is based on the correlation coefficient between the percentage of oversized sentences and the comprehension level of texts. The correlation coefficient is the highest if the boundary line for oversized sentences is optimal for the readers (Elts/Mikk 1996). A more detailed overview of the methods for establishing optimal values of text characteristics is published (Mikk 1995). Texts may include some unknown words to transmit new information. Violetta A. Kondrateva (1974, 17) has found that the optimal percentage of new words in foreign language texts is 3.6. Vitautas I. Šjarnas (1978, 35) established that pupils of elementary school can learn to use 2K3 new foreign language words in a lesson, students of middle grades 3K4 new words, and students of upper grades can learn to use 4K5 new words in 45 minutes. Dittmar Graf (1989, 164K165) also writes that students acquire 2K3.5 new foreign words in a lesson. New words in mother tongue usually denote new concepts and therefore their acquisition is slower than the acquisition of foreign language words. Jeanne S. Chall (1958, 63) indicates that there should be 100K 200 familiar words per one unknown word in the text. Children acquire about three new words for active usage a day (Dale 1956, 122; Dale 1965; Mikk 2000). This corresponds to
916
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
the fact that A. S. Puškin K the famous Russian poet K has used 21,290 different words in his works (Denisov 1974, 139). Many authors have found that students can acquire up to one basic concept in a physics or chemistry lesson (Heimer 1976; Razumovskij 1975, 178K179; Usova 1970, 22). In a biology lesson, they can acquire 1K1.7 concepts (Graf 1989, 218K219). The difference in these findings can be explained by the different abstractness level of the concepts. Difficult words are usually long and therefore the optimal word length is also of interest. Rudolf Flesch (1946) has ascertained the optimal word length in English for people with different levels of education (cf. Klare 1988). Richard Bamberger and Erich Vanecek (1984, 172) have fixed the optimal word length for German. The last optimality criteria are larger probably because German readers are in the habit of reading longer words. The criteria for the optimal abstractness of a text have been expressed in different ways. Norbert Groeben (1982, 226) counts suffixes in the text and writes that the text is of middle abstractness if it contains 13K 25 % of abstract suffixes. Jaan Mikk (2000; cf. Uibo 1995) has established the optimal level of noun abstractness in the texts for people with different levels of reading ability. Rudolf Flesch (1946; cf. Klare 1988) gives the optimal percentage of personal words in the texts for different readers. The optimal sentence length has been established in different ways: students’ retellings and compositions (Ceplite 1976), the capacity of short-term memory (Perera 1986, 288; Repkina 1965); the velocity of information processing (Platzack 1974; Smith/ Holmes 1973, 64), and in other ways. Sets of the optimal sentence length for different grades have been overviewed in Table 64.2. Optimal amount of information in discourse has been established by Leonid N. Taranov (1976) and A. H. Johnstone (1997). They found that four, maximum five, infor-
mation units in a judgement is optimal. Specialists on programmed learning have written that a teaching unit may include one unknown and two known concepts (Nikandrov 1970, 36) or 15K40 words (Bespal’ko 1970, 116). The students in a grade are very different and therefore they learn most from different texts. The most able third of students is three years ahead of their age mates in the development of verbal abilities (Mikk 1999). They can acquire the study material 1.6 times faster than an average student in the grade. Therefore the optimality criteria should be different for different students in a grade. For example, some 5th grade students facilitate most while reading six word sentences, the other students in the grade need twelve-word sentences for their most rapid development (Mikk 1999). We need different textbooks for different students and we need computer programs which assess the suitability of a text considering the ability level of a concrete reader.
6.
Conclusion
Text comprehensibility research is aimed at facilitating the most important function of the text K the function of transmitting information. The research can be carried out in co-operation of linguists, psychologists, and educationalists as we have seen in the overview above. Text comprehensibility research has to solve two problems. First, to prognosticate who can understand a concrete text. Readability measurement, used to solve the problem, is in the main stream of science K to foretell what will happen in future. The other problem of comprehensibility research is to find the ways for composing comprehensible texts. Rules for clear writing have been used to reach the aim. The rules should be used carefully considering the criteria for optimal values of text comprehensibility measures.
Table 64.2: Optimal sentence length in words Grade
2
3
4
5
6
7
8
9
10
11
12
Bamberger/Vanecek 9 (1984, 172) Flesch (1946, 38) Mikk (2000) 6
10
11
12
13
14
15
16
17
19
20
7
8
8 9
11 10
14 11
12
17 13
13
21 14
16
College
25
64. Text comprehensibility
7.
Literature (a selection)
Åhlberg, Mauri (1991), Concept Mapping, Concept Matrices, Link Tables and Argumentation Analysis as Techniques for Educational Research on Textbooks and Educational Discourse and as Tools for Teachers and Their Pupils in Their Everyday Work. In: Research on Texts at Schools. (Eds. M. L. Julkunen/S. Selander/M. Åhlberg). Joensuu: University of Joensuu, 89K154. Anderson, Jonathan (1997), Content and Text Analysis. In: Educational Research, Methodology, and Measurement: An International Handbook. (Ed. John P. Keeves). Second edition. Oxford et al.: Elsevier Science, 340K344. Anderson, Jonathan (1983), Research Note: Readability in the Classroom Revisited: Amendments and Additions to the STAR Readability Program. In: Journal of Research in Reading 6 (1), 57K62. Antonov, Anatolii Vasiljevič (1988), Informacija: vosprijatie i ponimanie [Information: perception and comprehension]. Kiev: Naukova Dumka. Baker, Eva L./Atwood, N. K./Duffy, Tomas M. (1988), Cognitive Approaches to Assessing the Readability of Text. In: Davison/Green (1988), 55K83. Bamberger, Richard/Vanecek, Erich (1984), Lesen-Verstehen-Lernen-Schreiben. Die Schwierigkeitsstufen von Texten in deutscher Sprache. Diesterweg/Sauerländer: Jugend und Volk. Baumann Manfred (1980), Untersuchungen zur Stimulation und Motivation des Lernens durch Lehrtexte. In: Informationen zu Schulbuchfragen 40, 29K37. Baumann, Manfred/Eckenhoff, Marion/Geiling, Ute/Nestler, Käte (1987), Beispielsammlung für weniger und besser verständliche Lehrtexte. In: Informationen zu Schulbuchfragen 56, 60K109. Baumann, Manfred/Geiling, Ute/Nestler, Käte (1982), Lernen aus Texten und Lehrtextgestaltung. Berlin: Volk und Wissen Volkseigener Verlag. Baumann, Manfred/Geiling, Ute/Nestler, Käte (1986), Untersuchungen zu Störstellen beim Verstehen von Schulbuchtexten. In: Informationen zu Schulbuchfragen 54, 64K69. Bespal’ko, Vladimir P. (1970), Programmirovannoe obučenie. Didaktičeskie osnovy [Programmed Instruction. Didactical Basis]. Moscow: Vysšaja Škola. Bjørn, Else/Rossel, Peter/Holm, Soren (1999), Can the Written Information to Research Subjects be Improved? K An Empirical Study. In: Journal of Medical Ethics 25, 263K267. Björnsson, C. H. (1983), Readability of Newspapers in 11 Languages. In: Reading Research Quarterly 18 (4), 480K497. Bormuth, John R. (1968), The Cloze Readability Procedure. In: Elementary English 45, 429K436.
917 Bormuth, John R. (1969), Development of Readability Analysis. Final Report of the Project no. 7K0052, Manuscript. Bransford, John D./Johnson Marcia K. (1972), Contextual Prerequisities for Understanding: Some Investigations of Comprehension and Recall. In: Journal of Verbal Learning and Verbal Behaviour 6, 717K726. Bruce, Bertram/Rubin, Andee (1988), Readability Formulas: Matching Tool and Task. In: Davison/ Green (1988), 5K22. Carnegie, Dale (1989), Kak vyrabatyvat’ uverennost’ v sebe i vlijat’ na ljudei vystupaja publično [How to develop self-confidence and influence people by public speaking]. Moscow: Centr “Russkaja Troika”. Ceplite, B. (1976), Ob”em predlozenija i ego tipy kak jazykovye kriterii opredelenija [Sentence Volume and its Types as Linguistic Criteria of Definition]. In: Voprosy Pedagogiceskoj Psichodiagnostiki. (Eds. V. Lubovskij/V. Avotin’š). Tallinn: Ministry of Education Estonian SSR, 131K140. Čerepanov, Vjačeslav S. (1991), Teoretičeskie osnovy pedagogičeskoj ėkspertizy [Theoretical Basis of Educational Expertise.] Moscow: NII TIP. (Unpublished Doctoral Dissertation). Chall, Jeanne S. (1958), Readability. An Appraisal of Research and Application. Columbus/Ohio: Ohio State University Press. Chall, Jeanne S. (1988), The Beginning Years. In: Zakaluk /Samuels 1988a, 2K13. Chall, Jeanne S./Conard, Sue S. (1991), Should Textbooks Challenge Students? The Case for Easier or Harder Books. New York/London: Teacher College Press, Columbia University. Chall, Jeanne S./Dale, Edgar (1995), Readability Revisited. The New Dale-Chall Readability Formula. Cambridge/Massachusetts: Brookline Books. Chamberlain, Julia/Dorothy, Leal (1999), Caldecott Medal Books and Readability Levels: Not just “Picture” Books. In: Reading Teacher 52 (8), 898 ff. Chavkin, Laura (1997), Readability and Reading Ease Revisited: State Adopted Science Textbooks. In: Clearing House 70 (3), 151K155. Clariana, Roy B./Bond, Caroll L. (1993), Using Readability Formulas to Establish the Grade Level Difficulty of Software. In: Journal of Computing in Childhood Education 4 (3K4), 155K 161. Contreras, Alfonso/Garcia-Alonso, Rafael/Echenique, Marta/Daye-Contraras, Fedora (1999), The SOL Formulas for Converting SMOG Readability Scores Between Health Education Materials Written in Spanish, English, and French. In: Journal of Health Communication 4 (1), 21 ff. Dale, Edgar (1956), The Problem of Vocabulary in Reading. In: Educational Research Bulletin 35 (5), 113K123.
918
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Dale, Edgar (1965), Vocabulary Measurement: Techniques and Major Findings. In: Elementary English 42, 895K901; 948. Davison, Alice/Green, Georgia M. (Eds.), Linguistic Complexity and Text Comprehension. Readability Issues Reconsidered. Hillsdale et al.: Erlbaum, 1988. Denisov, Pjotr N. (1974), Očerki po russkoj leksikologii i učebnoj leksikografii [Essays on Russian Lexicology and Educational Lexicography]. Moscow: University of Moscow. Eesmaa, Vilma/Nilson, Osvald/Prikk, Evi (1975), Ainetevaheliste seoste tiheduse määramisest õpikutes [Determining the Degree of Relationship Between Subjects in Textbooks]. In: Nõukogude Kool 5, 390K395. Elts, Jaanus (1992), A Readability Formula for Texts on Biology. In: Psychological Problems of Reading. Theses of Papers for the International Scientific Conference. Vilnius: Martynas Mažvydas National Library of Lithuania, 42K44. Elts, Jaanus (1995), Word Length and its Semantic Complexity. In: Family and Textbooks. (Eds. Inger Kraav/Jaan Mikk/Larissa Vassiltchenko). Tartu: University of Tartu, 115K126. Elts, Jaanus/Mikk, Jaan (1996), Determination of Optimal Values of Text Characteristics. In: Journal of Quantitative Linguistics. 3 (2), 144K151. Faulseit, Dieter (1965), Gutes und schlechtes Deutsch. Leipzig: VEB Bibliographisches Institut. Fleming, Malcolm L. (1987), Designing Pictorial/ Verbal Instruction: Some Speculative Extensions from Research to Practice. In: Houghton/Willows 1987, 136K157. Flesch, Rudolf (1946), The Art of Plain Talk. New York/London: Harper and Brothers Publishers. Flesch, Rudolf (1948), A New Readability Yardstick. In: Journal of Applied Psychology 32, 221K233. Flesch, Rudolf (1950), Measuring the Level of Abstraction. In: Journal of Applied Psychology 34, 384K90. Flesch, Rudolf (1960), How to Write, Speak and Think More Effectively. New York: Harper & Brothers. Fry, Edward B. (1988), Writeability: The Principles of Writing for Increased Comprehension. In: Zakaluk/Samuels 1988a, 77K95. Gal’, Nora Ya. (1972), Slovo živoe i mertvoe: iz opyta perevočika i redaktora. [The World Alive and Dead. In the Experience of Translator and Editor]. Moskow: Kniga. Geiling, Ute (1980), Untersuchungen zur Anschaulichkeit von Lehrbuchtexten. In: Informationen zu Schulbuchfragen 38, 45K62. Gillie, Paul J. (1957), A Simplified Formula for Measuring Abstraction in Writing. In: Journal of Applied Psychology 41, 214K17.
Graf, Dittmar (1989), Begriffslernen im Biologieunterricht der Sekundarstufe I. Frankfurt am Main u. a.: Peter Lang. Grammatik 5 (1993), Version 1.1. Word Perfect Co-operation (Computer Program). Granowsky, Alvin/Botel, Morton (1974), Background for a New Syntactic Complexity Formula. In: Reading Teacher 28, 31K35. Graumann, Lore/Meyer, Lothar/Wünschmann, Manfred (1984), Standpunkte und Probleme einer Überarbeitung der Lehrmaterialien für die Klasse 9. In: Physik in der Schule 12, 487K493. Gray, William S./Leary, Bernice E. (1935), What Makes a Book Readable. Chicago: University Press. Groeben, Norbert (1982), Leserpsychologie: Text Verständnis K Textverständlichkeit. Münster: Aschendorf. Gross, Philip P./Sadowski, K. (1985). FOG INDEX K A Readability Formula Program for Microcomputers. In: Journal of Reading 28 (7), 614K618. Gulp (1997). I need Spache. In: Reading Today, June/July, 13. Halliday, Michael A. K./Hasan, Ruqaiya (1993), Cohesion in English. London/New York: Longman. Hartley, James (1988). Designing Instructional text. London: Kogan Page/New York: Nichols. Harvey, Virginia S. (1997), Improving Readability of Psychological Reports. In: Professional Psychology, Research & Practice 28 (3), 271 ff. Hegarty, Mary/Carpenter, Patricia A./Just, Marcel Adam (1991), Diagrams in the Comprehension of Scientific Text. In: Handbook of Reading Research. (Eds. Rebecca Barr/Michael L. Kamil/Peter B. Mosenthal/P. David Pearson): New York/ London: Longman 2, 641K668. Heimer, Klaus (1976), Zur Funktion, Gestaltung und Nutzung des Merkstoffs im Chemielehrbuch. In: Informationen zu Schulbuchfragen 24, 81K 102. Henry, Georges (1975), Comment mésurer la lisibilité. Paris: Fernand Nathan/Bruxelles: Labor. Homan, Susan/Hewitt, Magaret/Linder, Jean (1994), The Development and Validation of a Formula for Measuring Single-Sentence Test Item Readability. In: Journal of Educational Measurement 31 (4), 349K358. Houghton, Harvey A./Willows, Dale M. (Eds.), The Psychology of Illustrations. Vol. 2., New York et al.: Springer Verlag, 1987. Hörmann, Hans (1967), Psychologie der Sprache. Berlin et al.: Springer Verlag. Johnstone, A. H. (1997), Chemistry Teaching K Science or Alchemy? In: Journal of Chemical Education 3, 262K268.
64. Text comprehensibility Julkunen, Marja-Liisa (1991), Text Types and Teaching of Concepts in Finnish Schoolbooks. In: Research on Texts at School. (Eds. M. L. Julkunen/ S. Selander/M. Åhlberg). Joensuu: University of Joensuu, 11K34. Keller, Paul F. G. (1982), Maryland Micro: A Prototype Readability Formula for Small Computers. In: The Reading Teacher 35 (7), 778K782. Klare, George R. (1963), The Measurement of Readability. Iowa: Iowa State University. Klare, George R. (1974K1975), Assessing Readability. In: Reading Research Quarterly 10 (1), 62K102. Klare, George R. (1984), Readability. In: Handbook of Reading Research. (Ed. P. David Pearson). New York/London: Longman, 681K744. Klare, George R. (1985), How to Write Readable English. 5th ed. London, et al.: Hutchinson. Klare, George R. (1988), The Formative Years. In: Zakaluk/Samuels 1988a, 14K34. Klare, George R. (1995), Readability. In: The Literary Dictionary. Newark/Delaware: International Reading Association, 204K205. Kondrateva, Violetta A. (1974), Optimizatsija usvoenija leksiki inostrannogo jasyka [Optimisation of Acquiring Words in Foreign Language]. Moscow: Vysšaja škola. Krause, W. (1990), Der Einfluss von Satz und Bild auf das Behalten und die Gestaltung der Interaktion im Problemlösen. In: Aus dem wissenschaftlichen Leben der Pädagogischen Hochschule “N.K. Krupskaja” Halle 5, 53K58. Kukemelk, Hasso (1993), The Dependence of the Learning Time on the Text Characteristics. In: Glottometrica 14, 104K112. Kukemelk, Hasso/Mikk, Jaan (1993), The Prognosticating Effectivity of Learning a Text in Physics. In: Glottometrica 14, 82K103. Kübarsepp, Ivi/Mikk, Jaan (1993), Vergleich von Textinhalten mit ihren Wiedergaben. In: Schulbuch-Kontakte. Mitteilungen des Instituts fürSchulbuchforschung und Lernförderung. Wien 4 (3), 2K6. Langer, Inghard/Schulz v. Thun, Friedemann/ Tausch, Reinhard (1981), Sich verständlich ausdrücken. München: Ernst Reinhardt Verlag, 2. völlig neubearbeitete Auflage. Lepik, Madis (1988), Ajafaktorist ülesannete lahendamisel [Time Factor in Solving Verbal Problems]. In: Nõukogude Kool 8, 16K18. Lepik, Madis (1989), Faktory složnosti tipovych tekstovych zadač [Complicacy Factors of Typical Verbal Problems]. Abstracts of candidate dissertation. Tartu: University of Tartu. Lepik, Madis (1990), Algebraic Word Problems: Role of Linguistic and Structural Variables. In: Educational Studies in Mathematics 21, 83K90.
919 Levie, W. Howard (1987), Research on Pictures: A Guide to the Literature. In: Willows/Houghton 1987, 1K50. Lurija, Aleksander R. (1979), Jazyk i soznanie [Language and Conscious]. Moscow: Moscow University. Mackovskij, Mihail S. (1976). Problemy čitabel’nosti pečatnogo materiala [Problems of the Readability of Written Materials]. In: Smyslovoe vosprijatie rečevogo soobščenija (v uslovijach massovoj kommunikacij). Moscow: Nauka, 126K142. Mandl, Heinz/Levin, Joel (Eds.), Knowledge Acquisition from Text and Pictures. Amsterdam u. a.: Elsevier Science Publishers, 1989. Mason, Jana M./Kniseley, Elisabeth/Kendall, Janet (1979), Effects of Polysemous Words on Sentence Comprehension. In: Reading Research Quarterly 15 (1), 49K65. Mayer, Richard E. (1989), Systematic Thinking Fostered by Illustrations in Scientific Text. In: Journal of Educational Psychology 81 (2), 240K 246. Mayer, Richard E./Moreno, Roxana (2003), Nine Ways to Reduce Cognitive Load in Multimedia Learning. In: Educational Psychologist 38, (1), 43K52. McLaughlin, G. Harry (1969), SMOG Grading. A New Readability Formula. In: Journal of Reading 12, 639K646. Merzyn, Gottfried (1996), A Comparison of Some Linguistic Variables in Fifteen Science Texts. In: Research in Science Education in Europe: Current Issues and Themes. (Eds. G. Welford/J. Osborne/ P. Scott). London/Washington, D.C.: The Falmer Press, 361K369. Metoyer-Dyran, Cheryl (1993), The Readability of Published, Accepted, and Rejected Papers Appearing in “College & Research Libraries”. In: College and Research Libraries 54 (6), 517K526. Microsoft Office 97 (1997), Professional Edition on Windows 95 or Windows NT, Workstation 4. 0. Computer program. Mikk, Jaan (1977), Primenenie formul čitabel’nosti k Russkomu tekstu [Application of Readability Formulae to Russian Texts). In: Acta et Commentationes Universitatis Tartuensis 415, 94K102. Mikk, Jaan (1981), Optimizacija složnosti učebnogo teksta [Optimisation of the Complicacy of the Study Text]. Moscow: Prosveščenije. Mikk, Jaan (1984), Empfehlungen für die Verbesserung der Verständlichkeit des Lehrtextes. In: Informationen zu Schulbuchfragen 48, 97K121. Mikk, Jaan (1991), Studies in Teaching Material Readability. In: Problems of Textbook Effectivity. Tartu: University of Tartu, 34K50. Mikk, Jaan (1995), Some Guidelines for Illustrating Textbooks. In: Family and Textbooks. (Eds. I.
920
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Kraav/J. Mikk/L. Vassiltchenko). Tartu: Univesity of Tartu. Mikk, Jaan (1999), Individual Differences in the Criteria of Optimal Readability of Textbooks. In: Discussions on some Educational Issues. (Ed. P. Kansanen). Helsinki: University of Helsinki 8, 63K74. Mikk, Jaan (2000), Textbook: Research and Writing. Frankfurt am Main/Berlin et al.: Peter Lang. Mikk, Jaan/Elts, Jaanus (1999), A Reading Comprehension Formula of Reader and Text Characteristics. In: Journal of Quantitative Linguistics 6 (3), 214K221. Moe, Alden J. (1980), Analysing Text With Computers. In: Educational Technology 20 (7), 29K31. Mosenthal, Peter B./Kirsch, Irwin S. (1998), A New Measure for Assessing Document Complexity: The PMOSE/IKIRSCH Document Readability Formula. In: Journal of Adolescent & Adult Literacy 41 (8), 638K657. Nestler, Käte (1982), Zur Gestaltung und Wirkung von Texten mit induktiven und deduktiven Aufbau. In: Informationen zu Schulbuchfragen 44, 7K21. Nguyen, Sy Ty (1984), Hauptanforderungen an Inhalt und methodische Struktur des Reformschulbuches in der SR Vietnam. In: Informationen zu Schulbuchfragen 48, 45K74. Nikandrov, Nikolai D. (1970), Psichologo-pedagogičeskie voprosy metodiki sostavlenija programmirovannych materialov v rabotach zarubežnych programmistov [Psychological and Pedagogical Problems of the Methods for Compiling Programmed Teaching Materials in the Publications of Foreign Programmists]. Moscow: Znanie. Nonnenmacher, F. (1994), Analysekriterien und Ergebnisse einer Untersuchung von Sozialkundebüchern. In: Schulbücher in der Kritik. (Hrsg. F. Nonnenmacher). Marburg: Tectum Verlag, 7K16. O’Brien, Edward J./Myers, Jerome L. (1985), When Comprehension Difficulty Improves Memory for Text. In: Journal of Experimental Psychology: Learning, Memory and Cognition 11 (1), 12K21. Peeck, Joan (1987), The Role of Illustrations in Processing and Remembering Illustrated Text. In: Willows/Houghton 1987, 115K151. Perera, Katharine (1986), Children’s Writing and Reading. Analysing Classroom Language. London: Blackwell. Plass, Jan L./Chun, Dorothy M./Mayer, Richard E./Leutner, Detlev (2003), Cognitive Load in Reading a Foreign Language Text with Multimedia Aids and the Influence of Verbal and Spatial Abilities. In: Computers in Human Behavior 19 (2), 221K243. Platzack, Christer (1974), Spra˚ket och läsbarheten. En studie i samspelet mellan läsare och text. Lund: Gleerup.
Rabin, Annette T. (1988), Determining Difficulty Levels of Texts Written in Languages Other than English. In: Zakaluk/Samuels 1988a, 46K76. Rauch, M./Tomaschewki, L. (1986), Reutlinger Raster zur Analyse und Bewertung von Schulbücher und Begleitmedien. Reutlingen: M. Rauch. Razumovskij, Vasssili G. (1975). Perechod na novoe soderžanie obrazovanija i problemy soveršenstvovanija učebnikov po fizike [Transition to the New Content of Education and the Problems of the Perfection of Physics Textbooks]. Voprosy soveršenstvovanija školnogo učebnika. Moscow: Prosveščenie, 164K180. Readability program for the IBM, PC, XT and AT. (1988). Scandinavian PC Systems, 2nd ed. Repkina, G. V. (1965), Issledovanie operativnoi pamjati [Investigation of Operative Memory]. In: Problemy inženernoi psichologij 3, 118K165. Rosenberg, Newton M. (1975), Matričnaja metodika vyjavlenija i analiza sistemy svjazi v učebnom materiale [Method of Matrixes for Revealing and Analysing Connections in Study Material]. In: Soveckaja Pedagogika 2, 70K78. Savin, Harris B./Perchonok, Ellen (1965), Grammatical Structure and the Immediate Recall of English Sentences. In: Journal of Verbal Learning and Verbal Behaviour 4, 348K358. Schalow, Susan R./Mears, John E. (1986), Computer Readability and Editing System (CRES). Programmer’s Reference Manual. Schilkowsky, Carl/Peck, Gwendoly´n/Fortier, Gilles/Mason, George (1983), Open to Suggestion. In: Journal of Reading 26 (6), 550K553. Schlesinger, I. M. (1968), Sentence Structure and the Reading Process. Hague/Paris: Mouton. Schnotz, Wolfgang/Kulhavy, Raymond W. (Eds.), Comprehension of Graphics. Amsterdam et al.: Elsevier Science B. V., 1994. Schuyler, Michael R. (1982), Readability Formula Program for Use on Microcomputers. In: Journal of Reading 25 (6), 560K591. Schwier, Christa (1982). Zur problemhaften Gestaltung von Chemielehrbüchern. In: Informationen zu Schulbuchfragen 44, 81K107. Smith, F./Holmes D. L. (1973), The Independence of Letter, Word and Meaning Identification in Reading. In: Psycholinguistics and Reading. (Ed. F. Smith) New York et al.: Holt Rinehart and Winston, 50K69. Sochor, Aron M. (1974), Logičeskaja struktura učebnogo materiala. Voprosy Didaktičeskogo Analiza [Logical Structure of the Teaching Material. Problems of Didactical Analysis]. Moscow: Pedagogika. Spinks, Nelda/Wells, Barron (1993), Readability: A Textbook Selection Criterion. In: Journal of Education for Business 69 (2), 83 ff.
65. Linguistic automaton Standal, Timothy C. (1987), Computer Measured Readability. In: Computers in the Schools 4 Spring, 123K132. Stolurow, Lawrence M. (1965), Obučenie s pomoščju mašin [Machine-assisted teaching]. Moscow: Mir. Strietzel, Horst (1969), Zur sprachlichen Gestaltung von Schulbuchtexten. In: Sprachpflege 7, 135K142. Strietzel, Horst (1983), Zu einigen Elementen problemhafter Schulbuchgestaltung in der UdSSR. In: Wissenschaftliche Hefte der Pädagogischen Hochschule “Wolfgang Ratke” Köthen 3, 29K38. Šjarnas, Vitautas I. (1978), Teoretičeskie osnovy obučenija neskolkim jazykam v škole (na materiale Litovskoi SSR) [Theoretical Basis for Teaching Several Languages in School (on the Data of Lithuania)]. Moscow: NII PRJaNŠ. Taranov, Leonid N. (1976), Optimizacija ponimanija učebnogo materiala v usloviach programmirovannogo obučenija. [Optimisation of Comprehension of Study Materials in Programmed Learning]. Candidate dissertation. Kiev 1. Taylor, Insup/Taylor Martin M. (1983), The psychology of reading. New York et al.: Academic Press. Tuldava, Juhan (1978), Sõnavormide esinemus eestikeelses tekstis [Occurrence of word forms in Estonian texts]. In: Acta et Commentationes Universitatis Tartuensis 446, 107K126. Tuldava, Juhan (1993a), The Statistical Structure of a Text and its Readability. In: Quantitative Linguistics 52, 215K227. Tuldava, Juhan (1993b), Measuring Text Difficulty. In: Glottometrica 14, 69K81. Uibo, Heli (1995), Computer Readability Analysis of Estonian Texts. In: Family and Textbooks. (Eds. Inger Kraav/Jaan Mikk/Larissa Vassiltchenko). Tartu: University of Tartu, 96K114. Usova, Antonina V. (1970), Vlijanie sistemy samostojatelnych rabot na formirovanie u učaščichsja
921 naučnych ponjatij (na materiale kursa fiziki pervoi stupeni) [Influence of independent learning on the formation of scientific notions by students (on the basis of physics in middle grades)]. Leningrad: Herzen State Pedagogical Institute. Usova, Antonina V. (1978), Psichologo-didaktičeskije osnovy formirovanija u učaščichsja naučnych ponjatij [Psychological and Didactical Basis for Forming Scientific Concepts by Students]. Čeljabinsk: Čeljabinsk State Pedagogical Institute. Vanecek, Erich (1995), Zur Frage der Verständlichkeit und Lernbarkeit von Schulbüchern. In: Schulbuchforschung. (Hrsg. R. Olechowski). Frankfurt am Main u. a.: Peter Lang, 195K215. Weaver, Brenda M. (1992), Defining Literacy Levels. Bindery Line/Charlotteville et al.: Story House Corporation. Weidenmann, Bernd (Hrsg.), Wissenserwerb mit Bildern. Instruktionale Bilder in Printmedien, Film/ Video und Computerprogrammen. Bern/Göttingen u. a.: Verlag Hans Huber, 1994. Wiio, Osmo A. (1968), Readability Comprehension and Readership. In: Acta Universitatis Tamperensis. Tampere, Ser. A, 22. Wilke, J. (1979), Abbildungen. In: Informationen zu Schulbuchfragen 34, 88K97. Willows, Dale M./Houghton Harvey A. (Eds.), The Psychology of Illustrations. Vol. 1, New York u. a.: Springer Verlag, 1987. Zakaluk, Beverley L./Samuels, S. Jay. (eds.), Readability: its Past, Present, and Future. Newark, Delaware: International Reading Association, 1988a. Zakaluk, Beverley L./Samuels S. Jay (1988b). Toward a New Approach to Predicting Text Comprehensibility. In: Zakaluk/Samuels 1988a, 121K 144. Zakaluk, Beverley L./Samuels S. Jay (1996), Issues Related to Text Comprehensibility: The Future of Readability. In: Revue Quebecoise de Linguistique 25 (1), 41K59.
Jaan Mikk, Šiauliai (Lithuania)
65. Linguistic automaton 1. 2. 3. 4.
Introduction The architecture of a linguistic automaton Conclusion Literature (a selection)
1.
Introduction
The necessity of creating actually functioning polyfunctional linguistic automata (LA), capable of written and oral text processing
has been prompted by ever growing demands of contemporary information industry. However, the idea of verbal-mental activity (VMA) modeling has a long history. Engineers, theoreticians, writers and artists have been engaged in creation of humanoids. Two conflicting trends intersected on that way reflecting two different approaches to the study of human behavior: a systemic classificatory (nomothetic) approach and
922
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
an individual ideographic approach. The former is more characteristic of natural science and technology. It directs the scholar towards revealing basic regularities in the material of study, which appear as meagre but easily formalized schemes. Each of them being able to describe similar facts becomes the basis for devising technical devices which serve as analogs of phenomena and objects under study. The latter approach is aimed at an exhaustive description of an individual object or its features crucial for understanding the essence of the phenomenon on the whole. Such an approach is inherent in the methods of research employed by a traditional linguist. With history of language and speech modeling in mind, we should say that nomothetically based are those technical devices which simplistically imitated some physical actions and elementary logical operations performed by man. That is why the major jeopardy of nomothetic modeling of human intellect and VMA is that the model may miss the essential features of language and speech. In their drive to avoid primitive treatment of human VMA humanity, scholars and fiction writers describe it relying on their own intuition and ability of comprehending the essence of things through their individual-ideographical description. In doing so they strive for an insight into the very depths of human speech behavior and mysteries of basic consciousness with its logical mechanisms guiding this behavior, and enigmatic springs of sub- and super-consciousness. Therefore ideographic models don’t have a constructive character, but a descriptive and illustrative one. They can’t be produced technically, neither can they produce artifacts analogous to human VMA. In the late forties the advent of computers able to perform logical operations alongside with calculations gave an impetus to the very encouraging idea to unite mathematicians and linguists and to work out an integral approach to computer-assisted solution of linguistic problems. As a result by the early sixties a scientific branch called language engineering assumed shape. Its very first steps showed that a mechanical integration of both approaches was impossible. Simultaneously epistemological and ontological conflicts and barriers separating natural language (NL) from computer language were revealed. The matter was that at the start of computer models of language and
speech, mathematicians-programmers and linguists-theorists used ideas of discreteatomic and systemic structure of language going back to Leibniz, Russell and early Wittgenstein. According to them, NL like artificial languages of science and control is a special type of logical calculus (cf. Johansen 1993, 27K37; 52). To tell the truth, the leading ideologists of this approach realized that operations of linguistic calculus could be applied to some ideally normative text only. As to the actual oral and written speech, it distorts the ideal models. At every turn here we come across accidents de paroles, i. e. fragments of phrases, slips of the tongue; the speaker starts saying what he did not want to say, slurs words and sounds. These phenomena can’t be put into formalized computer language (Hjelmslev 1953, § 19; Chomsky 1962, 530). Analysis of failures in creation of real systems of natural language processing (NLP) exclusively on the basis of nomothetic calculus has shown that NL possesses a fuzzy and continuous structure using fuzzy logic and tolerance relations between its elements. NL is not a calculus, but an open communicative system, which does not so much use usual, i. e. socially fixed connections between signifiant and signifié and between various signs, as it does use secondary semiosis, i. e. non-enumerable occasional associations between components of signs (Melnikov 1978, 256 f.). The epistemological assumption according to which human VMA as well as human behavior on the whole can be fully formalized in terms of a single system of heuristic rules is not true (Dreyfus 1993, 40 f.). As a result it has become clear that between computer language and human language there exists a barrier of alienation, i. e. a barrier between description of stationary processes in inanimate matter and description of non-stationary processes characteristic of human VMA. It manifests itself in such “genetic” antinomies (Piotrowkij/Beliaeva/Popeskul et al. 1983, 168K169) as (1) contradiction between the open, ever developing NL and the closed computer language forbidding any arbitrary alteration and development; (2) absence of correspondence between the equivalence relational nature of computer language and the tolerance relational nature of linguistic sets; (3) contradiction between non-ambiguity of meaning of the text and its units for
65. Linguistic automaton
923
the computer and multi-aspectual character of NL message, which usually carries three types of meaning, of which two are dictated by the pragmatics of the interlocutors and the third one is a socialized, collective sense, independent of the former two.
(5) an ability of further development and improvement prompted by the necessity of LA adaptation not only to communicative and informational evolution of society, but also to the pragmatics of individual users (Piotrowski 1995, 288 f.; Romanov et al. 2003, 235).
The above-described alienation barrier is especially well-delineated in semantic and syntactic text analysis, as well as in oral speech recognition. (As for routine operations like making alphabetical, frequency or reverse lists, here the logical calculus fully justifies itself). Neglect of these discrepancies and paradoxes invariably leads to a deadlock of all elaborators of NLP and machine translation (MT) systems working in the framework of the nomothetic strategy. That is why one has to seek for new theoretical solutions and thereupon develop such technological procedures, which could alleviate the rejection of NL by the computer language calculus. These approaches and procedures do not only rely on nomothetic, but also on ideographic study of generation and recognition mechanisms of oral and written speech as well on analysis of its informational and statistical features (see art. no. 60 and 61).
LA is built as a hierarchy of several program modules. Some of them are built as multilevel systems of sub-modules (see 2.6.). Each module performs a particular operation of text processing and can function either independently or in combination with other blocks. LA includes two sets of modules. The first one embraces the following “intellectual” modules (M.):
2.
2.1. Module of speech recognition, “understanding” and synthesis This module providing the main operations is built on the basis of modern speech input and output systems (Lea 1980; Furui 1994, 50 f.). It uses a method of probabilistic hypotheses which are then sieved through semantic-syntactic and pragmatic filters. Modules (3), (5) and (6) most often serve as such filters (cf. Kosarev/Piotrowski 1997, 114, 116K117). Such a method provides an opportunity to use LA for oral speech control of data bases and extraction of necessary information from them, and in construing lines of multi-language dialogue to provide for recognition and MT of exchanges by speakers of different languages, as well as telephone calls to data bases, detailing of bank accounts, railway time-tables, etc., including also automated speech recognition and understanding in cellular telephone systems and the Internet (Zue 1997, 9 f.; Furui 1998, 1K6). A special branch of LA application is assistance to the blind, deaf or blindand-deaf-dumb patients (Langer/Newell 1997, 1K3).
The architecture of a linguistic automaton
Linguistic automaton is a well-balanced complex of hardware, software, linguware and sometimes tutorware, interacting with a powerful linguistic data and knowledge base (LIB). The informational and socio-economic situation at the turn of the twentyfirst century demands the following qualities from LA: (1) polyfunctionality, i. e. an ability to carry out various types of processing done on large streams of textual information; (2) reducing informational losses to a minimum and relieving the rejection effect between NL and the language of LA; (3) viability, which means an ability of LA to retain its most essential properties despite such catastrophic influences on LA as failure of peripheral devices or segments of computer memory, distortion of some text fragments, etc. (4) interface with different communication channels, the Internet in particular;
(1) M. of speech recognition, understanding and synthesis; (2) M. of language, text or text fragment recognition; (3) M. of classificatory indexing; (4) M. of information retrieval; (5) M. of synopsis; (6) M. of machine translation; (7) tutorial M. (8) M. of lexicon creation and support (9) M. of document creation Let’s consider the operations performed by these modules.
924
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
2.2. Module of language, text or text fragment recognition In processing a multi-lingual message stream it becomes imperative to recognize the language in which a certain text or its fragments are pronounced or written. That is why the language recognition module is an important constituent part of LA, working both in the mode of oral reference and as a block processing big corpora of multi-lingual information, for instance, UN and EU documents. This problem can be solved deterministically by means of indicators relative to a given set of languages or, in rare cases, stochastically relative to languages of one and the same language family. The problem’s universal solution on an open set of languages is impossible, as one can’t set language family attribution indicators beforehand. So far as the indicator method is used in the majority of LA modules, let’s consider its main principles. In case of a written text the solution depends on either alphabet recognition or a search for specific graphemes, letter combinations or most frequent word forms. Technology of recognition depends here first and foremost on what languages have been described in LA. Thus, in case there is only one language in that description set using the Cyrillic alphabet, e. g. Russian, then recognition of Cyrillic performed by LA serves as an indicator for activating linguware dedicated to Russian text processing. If other Slavic languages using Cyrillic are present in the set, one has to involve additional indicators: for Byelorussian it is the letter ў, for Serbian, the letters Ђ, Ј, Љ, Ы, Ћ, for Ukrainian, graphemes ї, є, and for Russian, a simultaneous textual occurrence of letters Ы, Ъ, Э. Bulgarian is recognized by absence of all the above-mentioned indicator-graphemes except letter Ъ. The matter becomes more complicated when the languages represented in the given LA use common graphics lacking letters which could serve as indicators of this or that language. Such a situation also arises when LA receives a text without diacritics as is the case with the Internet. Here the most frequent word forms are used as indicators on condition that each of them characterizes only one language out of those contained in the LA set. Thus, of the five most frequent word forms used in the texts of LOB Corpus (Hofland/Johanson 1995) only the first four K the, of, and, to K may serve as indicators
of the English language. As for the word form in it can’t be an indicator of ‘Englishness’ of the text because it is frequently used elsewhere, for example, in German, Italian and some other languages. German also possesses four specific word forms in this frequency band K die, der, und, zu (Meier 1964, 112). In French only one diagnostic word form is found K et (Imbs 1971, 1); in Italian there are two: di and egli (Bortolini/ Tagliavini/Zampolli 1971, 719). In a Spanish frequency list such indicators appear from the seventh position (Juillard/Chang-Rodriguez 1964, 385). However, the deterministic procedure is not error-proof. As a matter of fact, if we mean independent recognition of characters of a document, then presence of such homographs as Russian cop ‘litter’ and English cop ‘to catch, nab’; Russian ce ‘those’ and French ce ‘this’; Russian cepa ‘sulphur’ and Spanish cepa ‘butt, base’; Russian pe mus.: ‘re, D’ and Romanian pe ‘on’ can’t guarantee a 100 %-exact attribution of all word forms to Cyrillic or Latin alphabet. As for oral speech, where the part of diagnostic indicators is played by sounds and their combinations specific for a particular language, we encounter variability of pronunciation with different speakers of that language. In order to work out probabilistic pronunciation standards, characteristic of this or that language, multi-lingual LIB must be created including texts read by numerous (up to 100) speakers of different languages (Schultz/Waibel 1998, 207). Of special importance here is recognition of sounds previously not known to LA. A solution is reached here by using a subtle statistical analysis on the basis of hidden Markov models (Savic 1998, 217 f.). Sets of characteristics necessary for recognition must be independent of the type of the text and pronunciation peculiarities of a particular speaker. On the other hand, misprints and other polygraphic failures may entail errors in recognition of diagnostic indicators by LA. Thus, English and may be read by LA as German und, and French et may be mistaken for Spanish el, and vice versa. In order to avoid these errors it appears to be reasonable to replace the deterministic recognition with a more cautious and complex, but more reliable probabilistic ideographic procedure taking into account both combinatory and statistical properties of indicators occurring in the text processed. This technique is also workable in language recognition of an oral
65. Linguistic automaton
message and in indexing, i. e. in automated attribution of a written or oral text to a certain sub-language or subject. 2.3. Module of classificatory text indexing This problem, concerning the attribution of the text to a certain subject of a preset multitude of subjects (Hamill/Zamora 1980, 396K401), is solved by means of lexical-statistical methods, which make it possible to correlate the text with a certain thematic category on the basis of probability correspondence of the document’s key lexical units to the preset lexicon standard. Taking into consideration the fuzzy character of a majority of natural language entities, to assess correspondence of the document and the thematic category such estimates offered by Zadeh (1973, 30 f.) as low, average, high, very high correspondence are used. The indexing module works efficiently on condition that LA possesses a strictly structured description of a particular subject domain. The latter may include: (1) dialogues of inquiry service, providing information on addresses, telephone numbers, tickets for air-, railway- and sea-travel, weather, etc. (Zue 1997, 5K7), (2) oral surface-to-water (pilot service) and surface-to-air intercom; the latter does not only embrace civilian airline traffic control, but also strategic air-force control (Loatman/Post 1989, 41 f.), (3) text stream of postal and telegraph communication or documents fixing malfunctions of aircraft (Piotrowski/Beliaeva/Popeskul et al. 1983, 228K234), (4) corpora of patent documents, information messages, abstracts of conference proceedings and business talks, papers arriving through the Internet and Email channels. The above-mentioned sub-languages are either nomenclatures possessing a limited set of utterances or are built as calculi by means of which LA, using situation frames, recognizes every text extract. Therefore, a generalized estimate of hypotheses describing the meaning of the input text-signal is a weighted sum of syntactic, semantic and pragmatic information estimates extracted by LA from the document or its fragments (Kosarev/Piotrowski 1997, 115K116). The indexing module makes it possible on a rather large statistical material to control a
925 general state of the thematic field and the direction of information streams reflecting the development of interests of state service or private companies. It also provides an opportunity of selecting top priority documents for further detailed semantic analysis. The indexing module fulfills one more task. The matter is that in language recognition the correct phonetic and graphic recognition of all lexical units is not necessary, whereas in the process of indexing we have to identify the meaning of a majority of lexical units. Without it, further text processing tasks (information retrieval, document annotation, MT, etc.) are not practicable. This multi-level procedure, aimed at extraction of syntactic (acoustic and graphic), semantic (combinatory and lexemic) and pragmatic (situational) information is necessary not only for normalizing of oral texts put into LA by means of continuous speech recognition devices which take many erratic decisions. It is also necessary for batch processing of large corpora of segmented written documents. Most often such necessity arises in batch translation of Chinese and Japanese texts (Andrezen/Kogan/Kwiatkowski et al. 1992, 505 f.), in which spaces between words written in logographic or syllabic alphabet signs are not marked specially. If such a text is written in digital codes, the given procedure is necessary for identification of lexical units which are sense quanta of the text. Moreover, this analysis is necessary in processing of document streams of logographic signs put into LA by means of reading devices, as those devices offer the user several alternative interpretations for practically every logographic sign. 2.4. Module of information retrieval The task here consists in extraction of information from the LIB at the user’s request. Requests may be constant or they may change depending on the particular user’s requirements (Anisimov 1988, 216K220). Being a development of the text-indexing sub-system, this module uses the abovedescribed procedures of lexical-statistical analysis. Included into the base are full texts of documents (full-text bases) and their description in the form of sets of key lexical units, grouped into synonymic sets, if necessary. The user’s queries are brought into the form of search templates characterized by analogous structure. The degree of semblance between the request and the docu-
926
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ments from the linguistic information database is estimated on the basis of overlap of the query elements as well as their probability weights and the analogous characteristics of the document. If semblance degree exceeds the threshold preset in the module, the document is output to the user. Such an approach makes it possible to correlate incomplete and fuzzy queries with text corpora which are not known to the user beforehand, and to obtain necessary and often unexpected information (Hamill/Zamora 1980, 396 f.). An urgent task of information retrieval development, especially in a dialogue mode, is its hooking to the Internet, which embraces full-text documentary bases and envisages their availability to users with different and fuzzy requests. 2.5. Module of synopsis or summarization The necessity of computer-assisted information compression is caused by regular information overloads, when the user is not able to process the input stream of documents. In this case the special module must compress them in such a way as to retain the essential information. This compression is effected in two ways. The first one presupposes that slots of the preset LA frame are filled with most words with high information load and expressions obtained at the previous stage of LA’s work (3). Simultaneously some simple expert functions may be performed (Beliaeva/Piotrowski/Popeskul et al. 1983, 192 f.; cf. Mani 2001, 201K252). Working in the second way, the module selects from the text the most informative sentences forming the synopsis. Usually, the process of compression is realized in a man-to-machine dialogue for the user to set a degree of text compression. As a rule, the user starts with a high degree of compression in order to get a general idea of the subject of the document. Thus, a synopsis containing 5 percent of the sentences of the text can retain up to 70 percent of its information on condition that the sentences with the highest information loads have been selected. With a lower compression degree completeness of information increases. At a compression rate of 25 percent the synopsis may retain all the basic information of the text (Preston 1997, 10K11). The degree of informativeness of each sentence is determined ensuing from its position in the text (the headline, the initial fragment, the concluding fragment, etc.); concentration of terms very frequent in
other sentences and throughout the text; formal markers of independence and dependence of the fragment (i. e. presence/absence of connectors), etc. Using these parameters, the module supplies each sentence or fragment with a summary estimation index, which is compared with a preset threshold estimate of information load. The latter functions as a filter which includes a fragment into the synopsis in case its index exceeds the threshold estimate or, otherwise, sieves out this fragment (Ashkinazi/Makarskaya/Nymm 1996, 192K193). The procedure of extracting is usually effected in the language of the original. If a translation is necessary, then module (6), i. e. MT is activated. 2.6. Module of machine translation It is common knowledge that American, Soviet and Japanese attempts of the fifties through to seventies to create working MT systems on the basis of the nomothetic approach were not successful. The European Eurotra project also was a failure (Valentini 1991, vol. 1K2), as it ensued from an erroneous conviction that NL is a logical calculus (cf. 1.). That is why not only European specialists but also contemporary American language engineers, having rejected the global-deductive method, turn to an inductive iterative multilevel approach to devising and arranging NLP systems, with the MTmodule in LA among them (Piotrowski/Beliaeva/Popeskul et al. 1983, 168 f.; Wu 1992). This approach is based on the results of studies in the field of informational and statistical oral and written speech properties, according to which the lexicon carries the basic part of textual information (see art. no. 60 and 61). Therefore, the central part of this module’s LIB is formed by a complex of bilingual automatic dictionaries (AD) for all languages and sub-languages processed by the automaton (Beliaeva 2003). This lexical complex acts simultaneously as a knowledgeand-language base for other modules. Basic elements of every AD are the lexicon entries containing input lexical units and their output equivalents, as well as semantic, morphological and syntactic (valence) descriptions of all these lexical units (Piotrowskij/ Beliaeva/Popeskul et al. 1983, 177 f.). Thus, AD contains widely used and terminological lexical units can operate, too, alongside with toponyms, anthroponyms and abbreviations.
65. Linguistic automaton
927
Selection of everyday and terminological lexicon takes place in LA on the basis of general-purpose and specialized frequency dictionaries, accompanied by distribution studies of lexical units in a particular domain. The organization of the lexicon entry, or the way its head lexical unit looks, is determined by the language structure. For such a root-isolating language as Chinese it may be a syllabic morpheme represented by one logographic sign or a combination of such signs. For agglutinative languages such a lexical unit may be represented by the basic word form. For synthetic languages with internal inflection of the Semitic/Hamitic type it may be a three-consonant root. For fusional languages with external inflection this part is played by the stem. For inflectionalanalytical languages like English or French such a lexical unit may be represented by the basic word form or the stem (Andrezen/ Kogan/Kwiatkowski et al. 1992, 505 f.). AD possibilities are considerably extended by translation memory (TM). The latter is formed on the basis of parallel statistical analysis of the input text corpus and its translations (Danejko/Maskina/Nehaj et al. 1971, 257K265; Brown/Cocke/Della Pietra et al. 1993, 79 f.; Koehn/Och/Marcu 2003, 133K139). TM includes whole sentences or sufficiently long segments together with their most typical translations. Probable failures in correct recognition of the input segments and inadequacy of their translations are taken into account, the latter are compared with the results of the level-by-level lexical and grammatical translation (see below); simultaneously quantitative estimates of TM sub-programs efficiency are offered (Smadja/McKeown/Hatzivassiloglou 1996, 23 f.). The LIB also includes paradigms of inflectional endings and agglutinative affixes, sometimes suffixes and prefixes as well as programs of semantic and syntactic analysis.
no. 74). When the text has been passed through acoustic and graphic recognition procedures and attributed to a particular language or sub-language, the MT-module starts its multi-level processing operations which have a step-by-step reduction of ambiguity for their main idea. The reduction in question progresses upwards from lexical facts to semantic-syntactic and pragmatic targets. The MT-module consists of the following submodules:
2.6.1. Functional principles of the MT-module The process of MT is organized as a package-level hierarchy based on the information-theoretic statistical approach, and taking into account, contemporary ideas concerning human message generation and comprehension. (These ideas have not been obtained by observation, but rather by nomothetic observation and reasoning; see art.
(1) If at level n of the MT process formation of output text structure is refused, the user is displayed those results of translation which have been obtained at the preceding level. (2) If at level n the LA has created several output patterns, then level n C 1 receives all these variants for the user or the LA itself to resolve ambiguity at further levels (Beliaeva/Kondratjeva/
(1) a lexicon submodule where lexical units of the input text are recognized; (2) a micro-segment submodule where nominal and verbal syntagms taken in isolation are translated; (3) a macro-segment submodule where recognition and processing of functional segments, i. e. subject and predicate groups, etc., is carried out; (4) a syntactic submodule in which the surface structure of the input sentence is determined and the corresponding output structure is selected; (5) a textual submodule in which, depending on the subject, structure and pragmatics of the text, the final translation is made. Each submodule is responsible for the recognition of input units of the corresponding level, their description as well as the choice of output equivalents. In the lexicon submodule the lexical units and fragments received from TM get their lexical and grammatical characteristics directly from the AD. In the submodules of higher levels semantic and syntactic characteristics are passed from below or are elaborated in the given submodule. In the batch processing of large streams of non-normalized and even deficient (impaired) texts the LA constantly faces “junk” situations. Let us consider the most typical of such flaws and some techniques aimed at their correction.
928
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Piotrowski 1990, 28 f.). It was found that based on limited synergetic opportunities, the LA can select only that output variant which is closest to the semantic and syntactic pattern of the input text and to the semantics of the domain processed. The MT-module may be used both by a user who has a poor or no command of the input language, and from the automated work station of a qualified translator. Following the requirements the module must either put out a rough translation sufficient for a general understanding of a foreign text or a high-quality MT rigidly focused on the given subject field, the user’s aims and the type of the documents processed (Beliaeva 1998, 224; 2000, 93). 2.7. The tutorial module The latter supports native and foreign language learning. Its structure and functions are considered in art. no. 63. 2.8. The module of lexicon creation and support Creation of LIB providing for a comparative analysis of large oral and written parallel text corpora has required elaboration of one more LA subsystem, namely the module of lexicon creation and arrangement. First and foremost, frequency, alphabetic and reverse dictionaries, and concordances are meant here. They originated as early as in the sixties (SL 1971, 143K176; 193K296; Lacik 1980). Presently, this module is also applied to the creation and maintenance of bilingual resident dictionaries and to the creation and extension of ADs (Wilks/Slator/Guthrie 1996, 85 f.). A statistical study of contexts in the parallel corpus provides an opportunity to narrow down polysemy of the input word and make the choice of its output equivalents more exact (Dagan/Itai 1994, 563 f.). 2.9. The module of document creation The latter is based on the notion of controlled language. Such languages are elaborated for automated creation of specifications attached to a particular equipment to be translated into other languages. The controlled language consists of a set of frames, each of them a statistical generalization of the lexical and grammatical patterns most typical for the documents of the given sub-
language (cf. Merkel 1996; Piotrowskij 1999, 205K208; Piotrowski/Romanow 2002, 128K 133).
3.
Conclusion
The LA which includes all the above-listed modules and packages has not been created yet. But already existent at present are real polyfunctional systems which are its prototypes. Among them one can mention TAND systems capable of probability indexing, synopsis and MT of patents, scientific, technical and business papers (Apollonskaja/Koliban/ Piotrowskij et al. 1983, 40K52), a tutorial MT ‘TUTSY’ system (cf. art. No. 63), oral MT systems (Yokoo/Takezawa/Sagisaka/ et al. 1998, 203 f.). In order to form a complete LA we have to agree on the principles of the input text analysis and generation of output results of this analysis, and, further, on the appropriate aggregation of the automaton’s modules. Experience gained by language engineering indicates that behind the alternatives of these principles there is a choice of either the global or the iterative stratified approach. The former is aimed at getting a complete and non-contradictory formal representation of the analyzed text. It is not actually important here whether the processing is performed by means of consecutive transformations (transfers), whether the output is written in interlingua in a mediatorlanguage in terms of a selected code or directly in NL. A weak point of this approach consists in the fact that its realization is blocked by the rejection barrier and its inherent genetic paradoxes. This barrier may be overcome by a consistently stratified approach whereby the problem of a non-contradictory text description is solved stage by stage and is at no point irrevocable. Such an approach particularly is appropriate when the LA has to do with large streams of nonnormalized texts containing numerous ambiguous or unrecognized lexical and grammatical units. Similarly, there are two alternative approaches to the construction of the LA itself (Piotrowski 1995, 288 f.): on the one hand, a deductive top-down branching of the LA from the semantic-pragmatic level to lexicalgrammatical and phonetic-graphical packages of text recognition; on the other hand, an iterative bottom-up arrangement of the
65. Linguistic automaton
automaton from elementary blocks to more complex modules of automatic text understanding by the automaton. Despite all its attractiveness the former approach is incapable of covering the whole multitude of problems entailed by the construction of a polyfunctional LA and does not provide an opportunity of using the achievements gained in the course of work on individual modules. As a result, a deductively built LA is vulnerable to the genetic paradoxes of man and computer. An iterative approach realized through an open module-level organization appears to be more constructive. This type of arrangement makes it possible, on the one hand, to drop out redundant modules and to include necessary ones, and on the other hand, to correlate each module with a particular level of human message generation and comprehension. The manto-machine principle of organization and improvement of the LA, as well as probabilistic and informational techniques of text processing applied in it, have been prompted by current concepts of the open occasional-communicative nature of the human VMA and a multi-level generation and decoding of a NL message. This focus enables the LA to overcome various failures and deadlocks evident in the processing of documents. Viability is manifested here by the safety of modules’ vital functions when integrity of the whole LA’s organism has been impaired. This effect is of crucial importance in an automatic batch processing of large non-normalized text corpora. Attainment of the LA’s viability alongside with a wide usage of various preset frame-templates and scenarios can be regarded as an experiment in creation of primitive synergetic mechanisms in NLP systems (Czyzakovsky/Piotrowski 1994, 177K185; Köhler 1993, 42K49).
4.
Literature (a selection)
Andrezen, Vladimir/Kogan, Leonid/Kwiatkowski, Wladimir/Minvaleev, Renat/Piotrowski, Rajmund/ Shumovsky, Vladislav/Tioun, Elena/ Tovmach, Jurij (1992), Automatic Dictionary Organization in NLP Systems for Oriental Languages. In: Actes de COLING-92, 23 K 29 août 1992. Nantes: Geta (IMAG) Association Champollion, 505K509. Anisimov, Anatolij Vasil’evič (1988), Informatika. Tvorčestvo. Rekursija. Kiev: Naukova dumka. Apollonskaja, Tat’jana Abramovna/Koliban, Valentin Vladimirovič/Piot-rowskij, Rajmund Genri-
929 chovič/Popeskul, Anatolij Nikitovič (1983), Using Frames for Automatic Abstracting of French Patents. In: Automatic Documentation and Mathematical Linguistics 17 (1), 40K52. Ashkinazi, Vitalij/Makarskaya, Svetlana/Nymm, Voldemar (1996), Sense recognition and understanding in NLP-systems (text abstracting). In: SPECOM ’96, International Workshop “Speech and Computer”. St.-Peterburg, Russia. 28K31 October 1996. Proceedings. St.-Peterburg, 192K193. Beliaeva, Larissa (2000), Machine Translation Methods and Text Structure as a Source for Translation Competence Study. In: Across Language and Cultures 1 (1), 85K96. Beliaeva, Larissa (2003), Machine Translation versus Dictionary and Text Structure. In: Journal of Quantitative Linguistics 10, 193K211. Beliaeva, Larissa (1998), Correlation of the Text Structure and the Machine Translation Method. In: Proceedings. SPECOM ’98, International Workshop “Speech and Computer”. St.-Petersburg, Russia. 26K29 October 1998. St.-Petersburg: Evropejskij Dom, 223K228. Beliaeva, Larissa/ Kondratjeva, Julia/ Piotrowski, Rajmund/ Sokolova, Svetlana (1990), Abstract from the Leningrad MT Project. In: Society for Conceptual and Content Analysis by Computer (SCCAC). Newsletter N 5, 1989/90. Bowling Green O.: State University, 26K35. Bortolini, Umberta/Tagliavini, Carlo/Zampolli Antonio (1971), Lessico di frequenza della lingua italiana contemporanea. Pisa: Garzanti. Brown, Peter F./Cocke, John/Della Pietra Stephen A./Della Pietra, Vincent J./Jelinek, Frederick/Lafferty, John D./Mercer Robert L./Roossin, Paul S. (1993), A Statistical Approach to Machine Translation. In: Computational Linguistics 19 (2), 79K 85. Сhomsky, Noam A. (1962), Explanatory models in linguistics. In: Logic, Methodology and Philosophy of Science. Proceedings of the 1960 International Congress. (Eds. E. Nagel/P. Suppes/A. Tarski). Stanford CL.: Stanford University Press, 528K550. Czyżakowski, Walentin/Piotrowski, Rajmund (1993), Über den gegenwärtigen Stand der automatischen Textverarbeitung in der Forschungsgruppe ‘Sprachstatistik’ (Zum Problem des linguistischen Automaten). In: Glottometrika 14 (Ed. Gabriel Altmann). Trier: Wissenschaftlicher Verlag Trier, 161K189. Dagan, Ido/Itai, Alon (1994), Word Sense Disambiguation Using a Second Language Monolingual Corpus. In: Computational Linguistics 20 (4), 563K596. Danejko, Marija V./Maškina, Ljudmila E./Nehaj, Olga A./Sorkina, Vera A./Šaranda, Anatolij N. (1971), Studio statistico della distribuzione lessicale delle forme. In: Statistica linguistica (con
930
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
l’aggiunta di due appendici). Bologna: Riccardo Patron, 255K267. Dreyfus Hubert L. (1993), What Computers Still Can’t Do. Cambridge Mass.: MIT Press. Furui, Sadaoki (1994), Towards the Ultimate Synthesis/Recognition System. In: Voice Communication between Humans and Machine. (Eds. D. B. Roe/J. G. Wilpon). Washington D.C.: Nat. Academy Press, 450K466. Furui, Sadaoki (1998), Perspectives of Speech Processing Technologies. In: Proceedings. SPECOM ’98, International Workshop “Speech and Computer”. St.-Petersburg, Russia. 26K29 October 1998. St.-Petersburg: Evropejskij Dom, 1K6. Hamill, Karen A./Zamora Antonio (1980), The Use of the Titles for Automatic Document Classification. In: Journal of the American Society for Information Science 31 (4), 396K402. Hjelmslev, Louis (1953), Prolegomena to a Theory of Language. Baltimora: Waverly Press. Hofland, K./Johansson, S. (Eds), Word Frequencies in British and American English. Bergen: The Norwegian Computing Center for the Humanities, 1995. Imbs, Paul (Ed.), Etudes statistiques sur le vocabulaire français. Dictionnaire des fréquences. Vocabulaire litteraire des XIXe et XXe sie`cles. II K Table des fréquences décroissantes. Paris: Klincksieck, 1971. Johansen, Jorgen Dines (1993), Dialogic Semiosis. An Essay on Signs and Meaning. Bloomington/Indianapolis: Indiana University Press. Juilland, Alfonse/Chang-Rodriguez, Eugenio (1964), Frequency Dictionary of Spanish Words. London et al.: Mouton & Co. Koehn, Philipp/Och, Franz Josef/Marcu Daniel (2003), Statistical phrase-based translation. In: Proceedings of the Human Language Technology and North Anerican Association for Computational Linguistics Conference. Edmonton, Alberta: University Press, 133K139. Köhler Reinhard. Synergetic Linguistics (1993), In: Contributions to Quantitative Linguistics. Proceedings of the First International Conference on Quantitative Linguistics, QUALICO, Trier, 1991 (Eds. Reinhard Köhler/Burghard Rieger). Dordrecht et al.: Kluwer Academic Publishers: 41K 52. Kosarev, Yurij/ Piotrowski, Rajmund (1997), Synergetics and ‘Insight’ Strategy for Speech Processing, In: Literary and Linguistic Computing 12 (2), 113K118. Langer, Stefan/Newell, Alan (1997), Alternative routes to communication. Developing communication aids in close collaboration with users. In: Elsnews. The Newsletter of the European Network in Language and Speech 6 (4), 1K3.
Lacik, M. (Ed.), Obratnyj konkordans k romanu v stichach A. S. Puškina “Evgenij Onegin”. Debrecen: Kossuth Lajos Tudományegyetem, 1980. Loatman, Bruce R./Post, Stephen D. (1989), A Natural Language Processing System for Intelligence Message Analysis. In: Signal 42 (1), 41K45. Mani, Inderjeet (2001), Automatic Summarization. Amsterdam: John Benjamins. Mel’nikov, Gennadij P. (1978), Sistemologija i jazykovyje aspekty kibernetiki. Moskva: Sovetskoje Radio. Meier Helmut (1964), Deutsche Sprachstatistik. Zweiter Band. Hildesheim: Georg Olms. Piotrowski, Rajmund (1995), Mathematical Linguistics and Linguistic Automaton. In: Mathematical linguistics and related topics. Papers in Honour of SOLOMON MARCUS on his 70th Birthday (Ed. G. Păun). Bucureşti: Editura Academiei Române, 283K298. Piotrowski Rajmund (1999), Lingvističeskij avtomat (v issledovanii i nepreryvom obučenii). SanktPeterburg: RGPU im. A. I. Gercena. Piotrowskij, Rajmund G./Bielaeva, Larisa N./Popeskul, Anatolij N./Šingareva, Elena A. (1983), Dvujazyčnoe annotirovanie i referirovanie. In: Itogi nauki i techniki/VINITI AN SSSR, Ser. Informatika 7, 165K244. Piotrowskij, Rajmund/Romanov Yuri (2002), Behavior-Based Artificial Intelligence and 21-st Century: MT Conception. In: International Journal of Translation 14 (2), 127K150. Preston, Keith (1997), NetSumm and Information Overload. In: Elsnews 6 (3), 10K11. Romanov, Yuri/Zaytseva, Natalia/Zelko, Viktor/ Romanov, Alexander/Tovmach, Yuri/Chaplia Arkady/Anikina, Natalia/Blekhman, Michael/Precup, Alexander/Putin, Voldemar (2003), Artific Intelligence and Machine Translation in the XXIst Century. In: Journal of Quantitative Lingistics 10 (3), 215K238. Savic, Michael (1998), Automatic Language Identification. In: Proceedings. SPECOM ’98, International Workshop “Speech and Computer”. St.-Petersburg, Russia. 26K29 October 1998. St.-Petersburg: Evropejskij Dom, 217K221. Schultz, T./Waibel, Alex (1998), Adaptation of Pronunciation Dictionaries for Recognition of Unseen Languages. In: Proceedings. SPECOM ’98, International Workshop “Speech and Computer”. St.-Petersburg, Russia. 26K29 October 1998. St.-Petersburg: Evropejskij Dom, 207K 210. SL (1971), Statistica linguistica (con l’ aggiunta di due appendici). Bologna: Riccardo Patron, 1971. Smadja, Frank/McKeown, Kathleen R./Hatzivassiloglou Vasileios (1996), Translating Collocations for Bilingual Lexicons: A Statistical Approach. In: Computational Linguistics 22 (1), 1K38.
931
66. Phoneme-grapheme conversion Valentini, Erwin (Ed.), Studies in Machine Translation and Natural Language Processing. Vol. 1. The Eurotra Linguistic Specification. Vol. 2. The Eurotra Formal Specification. Luxemburg: Office for Official Publications of the European Communities, 1991. Wilks, Yorick A./Slator, Brian M./Guthrie, Louise M. (1996), Electric Words: Dictionaries, Computers, and Meanings. Cambridge, MA: MIT Press. Yokoo, Akio/Takezawa, Toshiyuki/Sagisaka, Yoshinori/Campbell, Nick/Iida, Hitoshi/Yamamoto, Seiiechi (1998), ATR-MATRIX: A Speech Translation System from Japanese to English. In: Proceedings. SPECOM ’98, International Workshop
“Speech and Computer”. St.-Petersburg, Russia. 26K29 October 1998. St.-Petersburg: Evropejskij Dom, 203K206. Zadeh, Lotfi A. (1973), Outline of a New Approach to the Analysis of Complex Systems and Decision Processes. In: IEEE Translation Systems, Man, Cybernetics SMS-3, 28K44. Zue, Victor (1997), Conversational Interfaces: Advances and Challenges. In: 5th European Conference on Speech Communication and Technology. Rhodes K 22K25 September 1997. Patras: University of Patras, 9K18.
Rajmund G. Piotrowski/Larissa N. Beliaeva, St. Petersburg (Russia)
66. Phoneme-grapheme conversion 1. 2. 3. 4. 5. 6. 7.
Introduction Dictionary look-up methods Rule-based methods Hidden Markov models Neural networks Hybrid systems Literature (a selection)
1.
Introduction
Phoneme-to-Grapheme conversion (P2GC) is the process of transcribing a string of symbols representing the pronunciation of a word or a sentence into a string of letters representing the corresponding orthographic form. The transcription in the opposite direction is the Grapheme-to-Phoneme conversion (G2PC). Both processes are central tasks in several speech technology applications. In particular P2GC is the last stage of large vocabulary speech recognition systems, while G2PC is the first main stage of unlimited vocabulary text-to-speech (TTS) systems. P2GC and G2PC are strongly related with each other in the sense that the same methods can be applied in both processes. Nevertheless, substantial differences may appear in the complexity and accuracy of the transcriptions depending on the application language. Inflectionally rich languages with many homophones create serious problems to P2GC. The same occurs to G2PC in languages with many homographs, or generally, with many letter strings pronounced differently in different contexts. In addition, stress assignment in G2PC significantly increases
the transformation complexity. In order to face ambiguity in the above cases subsequent syntactic and/or semantic processing is necessary. In the last two decades a vast number of G2PC and P2GC methods has been reported showing significant differences in the transformation accuracy on both symbol and word based measurements. The results of experiments carried out in different languages, corpora and domains, cannot be compared directly. Moreover, the use of exception dictionaries and the simultaneous stress assignment influence significantly the string transformation accuracy. In the following we present the most representative, important and well-documented systems according to the underlying transformation method.
2.
Dictionary look-up methods
A dictionary containing the orthographic and corresponding phonetic form(s) of all the words used in a specific application domain is employed. For each word to be transcribed a search is carried out in this dictionary. In G2PC the different pronunciations (heterophones) of the given word are extracted. In P2GC a list of words which are ordered according to their divergence from the given phonetic string is set up. This string usually includes substitutions, insertions, or deletions due to errors in speechto-phoneme transformation of the recognition system.
932
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Dictionary look-up is attractive for small vocabularies. For large vocabularies, the creation of the dictionary demands high costs and effort. Furthermore, it is impossible to include all the words which may be used, especially in public recognition systems or in unrestricted TTS synthesis.
3.
Rule-based methods
Rule-based methods use a set of ordered rules for sub-string transformation by parsing words in different directions or by applying a multi-pass process. The morphological and phonotactic rule-based information is acquired either manually or automatically. Accordingly, we distinguish between manual and automatic rule acquisition methods. In both cases parsing is carried out automatically. 3.1. Manual methods In a time-consuming process the expert(s) define(s) and evaluate(s) a set of rules in a database of graphemic/phonemic word pairs. In practice, as the rule set increases in size, the determination of the rule application order and the development of a user-friendly framework for rule validation become more and more difficult. Generally, the knowledge-based approach requires a large amount of linguistic rules and an appropriate evaluation framework. Another disadvantage is the low portability across languages or domains. In order to face these problems, several semi-automatic inference methods have been introduced which facilitate the rule definition process, e. g. linguistically similar grapheme/ phoneme pairs are extracted using statistical methods, more general linguistic classes are defined, etc. The manual G2PC rules of the MITalk (Allen/Hunnicutt/Klatt 1987) attain word accuracies ranging from 66 % to 76.5 % including stress assignment (Hunnicutt 1976). Word accuracy of 85 % is reported by Groner/Bernstein/Ingber et al. (1982) without stress acquisition in G2PC employed in the Speech Plus Prose 2000 system. The performance is increased up to 97 % by adding an exception dictionary of 3000 words. Grid data structures and methods of multi-level data synchronization are used to produce streams of linguistic representations such as the Speech Maker formalism developed for Dutch (van Leeuwen 1993).
Spelling rules were formulated using generative phonology methods and were evaluated in speech recognition tasks by Yannakoudakis and Hutton (1991). Two lexicons of 97.000 and 11.500 words containing the alignment of the graphemic and phonemic representation are used to detect inconsistencies of a rule-based system. Afterwards, multiple lexicons are created according to the word phonemic length, and for each lexicon a context-sensitive rule set is defined as a function of the phoneme position. In the parsing process the rules are applied sequentially, and the richest phonemic context is preferred. The significant influence of the lexicon size in the P2GC process is demonstrated by giving word accuracies of 72.4 % and 33.7 % on the small and large lexicon respectively. Recently, PC-KIMMO, a program for the construction and testing of two-level rules was used for the conversion between the graphemic and the phonetic forms of words for the Modern Greek language (Sgarbas/ Fakotakis/Kokkinakis 1998). Fifty-two twolevel rules were tested on a set of the 10.000 most frequent Greek words. 3.2. Automatic methods 3.2.1. Inductive learning Inductive learning methods extract contextsensitive rules from a body of training data based on statistical measurements. The reusability of the induction approach on different corpora, languages and domains and the minimum developing cost in comparison to manually defined linguistic knowledge are the most important advantages of this dataoriented method (van Coile 1990). In the literature a great number of inductive methods is met. Klatt and Shipman (1982) detect letter-to-sound rules taking into account two letters in the left and right part of the transformed letter. A 20.000 word dictionary is processed by a semi-automatic training method to create letter-tosound rules. In the parsing process, if contradictory rules are met, the most common rule is applied. A tree data-structure replaces the rule hierarchy for implementation efficiency, which is a common solution in subsequent rule based transformation methods (Lucassen/Mercer 1984, Daelemans/Bosch 1997). This method gives a letter accuracy of 93 %. A method based on information theory (Lucassen/Mercer 1984) assumes that a
933
66. Phoneme-grapheme conversion
noisy channel distorts the produced phonemic sequence of symbols. In this approach it is assumed that in the noisy channel the transmitted information consists of 4 letters and 3 phonemes to the left and 4 letters to the right of the current letter. In the same paper the authors propose a tree-structured parser. At each construction step the tree includes the context feature with the maximum conditional mutual information which has been calculated on a 50.000 words lexicon. Prediction accuracy of 94 % per letter on a set of 5.000 words is reported. A hierarchy of rules is proposed by Hochberg et al. (1991). “The longer rule is first applied” giving a phoneme accuracy of 90 % in a set of 2000 words. In a similar approach Dermatas and Kokkinakis (1999) propose a reinforced learning method for the estimation of a hierarchical set of rules for G2PC and P2GC. Bi-directional experiments on corpora of six European languages are reported, which were carried out without using exception dictionaries. 3.2.2. Learning by analogy Learning by analogy methods detect those parts of words that have the same pronunciation. The Dedina and Nusbaum (1991) G2PC system is based on the hypothesis that humans use a process of analogy to derive the pronunciation for a spelling pattern. In the PRONOUNCE lexical database approximately 20.000 words are stored with their phonetic representation. The parsing method matches each spelling pattern of the transcribed word against every lexical entry; if matching sub-strings exist, the corresponding phonetic pattern is retrieved to build a pronunciation lattice. Taking into account score values of the sub-path lengths and frequencies of occurrence, the best alignment path is calculated. Sullivan/Damper (1992) propose a similar system, which is based on the dual-route theory. The duality refers to a set of contextfree rules conjoined with lexical analogies. The phonetic lattice is constructed using this set of rules and multiple pronunciations are generated. These are then re-ranked in a way similar to the lexical analogies. Orthographic and phonemic analogies are eventually combined to generate the result. 3.2.3. Case-based reasoning The inference mechanism of the case-based reasoning methods is a best-match recall
from the linguistic data stored in the system memory. MBRtalk (Stanfill 1987) is a pronunciation system operating within the memorybased reasoning paradigm. A record is generated for every letter in a training corpus containing the letter, the six letter context, and the alignment phoneme and stress information. In the parsing process the 10 most similar records for every letter retrieve the corresponding candidate phonemes. The scoring mechanism assigns a weight to each phoneme of the 10 records according to their dissimilarity to the current letter. Transformation accuracy of 86 % per phoneme is reported in G2PC experiments using a training set of 4,438 words and a disjoint test set of 100 words.
4.
Hidden Markov models
Speech technology applications, especially speech recognition, are the most popular test-bed environment for Hidden Markov Models (HMM). The most important obstacle of implementing HMM-based G2PC and P2GC is met in the training process where symbol-based alignment information of the grapheme and phoneme word transcription is required. In 1991 Parfitt/Sharman (1991) presented a discrete-states HMM detector for G2PC of a word. Specifically, in the hidden layer phoneme states are defined, and the letters were set in the observation layer. In an English dictionary of 50.000 words used for the system evaluation a success rate of 85 % for the phoneme transformation is reported. At the same conference a first order HMM P2GC method was proposed with a symbol accuracy for Greek of 95.5 % and word accuracy of 78 % (Rentzepopoulos/ Kokkinakis 1991). Subsequently extensive experiments were carried out in seven European languages using a second-order HMM P2GC (Rentzepopoulos/Kokkinakis 1996), which reached the manual and the inductive learning rule-based transformation accuracy. A language adaptive HMM approach detects letter and phoneme correspondences when minimal linguistic information, the vowel and the consonant sets, is given (Luk/ Damper 1993). Issues concerning the HMM topology and parameter estimation from a large amount of raw data are discussed in a classification process where the graphemes are labeled into phonemes using the maximum likeli-
934
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
hood criterion (Minker 1996). A detailed presentation of the classification errors in French and German shows that the system fails on context dependent pronunciations, exceptions, scientific and foreign words. The Viterbi algorithm (van Coile 1990, Rentzepopoulos/Kokkinakis 1996) and Dynamic-programming methods (Dermatas/ Kokkinakis 1999) have also been used for the alignment of the orthographic and phonetic representation of words prior to the application of an inductive rule learning process.
5.
Neural networks
Transformation rules and trees describe linguistic knowledge in a human perception readable format. In connectionism, the knowledge is encoded in network weights and the string transformation process is realized by computing the neural-network output. NETspeak (McCulloch/Bedworth/Bridle 1987) and its ancestor NETtalk (Sejnowski/ Rosenberg 1987), early realizations of backpropagation learning in feed-forward nonlinear neural network approaches to the G2PC problem, consist of three fully connected layers performing symbol transformation in a seven-letter context window. In the network output, the phonemic symbol (including ‘null’) and the stress level are given. The effect of various network architectures, different input and output encodings, and the use of the word frequencies in the learning algorithm are discussed by McCulloch/Bedworth/Bridle (1987). The best performance of the NETtalk network was found to be 90 % correct per letter. Similar results were obtained for Dutch giving a rate of 91 % correct per phoneme (Daelemans/ Bosch 1997). A system for bi-directional letter-phonetic translation using two syntactic neural networks to perform statistical string translation (Lucas and Damper 1992) was trained in grapheme-phoneme word-pairs without alignment information. Training and testing on two disjoint 2000-word corpora achieved best performance of 66 % phoneme and 26 % string accuracy in G2PC experiments, and 71 % letter and 23 % string accuracy in P2GC experiments. A self-organized neural network consisting of neurons arranged in a two-dimen-
sional lattice was evaluated in a Danish vocabulary of more than 50 K words (Hansen/ Andersen/ Dalsgaard 1996). The experiments have shown that best performance (86.2 % correct by phoneme) is achieved by increasing the network size up to 50 ! 50 neurons for one letter contextual windows. Wolters (1996) proposes a time-asynchronous dual route neural network encoding regularities of the grapheme to phoneme mapping. Exceptions, transcribing one word at a time, are stored in a self-organizing map. The proposed G2PC method is evaluated and compared using the NETtalk training dictionary, which consisted of 20.000 words.
6.
Hybrid systems
Hybrid systems combine the generalization capabilities of the rule-based methods and the handling of long-distance transformation dependencies and exceptions of the casebased and table look-up methods. The performance of the hybrid commercial systems is superior to other approaches in terms of accuracy and time-response. Nevertheless, the definition of the interaction strategy between the transformation modules and the fine tuning of the language dependent data increases the development cost significantly.
7.
Literature (a selection)
Allen, Jonathan, Hunnicut Sheri/Klatt Dennis (1987), From Text to Speech: The MITalk System, Cambridge University Press. Daelemans, Walter/Van de Bosch, Antal (1997), Language-independent Data-oriented Graphemeto-Phoneme Conversion. In: Progress in Speech Synthesis. (Eds. Van Santen, J./R. W. Sproat/J. P. Olive/J. Hirschberg). New York: Springer Verlag, 77K90. Dedina, Michael J./Nusbaum, Howard C. (1991), PRONOUNCE: A program for pronunciation by analogy. In: Computer Speech and Language 5 (1), 55K64. Dermatas, Evangelos/Kokkinakis, George (1999), A Language-Independent Probabilistic Model for Automatic Conversion between Graphemic and Phonemic Transcription of Words. In: Proc. of Eurospeech 99. 2067K2070. Groner, G./Bernstein J./Ingber, E./Perlman, J./ Toal, T. (1982), A Real-time Text-to-speech Converter. In: Speech Technology 1 (2), 73K76. Hansen, Anya V./Andersen, Ove K./Dalsgaard, Paul (1996), A Self-Organizing Neural Network
67. Character system, orthography and types of origin in Japanese writing Approach to Phonetic Transcription of Text. In: Proc. of Nordic Signal Processing Symposium NORSIG 96. Helsinki, 24K27. Hochberg, Judith./Mniszewski, Susan M./Calleja, T./Papcun, G. J. (1991), A Default Hierarchy for Pronouncing English. In: IEEE PAMI 13 (9), 957K964. Hunnicutt, Sheri (1976), Phonological Rules for a Text-to-Speech System. In: American Journal of Computational Linguistics, Microfiche 57, 1K72. Klatt, Dennis/Shipman, Dave (1982), Letter-toPhoneme Rules: A Semi-automatic Discovery Procedure. In: JASA Supp. 1 (82), S48, 737K793. Lucas, Simon/Damper, Robert (1992), Syntactic neural networks for bi-directional text-phonetics translation. In: Talking Machines: Theories, Models and Designs. (Eds. G. Bailly/C. Benoit/ T. R. Sawallis). Amsterdam: North-Holland Publishers, 127K142. Lucassen, J./Mercer, R. (1984), An Information Theoretic Approach to the Automatic Determination x of Phonemic Baseforms. In: Proc. ICASSP84. 42.5.1K42.5.3. Luk, Robert/Damper, Robert (1993), Inference of Letter-Phoneme Correspondences with Pre-defined Consonant and Vowel Patterns. In: Proc. ICASSP-93. 203K206. McCulloch, Neil/Bedworth, Mark/Bridle, John (1987), NETspeak K A reimplementation of NETtalk. In: Computer Speech and Language 2, 289K301. Minker, Wolfgang (1996), Grapheme-to-Phoneme Conversion K an Approach based on Hidden Markov Models. LIMSI-CNRS Technical Report No. 96K04. Orsay. Parfitt, S./Sharman R. (1991), A bi-directional model of English pronunciation. In: Proc. of Eurospeech 2. 801K804. Rentzepopoulos Panagiotis/Kokkinakis George (1991), Phoneme to Grapheme Conversion using HMM. In: Proc. of Eurospeech 91. 797K800.
935
Rentzepopoulos Panagiotis/Kokkinakis George (1996), Efficient multilingual Phoneme-to-Grapheme Conversion based on HMM. In: Computational Linguistics 22 (3), 319K376. Sejnowski, Terrence J./Rosenberg, Charles R. (1987), NETalk: Parallel networks that learn to pronounce English text. In: Complex systems 1, 145K168. Sgarbas, Kyriakos/Fakotakis, Nikos D./Kokkinakis, George (1998), A PC-KIMMO-based-Bi-directional Graphemic/Phonemic Converter for Modern Greek. In: Literary and Linguistic Computing 13(2), 65K75. Stanfill, Craig (1987), Memory-Based Reasoning Applied to English Pronunciation. In: Proc. AAAI-87. 577K581. Sullivan, Kirk P./Damper, Robert (1992), Novelword Pronunciation Within a Text-to-speech System. In: Talking Machines: Theories, Models and Designs. (Eds. G. Bailly/C. Benoit/T. R. Sawallis), Amsterdam: North Holland Publishers, 183K195. van Coile, Bert (1990), Inductive Learning of Grapheme-to-Phoneme rules. In: Proc. ICSLP90. 765K768. van Leeuwen, Hugo C. (1993), Speech Maker Formalism: a rule formalism operating on a multilevel, synchronized data structure. In: Computer Speech and Language 7 (4), 369K390. Wolters, Maria K. (1996), A Dual Route Neural Net Approach to Grapheme-to-Phoneme Conversion. In: International Conference on Artificial Neural Networks, ICANN 96. 233K238. Yannakoudakis, Emanuel J./Hutton, P. (1991), Generation of spelling rules from phonemes and their implications for large dictionary speech recognition. In: Speech Communication 10, 381K394.
Evangelos Dermatas, Patras (Greece) George Kokkinakis, Patras (Greece)
67. Character system, orthography and types of origin in Japanese writing 1. 2. 3. 4. 5.
Scope Basic background Major quantitative studies Conclusions Literature (a selection)
1.
Scope
In this article three separate but interrelated aspects of the Japanese writing system are
summarised, viz. the character system, the orthography and the types of origin of words. These aspects are treated together here because they are closely related from the point of view of the Japanese writing system and it is convenient to explain them together. Other characteristics such as partsof-speech are treated only when they are studied in relation to those three aspects. Only the problems relevant to modern Japanese (basically the language used in the
936
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
period after the Second World War) are treated here because (i) the establishment of modern Japanese perceived as such only goes back to the end of the 19th century, and (ii) there was a great change in the Japanese writing system after the Second World War. The discussion focuses on ‘standard’ Japanese, and does not treat dialects. Orthography and writing systems are often discussed from prescriptive points of view, sometimes with educational motivation. Although we do not take any prescriptive standpoint in this article (we have to admit, however, that the choice of ‘standard’ Japanese presupposes an implicit prescriptive viewpoint), we take into account the historical backgrounds and the effects of prescriptive policy applied to the Japanese writing system. We try to cover major quantitative studies related to the Japanese writing system treated in this article. However, the coverage of the existing studies in this article is fairly limited, for we devoted much of our effort to explaining the basic writing system and its problems and could not cover many smallscale or specific quantitative observations.
2.
Basic background
2.1. Character system In modern Japanese, three major types of character sets or alphabets are used, i. e. Hiragana, Katakana, and Chinese characters (or Kanji): Hiragana: This is the alphabet used to write Japanese functional words, verb inflections, adjectives, adverbs, etc. and nouns inherited from old Japanese. Historically, Hiragana was created on the basis of the fully-cursive
style of Chinese characters or Kanji. 45 characters that express voiceless sounds and two additional characters constitute the basic system. Each character basically expresses a combination of a consonant and a vowel. Based on this, voiced sounds, semivoiced sounds and palatalised syllables are constructed. Table 67.1 shows the Hiragana alphabet. A few other characters were used in the past (and are sometimes still used on special occasions). Katakana: This is the alphabet used to write words borrowed (mainly) from Western languages, names of foreign persons, names of foreign locations, vulgar words, names of animals, plants and mushrooms, and exclamation words. Katakana was originally created from simplified Kanji. Like Hiragana, 45 characters and two additional characters constitute the basic system (though the character to express ‘wo’ is rarely used). Voiced and semi-voiced sounds are basically the same as Hiragana, with one additional character which express the sound ‘vu’. Table 67.2 lists the Katakana alphabet. Chinese characters: This is the alphabet used to write Japanese content words, especially nouns and stems of verbs, adjectives and adverbs, etc. The total number of Kanji is supposed to be finite but cannot be determined clearly. Ordinary dictionaries of Chinese characters list some 8.000 to 20.000 characters. The biggest Chinese character dictionary in Japan lists about 50,000 characters (Morohashi 1955K1958). Two types of readings are assigned to each Chinese character, i. e. an ‘on’ or Chinese-style reading and a ‘kun’ or Japanese-style reading. There may be more than one ‘on’ and ‘kun’ reading assigned to a Chinese character.
Table 67.1: Hiragana alphabet Basic voiceless sounds ぁ(a) ぃ(i) ぅ(u) ぇ(e) ぉ(o)
か(ka) き(ki) く(ku) け(ke) こ(ko)
さ(sa) し(shi) す(su) せ(se) そ(so)
た(ta) ち(chi) っ(tsu) て(te) と(to)
な(na) に(ni) ぬ(nu) ね(ne) の(no)
Voiced/semi-voiced が(ga) ぎ(gi) ぐ(gu) げ(ge) ご(go)
ざ(za) じ(zi) ず(zu) ぜ(ze) ぞ(zo)
だ(da) ぢ(di) づ(dsu) で(de) ど(do)
は(ha) ひ(hi) ふ(fu) へ(he) ほ(ho)
ま(ma) み(mi) む(mu) め(me) も(mo)
や(ya) ゆ(yu) よ(yo)
ら(ra) り(ri) る(ru) れ(re) ろ(ro)
palatalised ば(ba) び(bi) ぶ(bu) べ(be) ぼ(bo)
ぱ(pa) ぴ(pi) ぷ(pu) ぺ(pe) ぽ(po)
ゃ(ya) ゅ(yu) ょ(yo)
ゎ(wa)
ん(n) っ(tsu)
を(wo)
937
67. Character system, orthography and types of origin in Japanese writing Table 67.2: Katakana alphabet Basic voiceless sounds ァ(a) ィ(i) ゥ(u) ェ(e) ォ(o)
カ(ka) キ(ki) ク(ku) ケ(ke) コ(ko)
サ(sa) シ(shi) ス(su) セ(se) ソ(so)
タ(ta) チ(chi) ッ(tsu) テ(te) ト(to)
ナ(na) ニ(ni) ヌ(nu) ネ(ne) ノ(no)
バ(ba) ビ(bi) ブ(bu) ベ(be) ボ(bo)
パ(pa) ピ(pi) プ(pu) ペ(pe) ポ(po)
ハ(ha) ヒ(hi) フ(fu) ヘ(he) ホ(ho)
Voiced/semi-voiced ガ(ga) ギ(gi) グ(gu) ゲ(ge) ゴ(go)
ザ(za) ジ(zi) ズ(zu) ゼ(ze) ゾ(zo)
ダ(da) ヂ(di) ヅ(dsu) デ(de) ド(do)
マ(ma) ミ(mi) ム(mu) メ(me) モ(mo)
ャ(ya) ュ(yu) ョ(yo)
ラ(ra) リ(ri) ル(ru) レ(re) ロ(ro)
ヮ(wa)
ン(n) シ(tsu)
ヲ(wo)
palatalised
The Modern written Japanese style is often called “Kanji-kana majiri”, i. e. a mixture of Chinese and kana characters, because these three types of character sets are used together. Roman alphabets and Arabic numbers are also commonly used. Together with punctuation and special symbols, these types of character sets cover modern Japanese writings. 2.2. Basic orthographic problems Different problems are recognised in Japanese orthography (Shibata 1980), which to some extent correspond to character types. Nihongo-Kyoiku-Gakkai (1982) and Takebe (1989) give excellent summaries of Japanese orthography and character sets. For Chinese characters, orthography of individual characters has been a central problem (some do not count them as a problem of orthography, but here we adopt a broad definition of orthography and include this as an orthographical problem). This corresponds to the fact that one Chinese character is often regarded as being equivalent to a word or morpheme (cf. Tajima 1980), and that sometimes a Roman character is considered to be equivalent to a constituent part or a radical of a Chinese character (Kajima 1997). The main concern is to determine the canonical form of a Chinese character (as opposed to the typeface or token form), i. e. does it have an old or new form, ‘original’ or simplified form, etc. (Hayashi 1977). The choice of alternative Chinese characters (and Hiragana) for a word is also a focus of orthography for Chinese characters. For both Hiragana and Katakana, orthography is concerned mainly with the spelling of words (though to a certain extent this problem can be reduced to a problem of ex-
ャ(ya) ュ(yu) ョ(yo)
pressing syllables by characters). However, different orthographic problems are associated with each. In the case of Hiragana, two problems have been recognised as important, i. e. the choice of alternatives within all Hiragana spellings and the problem of okurigana, i. e. the connection between Chinese characters and Hiragana in the case of conjugational endings added after Chinese characters in a word (note that Chinese characters are used to express stems of verbs, adjectives, adverbs, etc.). The first is mainly concerned with old and new spellings. The second problem reflects the existence of multiple readings of Chinese characters that constitute stems of words. In the case of Katakana, the choice of alternatives within all Katakana spellings is the main point of discussion. The second problem in Hiragana does not occur because the use of Katakana is limited and relatively independent from syntactic or morphological operations. Because Katakana is used for expressing proper names and specialised concepts, the orthographic problem of Katakana tend to be discussed in relation to the identity of information, as in name authority control in library catalogues. When Roman characters are used to express foreign words, the orthographic convention of the original language is followed. However, writing Japanese in Roman characters (as in references in this article) causes an orthographic problem within Japanese. Also, the use of Arabic numbers and Chinese characters in expressing numbers is an important aspect of orthography. 2.3. Types of origin In current Japanese linguistics, Japanese words are sometimes divided into three ba-
938
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
sic categories according to their types of origin, which correspond to the types of character sets to some extent, i. e. Wago: Words which are originally Japanese. They constitute the basic functional elements in Japanese as well as the basic vocabulary. Wago words are written in either Hiragana or Chinese characters, or in a mixture of both. Kango: Words which have been imported from the Chinese language, together with some newly created Japanese elements formed according to the word formation rules of the Chinese language. They constitute the majority of content words in modern Japanese, and are basically written in Chinese characters, although due to a prescriptive limitation on the use of Chinese characters, some of them are written in Hiragana or in a mixture of Chinese characters and Hiragana. Gairaigo: Words which have been imported from foreign languages other than Chinese. The majority of them have been imported from Western languages such as English, French, or German. They are usually written by Katakana, but are also frequently written in their original Roman character spellings, especially in technical writings. Because the types of origin of words have a close correlation with orthographic conventions, many studies have been carried out with respect to the types of origin of words, either independently or in relation to orthography. 2.4. Prescriptive policy 2.4.1. Governmental policy Much effort has been made in standardising characters and orthographic conventions. In 1946, the Touyou Kanjihyou (a list of standard Chinese characters) was issued by the Japanese government, which constituted 1850 Chinese characters for ordinary use. Together with the Touyou Kanji Onkunhyou (a list of readings for standard Chinese characters), the Touyou Kanji Beppyou (a list of Chinese characters for educational purposes), and the Touyou Kanji Jitaihyou (a list of forms of standard Chinese characters) which were issued subsequently, the Touyou Kanjihyou has prescribed the use of Chinese characters in the period after the Second World War.
After several revisions, the Jouyou Kanjihyou (a list of common Chinese characters) was issued in 1981, in which 1945 Chinese characters were listed together with their ‘on’ and ‘kun’ readings and their forms. These lists had a strong and widespread influence on written Japanese, through newspapers and journals which basically adhered to them. Lists of Chinese characters for primary and secondary education which were defined together with the Jouyou Kanjihyou have had a great influence on modern Japanese writing as well. With respect to the use of Kana, the Gendai Kanazukai (modern use of Kana) was issued in 1946, defining the standard use of Kana. This was slightly revised in 1981. As for the okurigana, or the treatment of conjugational endings added in kana after Chinese characters, the Okurigana no Tsukekata was issued in 1959 and revised in 1973. 2.4.2. Effect of electronic writing A new and implicit prescriptive force should be mentioned. This is the built-in conventions of Japanese word processors and also the character code set system behind it, especially with respect to Chinese characters. In 1978, the first Japanese standard character code set was defined, and has been revised several times since then. The latest revision was in 1997, in which a total of 6,879 characters (including all types of character sets) were defined. In 1999 the new revision and addition is being undertaken, incorporating many more (Chinese) characters. In order to write words in Chinese characters, users of word processors input readings in kana and convert them into corresponding Chinese character sequences, choosing the correct one if there are alternatives. The ability to write Chinese characters correctly is no longer required; to write words in Chinese characters, all that is necessary is to recognise the correct one among possible alternatives. Though concrete empirical studies on the effects of computers on the writing of Japanese have yet to be carried out, it is frequently pointed out and intuitively apparent that the token use of Chinese characters is promoted among those defined in the standard character code set, while the use of characters not in this set is reduced. Currently, a so-called ‘Unicode’ or UCS (ISO/IEC 10646K1: Universal Multiple-Order Coded Character Set) is being devel-
939
67. Character system, orthography and types of origin in Japanese writing
oped by the International Standardisation Organisation and the International Electric Standardisation Committee. The UCS is intended to cover all the characters in the world using 2 byte code, including Chinese characters. In the process, different forms of (originally) the same graphemes used in mainland China, Korea, Taiwan and Japan are sometimes being reduced to a unified form. This causes many reactions. If the UCS is to be used as a universal standard for exchanging characters electronically, the Japanese orthographic convention will have to be adapted to the UCS, which will result in changes in the way Japanese is written.
nature of the use of the character system in itself is an interesting topic in linguistics and also in policy making especially in the case of Chinese characters. Secondly, the quantitative nature of character types reflects the nature of the use of words and stylistic characteristics. The main target of quantitative studies of characters has been Chinese characters, for obvious reasons, i. e. the number of Chinese characters actually in use is not definite and individual Chinese characters bear meanings. Quantitative tendencies of other types of character sets have also been investigated, mostly in relation to the quantitative nature of Chinese characters.
3.
3.1.1. Ratio of types of character sets One type of research is concerned with the ratio of types of character sets in texts. Yasumoto (1963) investigated chronological tendencies in the use of Chinese characters, based on literary works from 1900 to 1955, and found that the token frequency of Chinese characters tends to become lower as time goes by. He applied the simple linear regression (y Z ax C b) and two types of non-linear regressions (y Z aeKbxCc and y2 Z K 2ax C b), where x is the Gregorius year and y is the number of Chinese characters in 1.000 characters. He claims that Chinese characters will not be used at all in the year 2190 according to estimates based on the linear regression. The decline of the token ratio of Chinese characters in newspapers was also pointed out in Morioka (1969) and Hayashi (1982). Tsuchiya (1967) chronologically observed the use of characters in a journal from 1895 to 1928, and saw a decline in the use of Chinese characters from 1915 onwards. Satake (1982) examined frequencies of types of character sets in 55 popular magazines published in 1979, extracting about 350.000 characters. He analysed the ratio of different types of character sets with respect
Major quantitative studies
Here we basically divide existing works into character based studies, orthographic studies, and studies of types of origin. We only review those which take a quantitative approach. Satake (1998) gives a short but readable account of surveys of characters and orthography. Large-scale quantitative empirical surveys of vocabulary have been carried out by the National Language Research Institute (National Language Research Institute 1952; 1953; 1957K1958; 1962K1964; 1970K1973; 1976; 1983K1984; 1986K1987; 1989), in which quantitative analysis of characters were also carried out, and the results of related studies have been reported by researchers at the National Language Research Institute. Many of the important methodological contributions to quantitative linguistics in Japan came out of these surveys. As we often refer to a number of these studies below, the data investigated by the studies has been briefly summarised in Table 67.3. 3.1. Character based studies Quantitative studies focusing on characters are important for two reasons. Firstly, the
Table 67.3: Major surveys by the National Language Research Institute Report
Type of Data
Year of Data
No. of word tokens
(1952) (1953) (1957K58) (1962K64) (1970K73, 76) (1983K4, 86K7, 89)
Asahi newspaper 2 women’s magazines 13 general magazines 90 various magazines 3 main newspapers Textbooks
June 1K30, 1949 1949 July 1953KJune 1954 1956 1966 1974
230.000 200.000 120.000 500.000 3.000.000 40.000
940
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Table 67.4: Ratio of types of character sets by Kyodo Tsuushinsya (1971) and Satake (1982) Newswires Magazines Short stories Criticism Practical information Reports Interviews Essays Letters
Chinese
Hiragana
Katakana
Roman
Numbers
Other
46.1 26.52 24.78 31.99 23.39 31.41 22.89 26.05 26.24
35.3 57.29 60.72 53.80 53.91 51.27 62.10 59.59 60.27
6.1 6.95 4.44 6.13 13.75 7.34 4.69 5.63 5.03
0.4 0.22 0.05 0.30 0.31 0.38 0.15 0.07 0.27
1.4 0.29 0.01 0.30 0.73 0.57 0.11 0.00 0.18
10.7 8.72 10.00 7.47 7.89 9.02 10.07 8.65 8.00
to various register variations, e. g. types of articles, individual articles, authors, etc. Examining the tendencies, he proposed three hypotheses: (1) in documents with a high ratio of Chinese characters, there is a negative correlation between Chinese characters and Hiragana, (2) in documents with a low ratio of Chinese characters, there is a negative correlation between Chinese characters and Katakana, and (3) when the number of Kanji is reduced, Hiragana tend to replace them first, followed by Katakana. Kyoudou Tsuushinsya (1971) surveyed the use of different types of character sets in newswires with a total of 1.001.554 running characters. Table 67.4 shows the ratio of different types of character sets in newswires (Kyoudou Tsuushinsya 1971) and in various types of articles (Satake 1982). Tanaka (1980) reported the result of a similar survey about the ratio of types of character sets according to subject area, based on a sample of the data used in the National Language Research Institute (1983K1984; 1989). Nomura (1980a) also observed the ratio of Chinese characters and other types of character sets in magazines according to their genre. He observed the ratio of Chinese characters on the basis of different measures, i. e. including and excluding numbers written in Chinese characters as numerators, and excluding and including Katakana as denominators. Some of these studies are briefly mentioned by Tanaka (1998), who gives a brief overview of the number of Chinese characters in modern Japanese writing in English. 3.1.2. Distribution of characters Most studies of the distribution of characters focus on Chinese characters, for obvious reasons. Some of the investigations carried out by the National Language Research Institute mentioned above address the distri-
bution of Chinese characters, i. e. National Language Research Institute (1962K1964) and National Language Research Institute (1976). These two studies showed that there were a total of 3326 different Chinese characters in magazines in 1956 and 3213 in newspapers in 1966. Table 67.5 shows the cumulative coverage of frequently occurring Chinese characters from these data (Nomura 1975; Saiga 1989). It can be observed that the 200 most frequently occurring Chinese characters cover more than half of all the occurrences, and 3000 Chinese characters cover nearly 100 % of all occurrences. However, around one fourth of the characters in each data set do not occur in the other. The use of less frequent Chinese characters depends on various registers (Satake 1998), so more investigation according to document type etc. is necessary to clarify the distributional nature of Chinese characters. This tendency was also confirmed by Tsuruoka (1989), as part of National Language Research Institute (1989). The number of different Chinese characters in 9 different subjects ranged from 700 to 1900, mostly around 1000, but together the number became about 2400. Chinese characters, expressing meanings individually, tend to be used differently in different subject area. Nozaki/Yokoyama/Isomoto et al. (1996) and Yokoyama/Sasahara/Nozaki et al. (1998) observed the distribution of a total of 23.408.236 running characters in the Asahi newspaper of 1993, of which 20.711.361 were Chinese, with a type number of 4476. Comparing their results with National Language Research Institute (1976), they concluded (1) a big difference was observed in less frequent Chinese characters, (2) in both cases the 500 most frequently occurring characters cover 80 % of the occurrences, and (3) frequently used Chinese characters have not
941
67. Character system, orthography and types of origin in Japanese writing Table 67.5: Coverage of Chinese characters Top N
Newspapers %
Magazines
Coverage
Newspapers
Magazines
10 50 100 200 500 1000 1500 2000 2500 3000
10.6 % 27.7 % 40.2 % 56.1 % 79.4 % 93.9 % 98.4 % 99.6 % 99.9 % 99.9 %
8.8 % 25.5 % 37.1 % 52.0 % 74.5 % 90.0 % 96.0 % 98.6 % 99.5 % 99.9 %
80 % 85 % 90 % 95 % 96 % 97 % 98 % 99 % 100 %
512 633 800 1081 1168 1277 1426 1659 3213
638 777 992 1358 1479 1617 1832 2157 3328
changed much, both in their types and their occurrences. National Language Research Institute (1976) surveyed the distribution of Chinese characters by their prescriptive status, i. e. Educational characters, Touyou Chinese characters, and others in newspapers. Nomura (1975) investigated the type-token ratio of Chinese characters by register variations. Hayashi (1977) and Miyajima (1978) observed the distribution of Chinese characters by number of strokes, pointing out that frequently used Chinese characters tend to have a smaller number of strokes (Hayashi 1977) and vice versa (Miyajima 1978).
Quantitative analyses of sequences of characters have been extensively used for computational applications of text processing in the form of n-gram statistics mixed with types of character sets, such as information retrieval and OCR error correction (cf. Araki/Ikehara/Tsukahara et. al. 1994). Statistical characteristics mixed with types of character sets have proven useful for some computational applications. However, application-oriented studies and linguistic studies seem to have little relationship to each other, and linguistic studies related to sequences of characters have not been exploited since Nomura (1972).
3.1.3. Sequence of characters Nomura (1972) analysed patterns of sequences of characters from the point of view of their types, using a sample extracted from the data treated in National Language Research Institute (1970K1973; 1976). The unit of sequence observed was bunsetsu, a widely-used Japanese syntagmatic unit somewhat equivalent to the phrase. The patterns of bunsetsu consisting of Chinese characters and Hiragana together with their numbers and ratio are given in Table 67.6.
3.1.4. Others Nomura (1975) analysed the quantitative characteristics of different readings, i. e. ‘on’ and ‘kun’, among token Chinese characters in newspapers. Nomura (1981) analysed the ratio of readings among commonly used Chinese characters on the basis of type. Classification of Chinese characters has long been a problem from practical points of view such as dictionary making and education. Traditionally, Chinese characters were classified from the viewpoints of form, reading, and meaning. Nomura (1980b) investigated effective viewpoints for classifying Chinese characters by applying Hayashi’s type III method of quantification (Hayashi 1974) to the classification of Chinese characters, coming to the conclusion that the basic Chinese characters can be identified by their frequency of use, frequency of use in different words, origin, range of use in other Chinese characters, etc. Tanaka (1976) raised some doubts about the usefulness of simple frequency of Chinese characters or ratio of use, and proposed some measures that link relations with Chinese characters and words. Token coverage
Table 67.6: Patterns of character sequences Pattern
Number
Ratio (%)
CC CCHC CCHCCCHC CCHCHCCC HCCC HCCCHC HC
379 2978 62 3 7 82 1415
7.7 60.4 1.3 0.1 0.1 1.7 28.7
Total
4926
100.0
Note. C refers to Chinese characters and H to Hiragana.
942
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ratio of a Chinese character was defined by the number of running words in which the Chinese character occurs divided by the total number of running words. Type coverage ratio was defined by the number of different words in which a Chinese character occurs divided by the total number of different words. He argued that it revealed the status of Chinese characters in Japanese language more properly than simple character-based statistics. Other quantitative aspects of characters such as studies of the use of punctuation (Takagi 1974) and the distribution of Chinese characters with the same reading (Hayashi 1977) have also been reported. 3.2. Orthographic studies The basic areas where alternative orthographic phenomena can be observed can be categorised as follows: (1) Alternatives within the same character set, i. e. (a) the use of different Chinese characters, (b) the use of different forms of Chinese characters, (c) the use of different okurigana, (d) the different use of Hiragana, (e) the different use of Katakana, (f) the different style of Romanisation, (g) the different conventions used to write numbers. (2) Alternatives across different types of character sets, especially between Chinese characters and Hiragana. (3) Others, such as the alternative use of symbols and words, etc. Individual studies adopt either of the two types of viewpoints, i. e. those based on types of character sets and and those based on types of words. For convenience, we classify the existing studies by means of character types, i. e. Katakana on the one hand and Chinese characters and Hiragana on the other. Here we do not review studies that treat patterns of orthographic variations of various types of words or even individual words. 3.2.1. Katakana/Gairaigo Saiga (1955), based on the sample data treated in National Language Research Institute (1957K1958), analysed a few quantitative characteristics of Katakana words. Among 60.000 word tokens, 2347 or 3.9 % were fully or partly written in Katakana. Among 10.000 word types that constituted 60.000 tokens, 989 types or 9.9 % were writ-
ten in Katakana. The majority were Gairaigo (2022 or 86 % tokenwise and 782 or 79 % typewise), followed by Wago (241 or 10 % tokenwise and 152 or 16 % typewise) and Kango (40 or 2 % tokenwise and 22 or 2 % typewise). Miyajima & Takagi (1974; 1984) observed the orthographic variations in Gairaigo, classifying the types of variations and observing the quantitative tendencies in sample data based on National Language Research Institute (1962K1964). The types of variations classified by them were: (1) the existence or absence of special syllables such as long sounds, palatalised syllables or syllabic nasal consonants, (2) alternative vowels, e. g. a/e, a/o, i/ai, i/e, o/u, (3) the existence or absence of semi-vowels such as j and w, (4) variations in consonants such as voiced/unvoiced. They pointed out that some of these variations reflected the different sound patterns of original languages, imported in parallel by different domains or registers. 3.2.2. Chinese characters and Hiragana Morioka (1969) took word data (about 1000 characters each time) from newspapers every other year, from 1879 to 1968, i. e. all in all 50 different data, with approximately 50.000 characters and 17,935 words. After observing the decline of the use of Chinese characters (cf. 3.1.1), he analysed the cause of this phenomenon from the point of view of types of origin. He observed the transition of the ratio of Kango and Wago written in Chinese characters and Kana, and concluded that the decline of Chinese characters was mainly caused by the use of Kana in writing Wago. Miyajima & Takagi (1978) reported the use of Chinese characters vs. Hiragana in Kango words in sample data based on National Language Research Institute (1962K 1964). They confirmed the following tendencies: (1) Chinese characters which are not registered in the Jouyou Kanji Hyou tend not to be used, (2) difficult Chinese characters or Chinese characters with many strokes tend to be avoided, (3) adverbs are likely to be written in Hiragana (see Table 67.7), (4) ‘easy’ or core words tend to be written in Hiragana, (5) some Kango words are written in Hiragana to avoid mixing Hiragana with Chinese characters, (6) Hiragana tends to be used more frequently in popular magazines than in specialised magazines.
943
67. Character system, orthography and types of origin in Japanese writing Table 67.7: Characters in Kango words Type Noun
Adjective
Adverb 57 (44.5 %) 0 (0.0 %) 8 (6.3 %) 63 (49.2 %)
Other 5 (38.5 %) 0 (0.0 %) 1 (7.7 %) 7 (53.8 %)
Total
Always Chinese Always Mixed Always Kana Other
12810 (96.0 %) 45 (0.3 %) 83 (0.6 %) 406 (3.0 %)
807 (87.8 %) 6 (0.7 %) 21 (2.3 %) 85 (9.2 %)
Total
13344
919
128
Noun
Adjective
Adverb
Other
Total
Chinese Mixed Kana
152054 (98.7 %) 392 (0.3 %) 1606 (1.0 %)
9166 (93.9 %) 74 (0.8 %) 518 (5.3 %)
2186 (77.1 %) 50 (1.8 %) 598 (21.1 %)
131 (49.1 %) 1 (0.4 %) 138 (50.5 %)
163540 (98.0 %) 517 (0.3 %) 2860 (1.7 %)
Total
154052
9758
2834
273
166917
13
13679 (95.0 %) 51 (0.4 %) 113 (0.8 %) 561 (3.9 %) 14404
Token
Table 67.8: Degree of orthographic variations Verb Adjective Adjectival Noun Stem Adverb
Per-Word Variation
Per-Orthography Variation
No. of Words
Frequency
0.218 0.123 0.119 0.132
0.177 0.068 0.107 0.137
80 45 42 67
10151 4637 1412 4624
Tsuchiya (1975) observed the character types used in writing Kango words in newspapers, using the same data as National Language Research Institute (1970K1973; 1976). He empirically confirmed the expected point that Chinese characters not listed in the Jouyou Kanji Hyo tended to be replaced by Kana and written in Katakana or Hiragana. 3.2.3. Quantifying orthographic variations Satake (1977) tried to give a quantitative definition of the degree of orthographic variations of a word. Let W refer to a word, whose orthographic variations can be expressed by G1, G2, etc. Using the relative frequency P1, P2, etc. of the variations G1, G2 of the word W, he defined the measure of the degree of orthographic variation by: S (W) Z 1 KS Pi2 Using a sample from the data treated in National Language Research Institute (1970K 1973; 1976), he calculated the degree of variations for four parts-of-speech, i. e. verbs, adjectives, stems of adjectival nouns, and adverbs. Table 67.8 shows the average degree of variations of words occurring more than 20 times for these parts-of-
speech. He summarised the tendency as (1) verbs tend to have more variations, possibly due to the fact that they tend to have wider meanings, (2) there is less per-orthography variation of adjectives, due to the orthographic stability of high-frequency adjectives. Nomura (1977), criticising Satake (1977), tried to exploit a method of clarifying qualitative differences of orthographic variations, by applying Hayashi’s quantification method (Hayashi 1974). 3.3. Types of origin Types of origin per se is not directly related to the Japanese writing system, but we treat it here because it has a strong correlation with Japanese orthographic conventions, i. e. Katakana or Roman characters with Gairaigo or words borrowed from non-Chinese languages, Hiragana with Wago and Chinese characters with Kango. The studies that address types of origin in relation to types of character sets have already been mentioned above. National Language Research Institute (1964) was the first large scale survey that reported the quantitative aspects of types of origin. It shows the relations between types of origin and parts-of-speech (Table 67.9)
944
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Table 67.9: Types of origin and parts-of-speech Type Noun
Verb
Adjective
Interjection
Total
Wago Kango Gairaigo Mixed
6122 13345 2820 1496
3266 K 3 191
1553 1050 123 135
193 12 18 4
11134 14407 2964 1826
Total
23783
3460
2861
227
30331
Token Noun
Verb
Adjective
Interjection
Total
Wago Kango Gairaigo Mixed
83390 154315 11709 5080
95233 K 3 2092
35970 15453 283 839
7282 265 39 19
221875 170033 12034 8030
Total
254494
97328
52545
7605
411972
Table 67.10: Types of origin and frequency Type Frequency 1 2 3K4 5K8 9K16 17K32 33K64 64K Total
Wago 4475 1746 1565 1169 784 550 375 470
Kango (35.8 %) (36.0 %) (35.6 %) (36.5 %) (35.8 %) (38.7 %) (42.8 %) (52.5 %)
11134 (36.7 %)
Gairaigo
Mixed
(43.5 %) (47.8 %) (50.1 %) (52.1 %) (53.0 %) (54.0 %) (52.3 %) (47.5 %)
1563 (12.5 %) 481 (9.9 %) 395 (9.0 %) 251 (7.8 %) 169 (7.7 %) 66 (4.6 %) 25 (2.9 %) 14 (1.6 %)
1033 (8.3 %) 307 (6.3 %) 231 (5.3 %) 111 (3.5 %) 74 (3.4 %) 37 (2.6 %) 18 (2.0 %) 15 (1.7 %)
12504 4851 4395 3199 2189 1420 877 896
14407 (47.5 %)
2964 (9.8 %)
1826 (6.0 %)
30331
5433 2317 2204 1668 1162 767 459 397
Total
Token Frequency
Wago
1 2 3K4 5K8 9K16 17K32 33K64 64K
4475 (35.8 %) 3492 (36.0 %) 5293 (35.6 %) 7174 (36.5 %) 9272 (35.7 %) 12648 (38.7 %) 17394 (43.8 %) 162127 (63.1 %)
Total
221875 (53.9 %)
Kango 5433 4634 7497 10258 13783 17708 20359 90361
(43.5 %) (47.8 %) (50.4 %) (52.1 %) (53.1 %) (54.1 %) (51.3 %) (35.2 %)
170033 (41.3 %)
and between types of origin and frequency (Table 67.10). It is very interesting to observe that the ratio of Gairaigo words is higher in low-frequency words, especially among hapaxes, while the ratio of Wago words are higher in high frequency words. This implies that the growth rate of Gairaigo words is very high (cf. Baayen 1989). One of the current focuses of types of origin is on technical terminology, where more and
Gairaigo
Mixed
Total
1563 (12.5 %) 962 (9.9 %) 1318 (8.9 %) 1548 (7.9 %) 1982 (7.6 %) 1471 (4.5 %) 1149 (2.9 %) 2041 (0.8 %)
1033 (8.3 %) 614 (6.3 %) 775 (5.2 %) 696 (3.5 %) 905 (3.5 %) 881 (2.7 %) 796 (2.0 %) 2330 (0.9 %)
12504 9702 14883 19676 25942 32708 39698 256859
12034 (2.9 %)
8030 (1.9 %)
411972
more Gairaigo words are being introduced. Ishii (1989) surveyed the number of technical terms in high-school and junior highschool textbooks in terms of the types of origin. He clarified that Kango terms constitute the majority both in type and in token. The average use of a Wago term is the highest, while that of a Gairaigo term is very low. Ishii (1987), Nomura & Ishii (1989) analysed the constituent elements of a total of 87588
67. Character system, orthography and types of origin in Japanese writing
terms in terminologies (term types) of 23 domains. It was pointed out that, on average, Kango elements constitute about 60 % of the morphemes, Gairaigo about 30 %, and Wago 10 %. Also, the average frequency of Kango morphemes are much higher than those of Gairaigo and Wago. Kageura (1998), applying the LNRE models (Chitashvili/Baayen 1993) to the constituent elements of terminology, estimated that the growth rate of Gairaigo elements will be much higher than the growth rate of Kango.
4.
Conclusions
In this article, we focused on the formal aspects of Japanese writings, i. e. the types of character sets, orthography, and types of origin. Most quantitative studies related to these aspects have been carried out in relation to the large scale surveys carried out by the National Language Research Institute. Studies which are not directly related to these surveys have also been strongly influenced or stimulated by them. In that sense, the surveys by the National Language Research Institute gave a basic frame of reference in quantitative studies of Japanese orthography-related phenomena, both methodologically and in relation to the actual description of the current Japanese, contributing to the quantitative linguistic studies of Japanese orthography. On the other hand, it is notable that currently available electronic versions of various language data or corpora have not yet been exploited for quantitative study of Japanese orthography. This is reflected in the fact that there are only a few studies referred to in this paper which are very new. It may take some more time before these rich electronic corpora are fully exploited.
5.
Literature (a selection)
Araki, Tetsuo/Ikehara, Satoru/Tsukahara, Nobuyuki/Komatsu, Yasunori (1994), An Evaluation to Detect and Correct Erroneous Characters Wrongly Substituted, Deleted and Inserted in Japanese and English Sentences using Markov Models. In: Proceedings of COLING ’94, 187K193. Baayen, Harald (1989), A Corpus-Based Approach to Morphological Productivity. Amsterdam: Free University of Amsterdam. Chitashvili, Revas/Baayen, Harald (1993), Word Frequency Distributions. In: Quantitative Text
945
Analysis. (eds. L. Hrebicek/G. Altmann). Trier: Wissenschaftlicher Verlag, 54K135. Hayashi, Chikio (1974), Suuryouka no Houhou. Tokyo: Touyou Kezai. Hayashi, Ooki (1977), Kanji no Mondai. In: Kokugo Kokuji Mondai (Iwanami Kouza Nihongo 3). (eds. S. Oono/T. Shibata). Tokyo: Iwanami, 103K134. Hayashi, Ooki (1982), Zusetsu Nihongo. Tokyo: Kadokawa. Ishii, Masahiko (1987), Economy in Japanese Scientific Terminology. In: Terminology and Knowledge Engineering. (eds. H. Czap/C. Galinski). Frankfurt: INDEKS Verlag, 123K136. Ishii, Masahiko (1989), Kyoukasyo no Senmongo. In: National Language Research Institute 1989, 15K76. Kageura, Kyo (1998), A Statistical Analysis of Morphemes in Japanese Terminology. In: Proceedings of COLING-ACL ’98, 638K645. Kajima, Eìichi (1997), Moji no Jouhouriron Josetsu. Tokyo: Kazama. Kyoudou, Tuushinsya (1971), Moji Syutsudo Chousa 100 Man Ji Syukei Kekka. Tokyo: Kyoudou Tsuushinsya. Miyajima, Tatsuo (1978), Shinjitai no Kakusuu. In: Keiryou Kokugogaku 11 (7), 301K306. Miyajima, Tatsuo/Takagi, Midori (1974), Gairaigo no Hyouki no Henka to Yure. In: Keiryou Kokugogaku 71, 1K17. Miyajima, Tatsuo/Takagi, Midori (1978), Zassi 90syu Siryou no Kango Hyouki. In: Kokuritsu Kokugo Kenkyuujo Kenkyuu Houkokusyuu 1, 53K104. Miyajima, Tatsuo/Takagi, Midori (1984), Zassi 90syu Siryou no Gairaigo Hyouki. In: Kokuritsu Kokugo Kenkyuujo Kenkyuu Houkokusyuu 5, 43K76. Morioka, Kenji (1969), Kindaigo no Seiritsu K Meijiki Goi Hen. Tokyo: Meiji Syoin. Morohashi, Tetsuya (1955K1958), Dai Kanwa Jiten. Tokyo: Taishukan. National Language Research Institute (ed.), Goi Chousa: Gendai Shinbun Yougo no Ichirei. Tokyo: Syueishuppan, 1952. National Language Research Institute (ed.), Fujinzasshi no Yougo: Gendai no Goi Chousa. Tokyo: Syueishuppan, 1953. National Language Research Institute (ed.), Sougouzassi no Yougo. 2 vols. Tokyo: Syueishuppan, 1957K1958. National Language Research Institute (ed.), Gendai Zasshi Kyujussyu no Yougo Youji. 3 vols. Tokyo: Syueishuppan, 1962K1964. National Language Research Institute (ed.), Denshikeisanki niyoru Shimbun no Goi Chousa. 4 vols. Tokyo: Syueisyuppan, 1970K1973.
946
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
National Language Research Institute (ed.), Gendai Shimbun no Kanji. Tokyo: Syueisyuppan, 1976. National Language Research Institute (ed.), Koukou Kyoukasyo no Goichousa Bunsekihen. 2 vols. Tokyo: Syueisyuppan, 1983K1984. National Language Research Institute (ed.), Cyuugakkou Kyoukasyo no Goichousa Bunsekihen. 2 vols. Tokyo: Syueisyuppan, 1986K1987. National Language Research Institute (ed.), Koukou, Cyuugakkou Kyoukasyo no Goichousa Bunsekihen. Tokyo: Syueisyuppan, 1989. Nihongo Kyouiku Gakkai (ed.), Nihongo Kyoiku Jiten. Tokyo: Taishukan, 1982. Nomura, Masaaki (1972), Kanji Kanamajiribun no Moji Renzoku. In: Denshi Keisanki ni yoru Kokogu Kenkyuu IV, 1K34. Nomura, Masaaki (1975), Shimbun no Bunsyou ni Tsukawareta Kanji. In: Gengo Seikatsu 285, 27K36. Nomura, Masaaki (1977), Hyouki no Yure no Suuryouka. In: Keiryou Kokugogaku 11 (1), 3K19. Nomura, Masaaki (1980a), Syuukanshi no Kanji Gan’yuuritsu. In: Keiryou Kokugogaku 12 (5), 215K222. Nomura, Masaaki (1980b), Kanji no Pataan Bunrui. In: Denshi Keisanki ni yoru Kokugo Kenkyuu X, 169K186. Nomura, Masaaki (1981), Jouyou Kanji no Onkun. In: Keiryou Kokugogaku 13 (1), 27K33. Nomura, Masaaki/Ishii, Masahiko (1989), Gakujutu Yogo Goki Hyou. Tokyo: National Language Research Institute. Nozaki, Hironari/Yokoyama, Shoichi/Isomoto, Masao/Yoneda, Junko (1996), Moji Siyou ni kansuru Keiryouteki Kenkyuu. In: Nihon Kyouiku Kougaku Zasshi 20 (3), 141K149. Saiga, Hideo (1955), Sougou Zasshi no Katakana Go. In: Gengo Seikatsu 46, 37K45. Saiga, Hideo (1989), Kanji no Jisuu. Jisyu. In: Takebe 1989, 28K62.
Satake, Hideo (1977), Hyouki no Yure wo Hakaru. In: Denshi Keisanki ni yoru Kokugo Kenkyuu VIII, 192K202. Satake, Hideo (1982), Kakusyu Bunsyou no Jisyu Hiritsu. In: Kokuritsu Kokugo Kenkyuujo Kenkyuu Houkokusyuu 3, 327K346. Satake, Hideo (1998), Moji-Hyouki no Chousa. In: Nihongogaku 17 (9), 21K30. Shibata, Takeshi (1980), Seisho-Hou. In: Kokugogaku Daijiten. (Kokugo Gakkai, ed.). Tokyo: Tokyodo, 543K544. Tajima, Kazuo (1980), Kanji-Sisorasu no Sakusei. In: Dai 16 Kai Kagakugijutu Kenkyuusyuukai Happyou Ronbunsyuu, 115K122. Takagi, Moriyasu (1974), Kutouten wo Dou Utsuka. In: Gengo Seikatsu 277, 70K76. Takebe, Yoshìaki (ed.), Nihongo no Moji, Hyouki (I) (Kouza Nihongo to Nihongo Kyouiku 8). Tokyo: Meijishoin, 1989. Tanaka, Akio (1976), Kanji Chousa ni okeru Toukeiteki Syakudo no Mondai. In: Denshikeisanki niyoru Kokugo Kenkyuu VIII, 160K191. Tanaka, Akio (1998), The Number of Kanji in Modern Japanese Writing. In: Journal of Quantitative Linguistics 5 (1K2), 100K104. Tanaka, Tatsumi (1980), Moji no Toukei K Grafikku Tanmatu niyoru Bunseki. In: Denshikeisanki niyoru Kokugo Kenkyuu X, 160K191. Tsuchiya, Shin’icki (1967), Zasshi Taiyo no Youji no Hensen. In: Gengo Seikatsu 193, 34K43. Tsuchiya, Shin’icki (1975), Shimbun ni okeru Mazegaki Hyouki ni tsuite. In: Denshi Keisanki ni yoru Kokugo Kenkyuu VII, 9K35. Tsuruoka, Akio (1989), Koukou Kyoukasyo no Kanji. In: National Language Research Institute 1989, 188K231. Yasumoto, Biten (1963), Kanji no Syourai. In: Gengo Seikatsu 137, 46K54. Yokoyama, Shojshi/Sasahara, Hiroyuki/Nozaki, Hironari/Long, Erica (1998), Shimbun Densi Media no Kanji. Tokyo: Sanseidou.
Kyo Kageura, Tokyo (Japan)
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
947
68. Die quantitative Erforschung der chinesischen Sprache und Schrift 1. Vorbemerkung zur chinesischen Sprache und Schrift 2. Zur Anzahl der chinesischen Schriftzeichen 3. Zur Zahl der Morpheme des modernen Chinesisch 4. Wortschatz und Wortartenverteilung im modernen Chinesisch 5. Zur Verteilung von Strichzahl, Graphemzahl und Strukturtyp im Schriftzeicheninventar 6. Zur Verteilung von Wort- und Satzlängen im modernen Chinesisch 7. Das Zipfsche Gesetz und die chinesische Schrift 8. Die Entropie der chinesischen Schrift 9. Das Menzerathsche Gesetz und die chinesische Sprache und Schrift 10. Köhlers Basismodell der Lexik und das chinesische Schriftzeichensystem 11. Schlusswort 12. Literatur (in Auswahl)
1.
Vorbemerkung zur chinesischen Sprache und Schrift
Die chinesische Sprache weist Merkmale auf, die sie von den in Europa geläufigen Sprachen unterscheidet. Die chinesische Schrift unterscheidet sich möglicherweise in noch stärkerem Maße von den Mitteleuropäern geläufigen Alphabetschriften. Daher sind einige allgemeine Anmerkungen zuvor angebracht. Mit chinesischer Sprache wird im Folgenden stets das moderne Chinesisch gemeint sein, und zwar insbesondere jene Varietät, die von der Regierung der VR China standardisiert und zur Amtssprache erklärt wurde. Diese Varietät trägt auch die Bezeichnung putonghua, was übersetzt Gemeinsprache bedeutet. Auf Deutsch wird sie auch als Hochchinesisch bezeichnet, auf Englisch auch als Mandarin oder modern standard Chinese. Auf Taiwan wird die dort gesprochene, eng verwandte Varietät guoyu genannt, was Landessprache bedeutet. Diese Varietät, die sich von putonghua lexikalisch und phonetisch geringfügig unterscheidet, wird ebenfalls oft als Mandarin bezeichnet. Die chinesische Sprache ist eine Tonsprache mit vier ausgeprägten Tönen und einem abgeschwächten Ton, dem sog. leichten Ton. Die vier ausgeprägten Töne werden der Einfachheit halber heute meistens nummeriert: (1) der gleichbleibend hohe Ton, (2) der steigende Ton, (3) der zu-
nächst fallende und dann steigende Ton und (4) der fallende Ton. Weit verbreitet ist die Annahme, dass Chinesisch eine monosyllabische Sprache sei. Dies ist nur in eingeschränktem Sinne zutreffend: in der Rede repräsentiert eine Silbe zumeist ein Morphem, jedoch ist nur knapp die Hälfte aller Morpheme frei, während etwa genauso viele weitere Morpheme gebunden sind. In aller Regel wird ein Morphem in der Rede durch eine Silbe und im schriftlichen Text durch ein Schriftzeichen realisiert. Bei der Analyse einer Stichprobe häufig verwendeter Schriftzeichen wird man jedoch auch finden, dass gut 10 % der Schriftzeichen ausschließlich für unikale Morpheme oder submorphemische Silben, die Teile eines mehrsilbigen Morphems sind, stehen. (vgl. DeFrancis 1984, 184K187) Die meisten chinesischen Wörter sind heute zweisilbig und werden entsprechend durch zwei Schriftzeichen notiert. Einsilbige Wörter scheinen wegen ihrer großen Häufigkeit ebenfalls sehr zahlreich zu sein. Sie sind aber deshalb so häufig, weil es sich bei ihnen vor allem um grammatische Funktionswörter handelt. Weiterhin gibt es drei-, vier-, fünf- und sechssilbige Wörter. Sofern man die Bezeichnungen von Institutionen als Wörter betrachtet, sind auch noch längere Wörter möglich. Nach der herkömmlichen typologischen Klassifizierung von Sprachen gilt Chinesisch als isolierend. Dies ist insoweit zutreffend, als die Mehrheit aller Morpheme als Kernmorphem fungieren kann. Jedoch kennt auch diese Sprache zur Wortbildung neben der Komposition die Derivation und dementsprechend eine bestimmte Menge an Derivationsmorphemen. Außerdem gibt es eine geringe Anzahl Morpheme, die Wörtern einiger Wortarten affigiert werden, um in bestimmten Fällen den Plural oder einen Aspekt zum Ausdruck zu bringen. Obwohl sie gut als Formbildungsmorpheme klassifizierbar sind, werden sie auch heute noch in der Regel als Hilfswörter oder Partikeln bezeichnet. Da die chinesische Syntax nicht auf morphologische Markierungen von Kasusrollen zurückgreifen kann, spielt die Satzstellung eine herausragende Rolle. Die grundlegende Satzstellung ist SVO, wobei adverbiale Adjunkte stets vor und Verbkomplemente stets hinter dem Verb auftre-
948
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ten. Attribute stehen grundsätzlich vor ihrem Kopf-Nomen. Die Möglichkeit, direkte Objekte ohne besondere Markierung in die Topic-Position am Satzanfang zu verschieben, sowie einige Partikeln, mit deren Hilfe die Stellung der Satzglieder variiert werden kann, sorgen für eine ausreichende Flexibilität des Satzbaus, für den natürlich auch vielfältige Einbettungs- und Verknüpfungsmöglichkeiten zur Verfügung stehen. Die chinesische Schrift ist weder mit piktographisch noch mit logographisch noch gar mit ideographisch ausreichend korrekt beschrieben. Zwar lassen sich die meisten Komponenten, aus denen sich die Schriftzeichen zusammensetzen, auf piktographische Vorgänger zurückführen, jedoch würde die Bezeichnung als piktographisch eine Verwechslung von Form und Funktion bedeuten. (DeFrancis 1989, 49K50) Und obwohl die meisten Schriftzeichen für Morpheme stehen, die gegenwärtig frei sind oder es in einem früheren Sprachstand waren, verschleiert die Bezeichnung als logographisch dennoch das tatsächliche Verhältnis zwischen der Schriftzeichenebene und der Wort- bzw. Morphemebene. Eine tatsächlich ideographische Schrift ist sogar völlig undenkbar, sollte ein solches Zeichensystem tatsächlich zur Notierung einer Sprache dienen. DeFrancis (1984, 88; 125K126) hat vorgeschlagen die chinesische Schrift als morphosyllabisch zu bezeichnen, und auf verschiedene Weise die Angemessenheit dieser Bezeichnung gezeigt, die sich auf das Verhältnis zur Morphemebene und zum Redesystem bezieht. Qiu (1988, 16K20) besteht dagegen darauf, auch die Funktionen der Komponenten chinesischer Schriftzeichen in der Bezeichnung zu berücksichtigen. Komponenten können bedeutungshinweisende, aussprachehinweisende oder distinktive Funktion haben. Etwa 80 % des heute gebräuchlichen Schriftzeicheninventars sind nämlich zusammengesetzte Schriftzeichen, deren eine Komponente einen ungefähren Hinweis auf die Bedeutung bietet, das Signifikum, oder nur noch zeichenunterscheidend wirkt, während die andere, das Phonetikum, in mehr oder weniger zuverlässiger Weise einen Hinweis auf die Aussprache gibt. Insgesamt rund 90 % der heute gebräuchlichen Schriftzeichen sind als Phonetika oder als Schriftzeichen, die ein Phonetikum enthalten, an der Phonetizität des chinesischen Schriftzeichensystems beteiligt. Bei den übrigen rund 10 % handelt es sich um weitere
einfache Schriftzeichen sowie um zusammengesetzte Schriftzeichen, deren Zusammensetzung rein signifisch motiviert ist oder die eine nur distinktiv wirkende Komponente enthalten, und um solche, die unikale Komponenten enthalten. In schriftlichen Texten erhält jedes Schriftzeichen gleich viel Raum, unabhängig von seiner graphischen Komplexität. Wörter sind nicht durch Leerschritte voneinander abgesetzt. Die Interpunktion unterscheidet sich graphisch nur geringfügig von der uns gewohnten. In der VR China wurde in den 1950-ern eine Schriftzeichenvereinfachung durchgeführt, die knapp 2.300 Schriftzeichen betraf. Auf Taiwan und in Hongkong sind noch die herkömmlichen Vollzeichen in Gebrauch.
2.
Zur Anzahl der chinesischen Schriftzeichen
Die Antwort auf die Frage, wie viele chinesische Schriftzeichen es eigentlich gibt, kann sehr unterschiedlich ausfallen, je nach dem, wie diese Frage interpretiert wird. Im ersten Jahrtausend n. Chr. wurden Wörterbücher mit rund 10.000 bis rund 30.000 Schriftzeichen zusammengestellt und im zweiten Jahrtausend erschienen mehrere Wörterbücher mit über 50.000 Schriftzeichen. Das Mitte der 1990-er erschienene Zhonghua zihai [Chinas Schriftzeichenmeer] (vgl. Leng/Wei 1994) nennt eine rekordverdächtige Zahl von über 80.000 Lemmata. Solche Zahlen sind zu einem guten Teil das Resultat ungebremster Sammelbegeisterung, die dazu führt, dass auch die peripherste Variante eines Schriftzeichens, die auf einer historischen Stele oder in einem alten Holzblockdruck zu finden ist, aufgenommen und gezählt wird. Hincha (2003, 128) hat die Eintragszahlen wenigstens zweier sehr umfangreicher Wörterbücher untersucht und ist zu dem Ergebnis gekommen, dass nach der Zusammenfassung von Allographen und unter Auslassung von dokumentierten Fehlschreibungen ein Bestand von um die 27.000 verschiedenen Schriftzeichen bleibt. Etwa vier Fünftel davon sind heute nicht mehr gebräuchliche Schriftzeichen. Wie in Art. Nr. 6, Abschnitt 4, dargestellt, führten umfangreiche Korpusuntersuchungen in den 1980er Jahren in der VR China regelmäßig zu Inventaren mit ca. 4.500 bis knapp 8.000 Schriftzeichen (vgl. Menzel 2003, 192 f.). 1989 wurde die Xiandai Hanyu tongyongzi
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
biao [Liste allgemein gebräuchlicher Schriftzeichen des modernen Chinesisch] (vgl. Art. Nr. 6, Abschnitt 4.6.3) veröffentlicht, die 7.000 Schriftzeichen enthält. Bei genauerer Betrachtung erweisen sich etwas über 400 davon als nicht tatsächlich allgemein gebräuchlich, so dass die Zahl der allgemein gebräuchlichen Schriftzeichen mit rund 6.500 angegeben werden kann (Menzel 2003, 193). 2.500 davon sind die sog. häufigen Schriftzeichen und weitere 1.000 die sog. nächst-häufigen Schriftzeichen des modernen Chinesisch (vgl. Art. Nr. 6, Abschnitt 4.6.2). Darüber hinaus gehende Schriftzeichen sind dennoch nötig, wie die Beschränkungen, die der Basissatz für den elektronischen Datenaustausch mit rund 6.700 Schriftzeichen (vgl. Art. Nr. 6, Abschn. 4.6.1) mit sich brachte, zeigen: er musste um Ergänzungssätze erweitert werden, um die an ihn gestellten Schreibbedürfnisse befriedigen zu können. Der in Singapur wirkende Computerlinguist Kim Teng Lua (1994, 55) kommt nach mathematischen Extrapolationen aufgrund der Daten des Xiandai Hanyu changyongci cipin cidian [Frequenzwörterbuchs häufiger Wörter des modernen Chinesisch] (Liu/Liang/Wang u. a. 1990), aus dem ihm offenbar ein Auszug in maschinenlesbarer Form vorlag, zu dem Schluss, dass der maximale Umfang des Schriftzeicheninventars zwischen 9.742 und 20.107 liegen müsste. Damit mag er Recht haben, jedoch wären K das ist aus den Daten zu schließen, die bei der Erstellung der Xiandai Hanyu tongyongzi biao [Liste allgemein gebräuchlicher Schriftzeichen des modernen Chinesisch] (vgl. Art. Nr. 6, Abschnitt 4.6.3) verwendet wurden K ein bis zwei Drittel dieser Schriftzeichenmengen sehr selten bis äußerst selten verwendete Schriftzeichen.
3.
Zur Zahl der Morpheme des modernen Chinesisch
Während es richtig ist, dass ein Schriftzeichen-Token im Text in nahezu allen Fällen ein Morphem repräsentiert, sollte man aus der Anzahl existierender Schriftzeichen-Types nicht auf die Anzahl der Morpheme schließen. Denn viele Schriftzeichen-Types haben lexikalisch mehr als eine Bedeutung, repräsentieren also in bestimmten Fällen das eine und in anderen Fällen ein anderes Morphem. Außerdem gibt es einige Schriftzeichen, die rein phonetisch fungieren.
949
Yin Binyong (1984, 340 ff.) hat es unternommen, die Anzahl der Morpheme des modernen Chinesisch festzustellen. Dabei ging er vor allem von den häufigsten rund 4.200 Schriftzeichen aus, die im sog. Projekt 748 (vgl. Art. Nr. 6, Abschnitt 4.1) ermittelt worden waren. Sie hatten in dem Korpus dieses Projekts eine kumulative Häufigkeit von 99,94 %. Schriftzeichen für Eigennamen und geographische Namen, die phonetische Übertragung von Fremdwörtern, Dialektwörter, klassisches Chinesisch, soweit nicht in der modernen Schriftsprache geläufig, usw. schloss er aus und beschränkte sich überdies zunächst auf einsilbige Morpheme. Er ermittelte, dass die verbleibenden rund 4.200 Schriftzeichen zusammen für 4.871 einsilbige Morpheme stehen, die er anschließend zu klassifizieren suchte. Auf eine kritische Analyse der Morphemklassen, die dem klassischen Wortartensystem entsprechen, muss an dieser Stelle verzichtet werden. Vereinfachend kann man sagen, dass das moderne Chinesisch rund 5.000 einsilbige Morpheme hat. Weiterhin ermittelte Yin die Anzahl und den Anteil der freien einsilbigen Morpheme und kam zu dem Ergebnis, dass knapp die Hälfte aller einsilbigen Morpheme, nämlich 49 % frei verwendbar und somit wortfähig sind. Seine Ergebnisse sind in Tabelle 68.1 dargestellt. Sie bedarf jedoch einer Erläuterung: eine Anzahl Morpheme kann zwei Morphemklassen zugeordnet werden, beispielsweise 杯 bēi, dt. Glas, Becher, das Nomen wie 茶杯 chábēi, dt. Teebecher und das Zähleinheitswort Becher wie in 一杯茶 yī bēi chá, dt. ein Becher Tee bilden kann. In seiner Gesamttabelle, hier die Spalten 2 und 3, hatte Yin solche Morpheme ihrer Grundbedeutung entsprechend gezählt, im Fall des genannten Beispiels also als nominal. Frei sind viele dieser Morpheme aber nur in der Funktion als Zähleinheitswort, so dass in Spalte 4 von Tabelle 68.1 mehr zähleinheitswortartige Morpheme verzeichnet sind als in Spalte 2. Ähnliches ist der Fall mit einigen verbalen Morphemen, die nur als Präpositionen frei verwendbar sind. In den resultierenden Fällen, in denen die Zahl in Spalte 4 diejenige in Spalte 2 übersteigt, gelten alle Morpheme dieser Klasse als frei, ihr Anteil an der Klasse ist also 100 %. Weiterhin untersuchte Yin (1984, 343 ff.) die Verteilung der Wortbildungsfähigkeit der einsilbigen Morpheme, also wie sich die Anzahl der Wörter verteilt, von denen die
950
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Tabelle 68.1: Einsilbige Morpheme insgesamt und freie Morpheme (n. Yin 1984, 341; 342) Morphemklasse Anzahl Anteil an allen Morpheme Morphemen nominal 2011 verbal 1864 adjektivisch 651 zahlwortartig 50 zähleinheitswort- 91 artig pronominal 34 adverbial 84 präpositional 17 konjunktional 16 hilfswortartig 20 interjektional 33 Gesamt
4871
davon freie Anteil an den freien Morpheme Morphemen
41 % 681 38 % 1135 13 % 240 46 136
S P P P T zusammen 8 % P P P U
18 48 20 11 20 33
100 % 2388
einsilbigen Morpheme Bestandteil sind. Dazu nahm er ein Wortbildungswörterbuch, das Changyong gouci zidian (Beijing, 1982), zu Hilfe, dessen Einträge zeigen, in welchen Wörtern ein Schriftzeichen vorkommt. Um den Schwierigkeiten der Unterscheidung zwischen Wort und Wortgruppe zu entgehen, beschränkte er sich auf maximal dreisilbige Wörter. Natürlich berücksichtigte er bei Schriftzeichen, die mehrere Morpheme darstellen können, die Morpheme getrennt. Auf die Wiedergabe der resultierenden Tabelle muss hier verzichtet werden, jedoch sollen einige Ergebnisse genannt werden. Die nominale, verbale und adjektivische Morphemklasse hatten alle drei ein Maximum bei zwei Wörtern, d. h. eine relative Mehrheit von 10K13 % der Morpheme dieser Klassen bilden nur zwei Wörter. Die Verteilung der Wortbildungsfähigkeit der Morpheme dieser drei Klassen sowohl zusammen als auch einzeln folgt im Großen und Ganzen der Poissonverteilung, was Yin (1984, 344) jedoch nur konstatiert K wohl nach dem Augenschein K nicht aber überprüft. Eine Anpassung der Poissonverteilung an die Daten gelang der Autorin nicht. Außerdem bemerkt Yin, dass die durchschnittliche Wortbildungsfähigkeit in absteigender Reihenfolge 18,8 % für nominale, 17,1 % für adjektivische und 14,0 % für verbale Morpheme beträgt, während die Reihenfolge für diese drei Klassen gemäß dem Anteil freier Morpheme an allen Morphemen derselben Klasse umgekehrt ist. Er erkennt hier einen negativen Zusammenhang zwischen Freiheit und Wortbildungsfähigkeit bzw. Wortbildungsneigung. Untersu-
29 % 48 % 10 %
S P P P T zusammen 13 % P P P U 100 %
Anteil der freien an allen Morphemen dieser Klasse 34 % 61 % 37 % 92 % 100 % 53 % 57 % 100 % 69 % 100 % 100 % 49 %
chungen zur Produktivität einzelner Morpheme sowie Morphemklassen stehen noch aus. Eiji Nishimoto (2003, 56 ff.) untersucht und vergleicht die morphologische Produktivität von fünf chinesischen Suffixen, nämlich 们 -men, 化 -hua, 儿 -r, 子 -zi und 头 -tou. Auf Grundlage des Sinica Corpus (s. Art. Nr. 6, Abschn. 7) verwendet Nishimoto zunächst ein token-basiertes Produktivitätsmaß. Anschließend wird ein type-basiertes Maß entwickelt, das die Methode der gelöschten Schätzung, engl. deleted estimation method, verwendet und also die Zahl der als ungesehen definierten Wort-Types eines Korpus zur Zahl aller Wort-Types des Korpus in Beziehung setzt. Diese Arbeit kann auch methodisch als Grundlage für weitere Untersuchungen zur Produktivität von Morphemen dienen. Da ein Schriftzeichen-Type ja lexikalisch zur Darstellung von mehr als einem Morphem dienen kann, untersuchte Yin (1984, 345), wie sich das Verhältnis Schriftzeichen K Morpheme in dem von ihm betrachteten Inventar konkret verteilt. Tabelle 68.2 zeigt die Ergebnisse. Knapp 90 % der Schriftzeichen repräsentieren lexikalisch nur ein einziges Morphem. Die Schriftzeichen, die stets für dasselbe Morphem stehen, verteilen sich ungleichmäßig auf die Häufigkeitsebenen des betrachteten Inventars, das ja aus einer Korpusuntersuchung hervorgegangen ist: je weniger häufig Schriftzeichen einer Ebene sind, desto mehr Schriftzeichen sind unter ihnen, die stets für dasselbe Morphem stehen. Diese Ebenen wurden von den Autoren der betr. Häufigkeitsliste allerdings auch unter-
951
68. Die quantitative Erforschung der chinesischen Sprache und Schrift Tabelle 68.2: Das Verhältnis Schriftzeichen K Morpheme (n. Yin 1984, 345) Schriftzeichen K Morphem
Anzahl Schriftzeichen
Anteil an allen untersuchten Schriftzeichen
1 1 1 1 1 1
3686 429 73 18 6 1
87,50 % 10,20 % 1,70 % 0,40 % 0,10 % 0,02 %
4213
100 %
Zeichen Zeichen Zeichen Zeichen Zeichen Zeichen
/ / / / / /
1 2 3 4 5 6
Morphem Morpheme Morpheme Morpheme Morpheme Morpheme
Gesamt
Anm.: Die Prozentangaben addieren sich wegen Rundungsfehlern nur zu 99,92 %.
schiedlich umfangreich eingeteilt, was den Wert dieser Beobachtung beeinträchtigt. Ende der 1990-er wurde an der QinghuaUniversität in Beijing eine Morphemdatenbank eingerichtet (Yuan/Huang 1998, 7 ff.), deren zugrundegelegtes Schriftzeicheninventar offensichtlich am Basissatz (s. Art. Nr. 6, Abschn. 4.6.1) orientiert ist. Für diese 6.763 Schriftzeichen [sic] enthält die Datenbank 17.470 Morphemeinträge, die sich zu 10.442 Morphemen zusammenfassen lassen. Davon sind 9.712 einsilbige und 730 zweisilbige Morpheme. Zieht man 1.959 Morpheme ab, die im modernen Chinesisch keine Morphembedeutung mehr haben, weil sie nur noch in opaken Verbindungen mit feststehender Bedeutung vorkommen, so bleiben 7.753 einsilbige Morpheme, die sich wie folgt auf die Morphemklassen verteilen, s. Tabelle 68.3. Die Zahlen für nominale, verbale, adjektivische und adverbiale Morpheme sind etwas höher als bei Yin, insgesamt ist die VerTabelle 68.3: Verteilung auf die Morphemklassen in der Datenbank der Qinghua-Universität (n. Yuan/Huang 1998, 8) Morphemklasse
Anzahl Anteil an allen Morpheme Morphemen
nominal 3612 verbal 2433 adjektivisch 982 adverbial 152 präpositional 26 pronominal 61 konjunktional 27 interjektional 38 hilfswortartig 28 onomatopoetisch 67 zahlwortartig 45 zähleinheitswortartig 157 andere 125
46,7 % 31,4 % 12,7 % 2,0 % 0,3 % 0,8 % 0,3 % 0,5 % 0,4 % 0,9 % 0,6 % 2,0 % 1,6 %
Gesamt
100 %
4871
teilung aber ganz ähnlich. Yuan/Huang (1998, 8 f.) fanden 2.878 (37,1 %) freie, 3.295 (42,5 %) gebundene und 432 (5,6 %) halbfreie Morpheme sowie 1,148 (14,8 %) Morpheme, deren Status noch festzustellen war. Unterschiedliche Kriterien für die Bestimmung von Freiheit und Gebundenheit vorausgesetzt weicht dieser Befund, den die Autoren nicht nach Morphemklassen aufschlüsseln, nicht wesentlich von Yins ab. Die genannte Datenbank lässt weitere Erkenntnisse zur Struktur des chinesischen Wortschatzes erwarten.
4.
Wortschatz und Wortartenverteilung im modernen Chinesisch
Es gibt natürlich keinen Grund anzunehmen, dass das moderne Chinesisch über weniger Wörter verfüge als andere Sprachen. Es hat mehrere Möglichkeiten, sein Vokabular zu erweitern und den Bedürfnissen der Sprechergemeinschaft anzupassen. Zu diesen Anpassungsstrategien gehören u. a. Komposition, Derivation, Abkürzung älterer Wörter, Bedeutungswandel älterer Wörter, Lehnübersetzung, phonetische Entlehnung und Kombinationen der genannten Mittel. In den letzten Jahren ist die Entstehung von Neologismen, die lateinische Buchstaben enthalten, besonders auffällig gewesen. Obwohl dies bis heute kritisiert wird, hat sich das klassische Wortartensystem auch für das Chinesische durchgesetzt. Allerdings haben chinesische Wörter andere Merkmale, die sie als der einen oder anderen Wortart angehörig erscheinen lassen, als es in uns geläufigen flektierenden Sprachen der Fall ist. Das Wortartensystem selbst kann hier jedoch nicht kritisch gewürdigt (s. Kupfer
952
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
1979, 70 ff.) werden und wird daher als Gegebenes betrachtet. 4.1. Zum Umfang des Wortschatzes Sofern man Korpusuntersuchungen als Grundlage für Aussagen über den Wortschatz des Chinesischen nimmt, ist zu beachten, dass die Segmentierung auf unterschiedlichen Annahmen beruhen kann, darunter solche, die den Status von Eigennamen und Phraseologismen betreffen, und evtl. nicht rein linguistischen Zielen dient. So kann beispielsweise die Segmentierung für Zwecke des Information Retrieval kürzere Einheiten ergeben als die für die linguistische Forschung. Weiterhin beeinflussen unterschiedliche Segmentierungsstrategien und -lexika das Ergebnis. Die Unterscheidung zwischen kanonischer Form und Wortform im Text spielt für das Chinesische dagegen nur eine untergeordnete Rolle, denn nur wenige Wörter bilden wenige Formen K was sich ändern könnte, sofern einige weitere Hilfswörter künftig als formbildend klassifiziert werden sollten K die jedoch mit einer gewissen Häufigkeit auftreten können. Das Fehlen von Leerschritten erlaubt jedenfalls keine Heuristik, die einheitlich auf alle möglichen Texte angewendet werden könnte. Insofern sind alle Angaben über Wortschatzumfänge mit dem entsprechenden Körnchen Salz zu genießen. Das Korpus, das für das Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] untersucht wurde (s. Art. Nr. 6, Abschn. 4.3), umfasste rd. 1,31 Mio. Wort-Tokens, die sich aus einem Wortschatz von 31.159 Types rekrutierten. Das Korpus, das dem Xiandai Hanyu changyongci cipin cidian [Frequenzwörterbuch häufiger Wörter des modernen Chinesisch] (Liu/Liang/Wang u. a. 1990) zugrunde lag (s. Art. Nr. 6, Abschn. 4.4), hatte einen Umfang von rd. 13 Mio. Wort-Tokens, unter denen sich 77.482 verschiedene Wort-Types zeigten, von denen 46.520 in dieses Frequenzwörterbuch aufgenommen wurden. Liu/Liang/Wang u. a. (1990, 8) geben weiterhin an, dass das Segmentierungslexikon, das zur automatischen Wortsegmentierung verwendet worden sei, 130.691 Einträge gehabt habe. Der Hanzi jianpan shuru yong tongyong ciyuji / General word set for Chinese character keyboard input hat 43.540 Einträge, doch anders als die englische Übersetzung des Titels vermuten lässt, handelt es sich nicht nur um Wörter, sondern auch um
gebräuchliche Kollokationen und Phraseologismen, es sind also auch Wortgruppen unter den Einträgen. Am Ende des letzen Jahrhunderts wurde eine Liste gebräuchlicher Wörter des modernen Chinesisch, chin. Xiandai Hanyu tongyongci biao, erarbeitet, die zum Standard erklärt werden sollte (vgl. Li 2000, 86), angeblich über 64.000 Wörter enthält und bei Tests 99,07 % der Testkorpora abdeckte (Renmin ribao haiwai ban / People’s Daily overseas edition 12. 04. 2000, 1). Sie ist noch nicht erschienen. Dieses Unterfangen wurde von Linguisten sehr kritisiert, weil der Wortschatz sich schneller wandelt, als man einen derartigen Standard anpassen könne. Mit der Berechnung der Gebräuchlichkeit setzen sich Yin/Fang (1994, 71 ff.) auseinander und machen konstruktive Vorschläge. Anfang der 1990-er erfolgte die Kompilierung eines Basiswortschatzes für den fremdbzw. zweitsprachlichen Unterricht, der 1992 als Hanyu shuiping cihui yu Hanzi dengji dagang [Gestufter Wortschatz und Schriftzeichenliste für die standardisierte Sprachprüfung des Chinesischen HSK], kurz Gestufter Wortschatz, erschien; 2001 kam eine zweite, nur geringfügig veränderte Auflage heraus. Zu seiner Zusammenstellung waren verschiedene Listen häufiger Wörter zu Rate gezogen worden, darunter auch die weiter oben genannten Frequenzwörterbücher. Neben Worthäufigkeiten wurde aber auch auf die Relevanz des Wortschatzes für die Zielgruppe geachtet. Weiterhin bemühte man sich, Redundanzen zu vermeiden, d. h. es wurde auf die Aufnahme vieler gebräuchlicher transparenter Komposita und Derivata verzichtet, wenn deren Bestandteile in der entspr. Bedeutung schon enthalten waren. (Liu/Song 1992, 6; 10 ff.). Die 8.822 Wörter, darunter eine geringe Anzahl von Affixen, teilen sich auf vier Häufigkeitsebenen oder Stufen, s. Tabelle 68.4. Zur Beherrschung dieses Wortschatzes ist die Kenntnis von 2.905 Schriftzeichen notTabelle 68.4: Die Verteilung der Wörter des Gestuften Wortschatzes auf vier Stufen Stufe
Anzahl Wörter
I. II. III. IV.
1.033 2.018 2.202 3.569
Gesamt:
8.822
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
wendig, die in vier parallele Stufen eingeteilt sind. Sofern der jew. Teil des Wortschatzes angemessen ausgewählt ist, können nach Meinung der Autoren mit 3.000 Wörtern ca. 86 % gewöhnlicher Texte abgedeckt werden, mit 5.000 Wörtern 91 % und mit 8.000 Wörtern 95 %. Diese Angaben stützen sie zum Teil auf kumulative Häufigkeiten, die im Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] angegeben sind. (Liu/Song 1992, 4; 21) Forschungen zur tatsächlichen Effektivität dieses Basiswortschatzes stehen m. W. noch aus. Der weiter oben bereits erwähnte Computerlinguist Lua hat auch für den chinesischen Wortschatz mathematisch extrapoliert, welcher maximale Umfang zu erwarten ist, und zwar auf Grundlage der Häufigkeitsdaten zu den 46.412 Wörtern aus dem Xiandai Hanyu changyongci cipin cidian [Frequenzwörterbuch häufiger Wörter des Chinesischen]. Er schätzt, dass die Obergrenze für den Wortschatzumfang im Bereich von 4,46 Mio. bis 9,07 Mio. Wörter liegt. (Lua 1994, 50). 4.2. Die Verteilung der Wortarten im Wortschatz und die Wortartenhäufigkeit Yin Binyong (1986, 428 ff.) hat die gut 40.000 Wörter eines nicht näher bezeichneten Wörterbuchs des modernen Chinesisch nach Wortarten klassifiziert und diesen Zahlen die der entsprechenden Morphemklassen (s. Abschn. 3) gegenübergestellt. Die Ergebnisse zeigt Tabelle 68.5, wobei auf die
953
Angaben zu Unterklassen, bei Nomen insbes. Positionswörter, bei Verben Direktionalverben, Modalverben und das Urteilsverb, das dt. sein entspricht, und bei Hilfswörtern Strukturpartikeln, Aspektpartikeln und Modalpartikeln, verzichtet wurde. Unter den Nomen, Verben und Adjektiven ist bei Wörtern und Morphemen die Rangfolge der Type-Anteile gleich, obwohl sich die Anteile selbst leicht unterscheiden. Einige Morphemklassen sind jedoch stärker besetzt als die entsprechenden Wortarten, wodurch sich für sie eine andere Rangfolge ergibt. Dies ist der Fall bei Adverben und Zähleinheitswörtern sowie bei den Konjunktionen, Zahlwörtern und Hilfswörtern. Die statische Wortartenverteilung im Gestuften Wortschatz, der in Abschn. 4.1 vorgestellt wurde, ist zu finden in Hanyu shuiping cihui yu Hanzi dengji dagang (2001, 7). Nach dieser Untersuchung eines statischen Vokabulars hat Yin das Auftreten von Wörtern der verschiedenen Wortklassen in Texten dreier verschiedener Textsorten, nämlich Beschreibung, Erörterung und Erklärung untersucht (Yin 1986, 430K432). Nicht genauer benannte Texte aus Mittelschullehrbüchern dienten ihm dazu als Korpus. Tabelle 68.6 hat in der ersten Spalte dieselbe Reihenfolge der Wortarten wie Tabelle 68.5, die nach der Häufigkeit in einem Wörterbuch angeordnet ist. Die Zahlen in Klammern geben die Rangfolge der relativen Wortartenhäufigkeit in der betr. Textsorte an. Dass Hilfswörter die am dritthäufigsten vertretene Wortart sind, verwundert nicht,
Tabelle 68.5: Verteilung der Wörter auf Wortklassen, im Vergleich dazu Morpheme u. Morphemklassen (n. Yin 1986, 429K430) Wortart
Anzahl Wörter
Anteil am untersuchten Wortschatz
Anteil d. Morpheme d. entspr. Morphemklasse an allen Morphemen
Nomen Verben Adjektive Adverben Zähleinheitswörter Konjunktionen Pronomen Interjektionen Zahlwörter Präpositionen Hilfswörter 4-SilbenPhraseologismen
23.267 11.603 3.116 239 202 86 83 74 64 37 32 2.380
56 % 28 % 8% 0,6 % 0,5 % 0,2 % 0,2 % 0,2 % 0,2 % 0,1 % 0,1 % 6%
41 % 38 % 13 % 1,7 % 1,9 % 0,3 % 0,7 % 0,7 % 1% 0,3 % 0,4 % 0%
Gesamt:
41.183
100 %
954
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Tabelle 68.6: Wortartenhäufigkeiten in drei Textsorten (n. Yin 1986, 431) Wortart Nomen Verben Adjektive Adverben Zähleinheitswörter Konjunktionen Pronomen Interjektionen Zahlwörter Präpositionen Hilfswörter 4-Silben-Phraseologismen
Beschreibung (1) (2) (6) (4) (9) (10) (5) (11) (8) (7) (3)
27 % 22 % 7% 9% 3% 3% 8% 0,2 % 5% 5% 11 % 0,5 %
Erörterung (1) (2) (6) (4) (10) (9) (5) (11) (8) (7) (3)
28 % 24 % 6% 10 % 2% 3% 7% 0,0 % 3% 5% 11 % 0,4 %
Erklärung (1) (2) (4) (5) (9) (10) (8) (11) (7) (6) (3)
32 % 23 % 8% 7% 3% 2% 4% 0,1 % 5% 5% 10 % 0,2 %
Tabelle 68.7: Wortartenhäufigkeiten in der Schriftsprache und in gesprochener Sprache (n. Yin 1986, 432) Wortart Nomen Verben Adjektive Adverben Zähleinheitswörter Konjunktionen Pronomen Interjektionen Zahlwörter Präpositionen Hilfswörter 4-Silben-Phraseologismen
Schriftsprache (1) (2) (5) (4) (9) (10) (6) (11) (8) (7) (3)
29 % 23 % 7% 9% 3% 3% 6% 0,1 % 4% 5% 11 % 0,3 %
stellen sie doch eine kleine geschlossene Klasse grammatischer Wörter dar, die in der Rede v. a. zur Strukturierung und zur Formbildung gebraucht werden. Die relative Häufigkeit, mit der Nomen und Verben in diesen drei Textsorten auftreten, unterscheidet sich deutlich; für die anderen Wortarten erscheinen die Unterschiede zumeist geringfügig. Ihre jeweilige Rangfolge müsste an größeren Korpora der drei Textsorten überprüft werden. Gravierender dürfte der Unterschied zwischen Schriftsprache und gesprochener Sprache sein. Um das zu erfahren, hat Yin (1986, 432K433) Lehrbuchtexte der Mittelschule und Dialogtexte aus Lehrwerken für gesprochenes Chinesisch ausgewertet. In der ersten Spalte von Tabelle 68.7 haben die Wortarten wiederum dieselbe Reihenfolge wie in Tabelle 68.5. Zahlen in runden Klammern geben die Rangnummer im entsprechenden Korpus an. Die Rangreihenfolge von Nomen und Verb zeigt sich in den Dialogtexten anders als in den schriftsprachlichen Texten: ge-
gespr. Sprache (2) (1) (6) (5) (8) (10) (3) (11) (7) (9) (4)
23 % 25 % 6% 8% 5% 1% 13 % 0,4 % 6% 3% 10 % 0,0 %
sprochene Sprache scheint stärker von Verben geprägt zu sein als Schriftsprache. Ein weiterer deutlicher Unterschied ist die Häufigkeit von Pronomen in der gesprochenen Sprache. Aus Tabelle 68.7 nicht ersichtlich ist, dass in der Schriftsprache Strukturhilfswörter stärker vertreten sind, nämlich 71 % der gezählten Hilfswörter, während in der gesprochenen Sprache modale Hilfswörter die Mehrheit darstellen, nämlich 58 % der gezählten Hilfswörter. Dies prägt ebenfalls den jeweiligen sprachlichen Stil. An die Rang-Frequenz-Daten zur Wortartenverteilung sowohl in den in Tabelle 68.6 dargestellten drei Textsorten als auch in den in Tabelle 68.7 verglichenen Sprachstilen konnte die 1-verschobene negative hypergeometrische Verteilung erfolgreich angepasst werden. Zhu/Best (1992, 51K55) haben ebenfalls die Häufigkeit von Wortarten in zwei Texten verschiedener Stile untersucht und dabei nach einsilbigen und zweisilbigen Wörtern unterschieden. Das eine war ein juristischer Text, nämlich die Verfassung der VR China
955
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
Tabelle 68.8: Die Häufigkeitsverteilung der Wortarten in zwei Texten untersch. Funktionalstile (n. Zhu/ Best 1992, 54) Wortart Nomen Pronomen Verb Adjektiv Adverb Präposition Konjunktion Partikel (Hilfswort) Zahl- u. Zähleinheitswörter Gesamt:
(1) (5) (2) (7) (8) (6) (4) (3) (9)
jur. Text
Anteil
253 55 210 21 18 54 69 107 0
32,1 % 7,0 % 26,7 % 2,7 % 2,3 % 6,9 % 8,8 % 13,6 % 0,0 %
787
100 %
von 1982, und das andere ein literarischer Text. Es wurde jeweils ein Auszug von 1.000 Wörtern Länge ausgewertet. Zum Zweck des Vergleichs mit Yins Zahlen werden die Zahlen für ein- und zweisilbige Wörter in Tabelle 68.8 zusammengefasst. Der juristische Text ist etwas stärker von Nomen und Verben geprägt als der literarische, dafür weist er viel weniger Pronomen, Adjektive und Adverben auf. Der literarische Text unterscheidet sich in diesem Vergleichspaar durch das Vorkommen von Zahl- und Zähleinheitswörtern wesentlich von dem juristischen. Eine befriedigende Anpassung der 1-verschobenen negativen hypergeometrischen Verteilung gelang der Autorin nicht. Die Wortartenverteilung in chinesischen Texten harrt insgesamt noch weiterer Erforschung.
5.
Zur Verteilung von Strichzahl, Graphemzahl und Strukturtyp im Schriftzeicheninventar
Die chinesischen Schriftzeichen unterscheiden sich strukturell nach der Art und Zahl der Striche, mit denen sie geschrieben werden, nach ihren Komponenten bzw. Graphemen, chin. bujian, und deren Anzahl, sowie nach der Art der Anordnung der Grapheme. Diese Aspekte sind daher auch Gegenstand der quantitativen Untersuchung der chinesischen Schrift. 5.1. Die Verteilung der Strichzahl Das einfachste chinesische Schriftzeichen besteht aus einem einzelnen waagerechten Strich. Unter den heute gebräuchlichen Schriftzeichen hat dasjenige mit den meisten Strichen derer 36. Unter den nicht verein-
(1) (4) (2) (6) (5) (7) (9) (3) (8)
lit. Text
Anteil
227 105 194 68 78 44 20 173 32
24,1 % 11,2 % 20,6 % 7,2 % 8,3 % 4,7 % 2,1 % 18,4 % 3,4 %
941
100 %
fachten traditionellen Vollzeichen soll es sogar eins geben, das mit 64 Strichen zu schreiben ist und daher gern als Extrembeispiel herangezogen wird. Wenn man derartige Extreme beiseite lässt, stellt sich immer noch die Frage nach der Verteilung der Strichzahlen zwischen dem Minimum von 1 und dem möglichen Maximum von 36. Chen (1982, 300K301) untersuchte die Strichzahlverteilung unter den 6.196 Schriftzeichen der 1965 amtlich veröffentlichten Yinshua tongyong Hanzi zixingbiao [Druckformenliste allgemein gebräuchlicher Schriftzeichen]. Die Strichzahlen verteilten sich wie folgt, s. Tabelle 68.9. Nachdem er die gesamte Strichzahlverteilung in ein Koordinatensystem eingetragen hatte, konstatierte Chen nach dem Augenschein die Nähe zur Normalverteilung. Moderne computergestützte Werkzeuge wie der Altmann-Fitter machen es inzwischen möglich, solche Annahmen zu überprüfen. Neben den von Chen angegebenen Daten überprüfte die Autorin die Strichzahlverteilungen in mehreren anderen statischen Schriftzeichenlisten, darunter das Inventar des Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] (s. Art. Nr. 6, Abschn. 4.3) und das Inventar des PH-Corpus (Art. Nr. 6, Abschn. 8.4). Weder Chens Daten noch die Strichzahlen in den anderen Inventaren erwiesen sich als normalverteilt. Dagegen war die Anpassung der untersuchten Datenmengen an Verteilungen aus der Familie der Binomial- und Poissonverteilungen sehr erfolgreich, und zwar besonders an die Negative Binomialverteilung. Diese Verteilungen gehören zu den Verteilungsfamilien, die auch für die Wortlängenverteilungen, gemessen anhand der Silbenzahl, europäischer
956
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Tabelle 68.9: Verteilung der Strichzahl in der Druckformenliste (n. Chen 1982, 301) Strichzahl
Anzahl Schriftz.
Strichzahl
Anzahl Schriftz.
Strichzahl
Anzahl Schriftz.
1 2 3 4 5 6 7 8 9 10
2 20 59 132 195 335 505 640 690 681
11 12 13 14 15 16 17 18 19 20
638 586 471 352 276 232 152 62 69 42
21 22 23 24 25 26 27 28 29 30
21 14 10 6 5 1 0 0 1 1
Sprachen genannt werden (vgl. Art. Nr. 19). Es ist nicht ausgeschlossen, dass Wortlängen und sozusagen Schriftzeichenlängen, gemessen anhand der Strichzahl, ähnliche systemische Eigenschaften zuzuschreiben sind, wiewohl sie unterschiedlichen linguistischen Analyseebenen angehören. Was die Strichzahlverteilung der Schriftzeichen im Korpus des Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen Tabelle 68.10: Strichzahlverteilung im Inventar und Korpus des Xiandai Hanyu pinlü cidian Strichzahl
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Gesamt:
Type-Frequenz im Inventar 3 20 56 126 161 282 406 496 528 504 465 427 321 223 194 132 97 34 35 28 16 7 6 3 3 1 4574
Token-Frequenz im Korpus (in Tausend) 33,313 74,326 123,707 144,759 163,238 256,541 225,377 246,554 184,135 119,811 87,348 65,229 41,588 16,06 12,02 7,409 2,536 1,698 1,047 0,705 0,443 0,069 0,084 0,017 0,015 0,085 1808,114
chinesischen Sprache] betrifft, so erwies sich die Anpassung der Hyperpoissonverteilung als am besten (s. Tabelle 68.10). Eine theoretische Interpretation K und eventuell die Ermittlung einer noch besser passenden Verteilung K stehen noch aus. Die Untersuchung von Korpora zeigt, dass die Strichzahl mit steigendem Rang zunimmt, d. h. dass seltenere Schriftzeichen im Durchschnitt eine höhere Strichzahl aufweisen. Chen (1982, 301 f.) hat dies bereits mit Hilfe von Häufigkeitsdaten zu rd. 3.300 häufigen Schriftzeichen gezeigt, deren Quelle er nicht nennt, es ist wohl das Projekt 748 (s. Art. Nr. 6, Abschn. 4.1). Um nur zwei Datenpaare aus seiner Ergebnistabelle zu nennen: Die 14 häufigsten Schriftzeichen, die zusammen 21,8 % des betrachteten Korpus abdecken, haben im Durchschnitt 5,6 Striche. Die 2.069 relativ seltenen Schriftzeichen, die zusammen 7,9 % des Textkorpus abdecken, haben durchschnittlich 11,6 Striche. Die Zunahme der durchschnittlichen Strichzahl lässt sich auch anhand der Häufigkeitsdaten in der siebten Tabelle des Tabelle 68.11: Zuwachs der mittleren Strichzahl im Inventar des Xiandai Hanyu pinlü cidian Rang
Mittlere Strichzahl (gerundet)
1K500 501K1000 1001K1500 1501K2000 2001K2500 2501K3000 3001K3500 3501K4000 4001K4500
7,3 8,8 9,7 10,1 10,4 11,0 11,5 11,4 11,5
alle 4.500
10,19
Anm.: Die letzten 74 Schriftzeichen wurden nicht berücksichtigt.
957
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] (s. a. Art. Nr. 6, Abschn. 4.3) erkennen. Teilt man die Schriftzeichen dieses Inventars nach ihren Rangnummern in Gruppen von 500, so zeigt sich folgendes Bild (s. Tabelle 68.11). Dazu ist anzumerken, dass die ersten 1.500 Schriftzeichen, deren durchschnittliche Strichzahl 8,6 ist, bereits 95,5 % und die ersten 2.500 mit durchschnittl. 9,3 Strichen etwas über 99 % des Korpus abdecken. Die durchschnittliche Strichzahl in Texten ist daher i. d. R. etwas niedriger als diejenige im Inventar. 5.2. Die Verteilung der Graphemzahl Von der Feinheit der Graphemanalyse, ihren Grundannahmen und Zielsetzungen hängt es ab, wie umfangreich das Grapheminventar ausfällt, d. h. das Inventar kleinster, nicht weiter zerlegbarer graphischer Einheiten, die entweder selbst als Schriftzeichen fungieren oder durch deren Kombination komplexe Schriftzeichen entstehen können. Ein weiterer Faktor ist die Größe des analysierten Inventars. So hatte Bohn (1998, 10K14) beispielsweise nach Analyse des Basissatzes (s. Art. Nr. 6, Abschn. 4.6.1) ein Inventar von 500 Minimalgraphemem vorliegen, während Fu (1989, 174) nach Analyse der im enzyklopädischen Lexikon Cihai (Shanghai, 1979) enthaltenen über elftausend Schriftzeichen auf ein Inventar von 648 Graphemen kam (bei Ausschluss derjenigen traditionellen Vollzeichen, für die eine vereinfachte Form existiert). Die staatliche Norm zur Zerlegung der im Unicode erfassten chinesischen Schriftzeichen in ihre Komponenten (Xinxi jiaohuan yong GB 13000.1 zifuji Hanzi bujian guifan GF 3001K1997)
sieht 578 Minimalgrapheme vor. Sie zerlegt in möglichst kleine Einheiten, um ein Inventar mit geringem Umfang zu erhalten. Didaktisch und philologisch motivierte Zerlegungen gehen weniger weit. Ihr Umfang fällt dennoch nicht unbedingt größer aus, da sie in der Regel kleinere Schriftzeicheninventare als Ausgangsmenge haben. Nach Betrachtung der Strichzahlverteilung stellt sich die Frage nach der Graphemzahlverteilung in Inventaren, die durch Korpusanalysen gewonnen wurden. Ein einfaches Schriftzeichen besteht aus einem einzelnen Graphem, während dasjenige mit den meisten Graphemen derer neun haben kann. Im Inventar des Xiandai Hanyu pinlü cidian [Frequenzwörterbuchs der modernen chinesischen Sprache] (s. Art. Nr. 6, Abschn. 4.3) und dem Inventar des PH-Corpus (nur vollständige Schriftzeichen, s. Art. Nr. 6, Abschn. 8) zeigten sich fast identische Verteilungen (s. Tabelle 68.12). Wie im Falle der Strichzahlen wurde auch hier versucht, Wahrscheinlichkeitsverteilungen an die Daten anzupassen. Die Ergebnisse fielen anders aus als bei der Strichzahlverteilung. Gute Anpassungen erfolgten für die Dacey-Poisson-, die Verallgemeinerte Dacey-Poisson-, die Dacey-Negative Binomial- und die Hyperbinomialverteilung. Eine theoretische Erklärung dieser Ergebnisse steht noch aus. Zum Zusammenhang zwischen der Graphemzahl von Schriftzeichen und der Strichzahl, der sich durch das Menzerathsche Gesetz beschreiben lässt, s. a. 9. Was die Token-Häufigkeit von Schriftzeichen mit unterschiedlichen Graphemzahlen im Korpus des Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] betrifft (s. Tabelle 68.13),
Tabelle 68.12: Verteilung der Graphemzahl in zwei Inventaren Graphemzahl
Anzahl Schriftzeichen-Types im Xiandai Hanyu pinlü cidian
Anzahl Schriftzeichen-Types im PH-Corpus
1 2 3 4 5 6 7 8 9
268 1458 1720 757 291 61 10 8 1
274 1510 1756 748 272 58 11 9 1
Schriftz. gesamt:
4574
4639
958
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Tabelle 68.13: Graphemzahlverteilung im Inventar und Korpus des Xiandai Hanyu pinlü cidian Graphemzahl
Type-Frequenz im Inventar
1 2 3 4 5 6 7 8 9
268 1459 1723 756 288 61 10 8 1
483,895 806,674 369,595 126,642 18,576 2,173 0,142 0,402 0,015
Gesamt:
4574
1808,114
so konnten auch dafür Verteilungen aus den Familien der Poisson- und Binomialverteilungen angepasst werden. Besonders gut waren die Anpassungen für die Hyperpoisson-, die Positive Cohen-Binomial- und die Dacey-Poissonverteilung. Die theoretische Begründung steht auch hier noch aus. Auch bei der Graphemzahl ist zu beobachten, dass seltenere Schriftzeichen im Durchschnitt mehr Grapheme haben. Hierfür wurden wiederum die Daten der siebten Tabelle des Xiandai Hanyu pinlü cidian [Frequenzwörterbuchs der modernen chinesischen Sprache] nach dem Rang in Gruppen von 500 zusammengefasst und der Durchschnitt errechnet, s. Tabelle 68.14. Tabelle 68.14: Die Zunahme der Graphemzahl im Inventar des Xiandai Hanyu pinlü cidian Rang
Mittlere Graphemzahl (gerundet)
1K500 501K1000 1001K1500 1501K2000 2001K2500 2501K3000 3001K3500 3501K4000 4001K4500
2,2 2,6 2,8 2,9 3,0 3,1 3,3 3,2 3,3
alle 4.500
2,93
Anm.: Die letzten 74 Schriftzeichen wurden nicht berücksichtigt.
Die häufigsten 1.500 Schriftzeichen, die 95,5 % des Korpus abdecken, haben eine durchschnittliche Graphemzahl von 2,53; die häufigsten 2.500 Schriftzeichen, die etwas mehr als 99 % des Korpus bestreiten, haben eine durchschnittliche Graphemzahl von 2,7. Zum Zusammenhang zwischen Strich- und
Token-Frequenz im Korpus (in Tausend)
Graphemzahl, der sich durch das Menzerathsche Gesetz beschreiben lässt, s. Abschn. 9 (vgl. Art. Nr. 47). 5.3. Strukturtypen Die meisten chinesischen Schriftzeichen bestehen aus mehr als einem Graphem. Diese können unterschiedliche räumliche Anordnungen haben, sie können z. B. neben- oder übereinander stehen wie in 相 und 杏, oder ein Graphem kann ein anderes ganz oder teilweise umfassen wie in 国 und 达. Schriftzeichen, die mehr als zwei Grapheme enthalten, lassen sich in aller Regel binär in ein Minimalgraphem und eine zweite, komplexe Komponente zerlegen, die in einem nächsten Schritt wiederum binär zerlegt werden kann: 型 Z 刑 C 土, 刑 Z 开 C刂. Je nachdem wie man bestimmte diskontinuierliche und ineinander greifende Strukturen klassifiziert, sind bei einmaliger Binärzerlegung 12 bis 14 Strukturtypen unterscheidbar. (Vgl. Fu 1991, 11) Die Untersuchung des Inventars sowohl des Xiandai Hanyu pinlü cidian [Frequenzwörterbuchs der modernen chinesischen Sprache] (s. Art. Nr. 6, Abschn. 4.3) als auch des PH-Corpus (s. Art. Nr. 6, Abschn. 8) zeigten, dass die Mehrheit der Schriftzeichen zum Typ der vertikal teilbaren Schriftzeichen mit links-rechts-Struktur gehören, nämlich 61,6 % im ersten und 51,8 % im zweiten Falle. Der im Inventar zweithäufigste Strukturtyp ist mit 22,8 % bzw. 19,9 % der horizontal teilbare mit oben-unten-Struktur. Darauf folgen nicht weiter zerlegbare, einfache Schriftzeichen mit rd. 6 % des Inventars. Schriftzeichen, in denen ein Graphem das andere links und oben umfasst wie in 病, machen 3,5 bis knapp 4 % aus und solche, in denen ein Graphem das andere links und unten umfasst
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
wie in 送, rd. 2,5 %. Die übrigen Strukturtypen sind im Inventar bei weniger als 1 % der Schriftzeichen anzutreffen. Die beiden genannten Korpora zeigen auch dynamisch ähnliche Verteilungen der Strukturtypen, jedoch sind Schriftzeichen-Tokens des vertikal teilbaren Typs im Text nicht so übergewichtig häufig wie im Inventar. Sie machen im Textkorpus rd. 40 % der Tokens aus, während einfache, nicht weiter zerlegbare Schriftzeichen mit etwas über 25 % vertreten sind und horizontal teilbare mit rd. 20 %. Schriftzeichen, in denen ein Graphem das andere völlig umfasst, machen statisch nur etwa ein halbes Prozent aus, während sie im Textkorpus mit einem bis knapp zwei Prozent vertreten sind. Schriftzeichen mit teilweise umfassenden Graphemen sind ebenfalls etwas häufiger anzutreffen: solche, in denen ein Graphem das andere von links und oben umfasst, mit um die 5 % und solche, in denen ein Graphem das andere von links und unten umfasst, mit 3,5 bis knapp 4 %. Einfache Schriftzeichen und bestimmte Typen zusammengesetzter Schriftzeichen sind also im Korpus um einiges stärker vertreten als ihr Anteil am Inventar beträgt. Die vertikal teilbaren Schriftzeichen, die über die Hälfte des Inventars ausmachen, decken dagegen weniger als die Hälfte der Tokens in den Korpora ab. Warum die Strukturtypen sich quantitativ so verteilen wie sie es tun, ist, von den distributiven Restriktionen, denen bestimmte Komponenten unterliegen, abgesehen, noch nicht erforscht.
6.
Zur Verteilung von Wort- und Satzlängen im modernen Chinesisch
Möglicherweise ist es dem hartnäckigen Mythos vom Monosyllabismus (vgl. DeFrancis 1984, 177 ff.) des modernen Chinesisch zu verdanken, dass bisher nur wenig Forschungsergebnisse zur Wortlängenverteilung des Chinesischen vorliegen. Die Verteilung der Satzlängen ist jedoch noch weniger erforscht, was verwundert, da die Segmentierung eines Textes in Sätze anhand der Zeichensetzung wesentlich weniger Probleme bereitet als die Segmentierung in Wörter (vgl. Art. Nr. 6, Abschn. 5.1). 6.1. Zur Wortlängenverteilung Die erste umfassende, auf Häufigkeitsdaten gestützte Studie zur Wortlängenverteilung
959
ist m. W. die von Maria Breiter (1994, 224 ff.). Grundlage waren die Daten des Xiandai Hanyu pinlü cidian [Frequenzwörterbuchs der modernen chinesischen Sprache] (s. a. Art. Nr. 6, Abschn. 4.3). Breiter arbeitet mit dem Begriff des Hyperlexems. Dadurch entgeht sie der Schwierigkeit, ein Lexem einer oder mehreren Wortarten zuordnen zu müssen und kann gleichzeitig die Polysemie von Wörtern, die andernfalls u. U. in mehrere Lexeme unterschiedlicher Wortarten unterteilt werden würden, einheitlicher bestimmen. In dem genannten Frequenzwörterbuch findet Breiter 3.751 ein-, 22.941 zwei-, 2.734 drei-, 2.010 vierund 83 fünfsilbige Wörter, es zeigt sich also eine starke Tendenz zur Zweisilbigkeit: sie betrifft rd. 74 % der Wort-Types. In den Texten des Korpus herrschen dagegen einsilbige Wort-Tokens vor: sie machen 64,3 % des Korpus aus, während zweisilbige Wort-Tokens 34,3 % der Texte abdecken. D. h. häufigere Wörter sind auch im Chinesischen tendenziell kürzer als seltenere. Breiter zeigt weiter, dass kürzere Hyperlexeme im Mittel eine größere Polylexie, die sie mit Hilfe eines chinesisch-russischen Wörterbuchs bestimmt, haben als längere. Für die vier Funktionalstile, denen die Texte des Korpus für dieses Frequenzwörterbuch zugeordnet worden waren, ermittelt sie unterschiedliche mittlere Wortlängen. Insgesamt beträgt die mittlere Wortlänge der in das gen. Frequenzwörterbuch aufgenommenen Wörter 1,97 Silben. Die längste mittlere Wortlänge haben die für den Funktionalstil fiktionaler Prosa verwendeten Wörter: 2,04 Silben. Das Vokabular in zum Sprechen bestimmten umgangssprachlichen Texte weisen mit 1,83 Silben die kürzeste mittlere Wortlänge auf. Dazwischen liegen der [populär]wissenschaftliche Stil mit 1,93 Silben und der Zeitungsstil mit 1,97 Silben. (Breiter 1994, 230) Diese Daten wurden aufgrund eines Lexikons erhoben. Zhu/Best (1997, 191 f.) setzen ihnen Befunde aus Texten entgegen. Demnach sind die Wörter in den Briefen von Mao Zedong durchschnittlich 1,66 Silben lang, wobei die Länge zwischen 1,46 und 2 Silben schwankt. In Kurzgeschichten beträgt sie 1,73 Silben, nämlich zw. 1,49 u. 2,04 Silben, und in einem juristischen Text, dem Patentgesetz, 2,07 Silben. Im Falle der Briefe, die sie als umgangssprachlich einordnen, sind also einsilbige Wörter im Text stärker vertreten als im Inventar. Sieht man das Patentgesetz als einen wissenschaftlichen Text
960
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
an, so sind mehrsilbige Wörter im Text häufiger als im Inventar. Auch zwischen den Wortlängen in fiktionalen Texten mit 1,73 Silben und im Inventar für fiktionale Prosa mit rd. 2,04 Silben liegt ein beachtlicher Unterschied zu Breiters Befunden. Um die Ermittlung von Wortlängenverteilungen im Chinesischen haben sich vor allem Karl-Heinz Best und Zhu Jinyang verdient gemacht. Zhu/Best (1992, 45K51) klären zunächst den Wortbegriff, den sie annehmen: „Eine Konstruktion, die im Satz als die kleinste selbständige Einheit fungiert und keine Partikel de zur Markierung der Attribution, kein Determinativ oder Wort mit possessiver Bedeutung aufweist, gilt unter morphosyntaktischem Aspekt als Wort; andernfalls handelt es sich um eine Wortgruppe“ (Zhu/Best 1992, 51; Hervorhebungen im Original). Anschließend untersuchen sie die Wortlängen, gemessen in Silben, in vier Textauszügen von 1000 Wörtern Länge, die unterschiedlichen Funktionalstilen zuzuordnen sind: einen juristischen, einen Zeitungs-, einen wissenschaftlichen und einen literarischen Text, s. Tabelle 68.15. Die nicht-fiktionalen Texte sind stärker durch zweisilbige Wörter geprägt als der literarische Text. Gleichzeitig zeigt sich bei diesen drei Texten sozusagen ein Loch bei der Wortlänge 3, als ob die chinesische Wortbildung dreisilbige Wörter meiden würde. Weiterhin zeichnet sich der literarische Text auch dadurch aus, dass er keine Wörter hat, die länger als vier Silben sind, während der juristische Text sogar zwei 15silbige Wörter enthält. In folgenden Arbeiten haben Best und Zhu sich den Wortlängenverteilungen in chi-
nesischen Briefen und Kurzgeschichten gewidmet. Zhu/Best (1997, 187K191) passten die positive Cohen-Poissonverteilung erfolgreich an 19 von 20 Briefen aus der Hand Mao Zedongs an, die jener in den Jahren 1957 bis 1961 geschrieben hatte. Ein Brief ließ sich nicht auswerten, da er nur ein- und zweisilbige Wörter enthielt. An die Wortlängen derselben 19 Briefe ließ sich die Hyperpoissonverteilung ebenfalls anpassen. Zhu/ Best (1998, 47K49) untersuchten 12 moderne chinesische Kurzgeschichten, von denen alle bis auf eine maximal Wörter der Länge vier aufwiesen. Nur in einer fanden sich auch zwei fünf-, ein sechs- und ein siebensilbiges Wort. In allen 12 Fällen gelang die Anpassung der positive Cohen-Poissonverteilung, die den Autoren daher als gutes Modell für die Wortlängenverteilung in chinesischen Texten gilt. Die Anpassung der Hyperpoissonverteilung an die Daten der Kurzgeschichten gelang den Autoren jedoch nicht (s. Zhu/Best 1997, 191). Liu (1996, 112 ff.) untersucht die statische Längenverteilung unter häufigen Nomen und Verben und unterscheidet dabei auch nach Funktionalstilen. Dabei dienen v. a. die Daten aus dem Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] (s. Art. Nr. 6, Abschn. 4.3) als Grundlage. Liu betrachtet insbesondere die Verteilung unter den Wörtern des gesprochen-umgangssprachlichen Stils und des Zeitungsstils. In beiden Stilen ist die absolute Mehrheit der Nomen zweisilbig. Im Vokabular des Zeitungsstils sind zweisilbige Verben ebenfalls in der absoluten Mehrheit unter allen Verben, im mündlichen Stil sind es jedoch die einsilbigen Verben, dicht ge-
Tabelle 68.15: Wortlängenverteilung in Texten vierer Funktionalstile (n. Zhu/Best 1992, 52 f.) Wortlänge 1 2 3 4 5 6 7 8 9 10 11 12K14 15 Gesamt:
jur. Text (2) (1) (5) (3) (9) (4) (6) (7) (8) (10) (12) (11)
262 525 27 114 5 31 13 10 8 2 1 0 2 1000
Zeitungstext (2) (1) (4) (3) (6) (5) (7) (8) (9)
314 450 35 162 6 24 4 4 0 0 1 0 0 1000
wissen. Text (2) (1) (4) (3) (5) (6) (7) (8) (9)
327 505 58 78 11 11 6 0 3 0 1 0 0 1000
lit. Text (1) (2) (3) (4)
496 445 33 26 0 0 0 0 0 0 0 0 0 1000
961
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
Tabelle 68.16: Der Zusammenhang zw. Wortart und -länge in Inventaren zweier Funktionalstile (n. Liu 1996, 112) Silben: Zeitungsstil: Nomen Verben mündl. Stil: Nomen Verben
1
2
3
304 (15,5 %) 342 (27 %)
1599 901
(81,3 %) (71,9 %)
54 (2,7 %) 4 (0,3 %)
424 (23,7 %) 611 (51,8 %)
1313 555
(73,4 %) (47 %)
2 (0,5 %) 13 (0,1 %)
folgt von zweisilbigen Verben (s. Tabelle 68.16). Insgesamt scheinen drei- und mehrsilbige Nomen und Verben in diesen beiden Funktionalstilen nahezu bedeutungslos. Im Folgenden erkundet Liu (1996, 113 ff.) die Gründe für das Verhalten von Wortarten und Wortlänge in der chinesischen Wortbildung und Syntax. Im nächsten Schritt wäre der Zusammenhang zwischen Wortarten und Wortlängen in Texten dieser und anderer Funktionalstile zu untersuchen. Weiterhin wäre zu untersuchen, ob und wenn ja, welche Wortbildungsprozesse zu Wörtern welcher Wortarten führen. Lua (1993, 167 ff.) hat Ergebnisse vorgelegt, die darauf hinweisen, dass chinesische Sätze K operationalisiert als durch Interpunktionszeichen begrenzte Zeichenketten K vorzugsweise mit mehrsilbigen Wörtern beginnen und enden, während für die Satzmitte keine Bevorzugung bestimmter Wortlängen zu erkennen ist. Als Datengrundlage dienten ihm Texte aus 12 Grundschullehrbüchern aus Singapur. Für die Wortsegmentierung stützte Lua sich auf eine frühe Version des in der VR China entwickelten Segmentierungsstandards (s. Art. Nr. 6, Abschn. 5.1). Dieses Ergebnis hat eine praktische Relevanz für die Sprachsynthese, denn es erlaubt Regeln einzuführen, nach denen entspr. Systeme zur Generierung eines (Teil-) Satzes bei Vorliegen von Syllabizitätsvarianten das längere, meist zweisilbige Wort bevorzugen, wodurch der entstandene Satz natürlicher erscheinen dürfte. Luas Ergebnisse sollten an Texten aus anderen Quellen und verschiedener Funktionalstile überprüft werden. 6.2. Zur Satzlängenverteilung Die Verteilung der Satzlängen in chinesischen Korpora und Einzeltexten ist kaum erforscht. Im Allgemeinen gilt die negative Binomialverteilung als gutes Modell für die Satzlängenverteilung in Texten und Text-
4
5
Gesamt
9 (0,46 %) 7 (0,56 %)
1 K
1967 1254
12 (3 %) 2 (0,17 %)
K K
1788 1180
stichproben auch typologisch unterschiedlicher Sprachen, wobei die Satzlänge in der Anzahl der Clauses gemessen wird (vgl. Art. Nr. 22). Bohn (1998, 65K68) hat dies für die Sätze im PH-Corpus (s. Art. Nr. 6, Abschn. 8.4) sowie für einen Einzeltext aus diesem Korpus untersucht. Für die Satzlängenverteilung im gesamten Korpus kam er dabei zu einem sehr guten Resultat: Die Anpassung der 1-verschobenen negativen Binomialverteilung gelang mit einem Diskrepanzkoeffizienten von C Z 0,0020 und ergab die Parameterwerte k Z 2,5310 und p Z 0,6478. Für den Einzeltext war das Ergebnis mit C Z 0,0838 weniger zufrieden stellend. Die Parameter hatten hier die Werte k Z 23,9241 und p Z 0,9508. Zu fragen ist, inwieweit dieses Ergebnis durch die zugrunde gelegte Operationalisierung von Clauses beeinflusst ist bzw. wie Clauses im Chinesischen bestimmt werden können, ohne sich ganz von der Zeichensetzung abhängig zu machen. Dazu gibt es zwar einen empfohlenen nationalen Standard, GB/T 15834K 1995, aber der wird nicht so durchgängig befolgt wie entsprechende Regeln etwa im Deutschen oder Englischen. Die Verfügbarkeit maschinenlesbarer Korpora und syntaktischer Baumbanken sollte es jedoch möglich machen, die Satzlängenverteilung in chinesischen Texten nun genauer zu untersuchen.
7.
Das Zipfsche Gesetz und die chinesische Schrift
Das Zipfsche Gesetz zur Rang-FrequenzVerteilung (s. Artikel Nr. 10) ist spätestens zu Beginn der 1980-er in China erstmals rezipiert worden, wie die Veröffentlichung eines Einführungsartikels aus der Feder des Computerlinguisten Feng Zhiwei in einer chinesischen Fachzeitschrift im Jahre 1983, der u. a. von Sun (1989, 69) erwähnt wird, zeigt. Zwei Jahre später besprach Feng das
962
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Zipfsche Gesetz und das Zipf-Mandelbrotsche Gesetz, aber auch die Überlegungen von J. Estoup, E. Condon, M. Joos, G. Yule, W. Fuchs u. a. in einem computerlinguistischen Grundlagenwerk (Feng 1985, 151K 157), und zwar viel ausführlicher und erhellender als eine kürzlich erschienene Monographie zur Korpuslinguistik (vgl. Huang/Li 2002, 30 f.). Da sich C in Zipfs Formel F * R Z C nicht als Konstante, sondern als Parameter erwiesen hatte, stellte sich für chinesische Linguisten die Frage, welchen Wert C für das Chinesische annehmen würde. Für Schriftzeichen versuchte Sun (1989, 61 ff.), C mit Hilfe der relativen Frequenz des häufigsten Schriftzeichens 的 K i. d. R. die Subordinationspartikel de, mit der vor allem Attribute dem folgenden Kopf syntaktisch untergeordnet werden; es kann K mit anderer Lesung K jedoch auch als Bestandteil mehrsilbiger Wörter vorkommen, z. B. der häufigen Wörter 目的 mùdì, dt. Ziel, und 的确 díque`, dt. tatsächlich K zu schätzen, da F Z C, wenn R Z 1. Dass das Zipfsche Gesetz für Wörter formuliert worden war und im Text nicht jedes Schriftzeichen ein Wort ist, bekümmerte bei diesen frühen Versuchen offensichtlich nicht. Sun verwendete die sog. Daten von 1985 (s. Art. Nr. 6, Abschn. 4.4) als Ganzes und einiger Unterkategorien sowie vier weitere Häufigkeitslisten, deren Quelle er nicht genau nennt. Diese (Teil-) Korpora hatten sehr unterschiedliche Umfänge. Sun errechnete für C Werte zwischen 0,032 und 0,055. Obwohl er bereits Graphen von Rang-Frequenz-Verteilungen betrachtet hatte (Sun 1989, 62 f.), machte er sich nicht klar, dass gerade die häufigsten Rang-Frequenz-Paare stark von der durch die Gleichung beschriebenen Verteilung abweichen. Ebenso wenig unterzog er seine Ergebnisse einem statistischen Test. Vor Sun hatte bereits Lin (1980, 139 ff.) Rang-Frequenz-Daten zu Schriftzeichen in doppelt-logarithmische Koordinatensysteme mit Log. zur Basis 10 eingetragen, und zwar auf Grundlage der 1977 zum internen Gebrauch gedruckten Häufigkeitsliste aus dem Projekt 748 (s. Art. Nr. 6, Abschn. 4.1). Jedoch erwähnt Lin mit keinem Wort das Zipfsche Gesetz, das ihm in der Fachliteratur noch nicht begegnet zu sein scheint. (Vgl. seine Literaturangaben, Lin 1980, 150) Die sich ergebenden Graphen waren auch in Lins Arbeit alles andere als linear. Shtrikman (1994, 142 f.) hat die Rang-Frequenz-Verteilung von englischen
und hebräischen Buchstaben sowie chinesischen Schriftzeichen verglichen. Keine dieser drei gehorcht dem Zipfschen Gesetz, jedoch sieht die Rang-Frequenz-Kurve für chinesische Schriftzeichen den typischen Zipf-Kurven für Wörter ähnlicher als die für die Buchstaben der beiden genannten Alphabete. Dies erklärt sich Shtrikman damit, dass viele chinesische Schriftzeichen im Text für ein Wort stehen, was bei den Buchstaben nicht der Fall ist. Chang (1989, 42 f.) besprach ebenfalls das Zipfsche Gesetz und zeigte in einem doppelt-logarithmischen Koordinatensystem, wie sich die Rang-Frequenz-Verteilung der Wörter des Xiandai Hanyu pinlü cidian [Frequenzwörterbuchs der modernen chinesischen Sprache] (s. a. Art. Nr. 6, Abschn. 4.3) verhält. Die höchste Rangnummer ist 31.159, das Wort auf Rang 1 hat eine Häufigkeit von 73.835. Chang (1989, 43) stellte K nach dem Augenschein K fest, dass die Rang-Frequenz-Verteilung der Wörter im betreffenden Korpus im Großen und Ganzen dem Zipfschen Gesetz folge, die Verwendung der chinesischen Sprache also denselben Regularitäten gehorche wie andere Sprachen. G. K. Zipf selbst hatte sich bereits 1932 mit der chinesischen Sprache befasst (s. Art. Nr. 6, Abschn. 3). Allerdings untersuchte er in dieser Studie (Zipf 1932, 8K27) einen Zusammenhang, der auch als Lotkas Gesetz bekannt ist. Es beschreibt den Zusammenhang zwischen der Anzahl Wörter, die mit einer bestimmten Häufigkeit im Korpus vorkommen, und dieser Häufigkeit. Zipf fand, dass sich chinesische Wörter in dieser Hinsicht nicht anders verhalten als englische und lateinische. Er unterwarf dieses Ergebnis jedoch nicht einem statistischen Test. 60 Jahre später haben Ronald Rousseau und Zhang Qiaoqiao Zipfs Daten noch einmal untersucht. Was Lotkas Gesetz betrifft, so konnten sie zeigen, dass Zipfs Daten dieses tatsächlich erfüllen, wobei sie die Anpassung von Lotkas Gleichung an die Daten mittels des Kolmogorov-Smirnov-Tests als sehr erfolgreich bewerten konnten. (Rousseau/Zhang 1992, 207) Was das eigentliche Zipfsche Gesetz betrifft, so zeigte sich, dass die Rang-Frequenz-Verteilung der Wörter in Zipfs kleinem chinesischen Korpus ihm im Großen und Ganzen folgt, die Anpassung einem statistischen Test, dem Kolmogorov-Smirnov-Test, jedoch nicht standhält. Wie in anderen Sprachen bereiten insbeson-
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
dere die ersten Ränge mit den höchsten Frequenzen bei der Anpassung Probleme. Schließlich probierten die Autoren eine generalisierte Form der Bradford-Verteilung aus, in der die Verteilungskurve um eine zu ermittelnde Konstante nach oben verschoben ist. Die Anpassung dieser Verteilung an Zipfs Daten hielt schließlich einem Kolmogorov-Smirnov-Test stand. (Rousseau/Zhang 1992, 207K217) Bohn (1998, 70K73) untersuchte die Rang-Frequenz-Verteilung der Wörter eines Einzeltextes im PH-Corpus (s. Art. Nr. 6, Abschn. 8). Sowohl die Anpassung der dem Zipfschen Gesetz entsprechenden Funktion f (x) Z xKγ / C mittels nichtlinearer Regression als auch der dem Zipf-Mandelbrotschen Gesetz entsprechenden Funktion f (x) Z (x C b)Kγ / C war erfolgreich. Im ersten Fall ermittelte Bohn für den Exponenten γ den Wert K0,8067, wobei die Funktionsanpassung bei einem Determinationskoeffizienten von 0,9713 sehr gut war. Der Graph der Rang-Frequenz-Verteilung zeigt im doppelt logarithmischen Koordinatensystem im oberen Drittel einen auffälligen Knick nach oben. (Bohn 1998, 71) Bohn vermutet, dass dieser Knick durch die angewendete Wortsegmentierung zustande kommt. Im zweiten Fall erhielt b den Wert K0,5385 und γ den Wert K0,6828, bei einem Determinationskoeffizienten von 0,9868. Die Ergebnisse veranlassten den Autor, das Zipfsche Gesetz und das Zipf-Mandelbrotsche Gesetz als für den chinesischen Text gültig anzunehmen. Neuere Untersuchungen haben nicht mehr zum Ziel, die Gültigkeit des Zipfschen Gesetzes für Chinesisch zu zeigen, sondern unternehmen die Ausdehnung dieses Gesetzes auf Wortgruppen (Le/Sicilia-Garcia/Ji u. a. 2002, [3 ff.]) und n-Gramme (Le/SiciliaGarcia/Ji u. a. 2003, 85 ff.), wobei Vergleiche mit entspr. Ergebnissen zu anderen Sprachen, insbesondere dem Englischen angestellt werden.
8.
Die Entropie der chinesischen Schrift
Bereits Anfang der 1950-er Jahre sollen C. E. Shannons Arbeiten zur Entropie von Zeichensystemen (s. Art. Nr. 60 u. Nr. 61) auch in China bekannt gemacht worden sein und bei der Vorbereitung der Schriftzeichenvereinfachung eine gewisse Rolle gespielt haben. Nachdem für einige alphabe-
963
tisch verschriftlichte Sprachen Entropiewerte ermittelt und veröffentlicht worden waren, wurde es auch für die chinesische Schriftsprache unternommen, ihre Entropie zu ermitteln. Der erste, der dies tat, scheint Lin Lianhe (1980, 145K150) gewesen zu sein, der berechnete, dass die durchschnittliche Entropie eines chinesischen Schriftzeichens rd. 9,65 Bits beträgt. Er stützte sich dabei auf die Daten aus der 1977 zum internen Gebrauch gedruckten Häufigkeitsliste des Projekts 748 (s. Art. Nr. 6, Abschn. 4.1). Feng (1989 [11984], 270) zeigt, wie die Entropie der Schriftzeichen mit der Größe des Korpus N und dem Umfang des korrespondierenden Inventars n wächst, bis bei N Z 5,2 Mio und n Z 12.366 kein weiteres signifikantes Anwachsen der Entropie auf über 9,65 Bits zu erwarten ist. Mit rd. 9,65 Bits fällt die Entropie in der chinesischen Schrift wesentlich höher aus als im Falle von Alphabetschriften, nämlich mehr als doppelt so hoch. Feng (1989 [11984], 277; 1985, 173) zitiert für einige europäische Sprachen folgende Zahlen von Barnard: Französisch 3,98 Bits, Italienisch 4,00 Bits, Spanisch 4,01 Bits, Englisch 4,03 Bits, Deutsch 4,10 Bits, Rumänisch 4,12 Bits und Russisch in kyrillischer Schrift 4,35 Bits. Die unübersehbare Diskrepanz zwischen der Entropie der chinesischen Schriftsprache und denjenigen der genannten europäischen Schriftsprachen veranlasste offensichtlich einige sog. Kulturlinguisten, die Entropie als Beleg für die K wie sie meinen K Überlegenheit der chinesischen Schrift heranzuziehen, denn bereits vor dem Erscheinen von Fengs Aufsatz setzte sich Yin Binyong (2001 [11984], 242 ff.) gegen die Verwechslung von hohem Informationsgehalt mit leichter Lernbarkeit bzw. wie auch immer gearteter Überlegenheit zur Wehr. Zehn Jahre später sah sich Feng Zhiwei (1994, 34K35) veranlasst, auch noch einmal auf die Entropie einzugehen und setzte in einem Aufsatz auseinander, dass der hohe Informationsgehalt der chinesischen Schrift keineswegs vorteilhaft für die digitale Verarbeitung dieser Schrift sei. Lua (1994, 37 ff.) hat sich ebenfalls mit der Entropie der chinesischen Schrift beschäftigt. Seine Grundlage waren die Daten des Xiandai Hanyu changyongci cipin cidian [Frequenzwörterbuchs häufiger Wörter des modernen Chinesisch] (s. Art. Nr. 6, Abschn. 4.4), das ihm in Singapur in elektronischer Form vorlag. Er berechnete für die
964
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Tabelle 68.17: Umfang, Inventargröße und durchschnittl. Entropie von Schriftzeichen im Korpus des Projekts 748 (n. Lin 1980, 140; 145) (Teil-)Korpus des Projekts 748 Literatur u. Kunst Politik Zeitung/Presse Wissensch. u. Technik Gesamt
Anz. Schriftz.Tokens
Anz. Schriftz.Types
durchschnittl. Entropie d. Schriftz.
1.571.771 4.554.907 6.967.647 8.566.441
3.965 4.356 5.084 5.711
9,20230 9,03931 9,39801 9,68412
21.636.809
6.359
9,65556 Bits
Bits Bits Bits Bits
Anm.: Die Zahlen sind unverändert übernommen.
Schriftzeichen ein durchschnittliche Entropie von 9,590 Bits (Lua 1994, 44). Dieser Wert entspricht in der Größenordnung dem von Lin Lianhe errechneten, v. a. wenn man ihn auch mit den Entropiewerten vergleicht, die Lin (1980, 145) für die nach Funktionalstil und Umfang unterschiedlichen Teilkorpora aus dem Korpus des Projekts 748 ermittelt hatte, s. Tabelle 68.17. Für chinesische Wörter errechnete Lua (1994, 42) eine durchschnittliche Entropie von 11,402 Bits.
9.
Das Menzerathsche Gesetz und die chinesische Sprache und Schrift
Während das Zipfsche Gesetz spätestens zu Beginn der 1980-er in China rezipiert worden ist, scheint bisher allein der Deutsche Hartmut Bohn untersucht zu haben, ob das Menzerathsche Gesetz (vgl. Art. Nr. 47) auf der Ebene der chinesischen Schrift gilt. Er leitete aus diesem Gesetz nacheinander Hypothesen für die Ebene der Grapheme, die Ebene ganzer Schriftzeichen, die Wortebene, die Teilsatz- und die Satzebene ab und überprüfte sie anhand moderner Schriftzeicheninventare bzw. eines Korpus von Nachrichtentexten. Da das Menzerathsche Gesetz in Art. Nr. 47 behandelt wird, beschränkt sich diese Darstellung auf eine Zusammenfassung von Bohns (1998, 3K68) Untersuchungen. Für die Graphemebene K Bohn (1998, 10K14) führte hierfür eigens eine aufwändige Graphemanalyse durch K müsste nach dem Menzerathschen Gesetz gelten, dass die Striche desto einfacher sind, je komplexer ein Graphem ist, gemessen in der Anzahl ihrer Striche. Hierzu gewichtete Bohn (1998, 15) die Grundstriche nach dem jeweils nötigen Schreibaufwand, den er als Anzahl der Richtungsänderungen bei der Ausführung eines Strichs operationalisierte.
Für die Parameter der von ihm verwendeten Formulierung des Menzerathschen Gesetzes in der Funktionsgleichung y Z a xb
(b ! 0)
(1)
fand er die Werte a Z 2,0184 und b Z K0,2831 bei einem Determinationskoeffizienten von D Z 0,9673. Die aufgrund des Gesetzes gebildete Hypothese fand er also gut bestätigt. Auf der Schriftzeichenebene ist zu erwarten, dass die Grapheme von Schriftzeichen desto einfacher sind, je mehr Grapheme ein Schriftzeichen hat. Als Ausgangsinventar wählte Bohn den Basissatz (s. Art. Nr. 6, Abschn. 4.6.1), der 6.742 Schriftzeichen enthält. Die Komplexität der Grapheme maß er als Anzahl ihrer Striche. Für die Parameter der Funktionsgleichung wurden bei der Anpassung an die Daten die Werte a Z 4,8513 und b Z K0.2915 gefunden. Der Determinationskoeffizient betrug D Z 0,9575, das Menzerathsche Gesetz kann damit auch auf dieser Ebene als gut bestätigt gelten. Die Einheit des Wortes ist im Chinesischen schwierig zu bestimmen und die Abwesenheit von Leerschritten in Texten macht eine heuristische Bestimmung schwieriger als bei modernen Alphabetschriften. Für die Untersuchung der Wortebene zog Bohn (1998, 27) daher eine Zufallsstichprobe von 1.105 Wörtern aus einem Wörterbuch des modernen Chinesisch. Die Wörter waren zwischen einem und fünf Schriftzeichen lang. Die Hypothese für diese Ebene lautet: Je länger ein Wort ist, gemessen in der Anzahl der Schriftzeichen, desto einfacher sind die Schriftzeichen, gemessen in der Zahl ihrer Grapheme. Die Anpassung der Funktionsgleichung ergab die Parameterwerte a Z 2,6960 und b Z K0,1539 bei einem Determinationskoeffizienten von D Z 0,9659. Auch diese Hypothese konnte anhand der Daten gut bestätigt werden.
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
Für die Überprüfung des Menzerathschen Gesetzes auf Teilsatzebene zog Bohn das PH-Corpus heran, das etwa 3,24 Mio. Schriftzeichen-Tokens umfasst und digital vorliegt (s. Art. Nr. 6, Abschn. 8). Die Wortsegmentierung war in Singapur automatisch erfolgt, doch hatten die Autoren keine genauen Angaben über ihre Qualität gemacht. Die Segmentierung in Teilsätze und Sätze war anhand der chinesischen Interpunktion geschehen. Bohns Auswertung stützte sich auf diese Markierungen, wobei er jedoch das Aufzählungskomma K ein chinesisches Satzzeichen, das die Glieder einer Aufzählung trennt K nicht als Teilsätze trennend wertete. Auf Teilsatzebene lautet die Hypothese: Je länger ein Teilsatz, gemessen in der Anzahl der Wörter, desto kürzer die Wörter, gemessen in der Zahl der Schriftzeichen. Diese Hypothese wurde zweimal überprüft, nämlich einmal am gesamten PH-Corpus und einmal an einem Einzeltext daraus. Die Anpassung der Funktionsgleichung ergab für die Korpus-Untersuchung die Werte a Z 1,9377 und b Z K0,0864 bei einem Determinationskoeffizienten von D Z 0,7379 und für die Einzeltext-Untersuchung die Werte a Z 1,9207 und b Z K0,1427 bei einem Determinationskoeffizienten von D Z 0,8789. Die Hypothese kann damit auf dieser Ebene als vorläufig angenommen gelten. Bohn (1998, 51) bezeichnet das Ergebnis als gut bis befriedigend, empfiehlt aber eine erneute Überprüfung an größeren, handsegmentierten Korpora und längeren Einzeltexten. Das größte sprachliche Konstrukt, das Bohn untersuchte, war der Satz. Datengrundlage waren wiederum das PH-Corpus und derselbe Einzeltext wie für die TeilsatzEbene. Die Hypothese lautete in diesem Fall: Je länger ein Satz, gemessen in der Anzahl der Teilsätze, desto kürzer die Teilsätze, gemessen in der Zahl der Wörter. Die Anpassung der Funktion ergab für die KorpusUntersuchung die Werte a Z 10,8069 und b Z K0,2301 bei einem Determinationskoeffizienten von D Z 0,9750 und für die Einzeltext-Untersuchung die Werte a Z 6,1360 und b Z K0,1264 bei einem Determinationskoeffizienten von D Z 0,5628. Aufgrund der guten Anpassung an die Daten der Korpus-Untersuchung, sieht Bohn (1998, 46, 51) die Hypothese auch für die Satzebene als vorläufig bestätigt an, denn der Einzeltext habe nur 180 Sätze umfasst und damit einen
965
zu geringen Stichprobenumfang gehabt. Dennoch hält er weitere Untersuchungen an längeren und mit besseren Methoden segmentierten Einzeltexten für wünschenswert. Die Entwicklung neuer, größerer Korpora macht es wahrscheinlich, dass das Menzerathsche Gesetz in absehbarer Zeit erneut und auf Grundlage umfassenderer Daten überprüft werden kann.
10. Köhlers Basismodell der Lexik und das chinesische Schriftzeichensystem Die Autorin dieses Beitrags hat untersucht, ob und inwieweit sich Köhlers Basismodell der Lexik (s. Artikel Nr. 53 u. Nr. 23) auf das chinesische Schriftzeichensystem anwenden lässt. (Menzel 1995, 143K203) Die Schriftzeichenebene ist K das ist stets zu beachten! K nicht mit der Wortebene gleichzusetzen. Ein direkter Vergleich der Ergebnisse aus dieser Untersuchung mit Ergebnissen, die bei der Untersuchung der Lexik verschiedener anderer Sprachen gewonnen wurden, verbietet sich daher. Dennoch versprach die Anwendung der Grundstruktur des Modells auf das chinesische Schriftzeicheninventar sinnvolle Ergebnisse, denn dieses besitzt Eigenschaften, die denen der Lexik vergleichbar sind: Das Inventar ist für die moderne (Schrift-)Sprache abgrenzbar, hat also einen bestimmbaren Umfang. Die Elemente des Inventars, nämlich die Schriftzeichen unterscheiden sich zwar geometrisch nicht in der Länge, jedoch durch den unterschiedlichen Aufwand, den das Schreiben per Hand macht und der z. B. als Anzahl der konventionalisierten Striche oder als Anzahl der Grapheme operationalisierbar ist. Die Menge der möglichen Grapheme ist ebenso in ihrem Umfang abgrenzbar. Weiterhin haben Schriftzeichen, die Bestandteil unterschiedlich vieler Wörter in Texten sein können, in Korpora eine messbare Häufigkeit. Problematisch erwiesen sich allein die Systemgrößen Polylexie und Polytextie aus dem Basismodell, da entsprechende Daten zum gegebenen Zeitpunkt nur mit unverhältnismäßigen Aufwand zu gewinnen gewesen wären. Zwischen der logarithmierten Polytextie und der ebenfalls logarithmierten Polylexie besteht in Köhlers Modell jedoch ein direkter, linearer Zusammenhang, so dass das Modell an dieser Stelle vereinfacht werden konnte. An die Stelle des Polytextie-
966
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Polylexie-Subsystems trat hier eine Größe, die die Autorin als Funktionskomplexität bezeichnete und durch die Anzahl der verschiedenen Wörter, als deren Bestandteil ein Schriftzeichen K das ist ungleich der Anzahl der Morpheme! (Vgl. Abschn. 3) K im Korpus erscheint, operationalisierte, denn diese Anzahl spiegelt die Möglichkeiten eines Schriftzeichens wider, in Texten unterschiedlicher Thematiken und Funktionalstile verwendet zu werden. Auf die Ordnungsparameter Inventarumfang und Graphemzahl sowie auf die Systemgrößen Schriftzeichenhäufigkeit, graphische Komplexität und Funktionskomplexität der Schriftzeichen wirken dieselben Bedürfnisse ein wie auf die entsprechenden Größen im Basismodell für die Lexik. Das modifizierte Modell stellt sich nun wie folgt dar: L-Frequenz
A
-N
L-Inventarumfang Z
minP R K
Red
Kod
l-Graphemzahl
Anw L-Komplexität
Spz
V
-P
-T
V1
-V2
minD
minK
-Q1
-Q2
minl
-L
L-Funktioskomplexität
Abb. 68.1: Das für das chin. Schriftzeichensystem modifizierte Basismodell von Köhler
Zur Überprüfung wurden die Daten des Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache] (s. Art. Nr. 6, Abschn. 4.3) verwendet. Neben der Häufigkeit gibt es für jedes Schriftzeichen an, in wie vielen verschiedenen Wörtern es im Korpus vorkommt. Dieses Datum wurde zur Operationalisierung der Funktionskomplexität verwendet. Die Grundlage des Grapheminventars war Bohns (1998, 10K14) Graphemanalyse. Aus dem modifizierten Modell lassen sich drei Hypothesen über direkte und drei über indirekte Abhängigkeiten der Systemgrößen voneinander ableiten. Die Hypothesen über direkte Abhängigkeiten lauten: (1) Die Funktionskomplexität von Schriftzeichen ist eine Funktion ihrer graphischen Komplexität: Funktionskomplexität Z A1 * KomplexitätB1
(2) Die Frequenz von Schriftzeichen ist eine Funktion ihrer Funktionskomplexität: Frequenz Z A2 * FunktionskomplexitätB2 (3) Die graphische Komplexität von Schriftzeichen ist eine Funktion ihrer Frequenz: Komplexität Z A3 * FrequenzB3 Durch Einsetzen erhält man drei indirekte Abhängigkeiten: (4) Die graphische Komplexität von Schriftzeichen ist indirekt eine Funktion ihrer Funktionskomplexität: Komplexität Z A4 * FunktionskomplexitätB4 (5) Die Funktionskomplexität von Schriftzeichen ist indirekt eine Funktion ihrer Frequenz: Funktionskomplexität Z A5 * FrequenzB5 (6) Die Frequenz von Schriftzeichen ist indirekt eine Funktion ihrer graphischen Komplexität: Frequenz Z A6 * KomplexitätB6 Diese sechs Hypothesen wurden anhand des linearen Modells überprüft, in dem die Gleichung jeweils folgende Form hat: L-abhängige _ Größe Z ln A CB * L-unabhängige _ Größe,
(2)
wobei das präfigierte L bedeutet, dass der betreffende Wert logarithmiert wurde. Als Maß für die Güte der Anpassung wurde der Determinationskoeffizient R2, im Folgenden D, gewählt. Eine Anpassung wurde als gut betrachtet, wenn D mindestens den Wert 0,9 erreichte. Zur Überprüfung der 1. Hypothese wurde die graphische Komplexität auf drei Weisen operationalisiert: a) Anzahl der Striche, b) als Anzahl der Grapheme, c) als die Summe der Aufwandsgewichtungen der Striche nach Bohn (1998, 15). Die Funktionskomplexität wurde operationalisiert als die Anzahl verschiedener Wort-Types im Korpus, an deren schriftlicher Darstellung ein Schriftzeichen beteiligt ist. Für alle drei Operationalisierungen gelang die Anpassung der linearisierten Funktionsgleichung an die Daten mit D Z 0,95 oder darüber. Damit kann diese Hypothese als bestätigt gelten. Zur Überprüfung der 2. Hypothese, nämlich dass die Frequenz von Schriftzeichen eine Funktion ihrer Funktionskomplexität
68. Die quantitative Erforschung der chinesischen Sprache und Schrift
ist, wurde die logarithmierte absolute Häufigkeit der Schriftzeichen herangezogen. Die Operationalisierung der Funktionskomplexität erfolgte wie oben erläutert. Die Anpassung der Funktion gelang mit D Z 0,958. Auch diese Hypothese wurde also bestätigt. Zur Überprüfung der 3. Hypothese, dass die graphische Komplexität von Schriftzeichen eine Funktion ihrer Frequenz im Korpus ist, wurde die graphische Komplexität wie oben auf drei Weisen operationalisiert (s. 1. Hypothese, a), b) und c)). Die möglichen Frequenzwerte sind sehr disparat. Um die Frequenz sinnvoll als unabhängige Variable verarbeiten zu können, wurden die Daten daher in Frequenzklassen zusammengefasst, die zusätzlich nach der Anzahl der Datenpunkte gewichtet wurden. Es wurden die Klassenbreiten 50 und 100 gewählt und dabei solche Klassen, die fünf Datenpunkte oder weniger zusammenfassten, von der Regression ausgeschlossen. Als Wert der unabhängigen Variable wurde jeweils die Klassenmitte gewählt. Die Regression wurde für jede der drei Messweisen der graphischen Komplexität mit beiden Klassenbreiten durchgeführt. Die Anpassung war stets gut bis sehr gut, denn D lag zwischen 0,897 u. 0,95. Daher kann die Hypothese für alle drei Messweisen und beide Klassenbreiten angenommen werden. Die Werte des Parameters B fallen für die Zusammenfassung in Klassen der Breite 50 etwas höher aus als bei der Zusammenfassung in solche der Breite 100. Was die Werte des Funktionsparameters A betrifft, so unterscheiden sie sich natürlich erheblich zwischen den Ergebnissen für die verschiedenen Messweisen, jedoch nur wenig zwischen den Regressionsergebnissen mit verschieden breiten Frequenzklassen bei gleicher Messweise. Nunmehr konnten die drei Hypothesen über indirekte Abhängigkeiten, d. h. die 4. bis 6. Hypothese, die aus dem Modell und den für die direkten Abhängigkeiten gewonnenen Parametern abzuleiten sind, überprüft werden. Die 4. Hypothese erwartet, dass die graphische Komplexität indirekt eine Funktion der Funktionskomplexität der Schriftzeichen ist. Diese Abhängigkeit ist vermittelt über die Frequenz. Wie oben geschildert, wurde die graphische Komplexität auf drei Weisen gemessen und die Frequenz mit den Klassenbreiten 50 und 100 untersucht. Daraus ergeben sich sechs unterschiedliche Vorhersagen über die Werte von A4 und B4.
967
Für alle drei Messweisen der graphischen Komplexität war die Anpassung der Gleichung an die Daten mit D zwischen 0,6 und 0,75 nicht voll befriedigend. Die gefundenen Parameterwerte schienen jedoch gut zu den theoretisch vorausgesagten Werten zu passen. Köhler (1986, 115; 119; 120) hatte zur Bewertung der Unterschiede zwischen den theoretisch vorausgesagten Funktionswerten und den Werten der an die empirischen Daten angepassten Funktion den t-Test gewählt, eine Vorgehensweise, der die Autorin folgte. Der t-Test ergab für alle sechs möglichen Vergleiche signifikante Mittelwertunterschiede. Aufgrund dieses Ergebnisses muss die Hypothese zunächst abgelehnt werden. Da die Anpassung an die empirischen Daten auch nicht befriedigend gewesen ist, wäre nach einer Verbesserung dieses Teils des Modells zu suchen. In der linearisierten Form der Grafik aufgrund logarithmierter Daten, die hier nicht wiedergegeben wird, war zu erkennen, dass die Gerade für diejenige vorgeschlagene theoretische Funktion, der die Frequenzklassenbreite 50 zu Grunde lag, fast genau parallel zur Geraden für die empirische Funktion mit aus den Daten geschätzten Parametern verlief. Dies könnte ein Indiz dafür zu sein, dass ein im Modell bisher unberücksichtigter Faktor für die Diskrepanz zwischen den theoretisch erwarteten und den empirisch gewonnenen Parametern verantwortlich ist. Die 5. Hypothese besagt, dass die Funktionskomplexität von Schriftzeichen indirekt eine Funktion ihrer Frequenz ist. Diese indirekte Abhängigkeit ist über die graphische Komplexität vermittelt, die wie oben auf drei Weisen operationalisiert wurde. Da die Frequenz mit zwei Klassenbreiten untersucht wurde, gibt es wieder sechs Vorhersagen, die sich in diesem Fall zweckmäßigerweise nach den Klassenbreiten zusammenfassen ließen. Für beide Klassenbreiten war die Anpassung der Gleichung an die Daten mit einem D von 0,969 bzw. 0,97 sehr erfolgreich. Wieder wurde mittels t-Tests geklärt, wie die Unterschiede zwischen den theoretisch erwarteten und den empirisch geschätzten Werten zu beurteilen sind. Er zeigte, dass signifikante Unterschiede zwischen den Mittelwerten der verschiedenen Funktionen bestehen. Die Anpassung an die Daten war jedoch sehr gut, so dass ein Zusammenhang zu bestehen scheint. Die indirekte Hypothese in der vorliegenden Form muss jedoch aufgrund des Ergebnisses des
968
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
t-Tests abgelehnt werden, da sie den zu beobachtenden Zusammenhang nicht korrekt vorhersagt. Die 6. Hypothese nimmt an, dass die Frequenz von Schriftzeichen indirekt eine Funktion ihrer graphischen Komplexität ist. Diese Abhängigkeit ist über die Funktionskomplexität vermittelt. Wegen der drei unterschiedlichen Messweisen für die graphische Komplexität waren wiederum drei verschiedene Vorhersagen zu treffen und mit den aus den Daten geschätzten Parametern zu vergleichen. Die Anpassung der Gleichung war wieder sehr erfolgreich: D lag zw. 0,88 und 0,93. Der t-Test ergab für alle drei Vergleiche, die für diese Hypothese zu machen waren, keine signifikanten Mittelwertunterschiede. Diese Hypothese konnte damit zunächst als zutreffend angenommen werden. Die Überprüfung des auf das chinesische Schriftzeicheninventar übertragenen Modells anhand empirischer Daten aus einem Korpus der modernen chinesischen Sprache hat gezeigt, dass die aus dem Modell abgeleiteten Hypothesen über direkte Abhängigkeiten angenommen werden können. Zwei der drei Hypothesen über indirekte Abhängigkeiten, die ebenfalls aus dem Modell abgeleitet werden konnten, mussten abgelehnt werden. Bei der ersten Hypothese über eine indirekte Abhängigkeit, die 4. Hypothese insgesamt, die abgelehnt werden musste, scheint ein bisher unberücksichtigter Faktor für eine systematische Abweichung der theoretisch erwarteten Funktionswerte von den empirischen zu verursachen. Die Modellierung dieser indirekten Abhängigkeit kann daher als Schritt in die richtige Richtung gewertet werden, bedarf aber der Verfeinerung. Die zweite Hypothese über eine indirekte Abhängigkeit, die 5. Hypothese insgesamt, musste ebenfalls abgelehnt werden. Jedoch war die Anpassung der Regressionsgeraden an die logarithmierten Daten so gut, dass ein Zusammenhang dennoch vorzuliegen scheint. Auch hier wäre nach einer Modifikation des Modells zu suchen. Insgesamt haben die Überprüfungen der Hypothesen gezeigt, dass Köhlers Basismodell der Lexik sinnvoll auf das chinesische Schriftzeicheninventar übertragen werden kann. Andersherum gesagt verhält sich das chinesische Schriftzeicheninventar in mancher Hinsicht so ähnlich wie die Lexik derjenigen Sprachen, an denen bisher die Hypothesen, die aus Köhlers Basismodell abgeleitet werden können, überprüft wurden.
Weiterhin wurde durch die Untersuchung der empirischen Daten deutlich, dass die Graphemzahl ein unbefriedigender Maßstab für die graphische Komplexität chinesischer Schriftzeichen ist. Dies stand zu erwarten, denn die Schriftzeichen des untersuchten Korpus hatten maximal neun Grapheme (vgl. Abschn. 5.2), während mehr als 30 Striche und Strichaufwandsgewichtungen möglich waren. Die Graphemzahl ist als Maßstab also viel gröber als die Strichzahl und ihre Aufwandsgewichtung. Außerdem besteht zwischen der Graphemzahl und ihrer Strichzahl ja der oben beschriebene Zusammenhang des Menzerathschen Gesetzes. Er verursacht eine gewisse Ungenauigkeit, wenn die graphische Komplexität von Schriftzeichen in ihrer Graphemzahl gemessen werden soll. Eine Modifikation bzw. Verbesserung des Modells für das Chinesische ist m. W. bisher nicht erfolgt. Eine Überprüfung an neueren und umfangreicheren Korpora wäre mit Sicherheit erhellend, wobei die oben beschriebene Vereinfachung des Polylexie-Polytextie-Subsystems nunmehr aufgehoben und dieser Zusammenhang ebenfalls untersucht werden könnte. Außerdem sollte auch die Untersuchung der chinesischen Lexik nunmehr mit vertretbarem Aufwand möglich sein.
11. Schlusswort Die Autorin hat sich bemüht, die wichtigsten quantitativ-linguistischen Ergebnisse, die für die chinesische Sprache und Schrift bisher gewonnen und veröffentlicht wurden, in konzentrierter Form zusammenzufassen. Um einigen grundlegenden Fragen ausreichend Raum geben zu können, wurden viele Arbeiten, die auch quantitativ zu nennen sind, z. B. Modellierung durch Markov-Ketten, statistische Segmentierung usw., nicht berücksichtigt. An vielen Stellen wurde deutlich, was noch gar nicht oder noch nicht ausreichend erkundet ist. So kann dieser Artikel auch als Anregung dienen, an der einen oder anderen Frage weiter zu arbeiten, wozu die Autorin Sinologen wie Linguisten hiermit ausdrücklich ermutigen möchte.
12. Literatur (in Auswahl) a) in westlichen Sprachen: Bohn, Hartmut (1998), Quantitative Untersuchungen der modernen chinesischen Sprache und
68. Die quantitative Erforschung der chinesischen Sprache und Schrift Schrift. Hamburg: Kovač [Diss., Universität Trier, 1995]. Breiter, Maria A. (1994), Length of Chinese words in relation to their other systemic features. In: Journal of quantitative linguistics 1 (3), 224K 231. DeFrancis, John (1984), The Chinese language. Fact and fantasy. Honolulu: University of Hawaii Press. DeFrancis, John (1989), Visible speech. The diverse oneness of writing systems. Honolulu: University of Hawaii Press. Hincha, Xieyan (2003), Die chinesische Graphemik. In: CHUN Chinesischunterricht 18, 117K 129. Köhler, Reinhard (1986), Zur linguistischen Synergetik: Struktur und Dynamik der Lexik. Bochum: Brockmeyer (Quantitative linguistics; 31). Kupfer, Helmut Karl Peter (1979), Die Wortarten im modernen Chinesischen. Zur Entwicklung und Etablierung einer grammatischen Kategorie im Rahmen der chinesischen Linguistik. Diss., Universität Bonn. Le, Quan Ha/Sicilia-Garcia, E. I./Ji, Ming/Smith, F. J. (2002), Extension of Zipf’s law to words and phrases. In: Proceedings of the 19th international conference on computational linguistics (COLING-2002), Taibei, o. S. Le, Quan Ha/Sicilia-Garcia, E. I./Ji, Ming/Smith, F. J. (2003), Extension of Zipf’s law to word and character n-grams for English and Chinese. In: Computational linguistics and Chinese language processing 8 (1), 77K102. Lua, Kim Teng (1993), The Number of syllables in a Chinese sentence. In: Computer processing of Chinese and oriental languages 7 (2), 167K190. Lua, Kim Teng (1994), Frequency-rank curves and entropy for Chinese characters and words. In: Computer processing of Chinese and oriental languages 8 (1), 37K52. Menzel, Cornelia ([1995]), Hanzi: Zur Struktur und Dynamik des chinesischen Schriftzeichensystems. Magisterarbeit, Universität Trier. (erscheint) Menzel, Cornelia (2003), Von der ersten Häufigkeitszählung chinesischer Schriftzeichen zur HSKSchriftzeichenliste. Ein Überblick über Forschungen zur Häufigkeit chinesischer Schriftzeichen im 20. Jahrhundert. In: Brücke zwischen Kulturen. Festschrift für Chiao Wei zum 75. Geburtstag. (Hrsg. Karl-Heinz Pohl/Dorothea Wippermann). Münster: Lit-Verlag, 186K208. Nishimoto, Eiji (2003), Measuring and comparing the productivity of Mandarin Chinese suffixes. In: Computational linguistics and Chinese language processing 8 (1), 49K76. Rousseau, R[onald]/Zhang, Qiaoqiao (1992), Zipf’s data on the frequency of Chinese words revisited. In: Scientometrics 24 (2), 201K220.
969
Shtrikman, S. (1994), Some comments on Zipf’s law for the Chinese language. In: Journal of information science 20 (2), 142K143. Zhu, Jinyang/Best, Karl-Heinz (1992), Zum Wort im modernen Chinesisch. In: Oriens extremus 35, 45K60. Zhu, Jinyang/Best, Karl-Heinz (1997), Zur Modellierung der Wortlängen im Chinesischen. In: Glottometrika 16 (Hrsg. Karl-Heinz Best). Trier: Wissenschaftl. Verlag Trier, 185K194. Zhu, Jinyang/Best, Karl-Heinz (1998), Wortlängenhäufigkeiten in chinesischen Kurzgeschichten. In: Asian and African Studies 7 (Bratislava), 45K 51. Zipf, George Kingsley (1932), Selected studies of the principle of relative frequency in language. Cambridge, Mass.: Harvard University Press. b) auf Chinesisch: Chang, Baoru (1989), Xiandai Hanyu pinlü cidian de yanzhi [Die Entwicklung des Frequenzwörterbuchs der modernen chinesischen Sprache]. In: Chen Yuan 1989a, 30K59. Chen, Mingyuan (1982), Xiandai Hanzi bihua de tongji fenxi [Statistische Analyse der Striche moderner chinesischer Schriftzeichen]. In: Zhongguo yuyanxue bao 1, 299K305. Chen, Yuan (Hrsg.), Xiandai Hanyu dingliang fenxi [Quantitative Analyse der modernen chinesischen Sprache]. Shanghai: Shanghai Jiaoyu chubanshe, 1989a. Feng, Zhiwei (1989 [11984]), Hanzi de shang [Die Entropie chinesischer Schriftzeichen]. In: Wenzi gaige 1984 (4). Nachdruck in: Chen Yuan 1989a, 267K278. Feng, Zhiwei (1985), Shuli yuyanxue [Mathematische Linguistik]. Shanghai: Zhishi chubanshe. Feng, Zhiwei (1994), Hanzi de xinxiliang da buli yu Zhongwen xinxi chuli. Zai tan Hanzi de shang [Der Informationsgehalt chinesischer Schriftzeichen ist sehr ungünstig für die chinesische Informationsverarbeitung. Noch ein paar Worte zur Entropie der chinesischen Schriftzeichen]. In: Yuwen jianshe 1994 (3), 34K35. Fu, Yonghe (1989), Hanzi jiegou ji qi goucheng chengfen de tongji ji fenxi [Statistik und Analyse der Strukturen und Komponenten chinesischer Schriftzeichen]. In: Chen Yuan 1989a, 154K186. Fu, Yonghe (1991), Hanzi de jiegou [Die Struktur chinesischer Schriftzeichen]. In: Yuwen jianshe 1991 (9), 10K11. Hanyu shuiping cihui yu Hanzi dengji dagang [Gestufter Wortschatz und Schriftzeichenliste für die standardisierte Sprachprüfung des Chinesischen HSK]. (Hrsg. Guojia duiwai Hanyu jiaoxue lingdao xiaozu bangongshi Hanyu shuiping kaoshi bu). Beijing: Beijing Yuyan Wenhua Daxue chubanshe, 1992. (2. Aufl. 2001)
970
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Hanzi jianpan shuru yong tongyong ciyuji, General word set for Chinese character keyboard input GB/T 15732. (Hrsg. Guojia jishu jianduju). Beijing: Biaozhun chubanshe, 1995. Hanzi xinxi zidian [Datenlexikon zu chinesischen Schriftzeichen]. (Hrsg. Shanghai Jiaotong Daxue Hanzi bianma zu und Shanghai Hanyu pinyin wenzi yanjiu zu). Beijing: Kexue chubanshe, 1988. Huang, Changning/Li, Juanzi (2002), Yuliaoku yuyanxue [Korpuslinguistik]. Beijing: Shangwu yinshuguan. Leng, Yulong/Wei, Yixin (Hrsg.), Zhonghua zihai [Chinas Schriftzeichenmeer]. Beijing: Zhonghua shuju, Zhongguo Youyi chuban gongsi, 1994. Li, Xingjian (2000), Xiandai Hanyu tongyongci biao (guojia biaozhun) de yanzhi gongzuo [Die Entwicklungsarbeit an der Liste allgemein gebräuchlicher Wörter des modernen Chinesisch (nationaler Standard) ]. In: Yuyan wenzi yingyong 34, 86K89. Lin, Lianhe (1980), Guanyu Hanzi tongji tezheng de ji ge wenti [Über einige Fragen der statistischen Merkmale chinesischer Schriftzeichen]. In: Yuwen xiandaihua (congkan) 1. Beijing: Zhishi chubanshe, 135K150. Nachdruck in: Su Peicheng 2001, 227K241. Liu, Danqing (1996), Cilei he cichang de xiangguanxing [Der Zusammenhang zwischen Wortart und Wortlänge]. In: Nanjing Shi-Da xuebao (shehui kexue ban) 1996 (2), 112K119. Liu, Yinglin/Song, Shaozhou (1992), Lun Hanyu jiaoxue zi-ci de tongji yu fenji (dai xu) [Über die Statistik und Stufung von Schriftzeichen und Wörtern für den chinesischen Sprachunterricht (Statt eines Vorworts)]. In: Hanyu shuiping cihui yu Hanzi dengji dagang, 1K22. Liu, Yuan/Liang, Nanyuan/Wang, Dejin/Zhang, Sheying/Yang, Tieying/Jie, Chunyu/Sun, Wei (Hrsg.), Xiandai Hanyu changyongci cipin cidian (yinxu bufen) [Frequenzwörterbuch häufiger Wörter des modernen Chinesisch (alphabetisch geordneter Teil)]. Beijing: Yuhang chubanshe, 1990. Qiu, Xigui (1988), Wenzixue gaiyao [Grundlagen der Grammatologie]. 3. Druck 1996. Beijing: Shangwu yinshuguan. Su, Peicheng (Hrsg.), Xiandai Hanzixue cankao ziliao [Referenzmaterialien zur modernen Sinographemik]. Beijing: Beijing Daxue chubanshe, 2001. Sun, Jianyi (1989), Xiandai Hanyu zipin ceding ji fenxi [Messung und Analyse von Schriftzeichen-
häufigkeit der modernen chinesischen Sprache]. In: Chen Yuan 1989a, 60K69. Xiandai Hanyu changyongzi biao [Liste häufiger Schriftzeichen der modernen chinesischen Sprache]. (Hrsg. Guojia Yuyan Wenzi Gongzuo Weiyuanhui Hanzi chu). Beijing: Yuwen chubanshe, 1988. Xiandai Hanyu pinlü cidian [Frequenzwörterbuch der modernen chinesischen Sprache]. (Hrsg. Beijing Yuyan Xueyuan Yuyan Jiaoxue yanjiusuo). Beijing: Beijing Yuyan Xueyuan chubanshe, 1986. Xiandai Hanyu tongyongzi biao [Liste allgemein gebräuchlicher Schriftzeichen der modernen chinesischen Sprache]. (Hrsg. Guojia Yuyan Wenzi Gongzuo Weiyuanhui Hanzi chu). Beijing: Yuwen chubanshe, 1989. Xiandai Hanyu zipin tongjibiao [Schriftzeichenfrequenztabellen der modernen chinesischen Sprache]. (Hrsg. Guojia Yuyan Wenzi Gongzuo Weiyuanhui und Guojia Biaozhunju). Beijing: Yuwen chubanshe, 1992. Xinxi jiaohuan yong GB 13000.1 zifuji Hanzi bujian guifan [Norm der Schriftzeichenkomponenten des (dem Unicode entsprechenden) Zeichensatzes GB 13000.1 für den Informationsaustausch] GF 3001K1997. (Hrsg. Guojia yuyan wenzi gongzuo weiyuanhui). Beijing: Biaozhun chubanshe, 1997. Yin, Binyong (1984), Hanyu yusu de dingliang yanjiu [Quantitative Forschung zu den Morphemen des Chinesischen]. In: Zhongguo yuwen 1984 (5), 338K347. Yin, Binyong (1986), Hanyu cilei de dingliang yanjiu [Quantitative Forschung zu den Wortarten des Chinesischen]. In: Zhongguo yuwen 1986 (6), 428K436. Yin, Binyong (2001 [11984]), ,Duoyudu‘ yu wenzi you-lie [,Redundanz‘ und die Vor- bzw. Nachteile von Schriften]. In: Wenzi gaige 1984 (1), 17K23. Nachdruck in Su Peicheng 2001, 242K252. Yin, Binyong/Fang, Shizeng (1994), Cipin tongji de xin gainian he xin fangfa [Neue Begriffe und neue Methoden der statistischen Berechnung von Worthäufigkeiten]. In: Yuyan wenzi yingyong 10, 69K75. Yuan, Chunfa/Huang, Changning (1998), Jiyu yusu shujuku de Hanyu yusu ji gouci yanjiu [Auf eine Morphemdatenbank gestützte Forschungen zu den Morphemen und der Wortbildung des Chinesischen]. In: Shijie Hanyu jiaoxue 44, 7K12.
Cornelia Schindelin, Bonn (Deutschland)
69. Terminology
971
69. Terminology 1. 2. 3. 4. 5. 6. 7. 8.
Introduction Motivation for the use of quantitative methods Problems Automatic indexation of texts Automatic term extraction Automatic term recognition Conclusion Literature (a selection)
1.
Introduction
Interest in terminology extraction from corpora is now gaining ground because of the recent and growing ease of access to electronic texts, a rate of growth unimaginable even fifteen years ago. In addition, the exponential development of the Internet has made essential the development of accurate engines to research information in response to a query (indexation problematic) to seek such engines have an absolute need of term banks. The need for better knowledge of terms makes itself felt in a variety of ways: corporate memory acquisition, targeted diffusion of information (taking in account the centers of interest of the reader), or knowledge extraction for data mining. These are all applications for which terms have to be listed and organized. This term acquisition is all the more important in recent domains where new terms are directly created by specialists (scientific research, technical advances, etc.) as new concepts arise. Finally, terminologists have been deeply involved in translation for years. In this work, we will present our motivation for adopting a quantitative approach to terminology, and present some basic knowledge concerning this domain, especially the problems involved. We will then detail some approaches to acquiring terms from corpora, beginning with the problematics of information retrieval before moving to more general issues. We will briefly introduce some works on terminology recognition.
2.
Motivation for the use of quantitative methods
Research on quantitative methods for natural language processing works towards different targets. On the theoretical side, criteria are sought to discriminate between common language words and specialized words,
or between terms and non-terms. Behind all these different problems is the need to find a statistical model of natural language: how are the words distributed, can we find any statistical laws that characterize functional words, or terms? On the practical side, the fact that statistical methods can work on any language is the main reason for using them. We will see that many approaches use language-dependent information (for example, stop-lists which bring together functional words like, ‘the’, ‘as’, ‘for’, etc. in English). This kind of information is relatively easy to define for each language. We do not deny that linguistic analysis is a necessary aspect in the study of any language, but it is a very expensive and highly time-consuming operation to carry out. A lot of languages still have no standard reference (no widely accepted dictionaries or grammars) because of the lack of money. In addition there is also a lack of trained native language linguists, the only persons really capable of understanding the context of culture (Malinowski 1923, 296K336). At present the most studied language is English, due to its world-wide status. However, even in English, there are different levels of language: jargon, slang, telegraphic language, etc. An in depth linguistic study of all these regional and social varieties seems difficult. Finally languages evolve and the maintenance of lexicons and, to a lesser extent, grammars is extremely difficult and costly. So, from a practical point of view, statistical methods present the possibility of working on any language and on any level of language at low cost and with minimal human intervention. In addition, the problem of terminology (recognition, extraction, definition of terms) is closely related to specialized domains whose lexicon and grammar differ from that of general language. Linguistic methods for indexation, or terminology extraction provide good quality tools for computing terms insofar as it is possible to access this linguistic knowledge (lexicons and grammars). Such knowledge has generally been collected for general languages and is not wellsuited to specialized-language corpora. This becomes obvious when considering the lexicon, although even the syntax can vary as,
972
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
for example, in a colloquial corpus where the rules of standard written grammar are not necessarily respected. Fortunately the recent development of statistical grammars tends to diminish this difficulty (see Derouault/Merialdo 1986, Garside/Leech/Sampson 1987, Church 1988, DeRose 1988, Brill et al. 1990, Foster 1991, El-Be`ze 1993). As this is not our subject here, we will not discuss linguistically-based methods such as part-of-speech taggers. However it must be borne in mind that besides the purely statistical approaches, there are numerous mixed approaches, using both linguistic and quantitative methods. The quantity and the quality of linguistic knowledge involved must be clearly pointed out: we will meet systems working with pre-tagged corpora (a treatment requiring a large investment in time and money), and systems needing only a stemmer, the running of which depends on a limited quantity of knowledge (only a list of the possible word endings).
3.
Problems
3.1. Definition One of the main difficulties facing terminologists is the lack of an operational definition of what exactly a term is. A general consensus is that a term is the linguistic representation of a concept. So terms belong to the lexical, or sign, world, while concepts belong to the world of ideas (see Felber 1994). 3.2. Constitution of a corpus Traditionally terminologists worked by introspection, deciding whether they have to create a term or not, establishing links between terms and concepts, between terms themselves, and establishing the normalized form. When working on a domain they did not know, they used documentation as a source of information on the domain under study (Pitch/Draskau 1985). The first step was the familiarization of the terminographer with the domain by means of a reference corpus. The next step was to constitute a specialized corpus in which terms and concepts would be identified (Bowker 1996). Recently, simple automatic tools have become available that allow the terminologist to dip directly into electronic texts: the KWIC search (Key Word In Context), for example, presents all the occurrences of a given word allowing to check the choice of
a term. This use of computational tools is yet to become widespread, but is slowly penetrating the terminology community. This second step of the constitution of a corpus is not really taken into account in research on automatic term extraction: people work on the corpus they have at their disposal: it is no longer the corpus which reflects the domain, but the domain which is constituted by ‘what is in the corpus’. As pointed out by Kageura (Kageura/ Umino 1996), the two situations are very different. However, the situation is evolving with specific research on the construction of a domain-specific corpora. At present, it is well-established that such corpus must be monodomain (Sinclair 1991). Williams (1999) outlines also that the representativeness of a corpus is a very acute problem, especially in specialized domain where it is difficult to collect a large amount of texts on one domain. He presents a methodology to discriminate texts and to keep only those on the same theme. As Meyer/Mackintosh (1996a) he insists on the necessity of constituting the corpus with plain texts and not only with abstracts, and with texts belonging to different genres in order to capture variations in conceptual information. 3.3. Destination of a terminology In traditional practice, the work of the terminologist is strongly influenced by two complementary questions: ‘who is the terminology for?’ and ‘what is its purpose?’. For instance, establishing a terminology for novices or for experts will not lead to the same selection of terms. The structure of the terminology itself depends on its use: a terminology built for translators would include a lot of information about the behavior of the terms, it would not be necessary for establishing the prescriptive terminology of a domain (Ahmad et al. 1994b) which decides a normalization of the terms of a domain. For the moment, systems performing automatic term extraction are not clearly dedicated to an application. On the other hand software dedicated to a specific application (indexation, or translation) do not clearly deal with terminology. 3.4. Evaluation Evaluation of a terminology is extremely difficult to perform because of the lack of definition of what a term is, even from a lin-
973
69. Terminology
guistic point of view, which could be used for evaluation. Not only nouns or compound nouns, but also more complex structures involving nouns, verbs, determiners and so on, could be considered as terms because of their strong stability. Kageura identifies two concepts in term evaluation (Kageura/Umino 1996): K Unithood refers to the degree of strength or stability of syntagmatic combinations or collocations. K Termhood refers to the degree that a linguistic unit is related to domain-specific concepts. Termhood can be estimated through term frequency and bias of frequency (inverse document frequency). However these measures do not exactly reflect the concept of termhood and depend strongly on the documents contents. These two concepts, termhood and unithood, have not yet been used to define any quantitative methodology for evaluating a terminology. For the moment, evaluations are mainly based on comparison with a reference list, and/or the judgement of specialists or terminologists. These approaches are not totally satisfactory. 3.4.1. Comparison with a reference list Let us suppose that we have a corpus which represents a domain, and from which the terminology has been recently established and, thus, can be listed in a reference list (note that this situation is very rare). The list of terms that have been found by the Automatic Term Recognition (ATR) system in the corpus can be compared with this list and the two rates of recall and precision can be computed. Let us define: K A as the set of terms extracted by the Automatic Term Extraction (ATE) system K R as the set of terms of the reference list K n (S) as the number of elements of any set S K recall Z number of extracted terms in the reference list number of terms in the reference list n (AhR) Z n (R)
K precision Z number of extracted terms in the reference list number of extracted terms n (AhR) Z n (A)
The recall rate expresses the proportion of correct terms which have been extracted, the precision rate is the ratio of correct terms among the extracted ones. In the comparison with a reference list we will face two major problems: 1) Terms often vary: they can have different forms. For example the concept of a leak on a pump can linguistically be expressed (in English) by: K K K K K
“the pump is leaking”, “the pumps were leaking”, “there is a leak on this pump”, “the leak on the water pump”, etc.
All these forms should be gathered together and a normalized form chosen to represent them. These variations are not listed in a reference list. This list contains only the normalized forms determined by the terminologist. Consequently, we can meet cases when the terminologist and the system do not choose the same normalized form. “pump is leaking” is identified by the ATE system “leak of a pump” is chosen by the terminologist In such a case the automatic comparison is not possible in a simple manner but requires sophisticated treatments like Bourigault/Habert (1998) which compares the results of two ATE softwares by drawing on their syntactic structures. In addition the evaluation of the different forms might be extended to the comparison of all the occurrences of each term which appears in the corpus. Actually, the same form can have the status of a term in one occurrence (like the previous occurrence of “term” in this sentence), and be a general language word in another occurrence (like in “in terms of quality this car is the best”). For certain applications, like terminology normalization, these different usages should be listed. 2) We have previously supposed the existence of a reference list to evaluate the output of a system. The statute as the standard reference of such a list for a given domain is highly controversial even if it is pre-established (terminology bank), or specially determined by terminologists working on the corpus. This is shown in Daille/Gaussier/Langé (1998) who reports an experiment concern-
974
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ing extraction of terms on the domain of telecommunications. The results were compared with the terminology data bank of the Economic European Community, telecommunication section: Eurodicautom. In view of the poor recall rate (only 300 terms out of 2,200 were considered good candidates), the authors decided to extend the reference list by using their results and proposing them to three experts in the field of telecommunication. This process led to the reference list being extended with 900 new terms. Thus, this very official terminology data bank appears far from complete. 3.4.2. Specialists’ judgement A second way to evaluate a terminology is to ask specialists of the domain of the studied corpus to judge the extracted candidateterms. This task must be performed on a special software designed to allow them to observe the different occurrences of the terms in order to decide whether the candidates are terms or not. This question is often difficult to solve, particularly for people who do not have any knowledge of the usual way of working of the terminologists. And such specialists are usually not very enthusiastic about linguistic questions and will be quickly exhausted by the examination of long lists. We are also confronted with the problem of the variability of their judgement. This problem can be solved by having the evaluation of terms (or of a certain amount of terms) carried out by several specialists. However the process of evaluation then becomes costly and time-consuming (it is difficult to find some specialists having enough time). Nevertheless, this way of evaluating is that most often used by researchers working on automatic term extraction because it is the easiest to process (generally with one specialist who only evaluates a list of terms from a decontextualized list). 3.4.3. Evaluation by terminologists Another way is to use a terminology built by terminologists working on the studied corpus and to compare their work with the results of an ATE system. The problem is that this process would be very costly: the same corpus would have to be processed by several persons to avoid variability. The evaluation of the results of an ATE system remains a difficult, and as yet unsolved, task because it presents several dif-
ferent facets and a major constraint: to limit the cost of this evaluation in terms of human work, the process of evaluation must be as automatic as possible. In addition, the evaluation clearly depends on the future use of the terms: indexation (which was the first application identified), thesaurus design (in such a case terms should be completed with links), improvement of an automatic translation system, semantic disambiguation, etc.
4.
Automatic indexation of texts
Information Retrieval (IR) is the process which supplies documents in response to a query. Information Retrieval can be considered as the precursor of the Automatic Term Extraction (ATE): the goal is to find pieces of information that characterize texts. These pieces of information are usually lexical units, some of which could be qualified as terms. (Salton/Yang 1973) define two criteria to isolate such terms: exhaustivity, which shows whether the document is well-represented by the extracted terms (endogenous criterion), and specificity, which is linked to the precision with which the term is characteristic of the domain (exogenous criterion). IR differs from ATE because some precise quantitative criteria allow the evaluation of the results: an index term is considered as good if it is a good discriminator of texts. Two rates quantify the quality of the response of the system in response to a query: recall and precision (Salton 1989). recall Z number of relevant documents retrieved total number of relevant documents in a collection
precision Z number of relevant documents retrieved total number of documents retrieved
We can note that recall is very difficult to evaluate because the whole collection is to be considered, which is not always possible as, for instance, on the Internet. Text retrieval depends on the degree of coincidence between queries and documents. The computation of the similarity between the two is complex: should we take into account only the number of words in common, do we consider complex indexes, how can we order the responses? We will focus here on the choice of indexes. Luhn was the one of the first to carry out research on automatic keyword extraction
975
69. Terminology
(Luhn 1957). His approach dealt only with simple indexes (index composed of one word, a word being an uninterrupted sequence of characters) and simply compared the quantity of words in common between texts and query. But in the 50’s it was impossible to compare all the texts present in the documentation base with a query because of the duration of this task. The research then moved towards systems using a pre-established index list. This kind of system has lost user favor because they tend to recall a huge amount of texts (Larson 1991). At present, many different approaches co-exist: some use markers (HTML or XML for instance), others work on purely plain text and determine dynamically the index terms to consider. We will present only these latter because they lead to terminology extraction. In this category, the research moved quickly from the simple idea of indexing a document by the words it contains to more sophisticated indexation taking in account the number of occurrences of words by weighting the index. So, different ways of establishing the value of the weights in a better manner appeared. We present here some basic ones, an evaluation is presented in Noreault/McGill/Koll (1981). 4.1. Single-term indexing Notation Let us define: D as the space of documents. D is the set of all documents to be considered we note one document as dj WD is the entire vocabulary of the space of documents (set of words appearing in D) we note one word as wi Wdj is the vocabulary of the document dj we note one word appearing in dj as wij n (S) is the number of elements of any set S. We shall simply note n (D) as N. g is a function denoting the presence or the absence of a word in a document g (wij) Z 1 if wi 2 Wdj Z 0 else N
g (wi) Z ∑ g (wij) is the document frequency. jZ1
It represents the number of documents in which wi appears.
The term frequency f (wij) is the number of occurrences of wi in the document dj N
f (wi) Z ∑ f (wij) represents the number of jZ1
occurrences of wi in the whole corpus D. The different statistical measures we will present tend to calculate: Iij: weight of the word wi in the document dj Ii: weight of the word wi (the document is not mentioned). Remark: In almost all the methods presented below, the functional words, which are over-frequent, are not taken in account as possible index words. These functional words are also called closed class items because they belong to a class from which it seems possible to list all the items. For example, in English we will meet: “of”, “the”, “and”, “are”, “or”, etc. Such a list is sometimes named a stop list. By opposition open class items indicate the classes from which it is not possible to list all the items, such as nouns, or adjectives, etc. The deletion of such words can be problematic when working on certain domains: “can”, for instance is a form of the verb “to be able to”, but it is also a little box in metal to keep liquid. If we were working on a domain like “soda industries”, it would not be possible to simply delete all the occurrences of “can” in the texts. So a list of functional words is never established for a given language, even if it would be easy, but is often fitted to the studied corpus. K Term frequency (Salton 1989) This first method is based on the number of occurrences of words, choosing the more frequent ones after deleting the functional words. Salton keeps only words whose term frequency is greater than a threshold T. Iij Z f (wij) or Iij Z log f (wij) This method presents good recall rates, but the precision is very low because the idea of discriminating between documents does not appear: a word which is very frequent in all documents is not a good discriminator, it will nevertheless be assigned a high weight. K Inverse document frequency (Salton 1989) This measure takes into account the fact that words which occur rarely present the advantage of being absent from numbers of docu-
976
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ments: they tend to improve the precision rate. Ii Z log
( ) N
g (wi)
(Sparck-Jones 1972).
The number of occurrences and the inverse document frequency can be combined by giving a high weight to the words which occur frequently but only in a small number of documents. Iij Z f (wij) · log
( ) N
f (wij) g (wi)
(Salton/Wu 1981)
Eliminating functional words, then calculating Iij for each word in each document and keeping only words with high weights provides a high level of retrieval (Salton 1989). K Term discrimination value (Salton 1989) The idea of discrimination is further refined in this model: all the documents are represented in the document-space. Each index word appearing in the collection of documents represents one axis. Each document can then be situated in this space according to the weights of its index words. The closer two documents are, the more similar they are. The space density reflects this situation and decreases when the introduction of a new index makes the documents less similar. In such a case the word in question should be considered as a new index. We note Q the space density: QZ
1 N (N K 1)
t
sim (di, dj) Z
g (wi)
or Iij Z
This similarity measure corresponds to the cosinus measure between the vectors representing two documents. Generally, one of them is a query. Document di is represented by the term vector ((w1i, x1i), ..., (wti, xti)) where wki represents the kst index of the term vector wdi of di, and xki the weight of this index for the document di.
(∑ ∑ N
N
iZ1 jZ1
)
sim (di, dj)
The similarity measure between two documents, sim (di, dj), can be computed in different ways. The simplest one is the conventional product formula which counts the words in common between the two documents (weighting is then limited to 0 or 1 denoting the absence or the presence of an index). Practice has proven that it is better to give weights continuously between 0 and 1, the higher the weight, the better the index represents the documents. See (Salton/Buckley 1988) and (Sparck-Jones 1973) for a presentation of different weights. In such a case it is also better to normalize the calculations.
∑ xki · xkj kZ1 t
t
√kZ1∑ (xki)2 · kZ1∑ (xkj)2
The previous formulae calculates the similarity of all the pairwise documents. To decrease the complexity of this calculation, Salton defines a virtual document centroid, named C, as the average document located in the center of the document space. Then the space density is redefined as QZ
1
N
∑ sim (C, di) N iZ1
K Cross document distribution (Dennis 1967) This measure is based on the distribution among documents in the database to distinguish content words and non-content words. Ii Z
f (wi) rf
(wi)2 / r σi2
where
rf
(wi) is the
mean and r σi is the variance of f (wij) for all dj. Nagao, Mizutani and Ikeda use the statistical measure of χ2 (chi-square) to calculate the weight of words (Kageura/Umino 1996). Ii Z χ2i Z ∑
(f (wij) K mij)2 mij
j
where mij Z
f (wi)
∑j f (wi)
·
∑i f (wij)
K Probabilistic term weighting For these models, a feedback procedure takes into account the term relevance: documents are classified in relevant and non-relevant items in function of the query. term precision Li: R is the number of relevant documents. Considering one word wi, we note ni (Z g (wi)), the number of documents with wi
977
69. Terminology
present. The collection of documents can be divided into two groups: ri is the number of relevant documents with wi present, consequently (ni K ri) is the number of non relevant documents with wi present. The indexes are supposed to be independent (statistical hypothesis). The term precision is then defined by Li Z
ri (R K ri) (nj K ri) / [N K ni)]
particular speciality word is then given by the equation f (k) Z π
zZ
eKλ2 λ2k k!
λ1 K λ2 Oλ1 C λ2
To obtain the model, it is assumed that tokens of a speciality word are found only in Class I documents, so λ2 Z 0. One of the Poisson distributions is degenerate and the model becomes f (k) Z π
eKλ1 λ1k
for k R 1 k! Z πeKλ1 C (1 K π) for k Z 0
Iij Z f (wij) · Li Probabilistic models based on statistical laws: Several authors have noted a relationship between the statistical distribution of a word and whether or not the word is judged to be a speciality word with respect to that collection. In particular it has been observed that a word whose frequency distribution can be described by a Poisson density function is likely to be a non-speciality word. In such a case the probability f (k) that a document contains k tokens of the word is given by the eKλ λk equation f (k) Z where λ is the mean k! number of tokens of the word in the members of the document collection. Harter’s model (Harter 1975) states that any content-bearing word will have withindocument frequencies which fit a 2-Poisson distribution. He postulates that, for all speciality words, there are exactly two levels of treatment defining two document classes. Within each of the document classes I and II thus defined, the model assumes that documents are equally likely to be found relevant to a request for information on the concept. The 2-Poisson model is characterized by two parameters λ1 and λ2 representing the mean number of occurrences of the word in the document classes I and II respectively, and a third parameter π, representing the proportion of documents in the collection which belong to Class I. The proportion of documents containing k occurrences of a
k!
C (1 K π)
The measure z intended to separate speciality words from non-speciality words, consistent with the 2-Poisson model is given by
(Salton/Wu 1981)
The term precision represents the proportion of the relevant documents in which the term occurs divided by the proportion of non-relevant documents in which the term occurs. An appropriate term-weighting takes into account the term precision and the term-frequency.
eKλ1 λ1k
4.2. Binary terms indexing Salton/Yang/Yu (1975) define a measure to extract and weight complex index based on two adjacent words. Only couples with a score below a certain threshold are retained as indexes. Obviously, results are improved if functional words are neglected. SALT (wi, wj) f (wi) f (wj) · log 2 n (D) Z 2 log 2 g (wi) C log 2 g (wj) K 2
(
)
Because this measure extracts complex indexes, it could be applied to extract candidate-terms.
5.
Automatic term extraction
The research on indexation led to the definition of multi-word indexes which appear to be almost terms. A lot of work has been done in the area of the automatic extraction of terms from plain texts. Unlike indexation, it appears easier to acquire complex terms (composed of several words) than simple terms (limited to one word). 5.1. Association criterion Association criterion based methods study the collocations in a statistical manner to determine if a complex term is to be defined. They are based on the counts of occurrences
978
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
of words and on the counts of cooccurrences of couples of words. For this last measure, we shall note that the definition of a couple varies in the different experiments. A couple may be defined as two words in the same sentence, or two words which are not separated by any punctuation mark, or two words contained in a window of n words, etc. Even the notion of distance suffers from a lot of variety. A first one, d1, is the count of the words between the two words of the couple, a second one, d2, is the number of open class items between the two words of the couple. Per instance, the couple (portion, document) is a term than can be found under these different variations “portion of document” (d1 Z 1, d2 Z 0), or “portion of illustrated document” (d1 Z 1, d2 Z 1). The principle is to compute one or several statistical measures on every couple of words and to retain the ones which obtain a high score beyond a certain threshold. This statistic filter presents the disadvantage of selecting a lot of meaningless associations, like “make sure”, ”go back”, “from the”, “of a” or “alive today”. Taking into account a list of functional words improves appreciably the results: “from the” and “of a” would disappear, despite the possible confusion with content words that are homonyms. In addition, a linguistic filter is usually applied to eliminate some of the associations. This operation can be processed before the statistical filtering (the corpus is then tagged with parts-of-speech) or after. The linguistic filter takes in account the categories of the words and applies some patterns (NounNoun, or Noun-Adjective for example). Even if some good statistical taggers exist, the patterns are highly dependent on the language used in corpus, and their definition presupposes the existence of a linguistic definition of the form of the terms. Despite these inconvenients such systems seem to obtain good results, in agreement with their linguistic hypothesis on patterns.
The calculation of association criteria is based on measures of cooccurrences. These measures can be presented in a contingency table of dimension s for s words. Note that the measures are not symmetrical: two words wi and wj are distinguished according to their position in the couple (wi, wj). We note nb (wi, wj) the number of cooccurrences of the couple (wi, wj). Thus we note nb (wi, .) the number of occurrences where wi appears in the first position. The calculation of all the association criteria is based on a contingency table of dimension 2. Viewing this table for two specific words, we can resume it under this form (Daille 1994): Table 69.2: Contingency table of dimension 2 wi wi, with i ¦ i
wj
wj, with j ¦ j
a c
b d
with: a: number of occurrences of the couple (wi, wj). b: number of occurrences of couples where wi is the first item and wj is not the second one. c: number of occurrences of couples where wj is the second item and wi is not the first one. d: number of occurrences of couples where neither wj nor wi appears. n: the total number of occurrences. n Z aCbCcCd K frequency of cooccurrences (Choueca 1988) This coefficient is simply the frequency of cooccurrences of the two words. CHOU (wi, wj) Z a K Simple Matching Coefficient SMC
Table 69.1: Contingency table of dimension s w1
w2
...
ws
Total
w1 w2 ... ws
non-defined nb (w2, w1) ... nb (ws, w1)
nb (w1, w2) non-defined ... nb (ws, w2)
... ... ... ...
nb (w1, ws) nb (w2, ws) ... non-defined
nb (w1, .) nb (w2, .) ... nb (ws, .)
Total
nb (., w1)
nb (., w2)
...
nb (., ws)
n Z nb (., .)
979
69. Terminology
This coefficient is symmetrical. It varies from 0 to 1. SMC (wi, wj) Z
MI (wi, wj) Z log 2
aCbCcCd
This coefficient varies from 0 to 1. It is superior to 0.5 if one of the word of the considered couple is always associated with the second one. a
(
1
1
2 aCb
C
aCc
)
K Ochiai coefficient a O (a C b) (a C c)
K Fager and McGowan coefficient This coefficient is always inferior to 1. It can be negative. FAG (wi, wj) Z
1
a O (a C b) (a C c)
K
2Oa C b
YUL (wi, wj) Z
)
The main disadvantage of this measure is that it gives high scores to rare words. Church/Hanks (1990) adapted the Mutual Information measure for monolingual extraction by bringing the distinction between the order of the words in the couple. This measure then became the association ratio and is defined by
(
a (a C b) (a C c)
)
The Dice coefficient is a variation of the association ratio in which the similarity between the two words is more strongly expressed as demonstrated (Smadja/McKeown/Hatzivassiloglou 1996): the Dice coefficient can be written uniquely in function of the conditional probabilities, thus this measure does not take into account the frequency of the words.
K Yule coefficient This coefficient varies from K1 to 1. It is equal to 1 when one of the words of the considered couple is always associated with the second one.
P (wi, wj)
P (wi) · P (wj)
AR (wi, wj) Z log 2
This coefficient varies from 0 to 1. OCH (wi, wj) Z
(
aCb
K Kulczinsky coefficient
KUL (wi, wj) Z
Thus, the Mutual Information of two words wi and wj is defined by
DC (wi, wj) Z
(
2P (wi, wj)
)
P (wi) C P (wj) 2a
Z 2a C b C c (Dice 1945)
ad K bc ad C bc
K Cubic Mutual Information
2
K Φ coefficient This coefficient has been used to align words inside pre-aligned sentences (Gale/Church 1991). PHI (wi, wj)
(ad K bc)2
Z
This measure has been defined by (Daille 1994) to give a higher weight to frequent events than in the mutual information measure. MI3 (wi, wj) Z log 2
(a C b) (a C c) (b C c) (b C d) K Association ratio The Mutual Information measure comes from information theory. It was first used by Brown et al. (1988) to extract lexical bilingual resources. The measure compares the probability of observing two words together and the probabilities of observing each of these words alone. P (wi) is the estimated probability of observing the word wi. This probability is easily computed by counting the words of a corpus.
(
a3 (a C b) (a C c)
)
K Loglike coefficient This coefficient is the generalized mutual information and increases with the strength of connection between words. LL (wi, wj) Z a log a C b log b C c log c C d log d K (a C b) log (a C b) K (a C c) log (a C c) K (b C d) log (b C d) K (c C d) log (c C d) Cn log n (Dunning 1993)
980
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
K Diversity The diversity measure was introduced by Shannon. It takes into account the place of the word in the observed couples. We note Hi1 the diversity of the word wi when appearing in the first position in the couple, Hj2 the diversity of the word wj when appearing in the second position in the couple. Hi1 Z nb (wi, .) log 2 nb (wi, .) s
K∑ nb (wi, wj) log 2 (wi, wj) jZ1
Hj 2 Z nb (., wj) log 2 nb (., wj) s
K∑ nb (wi, wj) log 2 (wi, wj) iZ1
These measures are more expressive when normalized by the number of occurrences of the couple. hi1 Z
Hi1 nb (wi, wj)
hj2 Z
Hj2 nb (wi, wj)
Evaluation of several association criteria Daille/Gaussier/Langé (1998) evaluated several measures (frequency, Loglike coefficient, diversity, Simple Matching coefficient, Kulczinsky coefficient, Ochiai coefficient, Fager and MacGowan coefficient, Yule coefficient, Φ2 coefficient and association ratio) on a tagged corpus. In this experiment two words are considered are equal not only because they have the same form but also because they are associated with the same tag. For example book [verb] and book [noun] are distinguished. The evaluation procedure stands as follows: K the measures are calculated on all pairs of lemmas, K for each measure the pairs of lemmas are sorting on their decreasing values, K they are grouped by 50, K a ratio of good candidate-terms (according to domain specialists) is computed for each group. Surprisingly, the authors conclude that the best indicator is simply the frequency of the pair of lemmas: the couples which present a high frequency were mainly good candidateterms, the low frequency pairs were mainly rejected.
5.2. Differentiation of corpus Some approaches are based on the differential study of two corpora, or on the observation of a part of a corpus in opposition to the whole. 5.2.1. A methodology for terminologists Condamines (1995) tries to define a methodology to identify terms, not to build an automatic system, but to help terminologists to not proceed only by introspection (Meyer/Mackintosh 1996b). She seeks some objective criteria for the identification of terms and makes the hypothesis that “a terminological system is a word system which functions in a deviant way in relation to the lexicon of the language of reference.” This deviance is measured through four criteria: “1K unusually high frequency of compound words 2K coinage of new words 3K unusual syntactic behavior: new or forbidden constructions 4K unusual semantic behavior: appearance of new meanings which show themselves by unusual combinations.” These criteria are exposed in a linguistic perspective, nevertheless the first and second criteria can be understood as quantitative criteria. The third and fourth ones are not directly usable, but can be kept in mind for future research. This theoretical thought (based on a long experience as a terminologist) show clearly that results are highly dependent on the quality of the two corpora; the reference corpus, which should be as complete as possible, and the studied corpus, which must be representative of the targeted domain. As Condamines demonstrates, the task of selecting terms becomes more difficult when general language and specific language are mixed together. 5.2.2. Multi-domain corpora Damerau carried out experiments over several years to extract terms by observing different domain-dependent corpora. Damerau (1990) describes an attempt to compile automatically a domain-oriented vocabulary and evaluate the domain relatedness of the resulting words. The goal was not terminology, but to provide the domain-specific vocabulary in such situations where users are expected to do so (customization of a general system). The author uses texts, each
981
69. Terminology
concerning a single domain, and targets to obtain 300 words per domain. He selects them by first discarding the high frequency words and then the low frequency words. The selection of the high frequency words to be discarded has been guided by their presence in texts covering different domains. This simple procedure produces word lists that characterize the domains. Damerau (1992) shows that the computation of the probabilities on different corpora can improve the selection of multi-word terms. P (wi, wj) is estimated on a domain corpus, but P (wi) and P (wj) on a general corpus, then the selection of multi-words terms of the given domain becomes better. Finally, Damerau (1993) derives a new measure from the Mutual Information (Church/Hanks 1990). He distinguishes two parts in the corpus: S, where wi and wj occur together with a certain bias, and the rest of the corpus where the two words are supposed to occur independently (statistical hypothesis). DAME (wi, wj) Z log 2
Ps (wi, wj) P (wi, wj)
where Ps (wi, wj) is the probability that wi and wj occur together in the subset S of the corpus. 5.2.3. Ratio of frequency Ahmad et al. (1994a) simply count the frequencies of words in two corpora: a Special Language Purpose (SLP) corpus on which terms are to be identified and a General Language Purpose corpus (GLP). The ratio of the frequencies of each frequent open class item is then determined. We note f (wiS) is the frequency of wi in the LSP corpus. We note f (wiG) is the frequency of wi in the GSP corpus. f (wiS) We note r (wi) the ratio: r (wi) Z f (wiG) A score of infinity shows that the word does not occur at all in the general-language corpus. Thus, infinity is a strong indicator of a word being a simple term, a high ratio too. A threshold has to be established to discriminate these high score words. The main problem is the determination of the threshold value which probably depends on a number of factors, including corpus size and domain. This problem has not yet been solved. The authors also expose a method to extract multi-word terms by observing fre-
quent cooccurrences of couples in which appears at least one of the high ratio words previously extracted. These methods have been implemented in a toolkit for terminologists. Despite their simplicity it is a very attractive tool for this community which primarily needs assistance from computers which do not revolutionize too fast the traditional way of working. 5.2.4. N-gram and HMM An interesting method is presented by Cohen (1995). The author avoids the use of any linguistic resources even a stop list. However his method perform as well as (or better than) a stemmer and extracts some index terms which can be simple words or phrases. This approach is based on n-gram counts which are computed on the text in question, and also on a reference corpus. Consequently the index terms (which are called highlights) of the same texts would be different if the reference corpus is changed. 5.2.5. Weighting average This approach can be compared with the measure of reduced deviation (Brunet 1989). This measure compares the number of occurrences of one word in the studied corpus with the number of occurrences of the same word in a reference corpus (generally a general language purpose corpus) to discriminate the unusually frequent words. f (wiR) is the frequency of wi in the reference corpus R, fe (wic) is the estimated frequency of wi in the studied corpus N (R) , C: fe (wic) Z f (wic) · N (C) f (wic) is the frequency of wi in the studied corpus C, N (R) and N (C) are respectively is the number of words in R, in C. The reduced deviation is the difference between the real and estimated frequencies of wi in the studied corpus C divided by the squared variance of the occurrences in the studied corpus. This measure is implemented in the software Hyperbase and shows interesting results. 5.3. Quantitative methods 5.3.1. The ANA system Some quantitative methods use no statistics at all, but rather heuristics. The ANA (Au-
982
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
tomatic Natural Acquisition) approach is inspired by the human apprenticeship of a mother-tongue (Enguehard/Pantéra 1994). The main idea is to emphasize that cooccurrences are significant, especially when one or both of the observed items was previously known as a term(s). The second idea is to give to the system a kernel of knowledge to extend. To implement these ideas, the ANA system was built. The system is furnished with a kernel of knowledge in the form of lists: K a list of a hundred functional words (close class words), K a short list of terms (a dozen) named the bootstrap, K a very short list of ‘lexical scheme words’ (less than a half dozen) which is a sublist of the functional word list, The studied corpus does not need to be tagged, lemmatized nor preprocessed in any way. Even the level of language does not matter because the system will learn its specific linguistic structures. It could be standard language text, or colloquial, or telegraphic, etc. The system increases the number of terms by observing the text through a window defined as two non functional words. It collects the part of text seen through this window in three circumstances: K two occurrences of terms are included in the bootstrap, K one occurrence of a term included in the bootstrap occurs with one occurrence of
C-value (s) Z
a ‘lexical scheme word’, but no other occurrence of term, K there is only one occurrence of a term included in the bootstrap without any other term or any ‘lexical scheme word’. The new terms (simple or complex) are inferred by determining stable forms chosen by the fuzzy matching between observed (co)occurrences. The process is incremental: at each step, observations around known terms allow the acquisition of new terms that are included in the bootstrap. While new terms are found and added to the bootstrap, the process starts again.
The process also includes the deletion of terms that are included in other terms and of which there are not sufficient occurrences in the corpora (with a frequency beyond a threshold). For instance, the candidate-term “ray diffraction” is deleted after the acquisition of the candidate-term “X ray diffraction” because “ray diffraction” appears only within “X ray diffraction”. The system depends on the language because of the kernel of knowledge. However, although developed for French, experiments have shown that it is easy to adapt it to other languages as long as they do not agglutinate words (like Hungarian). Results on English, or Italian are promising. The authors have shown that the construction of the bootstrap and the ‘lexical scheme words’ list can be easily automatized, nevertheless the user can rapidly construct them thanks to the word frequency list computed by ANA, but the determination of the functional words is still crucial (Enguehard 1992). 5.3.2. The C-value/NC-value method This method is based on both statistics and linguistics to discover terms in a corpus (Frantzi/Ananiadou/Tsujii 1998). The linguistic treatment consists in the application of a part-of-speech tagger, followed by syntactic patterns that are used to select multiword terms. In this process functional words are taken into account. Extracted terms are then ranked according to their termhood evaluated through their C-value.
{
log 2 K s K · f (s) log 2 K s K · f (s) K
if s is not nested 1
∑ f (t)
n (Ts) t2Ts
if s is nested
where s is the candidate string, f (x) is the frequency of occurrence of a string x in the corpus Ts is the set of extracted candidate terms that contains s n (Ts) is the number of these candidate terms K s K is the length of the candidate string in terms of the number of words. The authors emphasize the fact that a candidate-term nested in another one should see its termhood decrease (for example, “time clock”, which is a part of “real time clock”,
983
69. Terminology
is not a term. In the studied corpus, “time clock” appears only as part of “real time clock”). In a second step they take into account the contextual information by creating a list of term context words. These words can be adjectives, nouns, and verbs. They appear in the vicinity of terms in texts and are chosen according to the number of terms they appear with. The assumption is that the higher this number, the higher the likelihood that such a word will occur with other terms in the same corpus. This weight is determined by: Weight (w) Z
t (w) n
where w is the context word, Weight (w) is the assigned weight to the word w t (w) is the number of terms the word w appears with n is the total number of terms considered. These weights are determined by using the top candidate terms from the C-value list.
fs (x) is the frequency of x as a term context word of s wght (x) is the weight of x as a term context word. An experiment on a medical corpus shows that this measure is better than pure frequency of occurrences to isolate real terms and place them closer to the top of the extracted list. 5.3.3. The measure of importance This research aims to extract index words from instruction manuals written in Japanese (Nakagawa 1997). Texts are first segmented in words, then the importance of words and sequences of words are calculated according to the following definitions. The author defines: N as a simple noun, Pre (N) as the number of distinct nouns that come just before N and make compound nouns with N, Post (N) as the number of distinct nouns that come just after N and make compound nouns with N, N1k as a compound word composed of several simple words (N1, N2, ..., Nk). k
IMP1 (N1k) Z T ((Pre (Ni) C 1) · (Post (Ni) C 1)) iZ1
1
k
IMP2 (N1k) Z T ((Pre (Ni) C 1) · (Post (Ni) C 1))2k iZ1 k
IMP3 (N1k) Z T (Pre (Ni) C (Post (Ni)) iZ1
IMP4 (N1k)
Z ((Pre (Ni) C 1) · (Post (Ni) C 1))1.5 k
T ((Pre (Ni) C 1) · (Post (Ni) C 1))
iZ2
IMP5 (N1k) Z
(
kK1
)
T ((Pre (Ni) C 1) · (Post (Ni) C 1)) ·
iZ1
· ((Pre (Nk) C 1) · (Post (Nk) C 1))1.5 Finally the context information is incorporated in the NC-value measure to re-rank the list determined by the C-value measure. NC-value (s) Z 0,8 ! C-value (s) C 0,2 ! ∑ fs (x) wght (x) x2Cs
where s is the candidate string, Cs is the set of distinct context word of s x is a word from Cs
The importance of N1k, noted imp (N1k) is evaluated through different definitions: The results are sorted lists according to the importance measure. Each list is evaluated through a precise methodology by three persons. The initial idea was to define a threshold, but this appears too dependent on the corpus. So, the author presents an original method based on a window that is passed over the results. He defines two ratios:
984
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
COMPWR # (compound nouns in the window) Z window width CIWR # (correct index words in the window) Z window width The calculation of precision and recall ratios allows the author to evaluate the five importance measures. IMP1 tends to be better than the others, maybe because it places greater emphasis on the length of compound nouns.
6.
Automatic term recognition
We distinguish clearly the task of Automatic Term Extraction (ATE), which is how to identify terms in plain texts, from Automatic Term Recognition (ATR), which is the recognition of the different variations of a term. These variations can be due to morphological variations (plural, conjugated verb, etc.), orthographic or typographic error, inclusion of words, etc. Different processes deal with this problem. We present here the stemmers which use a limited amount of linguistic knowledge and a purely quantitative approach: the supple-equality of two strings (this last notion is defined below). 6.1. Stemmers Stemmers represent the first attempt to deal with variations of words without any exhaustive linguistic knowledge, neither syntactical nor semantic. They are based on the hypothesis that words with the same root have close meanings. For instance “driver”, “driving” “drivers” share the same root “driv-”. Obviously, there are a lot of exceptions of this simple hypothesis: “drove” does not have the same root as the previous example, even though it is the past form of the verb “to drive”. There are also similar root words which do not have close meanings: for instance “raven” (the black bird) and “ravening”, in addition there are numerous homonyms like “pumps” (to pump some water) and “pumps” (a kind of shoe). Nevertheless, these possible confusions are not a major problem because the presence of pure homonyms in the same text is unusual. In reality, stemmers do not exactly extract the roots of the words but only the stems because their work is based on the deletion
of the suffixes. To obtain the root, prefixes should also be taken into consideration. The algorithms only use a list of possible suffixes ranged according to their length (in number of characters). For each word, the first longest possible suffix is deleted (“-ing” in “driv/ing”, “-ers” in “driv/ers”). A possible variation of this algorithm is the classification of the possible suffixes in different classes (the possible ends of words like “-e”, “-es”, “-ed”, derivational suffixes as “-ed-”, “-it-”) and the recursive research of the possible endings in these classes. This process cuts the suffixes in different parts as in “relat/ed/ness”. Exception can also be taken in consideration to group together words having a slightly different stem but a close meaning like “absorp/tion” and “absorb/ ing”. Lovins (1968) describes these algorithms and uses them to index documents. Harman (1991) evaluates the proportion in which suffixing influences the performance of a retrieval system on collections of English documents and concludes that stemming does not improve the results. Nevertheless the stemming sometimes meets user intuition, particularly with the treatment of the final “-s” of words. Consequently it appears that only very simple treatments should be kept. Popovic/Willett (1992) performed the same experiment on Slovene textual data and found some improvements of the performance in retrieval. They suggest that the effectiveness of a stemming algorithm is highly dependent on the morphological complexity of the language. Even though these two experiments looked at the influence of stemming in text retrieval systems, it would be easy to adapt stemming to recognize complex terms. We assume that the performances would be also very different according to the language used in corpora. 6.2. Supple-equality of two strings A simple quantitative algorithm based on the calculus of the minimum editing distance can recognize terms in good proportions despite their variations (Enguehard/Pantéra 1994). The process requires a list of functional words noted Mfonc. K c K is the length of a string c in number of symbols. KK c KK is the length of a string c in number of words.
985
69. Terminology
for instance, K “box” K Z 3 KK “box” KK Z 1
K “box of nails” K Z 12 KK “box of nails” KK Z 3
The restriction of a string c is the list of the words which compose it, except the functional words. It is noted R (c) / Mfonc for instance, Mfonc Z {“a”, “of”, “the”, “this”, “these”, ...} c Z “box of nails” R (c)/Mfonc Z (“box”, “nails”) The distance between two words is the minimal editing distance based on the calculation of the minimum number of insertions and deletions of letters to move from one word to the other. This distance can be dynamically implemented (Wagner/Fischer 1974), however because of its complexity, this algorithm can not be used for long strings. The proximity of two words X, Y is defined by proximity (X, Y) Z
KXKCKYK 8. distance (X, Y)
(The value of the coefficient 8 has been fixed by experimentation.) The supple-equality of two words is noted ‘w’ and defined by (XwY)5 (proximity (X, Y) O 1) The supple-equality of two strings which can be composed of several words is noted ‘wKK’ and defined by: two strings X, Y are suppleequal if the words of their restrictions having the same rank are supple-equal. for instance, X Z “price of the chair” Y Z “price of these chairs”
R (X) / Mfonc Z (“price”, “chair”) R (X) / Mfonc Z (“price”, “chairs”)
“price” w “price” “chair” w “chairs” because distance (“chair”, “chairs”) Z 1 proximity (“chair”, “chairs”) Z (5 C 6) / (8 * 1) Z 11 / 9 O 1 So, “price of the chair” w KK “price of these chairs” The supple-equality can then be used to gather different variations of the same
terms, but is not capable of treating the inclusion of any content word like “couple” in “price of this couple of chairs”. The main theoretical problem is the nontransitivity of this relation: a, b, c being three strings, a w KK b and b w KK c do not imply a w KK c The supple-equality of two strings is used in the ANA system to recognize terms with a good precision rate, recall has not been evaluated.
7.
Conclusion
The increasing power of computers, their greater accessibility and their ability to process massive quantities of text has enabled the construction of powerful tools in the fields of terminology. It is appearing clearly that computers produce terminological data at low cost, but also with better quality (Ahmad et al. 1994a). Professional terminologists are changing their practice to evolve towards corpus-based approaches, made possible by the use of computers and the development of powerful software (Pearson 1996). Efforts should now be concentrated on the pre and post terminology extraction phases. Before there remains the problem of the lack of methodology for corpus definition (Special Language Purpose corpus and General Language Purpose corpus). After, we meet the difficulty of evaluating a terminology. See section 3. We have not evoked at all the definition of links between terms, and between terms and concepts because there is little quantitative linguistics research in this area. We can cite Hearst (1992), however his approach is strongly based on linguistics. Finally, it seems that quantitative approaches are not well-known by terminologists who still mainly work without any automatic treatment to help them. This situation is slowly evolving, but it is evolving with the implication of industry in terminology activities.
8.
Literature (a selection)
Ahmad, Khurshid/Davies, Andrea/Fulford, Heather/Rogers, Margaret (1994a), The Elaboration of Special Language Terms; The Role of Contextual Examples, Representative Samples and Normative Requirements, EURALEX ’92 Pro-
986
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
ceedings I. Tampere: Studia Translatologica, 139K 150. Ahmad, Khurshid/Davies, Andrea/Fulford, Heather/Rogers, Margaret (1994b), What is a Term? The Semi-Automatic Extraction of Terms from Text. In: Translation Studies: an Interdiscipline. (Hrsg. Mary Snell-Hornby/Franz Pöchhacker/Klaus Kaindl). Amsterdam: John Benjamins Publishing Company, 267K277. Bourigault, Didier/Habert, Benoît (1998), Evaluation of Terminology Extractors: Principles and Experiments, First International Conference on Language Resources and Evaluation, LREC ’98, Granada, Spain, 299K305. Bowker, Lynne (1996), Towards a Corpus-Based Approach to Terminography. In: Terminology 3 (1), 27K52. Brill, Eric/Magerman, David/Marcus, Mitchell/ Santorini, Beatrice (1990), Deducing Linguistic Structure from the Statistics of Large Corpora. In: Speech and Natural Language, 275. Brill, Eric (1994), Supervised Part-of-Speech Tagging, http://www.cs.jhu.edu/brill/ Brown, Peter F./Cocke, John/Della Pietra, Stephen/ Della Pietra, Vincent J./Jelinek, Fredrick/Lafferty, John/Mercer, Robert L./Roossin, Paul S. (1988), A Statistical Approach to language translation. In: Proceedings of the 12th International Conference on Computational Linguistics (Coling-88). Budapest, Hungary. 71K76 Brunet, Etienne (1989), Hyperbase, an Interactive Software for Large Corpora. In: Colloque INRIA, Antibes sept 1989, Data Analysis, Learning Symbolic and Numeric Knowledge. New York: Nova Science Publishers, 207K214. Choueka, Yaacov (1988), Looking for Needles in Haystack or Locating Interesting Collocational Expressions in Large Textual Databases. In: RIAO ’88 Recherche d’Informations Assistée par Ordinateur. Cambridge, MA: MIT, 609K623. Church, Kenneth W. (1988), A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Texts. In: Proceedings of the Second Conference on Applied Natural Language Processing. Austin, Texas, 136K143. Church, Kenneth W./Hanks, Patrick (1990), Word Association Norms, Mutual Information, and Lexicography. In: Computational Linguistics 16 (1), 22K29. Cohen, Jonathan D. (1995), Highlights: Languageand Domain-Independent Automatic Indexing Terms for Abstracting. In: Journal of the American Society for Information Science 46 (3), 162K174. Condamines, Anne (1995), Terminology: New needs, new perspectives. In: Terminology 2 (2), 219K238. Daille, Béatrice (1993), Extraction automatique de terminologie monolingue. In: Informatique & Langue Naturelle, ILN ’93, Nantes, 81K101.
Daille, Béatrice (1994), Approche mixte pour l’extraction de terminologie. Statistique lexicale et filtres linguistiques. The`se de doctorat, Université Paris VII. Daille, Béatrice/Gaussier, Éric/Langé, Jean-Marc (1998), An Evaluation of Statistical Scores for Word Association. In: The Tbilissi Symposium on Logic Language and Computation: Selected Papers. (Hrsg. Jonathan Ginzburg/Zurab Khasidashvili/Carl Vogel/Jean-Jacques Levy/Enric Vallduví), 177K188. Damerau, Fred J. (1990), Evaluating ComputerGenerated Domain-Oriented Vocabularies. In: Information Processing and Management 26 (6), 791K801. Damerau, Fred J. (1993), Generating and Evaluating Domain-Oriented Multi-Word Terms from Texts. In: Information Processing and Management 29 (4), 433K447. Deerwester, Scott/Dumais, Susan T./Furnas, George/Landauer Thomas K./Harshman Richard, Indexing by latent semantic analysis. In: Journal of the American Society for Information Science 41, 391K407. Dennis, Sally F. (1967), The Design and Testing of a Fully-Automatic Indexing Searching System for Documents Consisting of Expository Text. In: Information Retrieval: a Critical Review. (Hrsg. G. Schecter). Washington D.C.: Thompson Book Co., 67K94. DeRose, Steven J. (1988), Grammatical Category Disambiguation by Statistical Optimization. In: Computational Linguistics 14 (1), 31K39. Derouault, Anne-Marie/Merialdo, Bernard (1986), Natural Language Modeling for Phoneme-to-Text Transcription. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI 8 (6), 742K749. Dice, Lee R. (1945), Measures of the Amount of Ecologic Association Between Species. In: Journal of Ecology 26, 297K302. Dunning, Ted (1993), Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational linguistics 19 (1), 61K74. El-Be`ze, Marc (1993), Les mode`les de langages probabilistes: quelques domaines d’applications, Habilitation à diriger des recherches, Laboratoire d’Informatique de Paris-Nord, Université Paris Nord. Enguehard, Chantal (1992), ANA, Acquisition Naturelle Automatique d’un réseau sémantique, The`se de Doctorat de l’Université de Technologie de Compie`gne. Enguehard, Chantal/Pantéra, Laurent (1995), Automatic Natural Acquisition of a Terminology. In: Journal of Quantitative Linguistics 2 (1), 27K32. Felber, Helmut (1994/1995), Terminology Research: Its Relation to the Theory of Science. In: ALFA Terminologie et linguistique de spécialité,
69. Terminology Rostislav Kocourek ed., vol. 7/8, Halifax University, 163K172. Foster, George F. (1991), Statistical Lexical Disambiguation. PhD Thesis, McGill University, School of Computer Science. Montréal, Canada. Frantzi, Katerina T./Ananiadou, Sophia/Tsujii, Jun-ichi (1998), The C-value/NC-value Method of Automatic Recognition for Multi-word Terms. In: Research and Advanced Technology for Digital Libraries. Heraklion, Crete, Greece: Springer, 585K 604. Gale, William A./Church, Kenneth W. (1991), Identifying Word Correspondences in Parallel Texts. In: 4th Darpa workshop on Speech and Natural Language, 152K157. Garside, Roger/Leech, Geoffrey/Sampson, Geoffrey (1987), The Computational Analysis of English. London, UK: Longman. Harman, Donna (1991), How effective is suffixing? In: Journal of the American Society for Information Science 42, 7K15. Harter, Stephen P. (1975), A Probabilistic Approach to Automatic Key Word Indexing, Part I: on the Distribution of Speciality Words in Technical Literature. In: Journal of the American Society for Information Science 26, 197K206. Hearst, Marti, A. (1992), Automatic Acquisition of Hyponyms from Large Text Corpora, COLING 92. Kageura, Kyo/Umino, Bin (1996), Methods of Automatic Term Recognition: a Review. In: Terminology 3 (2), 259K289. Larson, Ray R. (1991), The Decline of Subject Searching: Long-Term Trends and Patterns of Index Use in an Online Catalog. In: Journal of the American Society for Information Science 42, 197K215. Lovins, Julie B. (1968), Development of a Stemming Algorithm. In: Mechanical Translation and Computational Linguistics 11, 22K31. Luhn, Hans Peter (1957), A Statistical Approach to Mechanized Encoding and Searching of Literary Information. In: IBM Journal of Research and Development 1 (4), 309K317. Malinowski, Bronislaw Kasper (1923), The Problem of Meaning in Primitive Languages. In: The Meaning of Meaning. (Hrsg. Ogden C. K./Richards I. A.). London: Routledge Kegan Paul. Meyer, Ingrid/Mackintosh, Kristen (1996a), The Corpus from a Terminographer’s Viewpoint. In: International Journal of Corpus Linguistics 1 (2), 257K285. Meyer, Ingrid/Mackintosh, Kristen (1996b), How can phraseology help? In: Terminology 3 (1), 1K 26. Nakagawa, Hiroshi (1997), Extraction of Index Words from Manuals. In: Proceedings of RIAO’97. Montréal, Canada 598K611.
987 Noreault, Terry/McGill Michael/Koll, Matthew B. (1981), A Performance Evaluation of Similarity Measures, Document Term Weighting Schemes and Representations in a Boolean Environment. In: Information Retrieval Research. (Hrsg. R. N. Oddy/S. E. Robertson/C. J. van Rijsbergen/P. W. Williams). London, UK: Butterworth, 57K76. Pearson, Jennifer (1996), Terms in Context. Amsterdam: John Benjamins Publishing Company. Picht, Heribert/Draskau, Jennifer (1985), Terminology: An Introduction. Guildford: University of Surrey. Popovic, Mirko/Willett, Peter (1992), The Effectiveness of Stemming for Natural-Language Access to Slovene Textual Data. In: Journal of the American Society for Information Science 43, 384K390. Salton, Gerard/Yang, C. S. (1973), On the Specification of Term Values in Automatic Indexing. In: Journal of Documentation 20 (4), 351K372. Salton, Gerard/Yang, C. S./Yu, Clement T. (1975), A Theory of Term Importance in Automatic Text Analysis. In: Journal of the American Society for Information Science 26, 33K39. Salton, Gerard/Wu, Harry (1981), A Term Weighting Model Based on Utility Theory. In: Information Retrieval Research. (Hrsg. R. N. Oddy/ S. E. Robertson/C. J. van Rijsbergen/P. W. Williams). Cambridge, England: Butterworth. Salton, Gerard/Buckley, Chris (1988), TermWeighting Approaches in Automatic Text Retrieval. In: Information Processing and Management 24 (5), 513K523. Salton, Gerard (1989), Automatic Text Processing. Addison-Wesley Publishing Company. Sinclair, John (1991), Corpus, Concordance, Collocation. Oxford: Oxford University Press. Smadja, Franck/McKeown, Kathleen R./Hatzivassiloglou, Vasileios (1996), Translating Collocations for Bilingual Lexicons: A Statistical Approach, ACL 96. Sparck-Jones, Karen (1972), A Statistical Interpretation of Term Specificity and Its Application in Retrieval. In: Journal of Documentation 28 (1), 11K21. Sparck-Jones, Karen (1973), Index Term Weighting. In: Information Storage an Retrieval 9 (11), 619K633. Wagner, Robert A./Fischer, Michael J. (1974), The String-to-String Correction Problem. In: Journal of the Association for Computing Machinery 21 (1), 168K173. Williams, Geoffrey (1999), Looking In before Looking Out: Internal Selection Criteria in a Corpus of Plant Biology. In: Papers in Computational Lexicography, COMPLEX ’99, (Hrsg. Ferenc Kiefer/Gábor Kiss/Julia Pajzs), Budapest, 195K204.
Chantal Enguehard, Nantes (France)
988
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
70. Quantitative linguistics and psychiatry 1. 2.
4. 5. 6. 7. 8.
Introduction Pathological text and methods of its investigation A quantitative analysis of written compositions and definitions Guessing test Associative threads Altered states of consciousness Conclusions Literature (a selection)
1.
Introduction
3.
The system of common language and speech-and-thinking activity in the neurophysiological norm of an individual function surprisingly jointly and harmoniously, shutting hermetically all the windows through which the experimenter could have seen their structure and synergy. One of the possibilities to get an insight into this system and its self-regulation is opened up by situations in which systemic mechanisms of language and speech are damaged. As the great Russian physiologist Ivan P. Pavlov (1949, 317K318) said, a pathological condition “opens, by way of segmentation and simplification, those things that have been concealed from us in the physiological norm” (cf. Pavlov 1949, 317K318). Abnormalities of synergy and restructuring of the language and the speech are observed in endogenous diseases of the brain (schizophrenia, manicdepressive illness, masked depressions) (cf. Hoffman 1993, 534K542; Paškowskij/Piotrowskaja/Piotrowskij 1994, 34 f.), in local brain injuries (Lurja 1974, 2539 f.; Lurija 1975, 54 f.; Blanken/Dittmann/Grimm et al. 1993, 98K504), partially in retarded and abnormal development of speech and thinking with children and adolescents (Johnstone 1982, 78 f.; Blanken/Dittmann/Grimm et al. 1993, 558K919; Fletcher/McWhinney 1995, 545K689) and, finally, in altered states of consciousness (ASC) (cf. Landon/Fischer 1970, 115 f.; Spivak 1992, 39 f.). The first modest attempts at a quantitative investigation of the speech of mentally damaged persons (primarily measurement of its loudness, tempo, sound and syllable length, sentence intonation) go back to the mid-fifties (Chevrie-Muller/Sevestre/Seguier 1985, 57K59; 61 f.). Lexical, grammatical and stylistic-statistical devices were introduced into psychiatry and neurolinguistics at
a later date. Since the eighties, there have been energetic attempts at the application of quantitative measurements to diagnostics and investigation of speech-and-thinking disorders (Maher 1983, 8 f.; Maher/Spitzer 1993, 525K526; American Psychiatric Association 1994); however, applying statistical methods in the study of speech disorders is not an easy task. Except for the studies of ASC it is difficult to obtain text and test material, which would be sufficiently representative and reliable semiotically and statistically. The matter is first, that human speech and thinking activity (STA) and especially the speech of mentally ill persons is not a stationary process, so that the application of classical methods of statistical analysis encounters significant difficulties. Secondly, quantitative estimates of both pathological and normal speech of individuals usually show a great dispersion caused by individual peculiarities of the testee, experimental circumstances and other accompanying factors (Bates/Dale/Thal 1995). Third, local brain injuries, speech-and-thinking infantile disorders, as well as endogenous diseases, are usually associated with a condition of patients in which it is difficult to carry out an oral mass experiment, that is sufficiently extensive, envisaging a permanent stable contact of the researcher with the testee and the possibility of unambiguously decoding the latter’s utterances (Käsermann 1993, 549K553). Most often one has to be content with a linguostatistical analysis of the patients’ written texts. Yet even this output is not easily subject to stimulus and control. It seems somewhat easier to organize a mass oral experiment with testees exhibiting ASC disorders, though such states are too short-lived. That is why the majority of researchers of speech pathologies are satisfied with limited, not always statistically reliable percentages and univariate or bivariate dependencies of the kind number of different words (NDW), lexical rarity index (LRI) (cf. MacWhinny 1995, 152); mean length of utterance (MLU), typetoken ratio (cf. Blanken/Dittmann/Grimm et al. 1993, 566; 589; 610), which either illustrate known results obtained nonstatistically, or existing theoretical assertions. Our interest lies in the application of linguostatistical and partially informational methods to ob-
989
70. Quantitative linguistics and psychiatry
tain new data on structural and synergetic alterations of the expression plane as well as the content plane (Hjelmslev 1954, 164 f.).
2.
Pathological text and methods of its investigation
Proving that some spoken or written text belongs to the category of pathological texts, i. e. texts that contain objective indicators of speech-and-thinking disorders, is no simple task. Paškovskij/Piotrovskaja/Piotrovskij (1994, 48K51) showed that neither deviations from morphological correctness or syntactic connexity, nor the distortion of semantic links, nor abundance of meaningless neologisms or delusionary ideas can be taken as reliable indicators of authors’ speech-and-thinking disorders. Texts of that kind may be produced by a linguistic automaton in machine translation, automatic abstracting, and other forms of text processing, or they can result from intended artistic stylizing of the stream of consciousness (e. g. M. Proust “Du côté de chez Swann”; L. Carroll “Alice’s adventures in wonderland”), or of the speech of a mentally deranged person. In other words, it is practically impossible to categorize a text as pathological solely on the basis of external abnormalities of form and/or content. This decision must be based on deep, often not directly observable features, since these are not under the author’s control or accessible to conscious imitation, and could therefore indicate disorders in the synergetics of speech-and-thinking activity. As for indicators on the expression plane, they have to be found by means of informational-statistical methods. Of primary interest are peculiarities of text structure such as the redundancy of pathological text compared to the redundancy of given styles or sublanguages, the distribution of information quanta in the text, the extent of semantic information contained in a word or syntagm and its dependence on frequency of use, i. e. its rank in the frequency dictionary (cf. art. no. 50). So far, there have not been any full-blown sophisticated text guessing experiments with mentally ill persons. Letter guessing, which has been conducted on restricted English (Rutter/Draffan/Davies 1977, 67K68) and Russian (Andreeev/Aminev 1968, 409 f.) text material, and entropy measures only show that pathological text has slightly lower redundancy values, and,
consequently, less strict organization than non-pathological texts of various styles. More substantial results can be obtained by a statistical analysis of pathological text on the basis of the classsical Zipf-Mandelbrot rank-frequency-dependence: fi Z k / (i C p) γ
(1)
with its parabolic variant fi Z k / i dCg log i
(2)
where i is the rank of a lexical unit, i. e. a word, word-form or syntagm in a frequency list, fi is the expected relative text frequency of a lexical unit, k, p, γ, d, g are coefficients depending on sample size, style, subject and organization of the text (Hoffmann/Piotrowski 1979, 73K75). For our task, the behaviour of parameter γ Z tg φ is most interesting (φ is the angle of deviation of the Zipf line from the abscissa in bilogarithmic representation, cf. fig. 70.1). With insufficient sample size N, the repeat rate of highest-frequency lexical units, which come first in the frequency list, is comparatively small, while the proportion of infrequent lexical units, in the tail of the frequency list, will be very high. Therefore, the graph ZVB N of the Zipf dependence gradually declines to the abscissa, forming a 45( angle, with γ ! 1. With increased sample size the proportion of highest-frequency words increases, while the proportion of rare words diminishes. At the same time, the mean frequency F Z N / V of the lexical units forming the given text increases, and, consequently, the type-token ratio decreases, i. e. Ψ Z V / N (Herdan 1960, 229 f.), for a given sample size F (in a saturated sample) OO F (of an unsaturated log F
log i
Fig. 70.1: Double-logarithmic graphs for the rankfrequency dependence for three types of sample: 1.insufficient sample; 2. ideal Zipf sample; 3. saturated sample; i serial number of linguistic unit in frequency dictionary, F frequency of linguistic unit, and φ inclionation angle of Zipf graph.
990
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
sample). The angle φ gradually increases with the degree of sample size saturation, and reaches 45( in the so-called ideal Zipfian sample (100.000 tokens). In that case, γ Z 1. With increasing sample size saturation and its approximation to population size, rare lexical units are shifted to the medium frequency zone. The middle part of the bilogarithmic graph bulges, rising to the right, so that a saturated sample has a convex curve (cf. figure 70.1), with γ O 1 (Piotrovskij 1999). The sample saturation rate depends on the subject and style of the population.
3.
A quantitative analysis of written compositions and definitions
On the basis of the above scheme, Paškovskij/Piotrovskaja/Piotrovskij (1994, 58K102) studied two types of texts: unsupervised compositions by mentally ill persons, and their definitions of isolated words. The whole corpus of Russian experimental texts was collected by Paškovskij (1980, 5K8).
3.1. Expression plane A statistical analysis on the expression plane was performed on six texts, produced by O., K., L., F., P., Kh., respectively, suffering from different forms of schizophrenia. The texts contained delusionary ideas concerning scientific and technical inventions (O., K., F.), socio-economic reforms (L., P.), and political and everyday life prognoses (patient Kh.). For each text a frequency list was made, in which the rank-frequency relation was analysed by means of dependence (1); cf. table 70.1. The results were compared with data taken from Russian texts, technical and scientific prose and combat documents (cf. table 70.2). The comparison shows that the texts obtained from the first five testees form unsaturated samples with γ ! 1 and 2.0 ! F O 3.5 and a declining Zipf graph, thereby markedly differing from non-pathological (control) texts. A different statistical structure results from the text written by patient Kh,, characterized by a strongly developed disorganized type of schizophrenia with secondary delusional disorder, operat-
Table 70.1: Statistical characteristics of pathological texts (Paškovskij/Piotrovskaja/Piotrovskij 1994, 59). Statistical
Test subject
Features
O.
Κ.
L.
F.
P.
Kh.
V (type: word form) N (token: text words) Ψ Z N / V (type-token ratio) γ F (of word form) F1K4 (F1K4 / V) 100%
8724 30828 0,28 0,83 3,5 7715 88,4
5126 14944 0,34 0,9 2,9 4661 90,9
2696 5525 0,49 0,8 2,0 2549 94,5
1011 2947 0,34 0,7 2,9 882 87,2
1347 3000 0,45 0,75 2,2 1260 93,5
161 993 0,16 1,5 6,2 84 52,2
Table 70.2: Statistical characteristics of nonpathological (control) texts (Paškovskij/Piotrovskaja/Piotrovskij 1994, 59; Piotrovskij 1999). Statistical characteristics
Sources K. Simonov, S. Esenin, D. N. Mamin- Private Texts on Newspaper Poetry Sibiriak, correwireless articles Privalovskie spondence technology illiony
V (type: word 16140 form) N (token: text 75000 words) Ψ Z N/V (type0,22 token ratio) γ F (of word form) 4,6 F1K4 14411 (F1K4 / V) 100% 89,3
Frequency Dictionary of Russian Words
7554
11283
15000
7018
39268
15970
103941
100000
400000
1056382
0,47 2,2 6875 91,0
0,11 1,0 9,2 8901 78,9
0,15 6,7 12950 86,3
0,02 1,05 57,0
0,04 1,0 29,0 24732 63,0
Combat documents 2997 689214 0,004 1,4 229,7 1280 42,7
991
70. Quantitative linguistics and psychiatry
ing with several recurrent inadequate conceptions and false recollections. This manifests itself especially in the limited number of rare word-forms occurring 1 to 4 times (F1K4). They make up a total of 52 % of the general lexicon (table 70.1), compared to a proportion of 80K90 % in non-pathological texts, with the exception of standardized military texts (table 70.2). As regards the other testees’ pathological texts, their proportion of rare word-forms is still higher, 87K94 %. This can probably be explained by the givenness to moralizing and the and the loquaciousness of these testees (K., L., P. in particular), who, due to the weakening of their communicative-pragmatic operator, lose the ability to confine their text production to the subject defined by the original motif (Lecours 1993, 545K547). Irrespective of its restricted text (N ! 1,000 text words) and lexicon size (162 word forms), patient Kh.’s text already is a saturated sample. This is indicated by its parabolic Zipf graph (cf. figure 70.1) with high F value, and with γ OO 1. With respect to its statistical properties, this pathological text is close to the texts of standardized military documents. One can therefore assume that the statistics of low-frequency words, together with the distortion of its Zipf distribution in the frequency dictionary, is one of the quantitative characteristics which help to identify pathological disorders in human speech-thinking activity. The diversity of subject and purpose of the texts discussed above masks the deeper distortions in their synergetics. It was therefore necessary to extend the statistical experiment to pathological texts and control texts with identical stimuli and very similar semantics and pragmatics. These conditions were fulfilled by texts of definitions of isolated words selected by the experimenter. The testees certainly give different semantic descriptions of each stimulus word; however, the identity of the motif stimulating testees’ answers dictates the use of definitions structured by similar lexico-grammatical patterns. Significant statistical divergences in lexical choice and syntactic organization of pathological vs. non-pathological (control) definitions can be regarded as manifestations of those differences that characterize pathological vs. normal speech-and-thinking activity with respect to the interaction of thesaurus, linguistic competence, and control mechanisms. To solve that task, Paškovskij (1987, 1056K
1059) conducted the following experiment: Four groups of testees K all male, the majority with middle, incomplete higher, or higher education (three groups of testees, one control group) K were given the task of writing semantic definitions of the nouns berëza, chleb, žizn’, and also of property words such as bystro, kamennyj, letat’, nel’zja, otpuskat’, rjadom, suchoj. The first group consisted of 19 patients with beginning paranoid schizophrenia (first hospitalization). The second group comprised 20 patients with developed hallucinatory-paranoid syndrome. The third group consisted of 49 schizophrenics with exclusively negative symptoms in the clinical picture of the disease. The fourth group was formed by 112 mentally sane testees. The set of definitions given to each group formed a separate sample, which was analysed by the Zipfian rank-frequency scheme. The results of this analysis (cf. table 70.3) showed that the first three sets of texts, obtained from the mentally ill testees, are unsaturated samples (γ ! 1), while the set of non-pathological definitions, obtained from the sane testees, forms a saturated sample, which is indicated by the high values of parameter γ and of F. Table 70.3: Pathological and nonpathological definition of Russian word forms Statistical features
Group of subjects 1st
2nd
3rd
Control
N (text words) V (word forms) Ψ Z N/V (typetoken ratio) γ F (word form)
490
930
1758
2594
238
442
654
514
0,48
0,48
0,37
0,20
0,6 2,05
0,62 2,1
0,76 2,68
1,11 5,04
In interpreting the results of both experiments it has to be kept in mind that the statistical characteristics of a text are rather variable. They can depend on education, social situation, artistic idea, and even the mood of the interlocutors. There are two extreme cases. On the one hand, in collectives with strictly regimented form of life, e. g. in the army, speech activity is equally regimented.
992
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
The texts produced (orders, reports, etc.) are usually characterized by a uniform thematic orientation and a unified lexicon. Therefore comparatively small collections of such texts consist of highly recurrent words and word-forms, forming at the same time saturated samples. The frequency dictionary of combat documents can serve as example here (cf. table 70.2). On the other hand, texts produced under conditions of unregimente communication exhibit great lexical diversity. Their frequency dictionaries will show first signs of saturation only for enormous text samples. Therefore it can be expected that compositions on a freely chosen subject will not yield saturated samples, while texts of definitions, built according to templates such as “A birch is a tree with white bark.” or “Life is the biological state of an organism that is the opposite of death.” should result in quick saturation of the frequency dictionary. The statistics of the journalistic, conversational and scientific texts discussed above supports this hypothesis. The compositions by patients O., K., L., F., and P. do not reach saturation. As was supposed, definition texts by sane testees resulted in quick saturation. On the other hand, the above hypothesis is not in accordance with the saturation of the frequency dictionaries of the definitions produced by mentally deranged persons, nor with the saturated frequency dictionary of the compositions by testee Kh., suffering from paranoidal schizophrenia. As is wellknown, the development of schizophrenia is connected with a derangement of the mechanisms of emotion and will taking place under the influence of information overload of the brain and nervous strain of the system (American Psychiatric Association 1994, 149 f.). The autism of reasoning characteristic of schizophrenia manifests itself in the patient’s concentration on his inner world and his neglect of reality, which lead to the destruction of socio-communicative ties (American Psychiatric Association 1994, 57K58; Sadock/Sadock 2003, 1208K 1215). The weakening of processes of emotion and will, autism and desocialization exert a destructive influence on the synergetic mechanism of control and regulation of speech-and-thinking activity, the so-called communicative-pragmatic operator; cf. Czyżakovskij/Piotrowski 1993, 167 f.). Returning to the results of the experiment described above, it is easily seen that lack of saturation
of the frequency dictionaries of the definitions produced by mentally ill persons is explained by the fact that a schizophrenic’s defect communicative-pragmatic operator cannot sustain the process of generating definitions according to the scheme “word K short definition” imposed by the experimenter. The testee tries to overcome this conflict by various means. He either repeats the stimulus word (“to fly K that is to fly”), in this way trying to suit the experimenter’s scheme, or he will, ignoring it, develop in his definitions additional subjects tinged by his own delusionary idea. This process is characterized by a nonstandard glossomania (Lecours 1993, 545K547): “to fly means to run fast, it differs from the slow in that only sine tells to walk fast.” Such definitions form pathological texts with varied low-frequency lexics. Clearly, a text of that kind does not result in saturation of the frequency dictionary. The communicative-pragmatic operator’s defect manifests itself differently in the “compositions” of patient Kh., suffering from a schizophrenic disorder with systematized paranoid delusion. His impaired communicative-pragmatic operator therefore produces pathological text consisting of a limited set of words and syntagms which are employed to realize a delusionary topic. Consequently, this pathological text produces a saturated statistical structure, which is similar to the statistical organization of business language (cf. combat order texts) and definitions formulated by sane testees. As for testees O., K., L., F., and P., whose delusion is not yet systematized, they used varied vocabularies in their compositions. Therefore their pathological texts do not exhibit saturation and have a statistical structure similar to non-pathological texts. 3.2. Content plane The restricted size and thematic diversity of the insane patients’ compositions do not support a reliable statistics of individual grammatical categories and lexical groups. Therefore one is confined to a quantitative analysis of more comprehensive lexicogrammatical sets. Here the results obtained by Paškovskij/Piotrovkaja/Piotrovskij (1994, 77K85) are interesting, who studied the statistics of the most frequent content and function words in Russian pathological text and non-pathological (control) texts. For that purpose, they singled out the 200 most frequent word-forms in the frequency dic-
993
70. Quantitative linguistics and psychiatry
Table 70.4: Parts of speech cumulative frequencies (%) in Russian pathological and nonpathological texts in initial parts of nine frequency dictionaries (1!i!200). N (colloquial speech) Z 50.000 text words, N (electronics texts) Z 200.000 text words. The rest quantitative data see in the table. Pathological texts
Nonpathological texts
Parts of speech: O.
K.
L.
F.
P.
Kh.
Colloquial CorreElecspeech spondence tronics
Nouns 9,10 Verbs 1,13 Adjectives 0,54 Syntactic words 20,54 Others 9,21
8,20 1,83 0,48 23,07 9,22
7,96 2,86 1,10 21,56 10,86
22,60 2,58 4,34 16,32 21,96
15,23 6,90 2,77 15,53 13,90
41,29 6,34 12,49 5,14 34,74
1,90 3,91 0,12 26,27 22,19
2,32 3,31 0,30 25,18 18,65
13,08 1,92 0,31 20,18 5,55
Totals
42,80
44,34
67,80
54,33
100,00
54,39
49,76
41,04
40,52
tionary of each analyzed text and determined the statistical weights of different word classes among them (cf. table 70.4). The tabulated data show that as the endogenous pathology becomes more critical, there is a corresponding significant increase in the frequency of nouns, and partly of adjectives and verbs (patients F., P., and especially Kh.), compared to non-pathological texts. Pathological definitions show a substantially lower frequency of verbs (15.3K 19.4 G 2.5) than non-pathological word definitions (25.5 G 1.7). At the same time, there is a significant decrease in the frequency of function words. By the mean standard deviation, (Paškovskij/Piotrovkaja/Piotrovskij 1994, 83; Piotrowska/Piotrowska 2004, 133K140) showed that text coverage by function words in non-pathological Russian texts falls in the comparatively narrow interval 20.36K 26.65. With patients O., K., and L., the proportion of function words still respects this interval. However, with the aggravation of the mental illness, it starts decreasing and falls out of the interval. With patient F., this proportion is 16.32 G 1.33 %; patient P. has 15.53 G 1.29 %, and patient Kh., 5.14 G 4.90 %. An analogous decrease of function words was found by Lorenz (1953, 278 f.) and Lorenz/Cobb (1952, 763 f.; 1954, 665 f.) in texts written by anglophone schizophrenics. Moreover, the pathological texts show an altered structure of their frequency dictionaries. While in non-pathological texts the upper part of the list (i. e. the first 10 to 15 positions) are usually occupied by function words, pathological frequency dictionaries show a marked tendency to shift noun forms expressing the autistic world of the patients’ inner experiences to the begin-
ning of the frequency dictionary. Thus in testee Kh.’s dictionary such thematic nouns (vojna [war], poezdov [of the trains], cena [cost]) occupy the first three positions. I.e., the change in frequency of function words and the increasing use of nouns appear to be diagnostic symptoms of endogenous speechand-thinking disorders. The above-mentioned peculiarities in the lexico-grammatical make-up of pathological text can be explained in the following way. In the process of speech-and-thinking activity, the predominant function of nouns is nomination, fixing by means of signs in the collective consciousness of the speech community the reflections of real-world objects and facts. Verbs and function words, on the contrary, mostly fulfil predicative-communicative and organizing-logical function, organizing the utterance and connecting it to the real situation in which communication takes place. One aspect of personality changes in schizophrenia is the impairment of the communicative and social function of speech (Ragin/Oltmanns 1987). This leads to a lower predicative ability, and an increasing role of nomination. Hence the increase in frequency of nouns and nominal syntagms usually observed in pathological text, accompanied by a decrease in speech-organizing conjunctions and prepositions, and sometimes also of verb forms. In the statistical study of the content plane of pathological text, current research is focused on its lexico-stilistic nature, the degree of syntactic correctness, the extent to which an utterance is logical and makes sense (Lejkina/Otkupšcikova/Slucevskij et al. 1973, 93 f.; Reischies 1993, 515K516). On the basis of these three criteria, Paškovskij/Piotrovkaja/Piotrovskij
994
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
(1994, 77K85) made a quantitative comparison of pathological text of definitions obtained from three groups of insane persons with definitions of the same words produced by sane testees (see above). The dispersion about the mean was determined by Fisher’s criterion (Plochinskij 1978, 65; 182). The statistical analysis of the data in table 70.5 shows that semantic-syntactic and lexico-stilistic deformations of speech-and-thinking activity in the process of schizophrenia mainly manifest themselves in the following phenomena: (1) There is a decrease in the number of definitions displaying a normative, succinct, coherent and strictly logical structure, and based on genus K differentia or part K whole relations (cf. Hoffman 1993, 534 f.; Fine 1995, 25 f.). This pertains partly to the first and second group of testees, and particularly to the third group comprising patients with incipient schizophrenia. At the same time, the third group shows an increase in verbose definitions. Also, that group shows an increase in laconic, one-word definitions of the type bereza [birch] K
(2)
(3) (4) (5)
derevo [tree], chleb [bread] K pishcha [food], and of definition by repetition of the stimulus word, such as chleb est’ chleb [bread is bread]. In the third group, definitions of graphic-descriptive, tautological (Maher 1993, 524K525), and, in particular, of asyntactic type are found. There is an increase in definitions with ornate and bombastic syntax (group 2 and 3). From group 1 on there are definitions with lexics reflecting th testee’s egocentric stance. There is increasing refusal to define stimulus words (group 3).
In the individual lexico-syntactic analysis of the definitions, another remarkable finding is that the majority (up to 70 %) of deviations from the norms of coherent logicosemantic and partly stylistic-syntactic construction of definitions is to be found with those stimulus words having fuzzy semantic boundaries. Those include the abstract noun zhizn’ [life], the majority of property-denoting words (kamennyj [stony], nel’zja [it is impossible], rjadom [beside]) and verbs, e. g.
Table 70.5: Lexical, syntactical and stylistic types of definitions Features of definition
% of definitions having a feature in question Groups of patients
succinct definitions (4K7 textwords) verbose definitions (8 and more text words) definitions with neutral lexics definitions containing lexics expressing the testee’s egocentric stance definitions with normal syntax definitions with bombastic and ornate syntax definitions based on genusdifferentia and part-whole relations graphic-descriptive definitions tautological definitions asyntactic definitions refusal to define
Control group
1st
2nd
3rd
(3) 71,6 G 20,3 6,8 G 11,4
60,5 G 22,0
87,4 G 14,9
(4) 74,5 G 19,6 11,4 G 14,3
(1, 4) 30,6 G 2,9 (4) 30,6 G 12,9 (4) 64,5 G 14,0 (4) 10,1 G 8,4
4,2 G 9,0
(3) 91,1 G 12,8 7,4 G 11,8
16,3 G 16,6
76,5 G 19,1
50,5 G 22,5
(4) 23,5 G 19,1 53,7 G 22,5
22,1 G 18,7 4,2 G 9,0 7,9 G 11,9
18,1 G 17,3 7,4 G 11,8 10,7 G 13,9
1,6 G 5,5
0,0
(1, 4) 57,7 G 13,8 (4) 27,4 G 12,5 27,4 G 12,5 25,8 G 12,2 6,8 G 7,1 (4) 14,5 G 9,9 (4) 14,2 G 9,8
71,5 G 3,2 10,8 G 2,2 98,2 G 1,0 0,0
99,9 G 0,2 0,1 G 0,2 78,8 G 2,9 3,2 G 1,2 0,5 G 0,5 0,5 G 0,5 0,0
995
70. Quantitative linguistics and psychiatry
letat’ [to fly], otpuskat’ [to let go]. According to Moody (1982, 115), analogous behaviour is found for verbs in pathological text of English aphasics. The definitions of objectdenoting terms like bereza [birch], chleb [bread] in the three groups of testees are not very different from the definitions of the same stimulus words produced by the sane testees in group 4.
emotional associations, or by unsystematic enumeration of words that could designate the search target. The proportion of concrete questions is high already in the first search zones (cf. table 70.6), and they can recur. Table 70.6: Efforts on guessing by the healthy and sick text subjects Search zones
4.
Guessing test
In order to understand the details of the communicative-pragmatic operator’s functioning, and the mechanism of long-term memory access of lexical units in pathological text production in particular, a higher granularity of analysis is called for. This is the objective especially of experiments on word and phrase guessing (Maher/Spitzer 1993, 527 f.). In one of these experiments, conducted on Russian material by Zjuban/ Paškovskij (1977, 247K252), the testees, by repeated questioning of the experimenter, had to find, in the shortest number of steps, the word the experimenter had in mind. The testees were 40 male subjects with middle and unfinished higher education, aged 20 to 40. The test group among them consisted of 20 schizophrenics of paranoid and disorganized type. 20 sane testees formed the control group. The sequences of questions to the experimenter by each testee form two samples: the sample of patients’ questions (Ns Z 3247 text words), and the sample of sane testees’ questions (Nh Z 1852 text words). Each sample is characterized by its vocabulary V, i. e. its list of different word-forms, with Vs Z 818 word-forms, and Vh Z 463 word-forms. Patients’ sample size and vocabulary size more than 1.5 times exceed the corresponding sizes for sane testees: Ns / Nh Z 1,75; Vs / Vh Z 1,77. Other deep statistical properties, especially the mean frequency of word-forms, the proportion of rare word-forms, and the form of the Zipf curve, are virtually identical in both samples (Paškovskij/Piotrovkaja/Piotrovskij 1994, 113). I. e., mentally ill testees must spend significantly more effort to guess a control word. The reason of these divergences is that mentally ill and sane patients use different guessing strategies. In fact, mentally ill testees either proceed by unorganized choice of concrete properties of the target object or concept, on the basis of peripheral
1K5 6K10 11K15 16K20 21K25 26K30
Portion of specific questions, % Healthy test subjects
Sick test subjects
1,7 13,3 22,3 27,0 25,1 46,0
13,7 27,3 32,0 33,0 21,3 40,0
This indicates that the mentally ill testees do not take into account the information they received in previous guessing steps. Analogous statistical peculiarities in solving a conceptual-semantic task were found by Kay (1982, 154K157) for English data. Sane testees proceed differently. Their strategy is based on an order of questions which first seek to clarify the semantic genus features of the target word, and the number of concrete questions at the beginning is low (cf. table 70.4). After having probed the genus features, the guessing subject proceeds to clarification of differentia and other features. The number of concrete questions grows continually. In other words, all previous search results are not forgotten, but are used by sane testees on their way to the target.
5.
Associative threads
From Bleuler’s (1950, 14 f.) work on, the study of the associative structure of pathological text is regarded as one of the main tasks of psychiatric linguistics and neurolinguistics (Lurija 1975, 60 f.; Maher 1983, 1K52). A significant role in the solution of this task is played by statistical experiments on free word recall, which was conducted on Russian data by Paskovskij/Orlov/Kovalčuk (1985, 238 f.), by means of free word association. Here the testee produces a sequence of words which is in no way being stimulated by the experimenter. The resulting sequences are called associative threads; cf. Maher/ Spitzer (1993, 527 ff.).
996
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
The basic experiment was conducted on 30 subjects. The first group consisted of 10 paranoid type schizophrenics with delusions and frequent auditory hallucinations. The second group was formed by 10 mentally ill persons with asthenia due to latent head trauma. The study was conducted in a period when grave affective symptoms were absent, and the patients were not actively treated with neuroleptics, so that they were amenable to testing. The third (control) group consisted of 10 sane testees. All tests were conducted in the morning hours; moreover, the main experiment started only after the experimenter had made sure that the testees had completely grasped the conditions of the experiment. Additionally, Boroda/Paškovskij (1987, 49 f.) conducted an auxiliary experiment mainly based on techniques of direct observation. They had 8 testees with mild mental retardation. The introduction of testees with latent head trauma and mental retardation was dictated by the following considerations. A well-known consequence of head trauma is a simple weakening of the brain’s energy resources, manifesting itself in retarded information retrieval and its partial severance, rather than restructuring and dissociation. However, for schizophrenics energetic weakening of memory is far less characteristic, while a general dissociation and dissection of cognitive processes can be observed. So, on the one hand, a comparison of results can be expected to provide a possibility to find general deviations in the organization of pathological speech of schizophrenics compared to the group of latent head trauma patients, and to sane testees. On the other hand, this comparison is made to uncover the specifics connected, not to impaired memory, but to isolation of the systems of access to information stored in the brain. Additionally, the introduction of a group of mentally retarded testees serves to find out whether these testees’ mental inertia and primitivism of associations influences the organization of their associative threads. Finding specific traits of associative threading for persons with general psychic retardation with prevalent intellectual deficiency helps to sketch the fine details of schizophrenic association flow. In the test procedure, each testee was asked to produce 500 freely chosen words as fast as possible (this very sample size turns out to be statistically minimally sufficient for finding substantial deviations from the norm in the
organization of mentally ill testees’ associative threads). Experimenters did not constrain in any way the speed of word-form production, choice of parts of speech, or of grammatical forms. Unlimited repetition of identical word-forms was allowed. The word-forms produced by the testee were taken down in shorthand, numbered and copied onto cards. Thus, besides the number of repetitions of a word-form, its position in the associative thread was registered as well. Simple inspection of association flows (their fragments are shown in table 70.7) already shows the following tendencies: (1) Sane testees avoid word repetition in developing an associative thread, thereby applying the strategy of maximum lexical diversity imposed by the experimenter. Mentally retarded testees show few repetitions. Patients with latent head trauma initially follow the same strategy; however, when the association flow reaches a size of 300 tokens, they started repeating earlier words. As for schizophrenics, they display frequent word repetitions already in the starting segments of the associative thread. That is why mean vocabulary sizes of schizophrenics’ associative threads are significantly less than their counterparts for latent head trauma patients and sane testees (cf. table 70.7). Far-reaching differences in the strategy of developing associative threads are uncovered by a statistical analysis of the experiment. The following facts are remarkable: (2) The values of some statistical parameters of the rank distributions of schizophrenics’ associative threads are close to those parameters in connected texts produced by sane testees. This can be noted in the Zipf curve of associative threads by patient Ab (cf. figure 70.2), suffering from extended delusions of persecution with a tendency to systematization. His coefficient γ z 1 shows that the saturation process of the associative thread was shifted forward. The Ψ value also approaches its usual values in connected non-pathological texts. Associative threads of latent head trauma patients, and, especially, of sane testees, on the contrary display a statistical structure which rarely diverges from the structure of connected texts. Cf. the curve of non-patho-
997
70. Quantitative linguistics and psychiatry log F
1 2 log i
Fig. 70.2: Double-logarithmic graphs for the rankfrequency dependence for two types of AT-sample: 1. ideal Zipf sample (patient Ab); 2. insufficient sample (3-rd control group).
logical associative threads with γ !! 1 and Ψ Z 0.97 (resp., 0.88 for head trauma patients), showing the very weak saturation of these flows. Table.70.7: Average volumes of vocabulary (word forms) in the different zones of the AF-Sample Zones of Groups of subjects the AF1st (schizo- 2nd (ЗTM), 3rd (healthy sample in phrenics), word forms test subtext words word forms jects) 1K100 1K200 1K300 1K400 1K500 1K400 1K500 Ψ Z N/V (type-token ratio) for the last zone
72,3 134,1 191,7 245,8 292,7 245,8 292,7
95,0 189,5 278,0 359,3 439,3 359,3 439,3
98,7 196,9 294,1 390,0 485,7 390,0 485,7
0,58
0,88
0,97
The saturation of schizophrenics’ associative threads is primarily due to the periodical repetition of some lexical units. Before proceeding to a statistical analysis of its mechanism, some remarks are in order concerning generation of a word-form in an associative thread. For all testees, free recall in associative threads is based on semantic links to the preceding word-form. For illustration, twoto four-word-sequences such as loshad’ [horse] K korova [cow], sem’ja [family] K shkola [school] K ucheba [studies], solnce [sun] K nebo [sky] K dozhd’ [rain] K sneg [snow] can be adduced. Valency-based links such as vkljuchat’ [to switch on] K priemnik [radio receiver] are rarely used. Conse-
quently, there arise in each associative thread short word-form chains stored in the testee’s sensory memory, consisting of wordforms linked by valency-based, semantic or formal dependences. Sane and head trauma testees immediately forget these sequences and replace them by new chains. With schizophrenic testees, these sequences or their variants keep periodically reappearing in associative threads. In a study of the text-building function of word repetitions in connected text, Boroda/Paškovskij (1987, 49 f.) showed that when the occurrences of a word are randomly distributed over a text, the mathematical expectation M of the distance lF between the first and the last occurrence of a word repeated F times is M (lF) Z N (F K 1) / (F C 1)
(3)
Let us take the real distance between the first (jmin) and the last (jmax) occurrence of F times repeated words in a sample N, which is l (w) Z jmax K jmin
(4)
Closeness of this empirical distance to the mathematical expectation M (lF) indicates that in the given text or associative thread the use of a given word yields a random distribution of its word-forms. However, when the distance l (w) is significantly lower than its mathematical expectation, we have a clustered occurrence of the given word, which is usually connected with a local episode in text content. To get a general idea of the role of repetitions in schizophrenics’ associative threading, the present authors compared, not individual values l (w), but mean distances of 2 or 3 times repeated words with the mathematical expectation M (lF): LF Z Sl (wi) / VF ,
(5)
where VF is the number of different words each occurring exactly F times (here, F Z 2.3), with ρ Z 0.95, i. e., the confidence interval is computed with the three sigma rule. It was found that in the first group of testees (10 schizophrenics), for seven testees the L2 value is significantly lower than its mathematical expectation, while the L3 value shows such divergences in six cases. In the sane and head trauma groups, no statistically significant divergences of the LF value from its mathematical expectation were found. A semantic analysis of the words producing a significant clustering of repetitions shows that their meanings are connected to
998
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
topics of the testees’ delusionary experience. For instance, repetition of the words mat’ [mother], otec [father], sovest’ [conscience], dom [house] in schizophrenic Br.’s associative thread are correlated with his fixed idea of his mother’s presence close to him, and delusionary suppositions of tortures she is being subjected to v dome [in the house]. Thus, the statistical analysis of the mechanism of free recall realizing associative threads in sane testees and testees with heavy brain trauma, showed that free recall of text is principally different here from non-pathological mechanisms of connected text production. In the process of free recall there is no motivational task, requiring an adequate conception of the world and its linguistic reflection. The role of the communicative-pragmatic operator here reduces to word retrieval from lexical memory according to the principle of maximum lexical diversity and minimum repetition of words. The weak increase of repetitions in the concluding stages of associative threads of group 2 (brain trauma) testees is likely to be due to impaired memory, which is characteristic of brain trauma patients. Therefore, the statistical structure of association flows produced by group 2 and group 3 testees is principally different from the statistical organization of connected texts (compositions and definitions). The mechanism of associative thread formation by schizophrenics looks different. The statistically significant high proportion of repetitions cannot be explained by impaired memory here. Indeed, if schizophrenics’ word repetitions were due to their forgetting the fact that they used those words earlier in the text, then the probability of word repetition should increase with the distance from a word’s first occurrence in the flow. Instead of clustering and significant decrease in distance between first and last occurrence of a given word, one would find inequalities l O M (l). However, schizophrenics show shorter-distance word repetitions, and this must be due to the peculiarities of their mechanism for generating associative threads. It should be noted here that clustering of identical words on short distances is also found in connected oral and written speech of sane persons. These repetitions serve the syntactic and topical organization of units above phrase level, and of the whole text, with syntactic links implemented by repetition of function words (mainly demonstrative pronouns,
prepositions and articles), and repetition of content words serving the formation of topical links. In free recall, due to the absence of a topic, or grammatical links, there must be a minimum of those repetitions, which is true of associative threads produced by sane or head trauma testees. The high frequency of content word repetitions in schizophrenics’ associative threads, and especially of words semantically connected to their delusions, indicates that those repetitions have a topical function, which, given the experimental conditions, should be absent from non-pathological associative threads. Therefore, a high percentage of repetitions and the concomitant unusual statistical structure of an associative thread, approaching the statistical construction of connected text, can be regarded as indicators of pathological associative threading. The results of statistical analysis of association flow and of guessing that were obtained by Zjuban/Paškovskij (1977, 247K252), Paškovskij/Orlov/Kovalčuk (1985, 138 f.) and Boroda/Paškovskij (1987, 49 f.) on Russian data, are in accordance with Western results of studying associations and word guessing in schizophrenic test subjects (Maher 1983, 2 f.; Maher/Spitzer 1993, 526 f.). It becomes clear that the normal mode of the synergetic mechanism of word choice in utterance generation is defined by: (1) preservation in speech of associative links (valeurs) of a word in the language system, and of its valencies; (2) organization of the thesaurus; (3) a state of the communicative-pragmatic operator allowing it to control the whole speech-and-thinking activity of a person. Also, some details concerning the pathological speech-and-thinking activity of schizophrenics are clarified. Their difficulties in solving the logico-semantic task in word guessing might seem to be equally attributable either to their thesaurus disorganization or to a weakened communicative-pragmatic operator. However, the analysis of their association flows clearly shows that there is no weakening of the communicative-pragmatic operator. Certainly, a weakened communicative-pragmatic operator could not support the characteristic topicality of schizophrenics’ associative threads, and their regular repetition of thematic lexical units. Unsystematic repetition of earlier
70. Quantitative linguistics and psychiatry
words in the closing sequences of associative threads and a lack of topic were found with head trauma testees, who are characterized by weakening of memory and of the brain’s energy resources (and, simultaneously, of the communicative-pragmatic operator). Schizophrenics’ inability to conduct a hierarchically and quantitatively organized search of “genus K differentia” and “part K whole” type in guessing, their refusal to adopt the maximum diversity strategy in free recall, and simultaneous introduction of a topic into associative threads K all this indicates that speech production of schizophrenic testees proceeds under conditions increasingly dominated by a delusional factor in their communicative-pragmatic operator. It forms an autistic parasitic systems of links between the real-world facts reflected in the patient’s consciousness, leading to a deformation of the thesaurus, and of the semiotic topology of valeurs and valency links of given words, due to the progressive weakening of the speaker’s external motivation, and his loss of controlling links of higher levels of consciousness.
6.
Altered states of consciousness
In the preceding sections, we have discussed techniques for the statistical analysis of pathological texts produced by testees with accomplished defect of their speech-andthinking activity. It is impossible to compare their pathological texts with texts of analogous content and grammatical organization they might have produced before falling ill. As for the dynamics of speech-and-thinking activity deformation, one is confined to hypotheses based on the comparison of pathological text statistics with the statistics of oral and written texts produced by sane test subjects. The situation is different for the statistical study of the speech of testees showing altered states of consciousness. These states, being short-lived, thus provide a possibility for statistical measurement of testees’ speech prior to the inception of an its completion, i. e. in normal mode of speech-and-thinking activity. Therefore linguostatistical analyses of altered states of consciousness are interesting because of the possibility to trace the dynamics of speechand-thinking impairment in one and the same test subject, in connection with the alterations of that testee’s functional state of consciousness.
999 Though altered states of consciousness have been investigated over the past several decades, speech-and-thinking activity of persons in such states has not been the subject of systematic quantitative study. It has been assumed for a long time that speech in altered states of consciousness is characterized by reduced verbalization, manifested in an increase of accidental slips and errors. As a result, there arise ineffability and frustration with language (cf. Tart 1975, 87 f.; Maksimenko 1983, 737 f.). However, recent decades saw a constant rise of interest in systematic quantitative studies of the linguistics of altered states of consciousness. First, such investigations were carried out on English material (Martindale/Fischer 1977, 195 f.), then Russian and partly Georgian and Kirghiz (Spivak 1983, 70 f.; 1992, 24). Later D. Spivak (1997, 281; 1998, 8K40) offered a basic linguistic taxonomy of ASC. He described methods of singling out those neuro-speech symptoms, which might be correlated with various forms and stages of alterations in the functional state of human consciousness (FSC) (Bechtereva/Medvedev/Spivak et al. 1998, 60). He also offered and realized techniques of a systemic statistical analysis of psycholinguistic test results in large groups of testees, exhibiting pharmacogenous (accompanying insulin and ketamin shock-therapies), exogenous (work at antarctic stations, high altitudes, in hot shop) and suggestogenous (hypnosis, autotraining) FSCs. The linguostatistical results of these studies for Russian can be summarized in the following main assertions: (1) The phonological system of a language stays intact up to deep stages of dissolution of psychic activity. With increasing alteration of state of consciousnesss, changes in phrasing, melody and tempo of speech can be observed. (2) In the process of alteration of states of consciousness, lexicon size decreases, primarily due to loss of low and medium frequency words. The type-token ratio Ψ Z V / N decreases, with simultaneous increase in mean word frequency F, and in the number of linguistic clichés, as well as words and expressions of the regressive imagery dictionary. As said above, the majority of these phenomena is characteristic of patients suffering from defects of speech-andthinking activity.
1000
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
(3) In the domains of morphology and syntax, there is an increase in agrammatism, elliptical and broken incomplete sentences, accompanied by a decrease in developed simple and complex sentences. In the analysis of the results obtained in his experiment based on ample statistical data, Spivak (1998, 24 f.) notes that a sharp increase of the above linguistic symptoms is characteristic of the beginning stage of altered states of consciousness (X-stage). On later stages (Y-stage), development towards primitivism and distortion of linguistic norms slows down. Some of the linguistic skills approaching zero probability may be unexpectedly restored towards the end of the Y-stage. Analogous observations were made by Martindale/Fischer (1977, 200K201) on the basis of statistically restricted English material. All this shows that, after a short period of suppression, the synergetic mechanisms of the testees’ idiolects adapt themselves to the changed situation and regain their ability to resist pharmacogenous, exogenous and suggestogenous dissolution of their speech-and-thinking activity.
7.
Conclusions
A comparative analysis of pathological text, associative threads and word guessing results, obtained from mentally ill and sane test subjects, allows us to delineate some peculiarities of the synergetic mechanism for normal and pathological text generation. The supposition is corroborated that the central module of this mechanism is some kind of communicative-pragmatic operator. This communicative-pragmatic operator acts as control mechanism, which must support the speech and thinking process on the level of the physiological and linguistic norm, and which must effect the convergence of different forms of this process at the requisite level. With respect to the results of the above experiments, the communicativepragmatic operator is invoked to impose the adequate goal-directedness of the process of message generation and decoding to attain the initial semantic-pragmatic idea of the sender, and the motivation that stimulated that process. Simultaneously, the communicative-pragmatic operator effects the choice
from the speaker’s and addressee’s thesaurus and linguistic competence, of only those lexico-pragmatic units that correspond to the communicative intention. This is why a synergetic defect of the communicativepragmatic operator manifests itself primarily in schizophrenics’ inability to organize the goal-directed solution of the logical word task, and to effectively choose from their memory the linguistic information necessary for solving that task, in particular. Loss of self-regulation and of normal control of speech and thinking activity, creates conditions for inadequate external impressions and internal emotions, which, in its turn, implies a disturbance of the statistical structure of the message. This is the psychiatric aspect of an informational-statistical comparison of pathological and normal texts. Another, equally important aspect of these comparisons is, as shown by Servan-Schreiber (1986, 191 f.) and Paškovskij/Piotrovskaja/Piotrovskij (1994, 126K147), the exploitation of the informational-statistical characteristics of pathological text in the development of AI systems.
8.
Literature (a selection)
Andreev M. P./Aminev G. A. (1968), Ėntropijnye pokazateli reci pri šizofrenii i organiceskich zabolevanijach mozga. In: Žurnal nevropatologii i psichiatrii im. S. S. Korsakova 68 (3), 409K412. American Psychiatric Association (1994), Diagnostic and statistical manual of mental disorders. 4th ed. Washington CD: American Psychiatric Association. Bates, Elizabeth/Dale, Philip S./Thal, Donna (1995), Individual differences and their implications for theories of languages development. In: The Handbook of Child Language. (Eds. Paul Fletcher/Brian MacWhinney). Oxford: Blackwell, 96K151. Bechtereva, Natal’ja P./Medvedev, Vsevolod I./ Spivak Leonid I./Spivak Dmitrij L. (1998), Neural correlates of altered states of consciousness. In: Neural correlates of consciousness: empirical and conceptual questions. (Ed. T. Metzinger). Bremen: Hanse Wissenschaftscolleg, 60. Blanken, G./Dittmann, J./Grimm, H./Marshall, J. C. /Wallesch, C.-W. (eds.), Linguistic Disorders and Pathologies. An International Handbook. Berlin/New York: Walter de Gruyter, 1993. Bleuler, Eugen (1950), Dementia praecox or the group of schizophrenias. New York: International Universities Press. [Origin publication 1911] Boroda, Moisei Grigor’evič/Paškovskij, Vladimir Éduardovič (1987), Ritmika associativnogo poto-
70. Quantitative linguistics and psychiatry ka: k probleme količestvennogo analiza. In: Tartu Riikliku Ülikooli Toimetised. Acta et commentationes Universitatis Tartuensis. 774. Tartu: Tartu Riiklik Ülikool, 49K54. Chevrie-Muller, C./Sevestre, P./Seguier, N. (1985), Speech and psychopathologie. In: Language and Speech 28 (1), 57K79. Czyżakovskij, Valentin/Piotrowskij, Raimund (1993), Über den gegenwartigen Stand der automatischen Textverarbeitung in der Forschungsgruppe “Sprachstatistik” (Zum Problem des linguistischen Automaten). In: Glottometrika 14. (Ed. G. Altmann). Trier: Wissenschaftlicher Verlag, 161K189. Fine, Jonathan (1995), Toward understanding and studying cohesion in schizophrenic speech. In: Applied Psycholinguistics 16 (1), 25K41. Fletcher, Paul/MacWhinney, Brian (eds.), The Handbook of Child Language. Oxford: Blackwell, 1995. Herdan, Gustav (1960), Type-token mathematics textbook of mathematical Linguistics. The Hague: Mouton. Hjelmslev, Louis (1954), La stratification du language. In: Word 10 (2K3), 163K189. Hoffman, Ralf E. (1993), Linguistic aspects of language behaviour in schizophrenia. In: Linguistic Disorders and Pathologies. An International Handbook. (Eds. G. Blanken/J. Dittmann/H. Grimm/J. C. Marshall/C.-W. Wallesch). Berlin/ New York: Walter de Gruyter, 534K543. Hoffmann, Lothar/Piotrowski, Rajmund G. (1979), Beiträge zur Sprachstatistik. Leipzig: VEB Verlag Enzyklopädie. Johnstone, Judith R. (1982), The language disordered child. In: Speech, Language and Hearing. Vol. II. (Eds. N. Lass/L. McReyndols/J. Northern/ D. Yoder). Philadelphia: W. B. Saunders, 780K 801. Käsermann, Marie-Louise (1993), Communicative behaviour in schizophrenia. In: Linguistic Disorders and Pathologies. An International Handbook. (Eds. G. Blanken/J. Dittmann/H. Grimm/J. C. Marshall/C.-W. Wallesch). Berlin/ New York: Walter de Gruyter, 549K557. Kay, Stanley R. (1982), Conceptual disorder in schizophrenia as a function of encoding orientation. In: The Journal of Nervous and Mental Disease 170 (3), 154K170. Landon, M./Fischer, R. (1970), The effect of psilocybin on primary process content in language. In: Confinia Psychiatrica 20 (2), 115K138. Lecours, André Roch (1993), Glossomania and glossolalia in schizophasia and their linguistic kinships to the jargonophasias. In: Linguistic Disorders and Pathologies. An International Handbook. (Eds. G. Blanken/J. Dittmann/H. Grimm/J. C. Marshall/C.-W. Wallesch). Berlin/New York: Walter de Gruyter, 543K549.
1001 Lorenz, M. (1953), Language as expressive behaviour. In: Archives of Neurology and Psychiatry 70 (2), 277K285. Lorenz, M./Cobb, S. (1952), Language behaviour in mania. In: Archives of Neurology and Psychiatry 69 (7), 163K770. Lorenz, M./Cobb, S. (1954), Language patterns in psychotic and psychoneurotic subjects. In: Archives of Neurology and Psychiatry 71 (6), 665K 673. Lejkina, Bella Markovna/Otkupščikova, Marija Ivanovna/Slučevskij, Fëdor Izmajlovič/Cejtin, Grigorij Samuilovič/Ščerbatov, V. (1973), Ac 1, 93K102. Lurija, Alexander R. (1974), Basic problems of neurolinguistics. In: Linguistics and adjacent arts and sciences. Current trends in linguistics 12 (4). (Ed. Th. Sebeok/A. S. Abramson). The Hague: Mouton, 2539K2560. Lurija, Aleksandr Romanovič (1975), Osnovnyje problemy nejrolingvistiki. Moskva: Izdatel’stvo Moskovskogo universiteta. MacWhinny, Brian (1995), Computational analysis of interaction. In: The Handbook of Child Language. (Eds. Paul Fletcher/Brian MacWhinney). Oxford: Blackwell, 152K178. Maher, Brendan A. (1983), A tentative theory of schizophrenic utterance. In: Progress in experimental personality research. Vol. 12. (Eds. B. A. Maher/W. B. Maher). New York: Academic Press, 1K52. Maher, Brendan A./Spitzer, Manfred (1993), Thought disorders and languages behaviour in schizophrenia. In: Linguistic Disorders and Pathologies. An International Handbook. (Eds. G. Blanken/J. Dittmann/H. Grimm/J. C. Marshall/ C.-W. Wallesch). Berlin/New York: Walter de Gruyter, 522K533. Maksimenko, T. V. (1983), Vlijanie trankvilizatorov na kratkovremennuju pamjat’ u bol’nych s pograničnymi formami nervno-psichičeskich rasstrojstv. In: Žurnal nevropatologii i psichiatrii im. S. S. Korsakova 83 (5), 737K740. Martindale, C./Fischer, R. (1977), The effects of psylocybin on primary process content in language. In: Confinia Psychiatrica 20 (2), 195K202. Moody, James E. (1982), Sign language acquisition by a global aphasic. In: The Journal of Nervous and Mental Disease 170 (2), 113K116. Pavlov, Ivan Petrovič (1949), Lekcii o rabote bol’šich polušarij golovnogo mozga. Lekcija 18. In: Polnoje sobranie socinenij. Tom 4. Moskva-Leningrad: Izdatel’stvo Akademii Nauk SSSR. Paškovskij, Wladimir Ėduardovič (1980), Psicholingvističeskij analiz nekotorych narušenij rečemyslitel’noj dejatel’nosti bolnych paranoidnoj šizofreneniej. Moskva: Vsesojuznyj naučno-issledovatelskij institut obšcej i sudebnoj psichiatrii imeni V. P. Serbskogo.
1002
XII. Anwendungsgebiete und Bezüge zu anderen Disziplinen / Relationships with other disciplines
Paškovskij, Wladimir Ėduardovič (1987), Nekotorye lingvistikičeskie pokazateli recevoj produkcii bolnych šizofreniej. In: Žurnal nevropatologii i psichiatrii im. S. S. Korsakova 87 (7), 1056K1059. Paškovskij, Wladimir Ėduardovič/Orlov, Jurij Konstantinovič/Kovalčuk, Jurij I. (1985), Sistemnyj analiz associativnych potokov u zdorovych i bolnych s psichičeskimi rasstrojstvami. In: Žurnal vysšej nervnoj dejatel’nosti 35 (2), 238K243. Paškovskij, Wladimir Ėduardovič/Piotrovkaja, Veronika Rajmundovna/Piotrovskij, Raimund Genrichovič (1994), Psichiatričeskaja lingvistika. Sankt-Peterburg: Nauka. Piotrovskij, Raimund (1999), Psychiatric linguistics and synergetics. In: Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Festschrift in honour of Ludek Hřebíček. (Eds. L. Uhrlirova/ G. Wimmer/G. Altmann/R. Köhler). Trier: Wissenschaftlicher Verlag. (in press). Piotrowska, Weronika/Piotrowska, Xenia (2004), Statistical Parameters in Pathological Text. In: Journal of Quantitative Linguistics 11 (1K2), 133K140. Plochinskij, N. A. (1978), Matematičeskie metody v biologii. Moskva: Izdatel’stvo Moskovskogo universiteta. Ragin, A. B./Oltmanns, T. F. (1987), Communicability and thought disorder in schizophrenics and other diagnostic groups: A follow-up study. In: British Journal of Psychiatry 150, 494K500. Reischies, Friedel M. (1993), Pathology of language behavior in affective psychoses. In: Linguistic Disorders and Pathologies. An International Handbook. (Eds. G. Blanken/J. Dittmann/H. Grimm/J. C. Marshall/C.-W. Wallesch). Berlin/ New York: Walter de Gruyter, 513K522. Reischies, Friedel M. (2000), Comorbidity of mild cognitive disorder depression K a neuropsychological analysis. Eur. Arch. Psychiatry Cli. 250, 186K193.
Rutter, D. R./Draffan, J./Davies, J. (1977), Thought disorder and the predictability of speech. In: British Journal of Psychiatry 131, 407K413. Sadock, Benjamin J./Sadock, Virginia Alcott (2003), Synopsis of Psychiatry. Behavioral Sciences/Clinical Psychiatry. Lippincett: Williams & Wilkins, 1460. Servan-Schreiber, David (1986), Artificial intelligence and psychiatry. In: The Journal of Nervous and Mental Disease 174 (4), 191K202. Silverman, Gerald (1972), Redundancy, repetition and pausing in schizophrenic speech. In: British Journal of Psychiatry 122, 407K413. Somers, H. H. (1965), Grammatical constraints in pathological speech. In: Language and Speech 9 (3), 153K160. Spivak, Dmitrij L. (1983), Linguistic typology of artificially induced states of altered consciousness. IKII. In: Human Physiology 1, 65K75. Spivak, Dmitrij L. (1992), Linguistics of altered states of consciousness. Bochum: Brockmeyer. Spivak, Dimitri L. (1997), Méthodes quantitatives dans la linguistique des états modifés de concience. In: XVIe Congres International des Linguistes. Résumés. Paris: CNRS LLACAN. Société de Linguistique de Paris, 281. Spivak, Dmitrij Leonidovič (1998), Lingvistika izmenennych sostojanij soznanija. Sankt-Peterburg: Sankt-Peterburgskij Gosudarstvennyj Universitet. Tart, Charles (1975), States of consciousness and state-specific sciences. In: Journal of Altered States of Consciousness 1, 87K107. Zjuban, A. L./Paškovskij, Vladimir Éduardovič (1977), O “strategii” poiska pri rešenii slovesnoj logiceskoj zadaci u bolnych šizofreniej. In: Žurnal nevropatologii i psichiatrii im. S. S. Korsakova 77 (2), 247K252.
Weronika Piotrowska, St. Petersburg (Russia)
XIII. Informationsquellen / Sources of information 71. Sources of information 1. 2. 3. 4. 5.
1.
Bibliographies Book series and international journals World-wide conference International associations Internet
Bibliographies
The most recent and comprehensive bibliography of quantitative linguistics appeared in the year 1995: Reinhard Köhler [with the assistance of Christiane Hoffmann] (1995), Bibliography of quantitative linguistics Z Bibliographie zur quantitativen Linguistik Z Bibliografija po kvantitativnoj lingvistike. Amsterdam: Benjamins. (Amsterdam studies in the theory and history of linguistic science: Library and information sources in linguistics; 25) containing more than 6300 entries, 7 different indices (authors, keywords, subject headings, subheadings, uncontrolled vocabulary, languages investigated, and reviewed publications), and a preface and explanations in three languages. Most publications contained in this volume were evaluated in autopsy. Data collection was done, in the first place, on the basis of original literature, but also from authors in the framework of a special enquiry, and using the following bibliographies: (a) Guiraud, P. (1974), Bibliographie critique de la linguistique statistique. Utrecht. (b) Girke, W./Jachnow, H./Schrenk, J. (1962), Handbibliographie zur neueren Linguistik in Osteuropa. München. (c) Doležel, L: (ed.) (1964), Kvantitativní lingvistika 1962. Novinky literatury. Jazykověda, literarní věda 10. (d) Doležel, L: (ed.) (1965), Kvantitativní lingvistika 1963. Novinky literatury. Jazykověda, literarní věda 2. (e) Billmeier, G./Krallmann, D. (1969), Bibliographie zur Statistischen Linguistik. Institut für Kommunikationsforschung und Phonetik der Universität Bonn K Forschungsbericht 69K3. (f) Arzikulov, Ch. A./Sadčikova, P. V. (1985), Statistika reči 1973K1985. Samarkand.
(g) Sadčikova, P. V. (1992), Statistika reči 1985K1991. Čimkent. (h) Čižakovskij, V. A./Bektaev, K. B. (1986), Statistika reči 1957K1985. Kišinev. Almost at the same time, another QL bibliography appeared: Sabourin, Conrad F. (1994), Quantitative and statistical linguistics: Bibliography. Montréal: Infolingua. with 3100 references.
2.
Book series and international journals
In the year 1978, Gabriel Altmann founded the book series Quantitative Linguistics with its sub-series Glottometrika. This series publishes monographs, collections, textbooks, omnibus volumes etc. in English, German, and French. The international Journal of Quantitative Linguistics was launched by Reinhard Köhler in 1994. Submissions are welcome at koehler@ uni-trier.de Since 2001, another journal on QL topics is edited: Glottometrics. Its founder and editor is Gabriel Altmann. Contact address: http://www.ram-verlag.de
3.
World-wide conference
Since 1991, an international, world-wide conference is held on a regular basis. The first of these quantitative linguistic conferences (QUALICO) was held at the University of Trier, Germany. Since 1997, it is organised by the International Quantitative Linguistics Association. The proceedings of the first conference in Trier, 1991, was published as a book: Reinhard Köhler/Burghard Rieger (eds.) (1993), Contributions to quantitative linguistics. Dordrecht, Boston, London: Kluwer. The proceedings of the subsequent conferences (1994 in Moscow, 1997 in Helsinki, 2000 in Prague, 2003 in Athens, Georgia, USA) were published by the Journal of Quantitative Linguistics.
1004
XIII. Informationsquellen / Sources of information
4.
on QL fora and projects: http://www.ldv.unitrier.de/index.php?links. At http://nlp.stanford.edu/links/statnlp. html a comprehensive list of QL related resources can be found. The following internet links are connected to large projects with interesting QL topics: http://wwwuser.gwdg.de/~kbest/ (reports on the Göttingen long-term project on the length distributions of linguistic units in many languages) http://www-gewi.uni-graz.at/quanta/ index2.htm (report on the Graz project on length distributions of linguistic units in Slavic texts and other quantitative studies)
International associations
After the successful start of the first QUALICO, the second conference in Moscow was used as an opportunity to found the International Quantitative Linguistics Association (IQLA), which organises the QUALICO on a triennial basis. Information is available at www.iqla.org. Another association which includes QL topics in their themes is the Association for Computational Linguistics: http://www1. cs.columbia.edu/~acl/.
5.
Internet
The “Lingua” portal of the University of Trier, Germany, maintains a link collection
Reinhard Köhler, Trier (Germany)
Namenregister / Name index A Aamodt, Agnar 825 Abaev, Vasilij I. 68 Abney, Steven P. 296⫺297 Abreu Gomes, Christina 275 Adams, A. 392 Aebischer, Paul 609 Ager, Dennis E. 373 Agricola, Erhard 422, 436, 439, 459, 466, 468⫺469 Aha, David W. 705, 822, 825⫺ 826 Ahapij, A. P. 467 Ahlers, Astrid 268 Ahmad, Khurshid 972, 981, 985 Aitchison, John 730⫺731 Aked, J. F. 394 Albert, Marc K. 705, 822 Albert, Reika 732 Alekseev, Pavel M. 308, 314⫺ 315, 317, 319, 341, 345, 351, 353⫺354, 358⫺359, 369, 372⫺373, 435, 651, 730, 871, 899⫺901 Allegre, Maria 253 Allen, James 821 Allen, Jonathan 932 Alle´n, Sture 314⫺317, 373 Alshawi, H. 812 Altmann, Gabriel 17⫺21, 54, 150, 155, 165, 179⫺180, 184⫺185, 188⫺191, 193⫺ 199, 201, 204⫺205, 209⫺211, 213, 215, 217⫺220, 223⫺224, 228⫺229, 231⫺236, 238⫺ 239, 255⫺256, 258, 262⫺268, 270⫺271, 274, 282⫺283, 284⫺286, 288, 299⫺303, 305⫺309, 325⫺335, 337⫺ 338, 340, 342, 345, 349⫺350, 353, 359⫺360, 365⫺366, 372⫺373, 376, 378, 423⫺424, 426, 429⫺436, 440, 442⫺443, 445, 448, 460, 498, 500, 533, 535, 554, 559, 562⫺563, 569, 579, 581⫺584, 586⫺587, 603⫺604, 627⫺632, 639, 646, 649⫺656, 659, 661⫺664, 666⫺671, 676⫺678, 681⫺ 684, 686, 724, 730, 740, 743, 752⫺753, 763⫺765, 767⫺ 769, 772, 783, 792⫺801, 862, 874, 1003 Aminev G. A. 865, 874, 989 Ammermann, Stefan 799 Amosova, N. N. 465 Ananiadou, Sophia 138, 982 Andersen, Ove K. 934 Anderson, John R. 251
Anderson, Jonathan 909, 914 Anderson, Lloyd B. 560 Andoo, Tsunemasa 83 Andreev M. P. 865, 874 Andreev, Nikolaj D. 70, 72⫺73, 192, 603 Andreev, Sergej 752, 759 Andreeva, Lidia D. 73 Andreevskaja, A. V. 461 Andrezen, Vladimir 925, 927 Andrukovicˇ, P. F. 461 Angelova, Galina 902 Anisimov, Anatolij V. 925 Ansaldo, Ana Ine´s 894 Anshen, Frank 248, 250, 252⫺ 253 Anstensen, Ansten 373 Antonov, Anatolii V. 913 Antosch, Friederike 376 Anttila, Raimo 373⫺374, 634, 701 Apollonskaja, Tat’jana A. 905, 928 Apresjan, J. D. 465 Arai, Kazuhiro 842 Araki, Tetsuo 941 Arapov, Michail V. 4, 149, 309, 321, 372, 461, 639, 652, 781, 793, 795 Archangeli, Diana 784 Archeljuk, V. V. 467, 469 Ardila, Alfredo 893 Arens, Hans 17⫺18, 373, 580, 641, 664⫺666, 668, 676⫺677 Argamon, Shlomo 827 Arnold, I. V. 373⫺374, 634, 701 Arnold, Vladimir I. 411 Aronoff, Mark 227, 243, 247⫺ 248, 250, 252⫺253 Artem’eva Ol’ga A. 900 Arvaniti, Amalia 136⫺137 Asai, Tooru 92 Ashby, W. Ross 74 Ashkinazi, Vitalij 926 Askedal, John Ole 274, 275, 589 Atkeson, Christopher 825 Atkinson, Q. D. 642 Atkinson, Richard C. 898 Atwood, E. B. 510 Atwood, N. K. 914 Auerswald, M. 813, 817 Augst, Gerhard 227 Aust, H. 808 Ax, Wolfram 233 Azar, Moshe 390, 747 Azimov, ldar G. 901⫺902
B Baayen, R. Harald 229⫺231, 237⫺239, 243, 245⫺253, 308, 364, 376, 389⫺390, 393, 399,
403⫺404, 408, 652, 734, 792, 795, 798, 800, 944⫺945 Bagheri, Dariusch 191, 195, 199, 201, 204, 794 Bahl, L. 808, 810, 812 Bailey, Charles-James 787 Bailey, Richard W. 370, 372⫺ 373, 377, 379 Bailin, Alan 897, 902⫺903 Bajerowa, Irena 126⫺127 Bajtanaeva, Dinaida A. 860, 863, 868⫺869 Bak, Per 362 Baker, Eva L. 914 Baker, James 293 Baker, John P. 901 Baker, Sidney J. 373 Bakker, Dik 275, 556, 560, 564, 570, 599, 603 Balasubrahmanyan, Vriddhachalam K. 308, 407⫺408, 720⫺ 735, 792⫺795, 798, 881⫺885, 889⫺890 Ball, P. 703 Ballmer, Thomas T. 414 Balschun, Claudia 799 Bamberger, Richard 914, 916 Ban, Nobutomo 83, 93 Bandelt, H.-J. 642, 644 Bangalore, S. 813 Bank, D. 391 Barabasi, Albert-La´szlo´ 732 Bar-Hillel, Yehoshua 858 Barnes, Jonathan 277 Bartens, Hans-Hermann 270, 799 Bartkowiakowa, Anna 121, 158, 174⫺177, 262 Barwise, Jon 327 Barz, Irmhild 228, 235 Basili, Roberto 274 Bateman, R. 634 Bates, Elizabeth 892, 998 Bates, M. 901 Baudouin de Courtenay, Jan 25, 53, 58, 122 Bauer, Hans-Joachim 156 Bauer, Laurie 227⫺228, 589⫺ 590 Bauer, Roland 514, 534 Baum, Leonard E. 293, 815 Baumann Manfred 912⫺914 Bavaud, Franc¸ois 741 Bayer, Josef 894 Beale, A. D. 810 Beaugrande, Robert-Alain de 328⫺329, 432 Beauvois, Margaret H. 901
1006 Bechtereva, Natal’ja P. 999 Becˇka, J. V. 131 Bee, R. E. 394 Behaghel, Otto 280 Behnke, Kay 700, 703 Behrens, D. 620 Bei, Guiqin 99 Beier, E. 317 Bekiari, Xara 136 Bektaev, Kaldybay B. 155, 169, 261⫺262, 314, 317, 321, 751, 859, 868, 870⫺871 Bell, Alan 555⫺556 Belousova, E. A. 69 Belyj, Andrej 25, 53, 58, 122, 127 Bem, Al’fred L. 41 Bender, Marvin L. 637⫺638 Benesˇ, Eduard 432 Benesˇova, Eva 431, 433 Bengtson, Manlin 799 Bennett, C. H. 722, 883 Bennett, Paul E. 374, 379 Bense, Max 325 Benson, D. Frank 893 Bentivoglio, Paola 477, 480 Bentley, M. 149 Benwell, Anita 903 Benze´cri, F. 498 Benze´cri, J.-P. 498 Beo˝thy, Erzse´beth 122, 233, 307, 309, 460, 646, 764, 801 Berck, Peter 829 Berend, Nina 533 Bergenholtz, Henning 233 Berger, Adam L. 811, 815⫺816, 875 Berko-Gleason, Jean 895 Bernstein J. 932 Bertalanffy, Ludwig von 760 Bertram, Raymond 250, 252⫺ 253 Berwick, Robert C. 821 Bespal’ko, Vladimir P. 916 Best, Karl-Heinz 20, 126, 155, 210⫺212, 227⫺228, 232⫺ 235, 256⫺259, 261, 264⫺271, 307⫺309, 426, 460, 628, 632, 646, 655⫺656, 730, 764, 797⫺801, 955, 959⫺960 Biber, Douglas 487⫺489 Bickel, Balthasar 560, 576, 578 Billmeier, Günther 16, 18, 781, 1003 Binongo, J. N. G. 388⫺389 Binovic, Leonid E. 468 Bird, Norman 639 Birkhan, Helmut 142⫺144, 150 Birkmann, Peter 787 Birnbaum, Henrik 181 Birner, Betty 474 Bjork, Robert, A. 251 Bjørn, Else 913
Namenregister / Name index Björnsson, C. H. 914 Black, Ezra 296, 828, 852 Black, Paul 551, 637, 642⫺643 Blanken, Gerhard 988 Bleser, Ria de 894 Bleuler, Eugen 995 Block, Ulrich 817 Bloomfield, Leonard 712, 825 Bluhme, Hermann 378 Blumstein, Sheila 893 Bobrik, A. A. 40⫺42 Bobrov, Sergej P. 31⫺33, 35 Bock, Hans Hermann 498, 511, 513, 536, 544, 584 Bod, Rens 292, 297, 827, 854⫺ 855 Bogdanova, P. 317 Bogodist, Valentin I. 865, 870, 901 Bogorodickij, Vasilij A. 25⫺27, 44, 53 Boguslawskaja, Galina P. 869, 901 Bohm, David 890 Bohn, Hartmut 301, 957, 961, 963⫺966 Bohr, Kurt 777 Bokucˇava, N. V. 169⫺170 Bolling, George M. 371 Boltzmann, Ludwig 727, 878⫺ 880, 882, 885⫺886 Bond, Caroll L. 914 Bondesson, Lennart 795 Booij, Geert E. 249 Bookstein, Abraham 731 Booth, Taylor L. 292 Boots, Barry 503, 545 Boretzky, Norbert 647 Bormuth, John R. 910, 914 Boroda, Moisei G. 194, 327, 332, 336 Bortolini, Umberta 317, 924 Bosch, Robert A. 726 Boström, Henrik 829 Botel, Morton 912⫺913 Botinis, Antonis 136 Bourdon, Benjamin 3 Bourigault, Didier 973 Boutsis Sotiris 138⫺139 Bower, Gordon H. 898 Bowker, Albert H. 198 Bowker, Lynne 972 Bowman, Kelsey O. 798 Box, G. 390, 740, 742⫺743 Bradford, Samuel Clement 731 Brainerd, Barron 326⫺327, 334, 364, 372⫺373, 380, 740, 797 Brandt, Per Aage 418, 702 Bransford, John D. 913 Brants, Thorsten 3 Bratley, Paul 390, 744 Breiman, Leo 809, 828 Breiter, Maria A. 959⫺960
Breland, H. M. 314 Brennenstuhl, Waltraud 414 Brent, Michael R. 821, 902 Brew, Chris 296 Bridle, John 934 Brill, Eric 822, 972 Brink, Daniel 902 Brinker, Klaus 325 Briscoe, Ted 296, 848 Brockwell, Peter 741 Broeder, Peter 821 Browman, Catherine 700 Brown, C. B. 316 Brown, J. A. C. 730⫺731 Brown, Jason 893 Brown, Keith 275 Brown, Peter F. 808, 812⫺816, 859, 927, 979 Bruce, Bertram 914 Brunet, Etienne 317, 365, 389, 981 Brunot, Ferdinand 624 Brun-Trigaud, Guylaine 511 Brynjo´lfsson, Einar 271 Buck, Carl D. 638 Buckingham, Brian 892 Buckley, Chris 976 Budagov, Ruben A. 68 Budilovicˇ, Anton S. 24⫺25 Bühler, Karl 13, 426, 764 Bułczyn´ska, Katarzyna 122, 317 Bunge, Mario 9, 13, 256, 274, 276, 306, 650, 761, 791⫺792 Bunjakovskij, Viktor I. 3, 24 Burdinski, Violetta 286, 338, 797⫺798, 800 Burgess, Curt 344 Burns, Martha 893 Burrows, J. F. 378, 388⫺389, 392 Burwick, Frederick L. 372, 380 Busacker, Robert G. 442 Busch, Andrea 301 Busemann, Adolf 371, 376⫺377 Bußmann, Hadumod, 228, 778 Buttlar, Haro von 282, 309, 372, 627⫺628, 639 Button, C. 901 Bybee, Joan L. 239, 569, 588⫺ 589, 594⫺595 Bycˇkov, Valerij N. 901 Bystrova, L. V. 466⫺469
C Ca˘da, F. 371 Campbell, D. 394 Campbell, Lyle 555, 566 Canter, D. 394 Canter, Gerald 893 Cantor, Georg 698, 701 ˇ a´p, J. 133 C
1007
Namenregister / Name index Caplan, David 891⫺892 Caramazza, Alfonso 892 Carayannis, George 137, 139 Cardebat, Dominique 895 Cardie, Claire 822⫺823, 826 Carnegie, Dale 913 Caroll, John 297 Carpenter, Bob 848, 871 Carpenter, Patricia A. 913 Carroll, Glenn 296 Carroll, John B. 182, 314⫺317, 321, 371, 378⫺380, 400, 848 Carson D. H. 869 Carstairs, Andrew 581, 587,589 Carstensen, F. V. 810 Carter, C. W. 314, 317 Cartwright, Timothy 821 Casacuberta, Francisco 813, 875 Castets, F. 511 Caussinus, Henri 199 ˇ ebanov, Sergej G. 155, 158⫺ C 159, 261⫺262, 269, 797 ˇ ebanov, Sergej V. 261 C ˇ ejka, Mirek 133 C Ceplite, B. 916 Cercvadze, G. N. 70, 168⫺170 ˇ erepanov, Vjacˇeslav S. 909 C ˇ ernysˇevskij, Nikolaj G. 48 C Chafe, Wallace L. 471, 476 Chaitin, Gregory J. 727, 882 Chajdarov, Sˇ. 314 Chall, Jeanne S. 909⫺910, 912⫺ 915 Chamberlain, Julia 914 Chandler, Steve 709⫺710 Chandler, Zilpha E. 371 Chandon, Jean-Louis 498 Chang, Baoru 99, 962 Chang, Hsin Yuan 98⫺99 Chang, Lili 106 Chang, Ming-Chung 110 Chang-Rodriguez, Eugenio 924 Chantraine, Yves 895 Chao, Yuen Ren 149 Charakoz, P. I. 316 Charalambides, Charalambos 652 Charniak, Eugene 294⫺296, 822⫺854 Chatfield, C. 388, 390 Chavkin, Laura 912 Chen, Heqin 97⫺98, 100, 104 Chen, Keh-Jiann 106, 110 Chen, Mingyuan 955⫺956 Chen, Stanlay F. 295 Chen, Yuan 99, 101 Cherc, Maja M. 4, 149, 309, 639 Cherubim, Dieter 233, 461 Chevrie-Muller, C. 988 Cheydleur, F. D. 316⫺317 Chi, Zhiyi 293, 859, 875 Chiarello, Christine 895 Chiou, Fu-Dong 112
Chiplonkar, V. N. 722 Chitashvili, Revaz Ja. 308, 399⫺ 400, 652, 792, 795, 798, 800, 945 Chomsky, Noam 12, 276, 294, 325, 469, 740, 779, 781⫺782, 788, 809, 847, 893, 922 Chre´tien, C. D. 308 Christmann, Hans Helmut 509 Chu-Carrol, Jennifer 871 Chun, Dorothy M. 913 Church, Kenneth 407, 810, 813⫺814, 822, 972, 979, 981 Churchhouse, R. F. 372 Chute, Christopher G. 827 ˇ ikodze, G.B. 70 C ˇ ikoidze, G. B. 168⫺170 C Cilosani, T. P. 169⫺171, 262, 797 ˇ istjakov, Vasilij F. 53⫺56 C ˇ istovicˇ, L. A. 70 C ˇ izˇakovskij, Valentin A. (Czyz˙aC kowski, W.) 65, 317, 929, 992 Clariana, Roy B. 914 Classe, A. 149 Clausius, Rudolf 878 Clayman, Dee Lesser 300 Clearwater, Scott H. 714 Cobb, S. 993 Cocke, John 812, 816, 927 Cohen, Jonathan 197, 981 Cohen, Marcel 146, 149, 620 Cohen, William W. 822, 829 Colin, B. 317, Collins, A. J. 388 Collins, Michael J. 296, 853 Colussi, C. 609 Comrie, Bernard 492, 566, 578, 600⫺601 Conard, Sue S. 912 Condamines, Anne 980 Condon, Edward U. 3, 962 Conklin, Harold C. 196 Consul, Prem C. 179 Contreras, Alfonso 915 Contreras, Heles 480 Cook, W. A. 317 Cooley, Robert 344 Cooper, David L. 702 Cooreman, Ann 477, 480, 483 Corbett, A. 391 Corduas, Marcella 747 Corns, T. N. 389, 902 Coseriu, Eugenio 426 Cossette, A. 389⫺390 Cost, Scott 825 Cover, Thomas M. 825, 858⫺ 859 Cramer, Irene M. 686⫺687 Cranias, Lambios 138⫺139 Crisholm, D. H. 378 Crisp, Jenni 894⫺895
Croft, William 12, 561, 565, 569, 579⫺580, 599, 601 Crothers, Edward J. 898 Crow, Edwin L. 731 Crozier 142⫺143,149 Cryer, Jonathan 741⫺742 Crystal, David 718 Csa´nyi, Vilmos 656 Csonka, S. 314, 317 ˇ udovskij, Valerian 29⫺31,34 C Culley, G. 903 Cunningham, Hamish 772 Cussens, James 829 Cutler, Anne 252, 595, 604 Cysouw, Michael 278, 558⫺559, 561⫺562, 564⫺565, 567⫺ 568, 570, 574⫺575 ˇ izˇakovskij, Czyz˙akowski, W. (C Valentin A.) 65, 317, 929, 992
D Dacey, Michael F. 799 Daelemans, Walter 253, 705, 710, 712⫺714, 821⫺823, 826, 827, 829, 830, 932, 934 Dagan, Ido 813⫺814, 827, 928 Dahl, H. 313, 317 Dahl, Osten 492⫺494, 589⫺591 Daille, Be´atrice 973, 978⫺980 Dalakakis, Jenny 138 Dale, Edgar 910, 914⫺945 Dale, Philip S. 988 Dalsgaard, Paul 934 Dalton-Puffer, Christiane 247 Damerau, F. J. 388, 812, 980, 981 Damper, Robert 934 Danejko, Marija V. 927 Danesˇ, Frantisˇek 432 Danforth, D. G. 642 Dannhauer, Heinz-Martin 343 Darcˇeva, I. 317 Darmesteter, A. 620 Dauzat, Albert 620 Davies, J. 989 Davies, Paul 636⫺637, 639, 642, 887 Davies, Peter 314⫺317, 321, 899 Davies, Richard 741 Davis, Monte 692 Davison, Alice 913 Davison, Mark L. 549 de Beaugrande, Robert 328⫺ 329, 432 de Bleser, Ria 894 De Gooijer, J. G. 391 De Haan, Petr 390, 394, 748 De Jong, Nivja H. 252⫺253 de Marcken, Carl 296 de Paiva Alves, Eduardo 274
1008 de Souza, Peter V. 815 Dedina, Michael J. 933 DeFrancis, John 97, 947⫺948, 959 Delatte, L. 317 Della Pietra, Stephen A. 808, 811⫺815, 859, 862, 875, 829 Della Pietra, Vincent J. 808, 811⫺815, 859, 862, 875, 829 Demiros, Iason 139 Dempster, Arthur P. 293 Denisov, Ja. 40 Denisov, Pjotr N. 314, 916 Dennis, Sally F. 976 Dermatas, Evangelos 138, 933⫺ 934 DeRose, Steven J. 808, 810, 972 Derouault, Anne-Marie 972 Derwing, Bruce 709 deSouza, P. V. 815 Dessau, H. 391⫺392 Dewey, Godfrey 83, 314, 717, 725⫺726, 729, 881, 885 Diakogiorgi, Kleopatra 138 Dice, Lee R. 979 Dickinson, G. C. 503 Dieckmann, Sandra 653 Diederich, P. B. 314 Dierse, U. 775 Dietze, Joachim 314 Diez, Friedrich 614 Dijkstra, Ton 253 Dik, Simon C. 277 Dikarev, Mitrofan A. 24 Diller, H. J. 332, 741 Dillon, Martin 740 Dittenberger, Wilhelm 371 Dittmann, Jürgen 739, 988 Dittrich, Heike 646, 799 Dobrin, David N. 902 Dobrusˇin, Roland L. 70, 73 Dodd, S. C. 149 Doerfer, Gerhard 635 Dolan, W. D. 813 Dolby, Julian A. 726, 730 Dolezˇel, Lubomı´r 131, 371⫺372, 1003 Dolinskij, V. A. 327 Dorothy, Leal 914 Douglas, S. 710, 813 Draffan, J. 989 Draskau, Jennifer 972 Drebet, V. V. 460⫺463 Dreher, John J. 747 Dresher, Elan 821 Dressler, Wolfgang 12, 328⫺329, 596, 787, 895 Dretzke, Burkhard 274 Dreyfus Hubert L. 922 Dridse, T. M. 466 Drobisch M. V. 3 Droesbeke, Jean-Jacques 741 Drozen, Vladimir 871
Namenregister / Name index Dryer, Matthew S. 275, 278, 483, 489⫺491, 555⫺558, 565⫺566, 570⫺573, 578, 599⫺602, 604 Duan, Huiming 106, 108 Dubois (Sylvius) 620 Dubois, Jean 248 Dubovska´, Zorica 191 Duda, R. O. 809, 810 Duffy, Tomas M. 914 Dugast, Daniel 120, 364 Dumais, Susan T. 342, 344 Dunning, Ted 979 Durand, Joseph-Pierre 504 Durieux, Gert 705, 710, 712⫺ 713, 821 Dusˇkova´, Libusˇe 377 Dyen, I. 637, 642⫺643 Dyrcheeva, G. A. 317 Dzeroski, Saso 822, 829
E Earley, Jay 848⫺849 Eaton, Helen S. 900 Ebeling, Werner 696 Echenique, Marta 915 Echols, John E. 193 Eckenhoff, Marion 912 Eddington, David 710 Eder, Maciej 714, 742, 746⫺747 Edwards, P. N. H. 314⫺315, 317 Eesmaa, Vilma 912 Efimova, E. N. 793, 795 Efron, B. 387, 391, 399, 719, 721, 808 Egawa, Kiyoshi 92 Egbers, Jannetje 799 Eggers, Hans 17 Eigen, Manfred 761 Eikmeyer, Hans-Jürgen 892 Eimermacher, Karl 65, 75 Eisner, Jason 296 Ejiri, Koichi 364, 366 El-Be`ze, Marc 972 Eldridge, R. C. 317, 717, 719⫺ 720 Eliseeva, L. A. 314 Ellega˚rd, Alvar 275, 281,282, 373 Ellis, Andrew 379, 893 Elman, Jeff 821 Elts, Jaanus 343, 912, 914⫺915 Embleton, Sheila M. 308⫺309, 551⫺552, 641 Emeis, Marinus G. 196 Empson, William 146 Engel, R. 817 Enguehard, Chantal 982, 984 Engwall, Gunnel 372, 380 Enkvist, Nils E. 370, 376, 379 Epstein, M. 812
Erat, Erkan 650, 801 Erdo˝s, Paul 734 Erensˇtein, Marina C. 898 Erjavec, Tomaz 829 Erlich, Viktor 27 Ermilova, Elena 75⫺76 Ermolenko, Georgij V. 25,65, 372 Estoup, Jean-Baptiste 3, 123, 717, 793, 798, 962 Ettmayer, Karl von 510 Everitt, Brian S. 197, 643 Evert, Stefan 401
F Fakotakis, Nikos 932 Fallon, Paul 137 Fan, Keyu 99 Fang, Shizeng 952 Farringdon, J. M. 394 Farrington, Brian 903 Faulseit, Dieter 912 Fei, Jinchang 99 Felber, Helmut 972 Feldt, Sabine 264⫺265 Fellbaum, Christiane 238, 906 Feller, William 557, 653 Felsenstein, Joseph 563 Feng, Zhiwei 99, 103, 108, 961⫺ 963 Fenk, August 554, 559, 562, 569, 578, 584, 682, 684⫺685 Fenk-Oczlon, Gertraud 554, 559, 562, 569, 584, 614, 682, 684⫺685, 793 Fermi, Enrico 717, 732, 734 Feyereisen, P. 895 Fickermann, Ingeborg 460, 668, 686, 794 Fillmore, Charles J. 421 Fine, Jonathan 994 Finegan, Edward 487⫺489 Firbas, Jan 133, 432, 600 Fischer, Michael J. 985 Fischer, R. 988, 999⫺1000 Fischer, Susan 275 Fischer, Walther L. 325 Fisher, R. 391, 566, 570⫺573, 994 Fix, E. 825 Flämig, Walter 233⫺234 Fleary, F. G. 370 Fleischer, Wolfgang 228 Fleiss, J. L. 197 Fleming, Malcolm L. 913 Flenner, Gudrun 227 Flesch, Rudolph F. 378, 910, 912, 914⫺916 Fletcher, James V. 371 Fletcher, Paul 988 Flohr, Horst 227
1009
Namenregister / Name index Fo´nagy, Ivan 794 Forrest, Linda B. 477 Förstemann, Ernst 3, 24 Forster, P. 642 Forsyth, R. S. 389, 393 Fortier, Gilles 914 Fortunatov, Filipp 27, 53, 56, 58, 70 Foster, George F. 972 Fourakis, Marios 137 Fox, Andrex 477, 480 Francis, W. N. 314⫺317, 319, 373, 460 Frank, L. 371 Frantzi, Katarina 183, 982 Franz, Alex M. 851 Freeman, W. J. 361, 417 French, N. R. 314, 317 Friedman, Jerome H. 809, 828 Friedman, N. 893 Frischer, Bernard D. 274, 280, 388, 302 Frumkin, Vladimir A. 875 Frumkina, Revekka M. 5, 23, 59, 70, 71, 74, 286, 321, 795 Fry, Edward B. 912, 914 Frynta, D. 642 Fu, Yonghe 99, 104 Fucks, Wilhelm 17⫺18, 152⫺ 180, 209, 256, 261, 299, 325, 339⫺340, 371, 373, 797⫺798, 859, 874 Fujii, Atsushi 827 Furigori, Teiji J Furugori Furnival, F. J. 371 Furugori, Teiji 274, 343 Furui, Sadaoki 923
G Gacˇecˇiladze, T. G. 70, 158, 168⫺174, 177⫺178, 262, 779 Gaeta, Livio 652 Gagatsis, Athanassios 183 Gaines, Helen F. 721 Gaizauskas, Rob G. 772 Gajdaj, Nadezˇda 903 Gajic, Dragomir M. 670 Gal’, Nora Ya. 912⫺913 Gale, William 407, 813⫺814, 979 Galiulin, Kamil’ R. 902 Gallacher, Richard 841 Galle, Matthias, 334, 362 Galperin, Ilja R. 381 Gamble, W. 317 Gani, John 364, 367 Ganter, Bernhard 538 Gao, Jiaying 99 Garbe, Burckhard 257 Garcı´a, Erica 146, 149⫺150 Garcia-Alonso, Rafael 915
Garcia-Varea, Ismael 815, 875 Gardner, Howard 895 Garside, Roger 852, 972 Gärtner, Hans-Martin 779, 782 Gasˇparikova´, Sˇ. 314, 317 Gasparov, Michail L. 77 Gasser, Michael 477 Gaston, L. 317 Gaussier, E´ric 973, 980 Gavriilidou, Maria 137 Gazdar, Gerald 821 Geens, Dirk 375 Geiling, Ute 912⫺914 Gell-Mann, Murray 149, 717, 735, 878, 883⫺886 Geman, Stuart 293 Gembiak, Danuta 126 Genkel’, M. A. 314, 317 Geoffroy, A. 381 Georgakopoulou, Alexandra 137 Georgantopoulos, Byron 139 Georgiev, Christo (Hristo) 870 Georgountzou, Anastasia 136 Gerd, Aleksandr S. 69, 73 Gerlach, Rainer 224, 238, 255, 668, 671⫺672 German-Prozorova, Lucı`ja P. 899⫺901 Gerola, B. 609 Gersˇic´, Slavko 646, 667⫺669, 793⫺794, 796 Gibbs, Josiah W. 878, 880, 885, 895 Gibbs, Raymond 410, 412, 878, 880, 885, 895 Gibson, Walker 380 Gieseking, Kathrin 274 Giles, H. 703 Gillie, Paul J. 912 Gillie´ron, Jules 513 Gillis, Steven 705, 710, 712⫺ 713, 821, 829 Gilmore, Robert 689 Gindin, S. I. 461 Ginka, B. I. 466⫺468 Ginneken, Jacobus v. 194 Giraud, Raymond 872⫺873 Givo´n, Talmy 472⫺473, 478, 480⫺482, 486⫺487, 494, 560, 603 Gjurova, M. 317 Glass, Gene V. 741, 751 Gleason, Henry A., Jr. 642 Gleichgewicht, Bolesław 121, 158, 174⫺177, 262 Glinz, Hans 445 Goddard, I. 634 Goebl, Hans 21, 191, 195, 199, 201, 204, 308, 499⫺504, 506, 509⫺512, 532⫺534, 536, 544 Goel, Narenda S. 628 Goła˛b, Zbigniew 624⫺625 Gold, Bernard 837
Goldberg, David 825 Goldenberg, D. 871 Goldstein, Lois 700 Golovin, Boris N. 76, 371⫺372, 377 Good, Irving John 120, 391, 399, 654, 722, 725, 796 Goodglass, Harold 895 Goodman, Joshua 296, 850⫺851 Goodman, L. A. 751 Gooijer, J. G. De 391 Gordesch, Johannes 274 Gordon, Peter 253 Gorin, Allen L. 808, 842 Gornfel’d, Arkadij 33⫺34 Gornung, Boris V. 68 Gorot’, E. I. 255 Gottman, John M. 741 Gougenheim, Georges 313, 447, 899, 901 Graben, Peter Beim 726 Graf, Dittmar 912, 915⫺916 Granowsky, Alvin 912⫺913 Grassegger, Hans 217, 219, 221 Graumann, Lore 913 Gray, R. D. 642 Gray, William S. 909, 910 Green, Georgia M. 913 Greenberg, Joseph H. 7, 12, 181⫺182, 191, 216, 219⫺220, 227, 229, 257, 261, 275, 278, 280, 369, 512, 554, 559, 564⫺566, 569, 580⫺584, 586, 589⫺590, 594, 598⫺600, 638, 739, 752, 758⫺759 Greimas, Algirdas Julien 425, 702 Grenander, Ulf 862 Grice, H. Paul 471, 479, 781, 784, 788 Gries, Stefan T. 274, 280 Grigor’ev, Vladimir I. 69,75 Grigorjan, Vladimir M. 74 Grimm, Hannelore 988 Grimm, Jakob 509, 702 Grinbaum, O. N. 317 Grisˇin, Nikolaj N. 468 Grodzinsky, Yosif 893 Groeben, Norbert 261, 912, 916 Groen, Claudia 799 Groner, G. 932 Gropp, Friedrich 210 Gross, Philip P. 914 Grosse, Ernst U. 424 Grosse, Rudolf 92 Grotjahn, Rüdiger 7, 20, 155, 164, 166, 209, 232, 256, 262, 265⫺270, 299⫺300, 306, 326, 331, 333⫺334, 339, 378, 652, 740⫺741, 792, 797⫺798, 800⫺801 Grousouzakou, Dimitra 136 Grousouzakou, Efrosini 136
1010 Gruszczyn´ski, Włodzimierz 118 Grzybek, Peter 22, 24, 27, 38, 48, 54, 75, 159, 178, 213, 303, 794 Guilhaumou, J. 381 Guiraud, H. 389, 395 Guiraud, Pierre 15, 18, 70, 120, 364⫺365, 369, 371, 373, 375, 405, 461, 739, 1003 Guiter, Henri 308, 321, 509⫺ 510, 652, 781, 795 Gulikers, Leon 243 Gulp 914 Gundel, Jeanette K. 474⫺476, 478⫺480, 495 Guntern, Gottlieb 648 Gunzenhäuser, Rul 18, 372 Guo, Jin 112 Guo, Shulun 106 Guo, Yefang 103 Gurland, John 797 Gurney, L. W. 389, 392 Gurney, P. J. 389, 392 Gusein-Zade, S. M. 194, 652, 654, 796 Guthrie, D. 392 Guthrie, Louise M. 928
H Haag, Carl 503, 509⫺510, 544 Haag, Karl 510 Haan, Petr De 390, 394, 748 Habert, Benoıˆt 973 Haeb-Umbach, R. 808 Haight, Frank A. 364, 651, 800 Haimerl, Edgar 511, 514, 534 Haipus, M. 313, 317 Hajek, John 559 Hajicˇova´, Eva 431, 433 Haken, Hermann 413, 689, 700, 761 Halliday, Michael A. K. 326, 328⫺329, 332, 342, 356, 379, 913 Halstead, M. H. 364, 376 Hamby, Suzanne 895 Hamill, Karen A. 925⫺926 Hammerl, Rolf 20, 115, 124⫺ 125, 238, 265, 308, 448⫺452, 456, 793 Händler, Harald 509, 535 Hanks, Patrick 979, 981 Hanley, M. L. 214 Hänninen, Ritva 893 Hansen, Anya V. 934 Hansen-Löve, Aage 27 Hantrais, L. 364, 376 Harary, Frank 184⫺185 Hardcastle, R. A. 394 Harkin, D. 317 Harman, Donna 984
Namenregister / Name index Harris, Zelig S. 222, 227, 379, 857 Hart, Peter E. 809⫺810, 825 Harter, Stephen P. 977 Hartley, A. 381 Hartley, James 913 Haruno, Masahiko 828 Harvey, Virginia S. 912 Harwood, F. W. 250 Hasan, Ruqaiya 332, 342, 356, 913 Haspelmath, Martin 557, 559⫺ 561, 573 Hass, W. 317 Hassler-Göransson, Carita 372, 379 Hatano, Kanji 85 Hatzfeld, A. 620 Hatzigeorgiu, Nikos 139 Hatzisavidis, Sofronis 138 Hatzivassiloglou, Vasileios 927, 979 Hauch, E. F. 317 Haudricourt, Andre´ 620 Hawkins, John A. 275, 278⫺ 281, 288, 555, 558, 565, 569, 589, 595, 599⫺600, 604⫺605, 771 Hawks, John 137 Hay, Jennifer B. 250⫺252 Hay, Richard A. 741 Hayashi, Chikio 941⫺943 Hayashi, Ooki 93, 937, 939 Hayes, Curtis W. 377 Hearst, Marti, A. 985 Hedberg, Nancy 474⫺476, 478⫺ 480, 495 Heeschen, Claus 894 Hegarty, Mary 913 Heimer, Klaus 916 Heinemann, Wolfgang 423⫺425, 432 Helbich, Jan 373 Helenius, Päivi 892 Heller, G. Z. 402 Hempel, Carl Gustav 8, 579, 662, 764 Henry, Georges 914 Herdan, Gustav 4, 18, 120, 191, 262⫺263, 321, 336⫺337, 339⫺340, 357, 364⫺365, 369, 371⫺376, 379, 406, 433, 717, 719, 730, 739⫺740, 793, 796, 800, 862, 989 Hermann, Eduard 144 Hermjakob, Ulf 827 Herringa, Wilbert 533⫺534, 543 Herzel, Hanspeter 700 Heups, Gabriela 668, 672, 674⫺ 675, 793 Hewitt, Magaret 314 Hewstone, M. 703
Hildreth, Carson 371 Hilton, M. L. 394 Hincha, Xieyan 948 Hindle, Donald 851 Hinds, John 479 Hinton, Geoffrey 892 Hjelmslev, Louis 276, 349, 425⫺ 426, 869, 922, 989 Hochberg, Judith. 933 Hockett, Charles F. 224 Hodges, J. L. 825 Hoenigswald, H. M. 641 Hoffman, Ralf E. 604, 988, 994 Hoffmann, Christiane 274, 280, 1003 Hoffmann, Lothar 21, 315, 989 Hofland, K. 317, 924 Hofmann, Thomas R. 479 Höhle, Tilman N. 228 Holland, V. M. 901 Holm, Hans J. 639, 643⫺644 Holm, Soren 913 Holmes D. L. 916 Holmes, D. I. 387, 389, 392⫺394 Holstein, Arthur P. 374 Homan, Susan 914 Honavar, Vasant 821 Hoover, David 405 Hopper, Paul J. 472, 481, 486 Hörmann, Hans 912 Horn, E. 314⫺315 Hornby A. S. 752 Horne, Kibbey M. 580 Horning, James J. 295 Horvath, William J. 651 Houghton, Harvey A. 913 Howes, D. 317, 320 Hrabec, Stefan 624 Hrˇebı´cˇek, Ludeˇk 133, 255, 325, 227, 300⫺334, 338⫺339, 342, 345, 351⫺353, 355, 358, 372, 423, 425, 432, 434, 650⫺652, 666, 668, 677⫺678, 730, 748, 792⫺793, 801 Hu, Baihua 110⫺111 Huang, Changning 106, 108, 951, 962 Huang, Chu-Ren 106 Huang, Kerson 882 Huber, Walter 894 Hubert, Pierre 248, 404 Hudgins, Clarence V. 149 Hudson, Richard 137 Huffman, David A. 727, 879 Hug, Marc 195, 274⫺275, 373 Hugdahl, Kenneth 892 Hummel, L. 535 Hunnicut, Sheri 932 Hunt, Earl B. 827 Hutchins, John W. 71 Hutton, P. 932 Hymes, Dell H. 378
1011
Namenregister / Name index
I Ikehara, Narao 89 Ikehara, Satoru 941 Imbs, Paul 924 Imiołczyk, Janusz 126 Imsiepen, Ulrike 628, 630⫺631 Ineichen, Gustav 582, 584 Ingber, E. 932 Ingram, J. K. 370 Inoue, Fumio 92 Inui, Kentaro 827 Iordanidou, Anna 137 Isenberg, Horst 424 Ishii, Masahiko 944 Ising, Gerhard 785 Isomoto, Masao 940 Itai, Alon 928 Ito, Masamitsu 86, 91⫺92 Ivanjuk, V. J. 468 Ivanov, Vjacˇeslav Vs. 56, 59, 68⫺70, 72⫺73, 75⫺76
J Jachnow, Helmut 65 Jachontov, Konstantin S. 752 Jachontov, Sergej E. 582, 752 Jaeger, Jeri J. 710 Jaglom, Akiva M. 70, 74, 859⫺ 860 Jaglom, Isaak M. 70, 74, 859⫺ 860 Jakobson, Roman O. 26, 58, 60, 73, 130, 599, 740, 744 Jakovlev, Nikolaj F. 58⫺59 Jakubajtis, T. A. 376 Jakubovskaja, M. D. 460 Janssen, Marianne 264⫺265 Januszkiewicz, Natalia A. 454 Jassem, Wiktor 115⫺117, 126 Jelinek, Frederick 131, 828, 839⫺842, 849, 852 Jenkins, Gwilym M. 390, 740, 742⫺743 Jenkins, J. J. 651 Jenkins, L. 314 Jeong, H. 732 Jespersen, Otto 308, 778⫺779, 785⫺788 Jewell, William S. 652 Ji, Ming 963 Jie, Chunyu 114 Jin, Guangjin 106 Jin, Ming-Zhe 91, 106 Jing, Zhuo 300⫺301 Joanette, Yves 893⫺895 Job, Ulrike 763, 795 Johansen, Jorgen Dines 922 Johansson, S. 317, 924 Johnson, D. 812 Johnson, Marcia K. 913
Johnson, Norman L. 652, 654, 793⫺794, 797⫺800 Johnstone, A. H. 916 Johnstone, Judith R. 988 Jones, Alan 372 Jones, Daniel 710 Jones, Lawrence G 378 Jones, R. B. 364 Jong, Nivja H. De 252⫺253 Jongman, Allard 137, 253 Joos, Martin 127, 146, 962 Jost, Karl 146 Joyce, T. 798 Juang, Biing-Hwang 814 Jud, Jakob 512 Judt, Birga 653 Juilland, Alphonse 122, 314⫺ 315, 317 Juilland, Ileana 314⫺315, 317 Julkunen, Marja-Liisa 913 Jung, Udo O. H. 901 Juola, Patrick 589, 593⫺594 Jürgens, Hartmut 698 Juritz, J. 402 Just, Marcel Adam 913 Justeson, John S. 652⫺563, 569, 638
K Kabashima, Tadao 85, 89⫺91 Kaeding, Friedrich W. 16, 18, 24, 84, 313⫺314, 730 Kagarov, Evgenij 34 Kager, Rene´ 784 Kageura, Kyoo 88, 945, 972⫺ 973, 976 Kai-hua Zhao 794 Kaito, Matsuzoo 85 Kajima, Eı`ichi 937 Kalinin, Valentin M. 308, 899 Kallmeyer, Werner 425, 433 Kaltz, Barbara 233 Kambakis-Vougiouklis, P. 138 Kamimura, Ryotaru 873⫺874 Kamin´ska-Szmaj, Irena 122 Kampis, George 365, 656 Kandler, Günter 227 Kaneda Yasumasa 91 Kapatruk, M. D. 458 Kaplan, J. 901 Kaplan, Ronald 854 Kapur, Jaget M. 799, 879 Karamysˇeva Tat’jana V. 906 Karaulov, J. N. 313 Karlgren, Hans 324 Karpov, Alexey A. 843 Karush, W. 9 Kasai Hisako 92 Kasami, Tadao 848 Käsermann, Marie-Louise 988 Kasevicˇ, Vadim B. 582
Kaspar, Ingolf 799 Kaßel, Anja 211⫺212, 301 Kastenbaum, Marvin A. 798 Kasˇyrina Marianna E. 899 Katis, Demetra 138 Katz, Leo 797 Kaufman, Leonard 544 Kaufman, Stuart A. 889 Kaumann, Werner 681 Kay, Paul 421 Kay, Stanley R. 995 Kaye, Jonathan 821 Kazakov, Dı`mı`tar 825 Kazarjan, B. K. 314 Kean, Mary-Louise 893 Kecske´s, Istva´n J. 901 Kedem, Benjamin 390, 747 Keenan, Edward 477 Keeping, E. S. 722, 731 Kehayia, Eva 138 Kelih, Emmerich 24, 38, 73, 303 Kelle, Bernhard 534 Keller, Paul F. G. 914 Kelly, Erna 902 Kelso, J. A. Scott 413, 700 Kemp, Adrienne 652, 654, 797⫺ 799 Kemp, C. David 654 Kempgen, Sebastian 19, 23, 58, 66, 182, 184⫺186, 188, 225 Kendall, D. G. 639 Kendall, Janet 912 Keniston, H. 317 Kent, Roland G. 144, 377 Kern, Peter 445 Kertesz, Andrew 894 Kessel, Brett 533 Khinchin, Aleksandr I. 880 Khmaladze, E. V. 399⫺400 Khmelev, Dimitri V. 740 Kibler, Dennis 705, 822 Kibrik, Aleksandr E. 69 Kiiko, J. J.461, 463 Kijko, S.V. 460⫺463 Kim, Icheon 651, 801 Kind, Bernd 228, 233, 308, 448, 646 King, Robert D. 859 Kirsch, Irwin S. 914 Kissen, I. A. 315 Kita, Kenji 900 Kitazato, Takeshi 83 Kjetsaa, Geir 369, 372⫺373, 377⫺378 Klappenbach, Ruth 468 Klare, George R. 909, 912⫺916 Klatt, Dennis 932 Kl¸avin¸a, Sarma P. 376 Kleiber, Georges 784 Klemm, Elmar 642 Klenk, Ursula 227 Klimov, Georgij A. 569, 587, 592⫺593
1012 Kluge, Friedrich 625, 775 Kneser, Reinhard, 815 Knight, K. 813, 816 Kniseley, Elisabeth 912 Knobloch, Clemens 233 Knowles, J. Rev. 317 Knüppel, Anke 268 Kobayashi, Hideo 85 Koehn, Philipp 927 Koeling, R. 812 Koenig, W. 314, 317 Koenraads, Willy Henri August 786 Koerner, E. F. K. 580 Kogan, Leonid 925, 927 Köhler, Reinhard 16, 19⫺21, 116, 126, 143⫺144, 149⫺150, 201, 209, 216, 222⫺232, 225⫺227, 229, 232, 235⫺237, 239, 250⫺251, 255⫺256, 261⫺262, 264⫺268, 270, 274, 283⫺286, 288⫺289, 299⫺ 300, 308⫺310, 321, 326, 328, 330, 334⫺335, 342, 352, 362, 364, 367, 372, 408, 443, 460⫺461, 646, 648⫺649, 652, 668, 672, 674⫺675, 682, 685⫺686, 701, 730, 739⫺740, 761, 764⫺773, 783, 788, 792⫺793, 795⫺801, 874, 929, 965⫺968, 1003 Kohlhase, Jörg 628, 632 Kokkinakis, George 932⫺934 Kolgusˇkin, A. N. 317 Koliban, Valentin V. 928 Kolk, Herman 893⫺894 Koll, Matthew B. 975 Köller, Wilhelm 423 Kolmogorov, Andrej N. 59, 73⫺ 74, 76⫺77, 261, 717, 722, 727⫺728, 734, 853, 860⫺862, 882⫺883, 962 Kolodner, Janet 825 Koma´rek, Miroslav 131 Kondrateva, Violetta A. 912, 915 Kondratjeva, Julia 927 Kondratov, Aleksandr M. 76⫺ 77 König, G. 776 König, Werner 533⫺534 Königova´, Marie 133, 379 Köpcke, Klaus-Michael 239 Kopeckij, Leontij 53⫺54 Kopylenko, M. M. 466 Korbut, Gabriel 624 Korneev, Lev A. 901 Körner, Theodor 427⫺428, 433⫺434, 443 Korol’ov, E. I. 461 Korvasova´, Kveˇta 131 Korzybski, Alfred 423 Kosarev, Yuri A. 843, 845⫺846, 923, 925
Namenregister / Name index Kossuth, K. 391 Kotelova, N. Z. 464⫺465 Kotov, R. G. 74 Kotz, Samuel 652, 654, 793⫺ 794, 797⫺800 Koza, John R. 825 Kozˇenec, Tamara 861, 866, 868⫺869 Kozima, Hideki 343 Kozˇina, M. N. 372, 381 Krajewski, Marek 746 Kra´lı´k, Jan 132⫺133, 380 Krallmann, Dieter 16, 18, 369, 377, 794 Kra´msky´, Jirˇ´ı 130, 373 Kraus, Jirˇ´ı 133, 371⫺372, 376⫺ 378, 381 Krause, W.913 Kravec, L. G. 465 Kreifelts, Barbara 18 Kreuzer, Helmut 18, 372 Krishnamurti, B. 642 Kristallinsky, Roman E. 752 Kristophson, J. 637 Kroch, Anthony S. 281⫺282 Kroeber, A. L. 308, 636⫺637 Kroeber, Karl 378 Kromer, Viktor V. 795⫺796, 859, 868, 874 Kronasser, Heinz 458 Krott, Andrea 224, 226, 235⫺ 238, 252⫺253, 255, 668, 671⫺674, 770, 793, 796 Krupa, Viktor 191, 196⫺198, 559, 562, 569, 582, 586, 752 Kruskal, Joseph B. 543, 637, 642⫺643 Kruskal, W. H. 751 Krylov, Jurij K. 122, 124, 460, 792, 794, 797 Krymolowski, Yuval 827 Kübarsepp, Ivi 915 Kubo, Yoshihide 84 Kucˇera, Henry 219, 314⫺317, 319, 460 Kudo, T. 812 Kudrjavskij, Dmitrij 25 Kühlwein, H. A. W. 146, 149 Kühnhold, Ingeburg 236 Kuhr, Saskia 799 Kukemelk, Hasso 911, 914 Kulagina, Ol’ga S. 71⫺73, 75 Kuleisa, Silke 264⫺265 Kulhavy, Raymond W. 913 Kulikowski, Casimir 822 Kumagai, Yasuo 92 Kunickij, V. N. 24 Kuno, Susumu 476 Kupfer, Helmut 951 Küpfmüller, K. 859, 864 Kupiec, James 294, 296 Kuraszkiewicz, Witold 364 Kuraszkiewicz, Władysław 120
Kurcz, Ida 119, 122, 314 Kutschera, Franz von 8 Kuz’min, Leonid. A. 752 Kwapisz, Wiesław 897 Kwiatkowski, Wladimir 825, 927
L Laan, N. M. 391 Laass, Franc¸oise 650, 797 Labbe´, Dominique 248, 374, 404 Labov, William 308, 472, 484, 558, 702⫺703 Lacik, M. 928 Ladd, D. Robert 137 Ladefoged, Peter 218, 536, 538 Lafferty, John 296, 828, 852, 862 Laine, Matti 893 Laird, Nan M. 293 Lakoff, Robin 479 Lambropoulou, Penny 137 Landauer, Thomas K. 342, 344 Landon, George M. 373 Landon, M. 988 Lange´, Jean-Marc 973, 980 Langendoen, D. Terence 784 Langer, Hagen 227, 241 Langer, Inghard 910, 912⫺913 Langer, Stanislav 871 Langer, Stefan 923 Langley, Pat 822 La´nsky´, Petr 364, 800 Lari, Karim 295 Larson, Ray R. 975 Lascaratou, Chryssoula 137 Lavrac, Nada 822, 829 Law, Vivien 233 Le, Quan Ha 963 Leary, Bernice E. 909⫺910 Lebart, Ludovic 333, 341, 344 Lecours, Andre´ R. 991⫺992 Lee, Hian Beng 827, 843 Leech, Geoffry 852, 903, 972 Leed, Jacob 372 Lehfeldt, Werner 4, 7, 20⫺21, 184⫺185, 188⫺190, 193⫺ 194, 215, 217⫺220, 229, 306, 430, 498, 554, 559, 562⫺563, 569, 579, 581⫺584, 586⫺587, 604, 649, 752⫺753 Lehmann, Christian 578⫺579 Lehnert, Wendy G. 827, 829 Lehrer, Adrienne 458 Lehr-Spławin´ski, Tadeusz 625 Leinbach, Jared 821 Leisi, Ernst 464, 466 Lejkina, Bella M. 993 Leng, Yulong 948 Leopold, Edda 628, 631⫺633, 701, 794⫺795 Lepik, Madis 912, 914 Leppermann, H. 616
1013
Namenregister / Name index Lerchner, G. 441 Leslau, Wolf 486 Lesochin, Michail 870⫺871, 873 Lesser, Ruth 895 Lesskis, G. A. 369 Leutner, Detlev 913 Levelt, Willem J. M. 858 Levi, Judith N. 417⫺418 Levickij, Viktor V. 119, 122, 314 Levie, W. Howard 913 Levin, E. 808 Levin, Joel 913 Levin, Jurij I. 740⫺741 Levinson, Stephen C. 840, 894 Levison, Michael 370 Lewicki, Andrzej 119, 122, 314 Li, Juanzi 108, 962 Li, Wentian 726⫺727, 795⫺796 Li, Xingde 110⫺111 Li, Xingjian 952 Liang, Nanyuan 102, 104, 949, 952 Lichtblau, K. 776 Lieber, G. 231, 237 Liebovitch, Larry S. 735 Liiv, Heino 333, 341, 380 Lim, Hyunjung 869 Lin, Lianhe 544, 962⫺964 Lindblom, Björn 700 Linder, Jean 914 Lindsay, Jayne 895 Lindvall, Ann 137 Linke, Angelika 227 Linoff, Gordon 827 Litman, Diane J. 829 Liu, Danqing 960⫺961 Liu, Jian 96 Liu, Lianyuan 107 Liu, Yinglin 952⫺953 Liu, Yuan 99, 102, 104⫺106, 949, 952 Livesay, Kevin 344 Livesey, Eleanor 301 Ljapunov, Aleksej A. 59, 72⫺73, 75 Ljung, M. 314 Lloyd, Paul 614 Lloyd, S. 735 Loatman, Bruce R. 925 Łobacz, Piotra 116⫺117 Lohse, Barbara 279⫺280 Lomkovskaja, M. V. 70 Long, Daniel, 92 Lord, R. D. 260, 370 Lorenz, Edward N. 698 Lorenz, M. 993 Lorge, I. 314 Lotka, Alfred 695, 701, 718 Lovins, Julie B. 984 Lowe, D. 392 Lua, Kim Teng 111, 949, 953, 961, 963⫺964 Lucas, Simon 934
Lucassen, J. 932, 934 Lucke, Helmut 842 Ludeen, D. M. 317 Lüdtke, Helmut 614 Ludvikova´, M. 132, 378 Luhn, Hans Peter 974⫺975 Lui, Ho Chung 112 Lujewa, N. 440 Luk, Robert 933 Luk’janenkov, Kuz’ma 870⫺ 871, 873 Luk’janov, S. M. 29⫺31 Łukaszewicz, Jo´zef 120 Lukencˇuk, A. V. Lukic´, V. 317 Lund, Kay 344 Lundberg, G. A. 149 Lunde, Ken 103⫺104 Luo, Chi-Ching 110 Lurija, Aleksander R. 912, 988, 995 Lutosławski, Wincenty 119⫺120, 371 Lyons, John 466, 739
M Maas, Heinz-Dieter 364 Macaluso-Haynes, Sara 895 Macherey, K.812 Mackintosh, Kristen 972, 980 Mackovskij, Mihail S. 914 MacNeillage, P. 700 MacWhinney, Brian 821 Maddieson, Ian 215, 224⫺225, 562⫺563, 569 Madigan, Stephen 251 Magana, Anastasia 138 Magdics, Klara 794 Magerman, David M. 822, 828⫺ 829, 852⫺853 Mahadevan, Iravatham 721⫺ 722 Maher, Brendan A. 988, 994⫺ 995, 998 Makarskaya, Svetlana 926 Makridakis, Spyros 741 Maksimenko, T. V. 999 Malavazos, Christos 139 Malinowski, Bronislaw K. 971 Malov, A. V. 462 Manandhar, Suresh 825 Man´czak, Witold 126, 372, 621 Mandelbrot, Benoıˆt 4, 70, 120⫺ 121, 123, 149⫺150, 326, 336, 406⫺407, 652, 699, 716, 726, 728, 732⫺734, 793, 795⫺796, 800, 881, 989 Mandl, Heinz 913 Mani, Inderjeet 926 Manning, Christopher D. 341, 344, 822, 848
Maratsos, Michael 138 Marbe, Karl 208, 210⫺211, Marcken, Carl de 296 Marcu, Daniel 927 Marcus, Mitch P. 852 Marcus, Solomon 342, 874 Mareschal, Michel 887 Margolus, Norman 699 Margueron, Claude 609 Marin, Janet 828 Mariotti, Filippo 3 Mark, Kevin E. 862 Markantonatou, Stella 139 Markner-Jäger, B. 460, 668, 680, 794 Markov, Andrej A. 3, 36⫺38, 40, 371 Marle, Jaap van 249 Ma`rquez, Lluı`s 828 Martin, Robert 308, 447 Martin, S. 811 Martin, Willy 373 Martina´kova´-Rendekova´, Zuzana 285, 367, 761, 773, 795, 800 Martindale, Collin 194, 392, 652, 654, 796, 999⫺1000 Martinet, Andre´ 149, 194, 778⫺ 779, 785⫺786, 788 Martynenko, Grigorij J. 371⫺ 372, 794 Marusenko, Michail A. 372 Marx, Wolfgang 381 Marziali, Alessandro 274 Masand, Briji 827 Mase, Yoshio 92 Masˇkina, Ljudmila E. 859, 927 Maslova, Elena 278, 555, 557⫺ 558, 566⫺568, 571, 573 Maslowski, W. 314 Mason, Jana M. 912 Mathesius, Vile´m 130, 132, 432 Matsui, Kunio 106 Matsuura, Tsukasa 91 Matthews, Peter H. 227 Matthews, Robert 392, 394 Matula, Milosˇ 133 Mayenowa, Maria R. 121 Mayer, Richard E. 913 Mayerthaler, Willi 596, 701, 787 Mayzner, M. S. 314 Mazˇejka, N. S. 314 McCafferty, Kevin 275, 282 McCarthy, Joseph F. 829 McCleary, Richard 741 McClelland, James L. 705, 821, 892 McColly, W. B. 388 McCulloch, Neil 934 McEnery, Tony 901 McGill, Michael J. 344, 975 McGill, W. J. 897 McIntosh, Angus 466
1014 McIntosh, Robert P. 429 McIntyre, B. 391 McKenzie, Dean 194, 392, 652, 654, 796 McKeown, Kathleen R. 927, 979 McKinnon, Alastair 372⫺373 McLaughlin, G. Harry 915 McMahon, April & Robert 642 McMahon, April 634 McNeil, Donald R. 364 McWhorter, John H. 276 Mead, R. 402 Mears, John E. 914 Medrano, Paulina 799 Medvedev, Vsevolod I. 999 Mehler, Alexander 327, 331, 341, 344 Meier, Helmut 17⫺18, 781, 924 Meillet, Antoine 144, 609, 622⫺ 623, 625 Meineke, Eckhard 787 Meißner, B. 392 Mel’cˇuk, Igor’ A. 71⫺72 Mellish Chris 821 Me´nard, N. 389⫺390 Mende, Werner 696, 700 Mendenhall, Thomas C. 371, 387 810 Menezes, A. 813 Menn, Lise 892⫺893 Mennen, Ineke 137 Menzel, Cornelia 98, 770, 948⫺ 949, 965 Menzerath, Paul 17⫺18, 70, 191, 203, 224, 261, 650⫺661, 682 Mercer, L. R. 808 Mercer, Robert L. 822, 932 Merialdo, Bernard 812, 972 Meriggi, Piero 144 Meringer, R. 622⫺623 Merriam, Thomas 392 Merzyn, Gottfried 912 Metoyer-Dyran, Cheryl 915 Meyer, Ernst A. 688 Meyer, Ingrid 972, 980 Meyer, Lothar 913 Meyer, Peter 264⫺265, 799 Meyer-Eppler, Werner 4, 17, 217, 222 Meyer-Lübke, Wilhelm 609, 614, 620 Michael, Jörg 543 Michaelson, S. 377, 394 Michajlova, Irina V. 871 Miche´a, Rene´ 313, 899, 901 Miha˘escu, Haralambie 611 Mikerina, Tat’jana A. 859 Mikhailov, Andrei 843, 845⫺846 Mikhlin, Grigorij Z. 875 Mikk, Jaan 343, 909, 911⫺916 Mikros, George 137⫺139 Milbury-Steen, J.903 Miles, Josephine 377, 381
Namenregister / Name index Milevskij, Tadeus 752 Milford, G.903 Milic, Louis T. 371, 373, 377 Miller, D. E. 317 Miller, Diane 893 Miller, George A. 142⫺143, 407, 467, 652, 726, 728, 740, 795⫺796 Miller, James G. 191 Miller, Michael I. 862, 875 Mills, Anne E. 239 Milroy, Lesley 895 Minami-Manshuu Kyooikukai 84⫺85 Minker, Wolfgang 842, 934 Mistrı´k, Jozef 314, 317, 371, 375 Mitchell, Melanie 825 Mitchell, Tom 822 Mithun, Marianne 278, 600 Miyajima, Tatsuo 941⫺942 Mizutani, Sizuo 85⫺88, 91, 93, 235, 364, 976 Mobasher, Bumshad 344 Moe, Alden J. 914 Mohri, Takao 826 Moles, A. A. 321 Molosˇnaja, Tat’jana M. 71⫺72 Monroe, George K. 219 Montroll, Elliott W. 731 Moody, James E. 995 Mooney, Raymond J. 822, 829⫺ 830 Moore, Andrew 825 Moreno, Roxana 913 Morgan, Augustus de 260, 370, 387 Morgan, Nelson837 Morioka, Kenji 939, 942 Moriwaki, Kaname 84 Morkovkin, V. V. 314 Morozov, Nikolaj A. 37⫺39, 371 Morrissey, P. 391 Morton, Andrew Q. 370, 377, 387, 394 Mosenthal, Peter B. 914 Moser, Hugo 779, 785⫺786, 788 Moses, L. 642 Moskovicˇ, V. A. 461, 466, 469 Mosteller, F. 373, 387⫺389, 392, 726 Mottron, Laurent 328⫺329, 702 Moxey, L. M. 394 Mucha, Hans-Joachim 536, 544 Muchamedov, Sabit A. 868 Müller, Barbara 799 Muller, Charles 4, 18, 21 371, 373⫺376, 380, 800 Müller, F. 696 Müller, Werner 364 Muravycka, M. P. 458 Murre, Jaap 821 Musurivska, O. V. 467
Myers, Jerome L. 915 Myhill, John 476, 481, 485, 489, 494⫺495, 559, 560, 604⫺605
N Nadarejsˇvili, Isabella Sˇ. 194, 364, 652, 792, 795 Nadas, A. 810 Nagao, Makoto 827 Nagata, Shin 84 Nago´rko, Alicja 118 Nagy, Ga´bor T. 370 Nair, K. K. 722 Nakagawa, Hiroshi 983 Nakano, Hiroshi 91 Naranan, Sundaresan 308, 407⫺ 408, 718, 720⫺735, 792⫺ 793⫺795, 798, 881⫺885, 889 Narrog, Heiko 587, 589 Natarajan, Ballas K. 822 Natsopoulos, Demetrios 138 Naumann, Carl Ludwig 532⫺ 533, 535⫺537 Naumann, Sven 808 Nauta Jr., Doede 857⫺858, 862 Nedobrovo, N. V. 31 Nehaj, Olga A. 927 Narrog, Heiko 587, 589 Nejt, Anneke 248, 403 Nemcova´, Emı´lia 651, 800⫺801 Nerbonne, John 547 Nesˇitoj, V. V. 364 Nespor, Marina 137 Nespoulous, Jean-Luc 893 Nestler, Käte 913⫺914 Nettle, Daniel 223, 639 Neuhaus, Hans J. 248 Nevel’skij, Pe¨tr B. 858, 860 Newell, Alan 923 Newman, Julian 857 Newmeyer, Frederick J. 278 Ney, Hermann 808⫺809, 811⫺ 818 Ng, Hwee Tou 827 Nguyen, Sy Ty 913 Nichols, Johanna 275, 555, 557, 560, 562⫺564, 569⫺570, 573⫺574, 587, 589, 591⫺593, 598⫺599, 601⫺602, 604 Nicolis, Cathy 726 Nicolis, Gre´goire 418, 726, 887⫺ 888, 891 Nicolis, John S. 726 Nida, E. A. 227 Niehaus, Brigitta 256, 301, 798⫺ 799 Niemi, Jussi 893 Niemikorpi, A. 313, 317 Nießen, S. 808, 816 Nikandrov, Nikolai D. 916 Nikitopoulos, Pantelis 18, 374
1015
Namenregister / Name index Nikoladze, K. Ja. Nikolaeva, Tat’jana M. 59,77 Nikolaidis, Katerina 139 Nikonov, Vladimir A. 194 Nilson, Osvald 912 Nirasawa, Tadashi 91 Nishimoto, Eiji 950 Niyogi, Partha 821 Nomura, Masaaki 940⫺941, 943⫺944 Nonnenmacher, F. 914 Noreault, Terry 975 North, Alvin 895 Norton, Robert E. 747 Nöth, Winfried 328 Novak, Lidia 872, 875 Nova´k, Pavel 133 Nozaki, Hironari 940 Nübold, Peter 18 Nurius, Paula S. 740⫺741 Nusbaum, Howard C. 933 Nussbaumer, Markus 227 Nuyts, Jan 12 Nyman, Martti 587 Nymm, Voldemar 926
O O’Brien, Edward J. 915 O’Brien, Paul 902 O’Donnell, Bernard 369, 373 O’Grady, R. 634 O’Shea, M. V. 317 O’Sullivan, Joseph A. 875 Obler, Loraine 892⫺893, 895 Obre˛bski, Tomasz 118 Obuchova, N. V. 460 Och, F. J. 808, 812, 814⫺816, 875, 927 Ogata, Hiroaki 900 Ogura, Mieko 282 Ohlsen, Richard A. 809, 828 Okabe, Atsuyuki 503, 545 Ol’chin, P. 38 Olsˇanskij, J. G. 459 Olson, Kenneth 559 Oltman, Philip K. 993 Oltmanns, T. F. 993 Omne`s, Roland 715 Omohundro, Stephen 295 Ondar, Kh. O. 36 Oomen, Ursula 328 Oonishi, Masao 83, 84 Ooyama, Yoshifumi 828 Oppenheim, R. 390 Oppenheim, Rosa 748 Ord, J. Keith 211, 258, 264, 270, 794, 798 Orlov, Jurij K. 4, 145, 147⫺148, 194, 267, 334⫺337, 344, 364, 389, 400, 652, 792⫺793, 795⫺796, 800, 995, 998
Orth, Bernhard 499 Ortmanns, S. 816 Osborne, Randy 295 Osgood, Charles 219⫺220 Oswalt, Robert L. 637⫺638 Otanes, Fe T. 482 Otkupsˇcˇikova, Marija I. 993 Oudart, Paul 905 Ovsjannikov, Aleksandr O. 900
P Pääkkönen, Matti 194 Pacholok, H. M. 467 Paducˇeva, Elena V. 70 Pagoni, Stamatoula 137 Paiva Alves, Eduardo de 274 Paivio, Allan 251 Palek, Bohumil 131 Palermo, D. S. 651 Palkova´, Zdena 133 Palmer, Frank 381 Palmer, Martha 112 Panagopoulos, E. 136, 138 Panjer, Harry H. 652 Pante´ra, Laurent 982, 984 Papadopoulou, Despina 138 Papageorgiou, Harris 138⫺139 Papavasileiou, Basilis 136 Papazachariou, Demetris 138 Paper, Herbert H. 184⫺185 Papineni, K. 812, 818 Papp, Ferenc 23, 65, 67, 460 Paradis, Michel 895 Paramskas, D. M. 903 Pareto, Vilfredo 716, 718, 732, 793 Parfitt, S. 933 Parker, H. A. 371, 377 Parker, Roscoe E. 371 Parker-Rhodes, Arthur F. 793, 798 Parry, Milman 371 Parzinger, P. 371 Paskaleva, Elena 902 Pasˇkovskij, Vladimir E. 857, 889⫺893, 995⫺998, 1000 Pasxalis, S. 136 Paul, Hermann 459, 775, 779 Pavlidou, Theodossia 137 Pavlov, Ivan P. 988 Pawłowski, Adam 117, 120⫺ 122, 390, 741⫺748 Payne, Doris L. 600 Pazienza, Maria Teresa 274 Pearl, Judea 842 Pearson, Jennifer 958 Peck, Gwendoly´n 914 Peeck, Joan 913 Peirce, Charles S. 330, 538 Peitgen, Heinz-Otto 698 Penke, Martina 893
Pensado, Jose´ L. 12 Perebejnos, Valentina I. 369, 372, 378 Pereira, Fernando 295 Perera, Katharine 916 Pericliev, Vladimir 565 Perkins, Lisa 895 Perkins, Revere D 554⫺558, 569, 573 Perline, Richard 726 Perry, John 327 Peschel, Manfred 696 Pesˇkovskij, Aleksandr M. 27, 44⫺45, 53, 56⫺57, 60 Pestunova, Valentina 870 Peterson, David A. 275 Peterson, Michail N. 26⫺27, 53, 56⫺57, 59⫺60, 70 Petitot, Jean 416 Petitot-Cocorda, Jean 700, 702 Peto˝fi, Ja´nos S. 431 Petra´sek, S. 133 Petrova, Natal’ja 872⫺873 Petrova, S. 317 Petruszewycz, Micheline 740 Pfingsten, Friedericke 227 Phal, A. 314 Phelan, W. S. 388 Phillips, Martin 332 Picard, Marc 614 Piepenbrock, Richard 229, 243 Pieper, Ursula 325, 330, 333, 339, 340 Piirainen, Ilpo T. 19 Pinker, Steven 710 Pinson, Suzanne 498 Piotrovskaja J Piotrowska Piotrovskij J Piotrowski Piotrowska, Anna 14, 71, 155, 169, 261⫺262, 751, 793, 857⫺858, 903 Piotrowska, Weronika 988, 990, 992⫺993, 995, 1000 Piotrowska, Xenia (Piotrovskaja, Ksenija) 903, 905 Piotrowski, Rajmond G. (Piotrovskij, Rajmund G.) 4, 21, 70⫺72, 155, 169, 261⫺262, 308, 321, 326⫺327, 338, 344, 751, 793, 857⫺858, 860⫺863, 865, 870, 873⫺875, 899⫺901, 903, 922⫺923, 925⫺926, 928⫺929, 988⫺990, 992, 995 Piperidis, Stelios 138⫺139 Pisarek, Walery 121, 314 Plag, Ingo 247, 250 Plank, Frans 278, 554, 559, 575, 588 Plass, Jan L. 913 Plath, Peter J. 699 Platzack, Christer 916 Plaza, Enric 825 Ple´h, Csaba 895
1016 Plochinskij, N. A. 994 Plungian, Vladimir 587 Podehl, Ralf 799 Poincare´, Henri 693, 698 Pokorny, Julius 639 Pola´k, J. 133 Polanco Roig, Lluı´s B. 510 Polat, Elena 901 Poletaev, Igor’ A. 74 Polikarpov, Anatolij A. 459⫺ 463 Politzer, Robert 609⫺610 Polivanov, Evgenij D. 26, 60⫺ 61, 66 Poole, Keith T. 561 Popeskul, Anatolij N. 922, 925⫺ 926 Popovic, Mirko 984 Popper, Karl R. 8, 348 Port, Robert F. 413 Portmann, Paul R. 227 Porzig, Walter 466, 468 Post, Rudolf 533 Post, Stephen D. 925 Pott, A. F. 261, 614 Prasada, Sandeep 710 Prell, Heinz Peter 236 Preston, Keith 926 Prigogine, Ilya 418, 689, 761, 887⫺888, 891 Prikk, Evi 912 Prince, Alan 784, 788 Prince, Ellen F. 474⫺476, 478, 495 Prinou, Eirini 136 Proskurnin, N. 38 Pru˚cha, Jan 131, 149 Prün, Claudia 143, 149, 730, 793, 796 Pszczołowska, Lucylla 121 Pudlatz, H. 545 Putschke, W. 532, 535, 537 Pylyshin, Zenon W. 373
Q Qiu, Xigui 948 Quasim, Erika 580 Quinlan, John R. 822, 827, 829
R Rabe, H. 775 Rabin, Annette T. 914 Rabiner, Lawrence R. 813⫺814, 839 Rachmanov, J. V. 459 Rachwałowa, Maria 122 Radford, Andrew 782 Radil-Weiss, Tomas 364, 800 Raether, Anette 650⫺651
Namenregister / Name index Ragin, A. B. 993 Raitar, Siiri 866, 870 Rajman, Martin 333 Raleigh, Donna 902 Ramakrishna, B. S. 722, 725 Rand, David 484 Rapoport, Anatol 423, 792⫺793, 795 Rastrigin, Leonard A. 898 Ratkowsky, David 364, 376, 800 Ratnaparkhi, Adwait 811, 875 Rauch, M. 909 Rauh, Jürgen 507 Razumovskij, Vasssili G. 916 Reder, Lynne M. 251 Redner, Sidney 732 Reformatskij, Aleksandr A. 23, 59, 68, 75 Reichenkron, Günter 609 Reilly, Ronan G. 825 Reischies, Friedel M. 993 Reithinger, N. 817 Rentzepopoulos, Panagiotos 138 Renuf, Antoinette 246⫺248 Re´nyi, Alfred 736, 880 Repkina, G. V. 916 Resnik, Philip 821 Rettweiler, Hildegard 670 Revzin, Isaak I. 70⫺71, 73, 75⫺ 76, 318 Rexova´, K. 642 Reynolds, Allan G. 373 Rheinländer, Nicole 267 Riccardi, Giuseppe 808, 813, 842 Richardson, S. D. 813 Richman, Barry 314⫺317, 321, 899 Richter, Elise 144 Richter-Dyn, Nira 628 Rickheit, Gert 328⫺329 Riedemann, Gesa 264, 266 Riesbeck, Christopher 825 Rijkhoff, Jan 275, 555⫺556 Riloff, Ellen 822, 825, 827 Ringe, Donald A. Jr. 634, 638, 642 Rinsland, H. D. 314, 317 Ritter, Constantin 371 Rivanc, Paul 313, 899, 901 Roberts, Aaron H. 191, 350, 390, 669, 670 Roberts, Alan 743, 748 Robins, Robert H. 233 Robinson, Derek 709 Rocˇeric, Alexandra 860 Rocławski, Bronisław 116 Rodrı´guez, Horacı`o 828, 924 Roelcke, Thorsten 780, 783, 788 Rogers, Francis M. 142⫺143, 147, 149 Rohlfs, Gerhard 609⫺611 Rohr, W. Günther 778 Romanov, Yuri 923
Romanova, T. A. 274⫺275, 467 Ronneberger-Sibold, Elke 779, 780, 785⫺788 Ronzhin, Andrey L. 843 Roos, Eckhard 466 Roossin, Paul S. 929 Rooth, Mats 851 Rosch, Eleanor 784, 788 Rosenberg, Charles R. 934 Rosenberg, Newton M. 913 Rosengren, Inger 424, 436, 445 Rosetti, Alexandru 624 Ross, Alan S. C. 191, 636⫺639, 642 Ross, Donald Jr. 376, 390, 744 Rossel, Peter 913 Rössler, Otto E. 697 Roth, M. 295 Rothe, Ursula 20, 228, 233, 236⫺237, 460, 646, 650⫺651, 668, 678⫺680, 794, 798 Rott, Walter 282, 372, 627⫺628, 639 Röttger, Winfred 799 Rottmann, Otto 308 Rouault, Alain 798 Roudet, L. 659 Roukk, Maria 301 Roukos, Salim 296, 812, 818 Rousseau, Ronald 98, 962⫺963 Rousseeuw, Peter J. 544 Rozenbaum, Michail D. 858, 860, 871 Rozencvejg, Viktor Ju. 72⫺75 Rozwadowski, Jan 624 Rubin, Andee 914 Rubin, Donald B. 293 Rude, Noel 483 Rudman, J. 394 Ruhani, M. 314 Rumelhart, David E. 705, 821, 892 Rumpel, Dieter 871 Rutten, C. 317 Rutter, D. R. 989
S Saam, Christian 774 Saaty, Thomas L. 442 Sabourin, Conrad F. 16, 1003 Sadcˇikova, P. V. 317, 1003 Sadock, Benjamin J. 992 Sadock, Virginia A. 992 Sadowski, K. 914 Saf’jan, J. A. 314 Safarewicz, Jan 611 Sagisaka, Yoshinori 928 Saiga, Hideo 940, 942 Sˇajkevicˇ, A. Ja. 467 Sakai, Hiromu 869 Sakamoto, Ichiroo 85
1017
Namenregister / Name index Salem, Andre´ 333, 341, 344 Salmelin, Riitta 892 Saloni, Zygmunt 188 Salton, Gerard 344, 974⫺975, 977 Salzberg, Steven 825⫺826 Sambor, Jadwiga 115, 119, 121⫺ 121, 124⫺125, 308, 314, 375, 448⫺449, 452, 456⫺457, 460, 668, 679, 793 Sams, M. 901 Samuels, S. Jay. 909, 913⫺914 Sanada, Shinji 92 Sandefur, James T. 352 Sanders, A. 903 Sanders, Ruth H. 903 Sandig, Barbara 779 Sanford, A. J. 394 Sankoff, David 292, 484, 511, 543, 638 Sˇanskij, N. M. 466 Sapir, Edward 579, 581, 583 Saporta, Sol 182, 219⫺220 Sappok, Christian 332, 741 Saramago, Joa˜o 510 Sas, L. F. 610 Sasahara, Hiroyuki 940 Satake, Hideo 91, 939, 940, 943 Saukkonen, Pauli 136, 274⫺275, 280, 313, 317, 381 Sˇaumjan, Sebastian K. 68 Saupe, Dietmar 698 Saussure, Ferdinand de 25, 53, 624, 739, 825, 857 Savic, Michael 924 Savin, Harris B. 913 Sawayanagi, Seitaroo 84 Sˇcˇeglov, Jurij K. 77 Sˇcˇerbina, Fedor A. 24 Scha, Remko 827 Schaal, Charles 825 Schabes, Yves 295, 297, 854 Schachter, Paul 482 Schade, Ulrich 892 Schaeder, Burkhard 233 Schalow, Susan R. 914 Schank, Roger 825 Schanze, Helmut 18 Schegloff, Emanuel A. 471, 894 Scheler, Gabriele 822, 825 Schellinger, Wolfgang 559 Scheurle, Daniela 735 Schierholz, Stefan J. 235, 459, 460, 462 Schiffrin, Deborah 472 Schils, Erik 390, 394, 748 Schiltz, Guillaume 500, 534, 537 Schippan, Thea 459, 464⫺465 Schleicher, August 24, 580, 641 Schlenck, Klaus-Jürgen 894 Schlesinger, I. M. 912 Schlismann, Annemarie 376 Schmid, Hans-Jörg 784
Schmid, Helmut 828 Schmidt, Siegfried J. 445 Schmidt, Wilhelm 459, 466, 779 Schneider, Edgar W. 495, 499 Schnotz, Wolfgang 913 Schogt, Henry 620 Scholfield, Phil 138 Scholz, Christian 777 Schreuder, Robert 231, 237⫺ 238, 250⫺253 Schröder, Ulla 270 Schrödinger, Erwin 878, 885⫺ 886 Schroeder, Manfred 350, 731, 792 Schultink, Henk 243, 249 Schultz v. Thun, Friedemann 910, 912 Schultz, T. 924 Schulz, Klaus-Peter 191, 196⫺ 199 Schumacher, Frank 235 Schuster, Heinz Georg 698 Schütze, Hinrich 341, 344, 822 Schuyler, Michael R. 909, 914 Schwan, E. 620 Schwarz, Claudia 351, 353, 434 Schweers, Anja 234, 801 Schwibbe, Michael H. 20, 255, 308, 349⫺350, 360, 432, 664, 666, 668⫺669, 670⫺671, 681⫺684, 686, 730, 792⫺793 Schwier, Christa 913 Searle, John R. 471, 778⫺779 Segal, Dmitrij M. 65, 76, 194 Seguier, N. 988 Se´guy, Jean 21, 498 Seiler, Hansjakob 594 Sejnowski, Terrence J. 934 Sˇelimova, I. N. 70 Selvin, Hanan C. 381 Semenjuk, T. 469 Sˇengeli, Georgij 30, 33⫺35, 43, 49, 76 Sereno, Joan 137, 253 Servan-Schreiber, David 1000 Service, Elisabet 892 Setnickij, Nikolaj 31, 39⫺40 Sevestre, P. 988 Seyffert, Peter 65, 68, 75 Sgall, Petr 431, 433 Sgarbas, Kyriakos 138, 932 Shadily, Hassan 193 Shaikevich, A. Ya. 373 Shane, M. L. 316 Shannon, Claude 4, 76, 91, 131, 217, 708, 716, 726⫺727, 728, 732, 734⫺735, 739⫺740, 747, 859⫺860, 875, 878⫺879, 880⫺886, 899, 963, 980 Sharkey, Noel E. 825 Shaterian, A. 614 Shen, Dayang 106
Shen, Xu 96 Shen, Xukun 106 Shenton, Leanne R. 798 Sherman, Lucius A. 3, 298, 371, 377 Shibata, Takeshi 937 Shibuya, Masaaki 88 Shih, Chilin 106 Shimuzu, Kunio 731 Shipman, Dave 932 Shirai, Satoshi 828 Shlesinger, Michael F. 731 Shtrikman, S. 798, 962 Shultz, C. 726 Siatkowski, Janusz 624 Sibata, Takesi 92 Sichel, H. S. 299, 389, 400, 793, 796, 800 Sicilia-Garcia, E. I. 963 Sierpinski, Waclaw 699 Siewierska, Anna 554, 570, 575, 598, 601⫺603, 739 Sigurd, Bengt 194, 650, 797 Sil’nitskij Georgij G. 468, 752, 754, 758 Silnitsky, George (Sil’nitskij Georgij G.) 229, 378, 752⫺755, 758 Sima’an, Khalil 827, 854 Simmons, Robert F. 827 Simon, Herbert A. 364, 407, 653, 727, 793, 796, 800 Simov, Kiril 902 Simpson, E. H. 374, 389⫺390, 571 Sinclair, John M. 466, 972 Singh, S. 392 Sioran, Siril 901 Sˇirokov, Oleg S. 71 Siskind, Jeffrey 821 Sˇjarnas, Vitautas I. 915 Skalicˇka, Vladimı´r 579, 581, 583⫺587 Skalmowski, Wojciech 127 Skiba, V. P. 495 Skinner, Berres F. 901 Skinner, Burrhus F. 332, 740 Skousen, Royal 253, 705, 711, 713⫺715, 825 Slama-Cazacu, Tatiana 860 Slator, Brian M. 928 Sleator, Daniel 296 Slutzki Giora 821 Smadja, Frank 927, 979 Smith, Adam 776 Smith, Adolph E. 364, 366 Smith, F. 916 Smith, Jason A. 726 Smith, Joseph 389 Smolensky, Paul 784, 788 Sneath, Peter H. A. 498, 536, 641 Sochor, Aron M. 913
1018 Söderpalm, Eva 892 Sodeur, Wolfgang 499 Sokal, Robert R. 498, 536, 634, 636, 641 Sokolova, Svetlana V. 905 Somers, Herman H. 370⫺371, 374, 381, 795, 859, 874 Song, Shaozhou 952⫺953 Southworth, Franklin C. 341 Souza, Peter V. de 815 Spang-Hanssen, Henning 979 Sparck-Jones, Karen 976 Sperber, Dan 778 Spevack, M. 317 Spinks, Nelda 914 Spitzbardt, Harry 65 Spitzer, Manfred 988, 995, 998 Spivak, Dmitrij L. 998⫺999 Spolnicka, S. V. 307, 460⫺461 Spolsky, Bernard 901 Sproat, Richard 106, 250 Sˇrejder, J. A. 795 Srivastava, Jaideep 344 Stadlober, Ernst 178 Stan, Ionel 552 Standal, Timothy C. 914 Stanfill, Craig 825⫺826, 933 Stanislav, Jan 625 Stanley, H. Eugene 738 Stanley, J. C. 751 Stark, Alexandra B. 269 Stark, Jaqueline 896 Starkweather, J. A. 317 Stavrakaki, Stavroula 138 Steblin-Kamenskij, M. I. 72 Steel, S. 599, 601⫺603 Steffen-Bato´g, Maria 116⫺117 Stegmüller, Wolfgang 532 Stein, G. Z. 402 Steinbiss, V. 808 Steiner, Peter 27 Steiner, Petra 233⫺236, 770, 793 Steinitz, Wolfgang 468 Sˇtejnfel’dt, E˙. A. 317, 320 Stemmer, Brigitte 892, 895 Stepanov, Arthur V. 582⫺583 Stepanowa, Marija D. 228 Stephens, Laurence D. 562⫺563, 569, 638 Sˇtindlova´, Jitka 131 Stitz, Katrin 269 Stolcke, Andreas 295 Stolz, W. S. 810 Stone, Philip J. 828 Stonier, Tom 886⫺887, 889 Strauß, Udo 332 Strehlow, Michael 301 Stricker, Lawrence J. 550 Strietzel, Horst 912⫺913 Strobel, Heike 270 Strohner, Hans 328⫺329 Strube, Gerhard 381 Struve, Petr B. 24
Namenregister / Name index Stuart, Alan 198⫺199 Stubbs, Michael 326 Studdert-Kennedy, Michael 700 Su, Peicheng 98⫺100 Suchier, Hermann 620 Sugano, Ken 91 Sugihara, Kokichi 503, 545 Sullivan, Kirk P. 933 Sˇumilina, A. L. 70 Sumita, E. 813 Sun, Chaofen 494, 497 Sun, Jianyi 99, 962 Sun, Maosong 105⫺106 Sun, Wie 961⫺962 Sundt, Björn 652 Suppes, Patrick 292 Suprun, A. J. 314, 469 Sütterlin, L. 144 Svoboda, Alesˇ 133 Swadesh, Morris 309 S´wieczkowski, Walerian 377 Sykes, B. C. 642
T Taft, Marcus 253 Tagliavini, Carlo 317, 924 Tajima, Kazuo 937 Takagi, Midori 942 Takagi, Moriyasu 942 Takezawa, Toshiyuki 928 Tallentire, David R. 373, 377 Talmy, Leonard 421 Tamaoka, Katsuo 869 Tambouratzis, George 139 Tambovcev, Jurij A. 378 Tan, Qiang 106 Tanaka, Akio 377, 941 Tanaka, Hosumi 827 Tanaka, Suehiro 84 Tanaka, Tatsumi 940 Tang, Zhixiang 110⫺111 Tannenbaum, P. H. 810 Taranov, Leonid N. 916 Tart, Charles 999 Tausch, Reinhard 910, 912⫺913 Taylor, Martin M. 912 Taylor, Ann 281, 634, 642 Taylor, G. 391 Taylor, Insup 912 Tekavcˇic´, Pavao 609 Terada, Torahiko 83 Terbeek, Dale 551 Tesak, Jürgen 893 Teˇsˇitelova´, Marie 131, 239, 270, 371⫺377, 380⫺381 Tessiore, L. 817 Testelets, Yakov G. 569 Teupenhayn, Regina 668, 730 Thal, Donna 988 Thavenius, Jan 372⫺373 Thiessen, Alfred H. 503, 509⫺ 510, 544⫺545
Thisted, R. A. 387, 391, 399, 719, 721 Thoiron, Philippe 372, 374, 389 Thom, Rene´ 411⫺413, 688, 692⫺694 Thomas, Herbert 901 Thomas, Joy A. 858 Thompson, Chad 473, 477, 483 Thompson, Richard A. 292 Thompson, S.A. 486 Thorndike, E. L. 84, 98, 146, 314, 717, 909 Thumb, Albert 16⫺17, 208, 210 Thümmel, Wolf 276, 604 Tibshirani, R. J. 808 Tillmann, C. 815⫺816 Tioun, Elena Toffoli, Tommaso 699 Tokunaga, Takenobu 827 Tomasˇevskij, Boris V. 26, 29, 31⫺33, 35⫺36, 40, 42⫺53, 76, 740 Tombor, B. 732 Tomlin, Russell S. 556⫺557, 599, 601, 605 Tomson, Aleksandr I. 53 Toporov, Vladimir N. 56, 70, 75 Toppan, Insatsu 91 Torgerson, Warren S. 549⫺550 Toulmin, G. H. 391, 399 Tresselt, M. E. 314 Triantafyllou, Ioannis 139 Tripathi, Ram C. 797 Trnka, Bohumil 130⫺132, 146, 182 Troll, G. 726 Trubetzkoy, Nikolaj S. 60, 181⫺ 182, 261 Trudeau, G. B. 479⫺480 Tsapkini, Kvrana 138 Tse, E. K. 389, 392 Tsimpli, Ianthi-Maria 138 Tsonis, Anastasios A. 726 Tsuchiya, Shin’icki 939, 943 Tsukahara, Nobuyuki 941 Tsuruoka, Akio 92, 940 Tuldava, Juhan 4, 25, 199, 261⫺ 262, 274, 285, 308, 319, 325⫺327, 330, 333, 335⫺337, 339⫺341, 343⫺344, 364, 367, 370, 372⫺376, 378⫺381, 460⫺462, 467, 649, 724, 751, 793⫺796, 798, 800, 871, 910, 912, 914 Tuttle, H. 372 Twaddell, W. Freeman 144 Tweedie, Fiona J. 248, 274, 280, 364, 376, 389⫺394, 404⫺405, 740
U Uba´r, L. 314, 317 Udarceva, M. G. 74 Ueffing, N. 816
1019
Namenregister / Name index Uhlenbeck, Eugenius M. 191 Uhlı´rˇova´, Ludmila 132⫺134, 264, 268, 274⫺275, 280, 308, 650, 652, 795, 797, 800⫺801 Uibo, Heli 915⫺916 Uit den Boogaart, Piet C. 245 Ujomov, A. I. 501 Ulatowska, Hanna 895 Umino, Bin 972⫺973, 976 Ungerer, Friedrich 784 Uritescu, Dorin 552 Ushijima, Yoshitomo 84 Usova, Antonina V. 912, 916 Uspenskij, Vladimir A. 59, 69⫺ 72, 74, 76
V Väänänen, Veikko 609, 627 Vachek, Josef 130, 132⫺133 Valdois, S. 893 Valentini, Erwin 926 Valenza, R. J. 391 Valiachmetova, Diana R. 902 Vallance, Michael 901 van Coile, Bert 932, 934 Van den Bosch, Antal 712 van den Hout, E. 534 Van der Auwera, Johan 573⫺ 574 van der Elst, Gaston 779 Van der Sloot, Ko 827 van Dijk, Teun A. 431, 433, 437⫺438, 739 van Gelder, Timothy 413 van Leeuwen, Hugo C. 932 van Rijn, H. 229 Vander Beke, G. 317 Vanecek, Erich 909, 912, 914, 916 Vapnik, Vladimir N. 578, 822 Varsˇavskij, L. A. 69 Vasˇa´k, Pavel 133 Vasjutocˇkin, G. S. 741 Vasmer, Max 624 Velinova, I. 317 Vennemann, Theo 559, 787 Verbickaja, Ljudmila A. 873 Vesper, Guntram 211 Vettermann, Aniko´ 270, 800 Vetulani, Graz˙yna 118, 122 Vetulani, Zygmunt 118, 122 Viehoff, Reinhold 18 Viehweger, Dieter 423⫺425, 432, 440 Viereck, Wolfgang 21, 499 Villup, A. 314 Vinogradov, Viktor V. 68, 459, 466 Vinokur, Grigorij O. 26, 42⫺43, 56, 59 Vlaseva, K. 317
Vogel, Frank 533 Vogel, Friedrich 498, 511 Vogt, Hans 181 Volkmann, Lutz 442 Volockaja, Z. M. 70 Volterra, V. 696, 701 von Bertalanffy, Ludwig 760 von Hahn, W. 817 Vostokov, Aleksandr Ch. 45 Vulanovic´, Relja 274, 276⫺278, 281⫺282, 377 Vysˇyvana, N. V. 466⫺467
W Wagner, Günther 156 Wagner, Robert A. 985 Wahlster, Wolfgang 816 Wahrig, Gerhard 236, 255 Waibel, Alex 816, 924 Wake, W. C. 394 Walczak, Bogdan 118 Walker, Marilyn A. 862 Wallace, D. L. 373, 387⫺389, 392, 726 Wallesch, Claus-W. 894 Walsh, J. L. 142⫺143, 149 Walshaw, David 894⫺895 Walter, Wolfgang 629 Waltz, David 825⫺827 Wang, A.-L. 859 Wang, Dejin 102, 104, 949, 952 Wang, Hui 106 Wang, Jianxin 105, 108 Wang, Jinde 99 Wang, Kann Yu 98 Wang, Y.-Y. 816 Wapner, Wendy 895 Ward, Gregory L. 476 Ward, T. 641, 819 Warnow, T. 634, 642 Wasow, Thomas 279⫺280 Watanabe, Osamu 85, 91 Waters, Randy C. 297 Waters, Richard C. 854 Waugh, S. 392 Weaver, Brenda 915 Weaver, Warren 4, 76, 726⫺727 Weaver, William 740 Weber, Sabine 793⫺795 Wei, Juxian 97 Wei, Li 103 Wei, Yixin 948 Weidenmann, Bernd 913 Weier, D. 388 Weijters, Anton 253, 822, 827 Weinreich, Uriel 458 Weiss, Sholom 822 Weitzman, M. 389 Wells, Barron 914 Wells, Rulon 857 Wen, Xiaolin 105
Wepman, J. 317 Wermter, Stefan 822, 825 Wernike, K. 700 Wessel, F. 811 West, Bruce J. 733 West, M. 899 Wettschereck, Dietrich 826 Wheeler, Eric S. 551⫺552 Wheeler, John A. 890 Wheelwright, Steven C. 741 Whitaker, Harry 892⫺893 Whitehorn, J. C. 143, 148 Whiteley, Paul 741 Whittle, Ruth 901 Whitworth, William A. 722 Wickmann, Dieter 340, 343 Wiegand, Herbert Ernst 509, 785, 788 Wiener, L. F. 641 Wiener, Norbert 74, 739 Wierzbicka, Anna 126⫺127 Wiio, Osmo A. 912 Wilde, Joachim 681 Wilder, Chris 779, 782 Wildgen, Wolfgang 19, 328⫺ 329, 410, 412⫺413, 414, 417⫺419, 422, 689, 693⫺694, 701⫺703 Wilkinson, Ray 895 Wilks, Yorrik 928 Wille, Rudolf 538 Willett, Peter 984 Williams J. L. 730 Williams, Carrington B. 4, 299, 370⫺374, 377⫺378, 740 Williams, Colin P. 391, 714 Williams, Geoffrey 972 Willis, John C. 718, 732 Willmann, Rainer 532 Willmot, Gordon E. 652 Willows, Dale M. 913 Wilson, Andrew 901 Wilson, Deidre 778 Wilson, K. 901 Wilson, Victor L. 741 Wimmer, Gejza 209, 231⫺232, 235, 262⫺266, 268, 270, 271, 299⫺300, 302, 308, 340, 365⫺366, 651⫺656, 730, 792, 796⫺797, 799⫺801 Winter, Stefan 227 Winter, Werner 369, 377, 381 Witkovsky´, Viktor 652 Wittek, Martin 301 Wolin, B. R. 314 Wolski, Werner 785, 788 Wolter, Kirk M. 639 Wolters, Maria K. 934 Woodcock, Alexander 692 Woronczak, Jerzy 115, 120⫺123, 364, 376, 341, 793, 795⫺796 Wright, A. M. 250 Wright, Jeremy H. 808, 842
1020 Wu, D. 813 Wu, Harry 976⫺977 Wulf, Douglas 710 Wulfeck, Beverly 892 Wünschmann, Manfred 913 Wurzel, Wolfgang 596, 779, 787 Wüster, Eugen 738, 788
X Xairetakis, Nikos 139 Xantos, Aris 741 Xiang, F. 813 Xiao, Hang 106 Xing Zhiqun 476, 481, 494⫺495 Xu, Guowei 106 Xu, Shen 96 Xue, Nianwen 112
Y Yamada, K. 813 Yang, C. S. 974, 977 Yang, Charles D. 581 Yang, Yiming 827 Yannakoudakis, Emanuel J. 932 Yasumoto, Biten 90⫺91, 939 Yin, Binyong 949⫺954, 963 Yngve, Victor H. 288⫺289 Yokoo, Akio 928 Yokoyama, Shojshi 940 You, Rujie 111 Young, Elaine L. 747 Young, Forrest W. 550 Young, Steve J. 295
Namenregister / Name index Younger, Daniel 848 Yu, Clement T. 977 Yu, Shiwen 106, 108 Yu, Xiaoli 301 Yu, Yeong-Ho 827 Yuan, Chunfa 951 Yuille, John C. 251 Yule, George U. 3⫺4, 70, 120, 364, 371, 374, 377, 389⫺390, 636, 717, 722, 962
Z Zacharski, Ron 478⫺479, 480, 795 Zadeh, Lotfi A. 925 Zakaluk, Beverley L. 909, 913⫺ 914 Zaliznjak, A. A. 625 Zamora, Antonio 925⫺926 Zampolli, A. 924 Zare˛bina, Maria 122 Zasorina, Lidija N. 69 Zavrel, Jakub 712, 827, 830 Zel’cman, Marina A. 865, 901 Zˇeleznov, N. A. 69 Zelle, John M. 830 Zeller, Eduard 371 Zemke, Stefan 829 Zerssen, Detlev v. 532 Zgo´łkowa, Halina 122, 317 Zhang, Qiaoqiao 98, 962⫺963 Zhang, Sheying 99 Zhang, T. 812 Zhang, Xinyuan 98 Zhang, Xuetao 99 Zhou, Youguang 99⫺100, 104
Zhu, Jinyang 234, 266⫺267, 270, 801, 954⫺955, 959⫺960 Zhu, Junsheng 96 Zhu, Xuefeng 106, 108 Ziegler, Arne 213, 234, 308, 359, 361, 423, 424, 426, 429, 431⫺436, 440, 442⫺445, 652, 801 Zinder, Lev R. 56, 69, 73 Zinenko, Svetlana 799 Zipf, George K. 3⫺4, 70, 76, 88, 98, 122, 124, 130⫺131, 142⫺ 152, 229⫺230, 234, 262, 279, 301, 305, 308, 321, 330, 400, 406, 461, 500, 563, 614, 646, 648, 716⫺719, 722, 730, 732, 734, 762, 778⫺779, 781, 783, 792⫺793, 796, 798, 800, 881⫺882, 962⫺963, 969 Zˇirmunskij, Viktor M. 29 Zjuban, A.995, 998 Zˇolkovskij, Aleksandr K. 75, 77 Zolotare¨v, V. M. 70 Zolotova, Galina A. 899 Zörnig, Peter 20, 332, 336, 343, 378, 563, 651⫺652, 724, 741, 792⫺793, 795⫺796, 801 Zou, Jiayan 111, Zrzavy´, J. 642 Zsilka, Tibor 372⫺374, 376⫺378 Zubin, David A. 239 Zubov, Aleksandr V. 906 Zucchini, W. 402 Zue, Victor 923, 925 Zurek, Wojciech H. 882 Zveginzev, V. A. 459 Zwirner, Eberhard 17 Zwirner, Kurt 17
Sachregister / Subject index A Abbildungsprinzp 499 abbreviation 192 Abdeckung, Text- 100, 336, 952⫺953 Abgeschlossenheit 335 ⫺, lexikalische 337 Abhängigkeit 11, 19⫺20, 36, 333 ⫺, funktionale 1 ⫺, sequentielle 3 Abkürzung 951 ⫺sprozess 144, 229 Abstand J Distanz abstractness 916 ⫺ level 912 Abstraktheitsstufe 462 accentuation, dynamic 746 acceptability, degree of 274 accuracy, degree of 370 activity, verbal-mental 921, 988, 991 adaptation readiness, degree of 766 Adjazenz 440 age 306, 307 Agglutination 587, 589 Aggregat 667 ⫺, Text- 338⫺339, 668, 677 aggregate 133, 351 Aggressivität 184, 186⫺187, 190 agrammatism 892⫺894, 1000 Ähnlichkeit 7, 257, 330, 332, 501, 537, 584, 633, 636, 641 ⫺, attraktive 190 ⫺, distributionelle 183 ⫺, globale 584 ⫺, linguistische 544 ⫺, paradigmatische 344 ⫺, phonetische 536 ⫺, phonologische 182 ⫺, semantische 469 ⫺skarte 502, 505 ⫺smaß 186, 344, 512, 536, 635⫺ 637 ⫺smatrix 502, 507 ⫺smessung 504 Aktionsquotient 333 Aktivsprache 587 algorithm, genetic 392 alignment, 813⫺814 Allgemeinheitsprinzip 594 Alliteration 33 Allomorph 227 Alphabet 58 Alter 1 ⫺, Morphem- 228 ⫺, Wort- 6, 20, 148, 233⫺235, 331, 333, 339, 340 Altmann-Fitter 21
Ambiguität, lexikalische 701 ambiguity 275, 278 ⫺, syntactic 274 Amphibrachys 48 Analogie 10 ⫺bildung 16 analogous development 126 analogy 711 Analyse 423 ⫺, bivariate 333 ⫺, denotative Text- 423⫺ebene, linguistische 662 ⫺, multivariate 333 ⫺, Q- 501 ⫺, Stil- 71 ⫺, Textstruktur- 445 analysis ⫺, areal 573, 574 ⫺, cluster 92, 137, 139, 369, 380, 759 ⫺, content 121 ⫺, correlational 751⫺759 ⫺, discourse 471⫺495 Analytizität 459, 589 ⫺sindex 333 Anapäst 48 anaphora 910 Anordnung 331 ⫺sprozess 326 Anpassungsprozess, rückläufiger 628 Anstrengung, Prinzip der geringsten 4, 143, 147, 216, 232, 458, 682, 778, 779, 781 Anwendungsbedürfnis 237 Anwendungsgrad 99, 101, 102 aphasia 891⫺895 ⫺, de Broca’s 892⫺893 ⫺, Wernicke’s 892⫺893 application 310 approach, process-oriented 761 Äquivalente, funktionale 20, 629, 783 archetype, semantic 418 Arens’sche Regel 664, 666, 676 ARIMA 741⫺744, 746, 748 articulatory effort 306 Artikel 68 Artikulationsaufwand 216 Artikulationspunkt 443 aspect 137 ⫺, configurational 414 ⫺, energetic 414 ⫺, intentional 414 association ⫺ criterion 977⫺978 ⫺, free word 995⫺997 ⫺ flow 996⫺997 ⫺ ratio 979 ⫺, semantic 353
Assoziation 437, 443 ⫺sblock 444 ⫺sforschung 16 ⫺smaß 636 ⫺stendenz 189 ⫺, Wort- 366 Assoziativität 331 ⫺ des Hrebs 440 Ästhetik, deskriptive 154 Asymmetrie 507, 595 attractor 366, 421, 647, 652 ⫺, chaotic 417 ⫺, mental 413 ⫺, search 417 Attraktivität 184⫺185, 187⫺190 Attraktor 425, 689, 693, 694, 696, 702 ⫺, stabiler 698 Auffälligkeit 98, 145 Aufwand 778 ⫺, Artikulations- 216 ⫺, Dekodierungs- 144, 182, 216, 238, 330 ⫺effizienz 778⫺779, 784, 785 ⫺, Gedächtnis- 238 ⫺, Produktions- 98, 144, 330 ⫺, sprachlicher 780 ⫺, Sprech- 144 Ausdehnung 331 Ausweg, Prinzip des letzten 782 authorship 91, 121, 305, 368, 388⫺389, 391⫺394, 726, 734, 740, 747⫺748 auto-correlation, acoustic 837 automaton ⫺, linguistic 921⫺934 ⫺, tutoring 903⫺906 Autorschaft 154, 260, 298, 340 axiom 765
B balancing constant 793 Baumkontur 643 Bayes decision rule 810, 812 Bayesian grammar induction 295 Bedeutung ⫺, metaphorische 458 ⫺sabgrenzung 359 ⫺skomplexität 700 ⫺smenge 666, 678⫺680 ⫺spotenz 783 ⫺swandel 951 Bedürfnis 216, 424, 701 ⫺, Anwendungs- 237 ⫺, Kommunikations- 632, 778 ⫺, konkurrierendes System- 330
1022 ⫺, kooperierendes System- 330 ⫺ nach kommunikativer Effektivität 328 ⫺ nach kommunikativer Effizienz 328 ⫺ nach Vereinheitlichung der Benennung 237 ⫺, Performanz- 787 ⫺, System- 330, 631 ⫺, Variabilitäts- 237 Begriff 8 ⫺, komparativer (ordinalskalierter) 6, 579 ⫺, metrischer 7 ⫺, metrisierter 579 ⫺, qualitativer 6, 579 ⫺, quantitativer 5 ⫺, ratioskalierter (verhältnisskalierter) 7 ⫺sanalyse 538 ⫺sverband 538 Benutzbarkeit 778 Bequemlichkeit 145, 783 Beschreibung 12, 181, 183, 326, 423 ⫺, kontinuierliche 689 Bessel function of the second kind 400 Bestätigungsgrad 9 Betonung 34 ⫺sverteilung 52 Beziehung ⫺, paradigmatische 216, 469 ⫺, semantische 432 ⫺smaß, diachrones 639 ⫺, syntagmatische 216, 469 bifurcation 418, 419, 421 Bifurkation ⫺, Hopf- 693, 697 ⫺, qualitative 690 ⫺sdynamik 702 ⫺smenge 692 ⫺spunkt 694, 697 ⫺system 690 ⫺stheorie 689 bilabial nasals 136 Bimodalität 692 binary coding 116 Bistabilität 698 Block 443⫺444 ⫺, Text- 338 block, classificatory 758 ⫺, typological 756⫺757 borrowing 127 Brücke 443 Buchstabe ⫺, englischer 962 ⫺, hebräischer 962 ⫺nhäufigkeit, Russisch 38 ⫺nstatistik 60 ⫺nzählung 16 butterfly 412
Sachregister / Subject index
C CALL 897⫺906 catastrophe 410⫺411 ⫺ theory 305, 410⫺421 category, syntactic 771 causality 274 causation 414 CELEX 243, 245, 247, 250 centrality, measure of 603, 604 Centrifuga 31 centroid, document 976 chain, definition 447 change 413 ⫺, conscious 647 ⫺ point 391 ⫺, reversible 282 ⫺, syntactic 274, 281⫺282 channel capacity 882 Chaos 694, 697 ⫺, deterministisches 689 ⫺forschung 423 ⫺theorie 688⫺703 chaos 761, 878, 881 ⫺ theory 305 characterisation 305 characteristic, phonotactical 378 Charakteristikum, Stil- 327 Chlorophletenkarte 503 city-block metric 549 CKY algorithm 848⫺849 class, nominal 655 classification 118, 649 ⫺, hierarchic 456 ⫺, multidimensional 757 ⫺, pragmatic 369 clause ⫺ length 283 ⫺ patterns 132 Clauselänge 333 Clique 444⫺445 cloze procedure 910⫺911 cluster ⫺, analogical 417 ⫺ analysis 92, 137, 139, 369, 380, 759 ⫺, metonymical 417 Clusteranalyse 333, 341, 586, 643 ⫺, hierarchisch-agglomerative 543⫺545 ⫺, hierarchische 341 clustering by similarity 417 clustering due to spatial relatedness 417 Code ⫺, effizienter 220 ⫺, stenographischer 3 code, optimal meaning preserving 882⫺883 codimension 412 coding ⫺ need 310 ⫺ requirement 311, 648
coefficient ⫺ of loss 399 ⫺, average extra-cluster 752 ⫺, average intra-cluster 752, 755 ⫺, correlational 751 ⫺, Dice 979 ⫺, Fager and McGowan 979 ⫺, general medial 753 ⫺, generalized extra-cluster 754 ⫺, generalized inter-cluster 754 ⫺, generalized intra-cluster 754 ⫺, generalized language correlation 754 ⫺, generalized typological 754 ⫺, Kulczinsky 979 ⫺, loglike 979 ⫺, medial correlation 752 ⫺, medial extra-cluster 752 ⫺, medial intra-cluster 752 ⫺, normalized variation 315 ⫺, Ochiai 979 ⫺, tetrachoric 751 ⫺, typological correlation 755 ⫺, universal typological 754 ⫺, Yule 979 ⫺, Φ 2 979 coevolution 764 coherence 883, 886 ⫺, contextual 862 cohesion 359 cohesiveness 377 collocation 972, 977 colour terms 122, 371 combinability 308 combination, syntagmatic 972 communicative relevance 311 compactness, thematic 376 comparison 305 completeness of text 796 complex sentence, Czech 132 complex term 977⫺979 complexity 278, 562, 564, 569, 648⫺649, 727, 757, 763⫺764, 766, 770⫺771, 878⫺890, 882 ⫺, algorithmic 725, 727 ⫺, cultural 569 ⫺, effective (Gell-Mann) 883⫺ 885 ⫺, effective 717, 735 ⫺, functional 770 ⫺, graphic 770 ⫺, Kolmogorov 717, 727, 734 ⫺, morphological 250 ⫺ of grammar 276⫺277 ⫺ of syntactic construction 288, ⫺, semantic 912 ⫺, syntactic 137, 275, 766 composition rule 292 compound 119, 418 ⫺, Japanese 88 ⫺ phoneme 181 ⫺ productivity 308
1023
Sachregister / Subject index comprehensibility 121, 305 ⫺, measure of 909⫺912 concentration, degree of 376 concept 760 ⫺ formation 306 ⫺, quantitative 306 condition, pathological 988 confluent hypergeometric function 655, 799 connection, lexical 374⫺375 connectionism 705 connectivity 734 ⫺, network 716 connotation 649 consciousness 922 ⫺, altered states 999 consonant ⫺ clusters 137 ⫺ disharmony 197⫺198 constituency relation 770 constraint 881, 886 ⫺, contextual 865, 874 ⫺, grammatical 867 ⫺, lexical 867 construct, supra-sentence 353 construction ⫺ synonymy 308, 310⫺311 ⫺, syntactic 770⫺771 content ⫺ analysis 121 ⫺ word 388 context 354, 356 ⫺, extra-linguistic 475 ⫺-free grammar 292 ⫺ globalisation 310 ⫺, immediate linguistic 475 ⫺, larger 351, 359 ⫺, narrower 351, 359 contrast 476 control cycle 648 conversion ⫺, grapheme-to-phoneme 931⫺ 935 ⫺, phoneme-to-grapheme 931⫺ 935 co-occurrence 978 co-reference 356⫺358 corpus ⫺, Eindhoven 245 ⫺, Greek 139 ⫺, INL 250 ⫺, Negra 288, 771⫺773 ⫺, Penn-Helsinki 281 ⫺, Polish 122 ⫺ size 308 ⫺, Susanne 285⫺286, 288, 771⫺ 773 ⫺, TOSCA 393 cosine measure 976 coupling ⫺, rhythmic 415 ⫺, strong 419, 420 ⫺, weak 419, 420
coverage 375 creation, document 923, 928 creativity 649 curve ⫺, logistic 282, 305 ⫺, Tornquist 367 cusp 412⫺413, 421 cusum chart 394 C-value 982 CV-sequences 378 C-word 725⫺726, 734, 884⫺885 cycle ⫺, control 647 ⫺, perceiving-acting 413
D Daktylus 48 Darstellungsfunktion, Bühlersche 426 data base, linguistic 923 data mining 971 Datenmatrix 499, 502, 504, 642⫺643 Dauer ⫺, Laut- 665, 667 ⫺, Ton- 155 Dechiffrierung 16 decision tree 824, 827⫺829 Deduktion 13 definiteness 137 definition 994 ⫺ chain 308 Dekodierung 216, 217 ⫺saufwand 144, 182, 216, 238, 330 Dendrogramm 341 Denkökonomie 776 Denotat 433 Denotation ⫺s-Hreb 425 ⫺sklasse 426 ⫺sbreite 442 ⫺skomponente 443 ⫺ssystem 426 density, space 976 dependence 191 ⫺, asymmetrical 567, 568 ⫺, causal 751 ⫺, construction frequency ⫺ complexity 773 ⫺, frequency ⫺ availability for word formation 252 ⫺, frequency ⫺ base frequency 250 ⫺, frequency ⫺ form 252 ⫺, frequency ⫺ length ⫺ complexity 288 ⫺, frequency ⫺ length 250 ⫺, frequency ⫺ meaning 251 ⫺, functional 763 ⫺, information ⫺ position 772
⫺, ⫺, ⫺, ⫺, ⫺,
length ⫺ complexity 288 length ⫺ frequency 768 length ⫺ polysemy 308 length ⫺ position 289 noun frequency ⫺ preposition frequency 487 ⫺, noun frequency ⫺ word length 487 ⫺, noun length ⫺ abstractness level 912 ⫺, noun length ⫺ terminologicality index 912 ⫺, parts of speech 90 ⫺, polysemy ⫺ frequency 769 ⫺, position ⫺ complexity 289 ⫺, position ⫺ information 289 ⫺, proportion of nouns ⫺ sentence position 795 ⫺, rank ⫺ frequency 989 ⫺, semantic 353 ⫺, symmetrical 567, 568 ⫺, synonymy ⫺ polysemy 308 ⫺, word frequency ⫺ word location 356 ⫺, word length ⫺ lexicon size 310 ⫺, word length ⫺ meaning size 794 ⫺, word length ⫺ polysemy 124, 305 ⫺, word length ⫺ size of the phonemic inventory 305 ⫺, word length ⫺ word frequency 305 ⫺, word length ⫺ word position 280 ⫺, word order ⫺ word length 274 depth 771 ⫺ of contextual relationship 743 ⫺ of embedding 275, 288⫺289, 771, 773 Derivat 229, 952 Derivation 228, 951 description 760 Determinante 465 Determiniertheit 329 Determinismus 5, 325 Deutlichkeit 144, 145 development, abnormal 988 devil’s staircase 362 dialectometry 308, 551, 552 dialects, Japanese 92 Dialektgrenze 510 Dialektizität 507 Dialektometrie 21, 498⫺531 Dialektzone 508 Diameter des Graphen 442⫺443 Dichtegrad 333 Differenz 330 Differenziertheit 779 Differenzmaß 186
1024 Diffusion 507 Diffusität 430 Diffusität, Gesamt- des Textes 430 digram 859 Dimension 699 dimension, fractional 733 Dimension, fraktale 699 direct object position 280 Disambiguierung 459 discourse 881⫺884, 890 ⫺ analysis 471⫺495 discriminant analysis 369, 380, 389, 392 Diskretheit 329 Diskriminanzanalyse 333 Diskursanalyse 342, 433 disorder 410, 878, 889 ⫺, speech 988 dispersion 306 Dispersion 99, 101⫺102 ⫺skoeffizient 36, 37 Dissoziationstendenz 189 distance 390, 548⫺549 ⫺ matrix 552 ⫺ matrix, asymmetric 550 ⫺ matrix, incomplete 550 ⫺ measure 549 ⫺, minimum editing 984 ⫺, referential 473, 477, 480, 482⫺483, 495 Distanz (Abstand) 148, 331, 430, 501 ⫺, attraktive 190 ⫺, Euklidische 584 ⫺, Hamming- 543 ⫺, Levenshtein- 543 ⫺, referentielle 342 ⫺maß 536 ⫺matrix, 536, 543⫺544, 584, 586 ⫺messung 509 Distinktivität, Prinzip der maximalen 216 distribution ⫺, 1-displaced Cohen-binomial 288 ⫺, 1-displaced Dacey-Poisson 165⫺166, 175⫺176, 178 ⫺, 1-displaced Poisson 158⫺159, 163⫺165, 177 ⫺, beta 795 ⫺, bimodal 247 ⫺, binomial 288, 398, 797 ⫺, Bondesson 795 ˇ ebanov-Fucks 159, 163 ⫺, C ⫺, Cohen-binomial 773 ⫺, combinatorial, 191 ⫺, Conway-Maxwell-Poisson 651, 801 ⫺, Dacey-Poisson 165 ⫺, discrete lognormal 730 ⫺, discrete Pareto 793
Sachregister / Subject index ⫺, diversification 797 ⫺, exponential 727⫺728, 793, 881 ⫺, exponential word length 726 ⫺, extended logarithmic 773 ⫺, extended positive negative binomial 288 ⫺, frequency 373, 751 ⫺, Fucks’ 121, 158 ⫺, Fucks’ binomial 159 ⫺, Fucks’ generalized Poisson 159⫺170, 177⫺179 ⫺, Fucks-Gacˇecˇiladze 168⫺174, 177, 178 ⫺, gamma 56, 121, 794 ⫺, generalized (Consul) Poisson 179 ⫺, generalized 652 ⫺, generalized hypergeometric 799 ⫺, generalized inverse GaussPoisson 245, 247, 400, 402⫺ 405 ⫺, geometric 563, 650, 794, 797 ⫺, Good 654 ⫺, Hermite 653 ⫺, Hirata-Poisson 653 ⫺, hyperbinomial 201⫺202 ⫺, hypergeometric 88 ⫺, hyper-Pascal 288, 773, 799 ⫺, hyper-Poisson 179, 655, 799 ⫺, improper 293 ⫺, inverse Gaussian 794 ⫺, Johnson-Kotz 800 ⫺, Katz family 797, 799 ⫺, Kemp-Dacey hypergeometric family 799 ⫺, Kemp-Kemp-Poisson 165 ⫺, Lerch 796 ⫺, lognormal 121, 247, 248, 286, 400, 403, 563, 717, 726⫺727, 730⫺731, 735, 881 ⫺, Lotka 798 ⫺, mixed 402 ⫺, mixed Poisson 205 ⫺, modified 652 ⫺, multinomial 794 ⫺, negative binomial 287, 388, 449, 452, 655, 797 ⫺, negative hypergeometric 286, 287, 655, 800 ⫺, normal 286, 563⫺564, 730, 732, 735 ⫺ of distances 797 ⫺ of inquiries 800, ⫺ of length 200⫺201 ⫺ of lexeme width and height 794 ⫺ of meaning diversification 797 ⫺ of morphological productivity 800 ⫺ of phrase length 794
⫺ ⫺ ⫺ ⫺ ⫺ ⫺ ⫺ ⫺ ⫺ ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
of polysemy 307 of sentence length 798⫺800 of string length 739 of syllable types 801 of vowel duration 794, 795 of word classes 801 of word length 797⫺801 of word repetitions 797 of words in text passages 800 Orlov 796 Pareto 732, 793 partial sums 653 Pearson type III 794 Pearson type IX 793 Pearson Type V 793 Pearson Type X 793 Poisson 121, 159, 178⫺179, 286, 388⫺398, 652, 732, 797, 977 ⫺, Po´lya 121, 655 ⫺, positional 191⫺194 ⫺, positive binomial 650 ⫺, positive negative binomial 650, 651 ⫺, positive Poisson 650, 654 ⫺, rank-frequency 646⫺647, 797 ⫺, rank-frequency of phonemes 653 ⫺, Rouault 798 ⫺, Simon 800 ⫺, steady-state 648 ⫺, structural type 399 ⫺, two dimensional binomial 801 ⫺, two dimensional ConwayMaxwell-Poisson 801 ⫺, two dimensional negative binomial 801 ⫺, uniform 563, 741 ⫺, Waring 288, 652, 772, 800 ⫺, Waring-Herdan 373 ⫺, Whitworth 722, 729 ⫺, word frequency 397⫺408 ⫺, word length 655, 726, 730 ⫺, Yule 800 ⫺, Yule-Simon 400⫺402, 404⫺ 405, 800 ⫺, zeta 793 ⫺, Zipf 793, 800 ⫺, Zipf-Alekseev 351, 353⫺356, 358, 359, 730 ⫺, Zipf-Estoup 793, 798 ⫺, Zipfian 563 ⫺, Zipfian family 400 Distribution ⫺, Phonem- 181⫺190 ⫺sklasse 190 ⫺smaß 185 disturbance 793 Divergenz 693 diversification ⫺, lexical 310 ⫺ process 646⫺656
1025
Sachregister / Subject index Diversifikation 147⫺148, 232, 262 ⫺, der Wortarten 233⫺235 ⫺, distributionelle 233 ⫺, semantische 232⫺233 ⫺skraft 4 ⫺sprozess 231, 331 Diversität 587 diversity 371, 374, 598 ⫺, lexical 992, 996, 998 ⫺, linguistic 558 ⫺ value 556 document creation 923, 928 Dokumentationswesen 21 dol’nik 76 dynamic programming 839 dynamics 761 ⫺, non-linear 881 Dynamik 3, 19, 327, 688 ⫺, des Systems 216 ⫺, langsame 689 ⫺, Maxwell- (thermodynamische) 693⫺694 ⫺, perfect delay (konservative) 693 ⫺, schnelle 690 ⫺, Text- 4 Dynkin-Diagramm 693⫺695
E Early Immediate Constituent (EIC) 279⫺280, 604⫺605 ease theory 785 Ebene, hypertextuelle 344 Eckengrad 440⫺441 economisation ⫺ of articulatory effort 763 ⫺ of memory 762 Effektivität 777 ⫺ des Transkriptionscodes 220 ⫺, degressive 100⫺101 ⫺sbedürfnis 328 efficiency 280 ⫺ need 310 ⫺ of grammar 276⫺279, 281, 282 Effizienz 777 ⫺, Aufwand- 778⫺779, 784⫺ 785 ⫺bedürfnis 328 ⫺ des Merkmalinventars 219⫺ 221 ⫺, kommunikative 775⫺789 ⫺, systematische 780 ⫺, textuelle 780 effort ⫺, articulatory 306 ⫺, processing 280 Eigenschaft 13, 662 ⫺, distributionelle 186 ⫺, distributionelle Phonem182⫺183
⫺, externe 181 ⫺, interne 181⫺182 ⫺, konkurrierende 326 ⫺, kooperierende 326 ⫺, metrische 340 ⫺, stochastische 8 ⫺, suprastilistische 339 Einfachheit 181 Einflussfaktor ⫺, Autor-bezogener 339 ⫺, Diskurskontext-bezogener 339 ⫺, objektiver 339 ⫺, Sprachnorm-bezogener 339 ⫺, subjektiver 339 Einheit ⫺, hypertextuelle 345 ⫺, Rahmen- 181, 183 ⫺, rhythmische 208⫺213, 256 Einmaligkeitsindex 333, 341, 343 embedding 275, 288⫺289, 771, 773 ⫺, depth of 766 Endung ⫺, männliche 46 ⫺, weibliche 46 enslaving principle 761 Entfaltung, universelle 692 Entfernung 441⫺442, 584 ⫺, mittlere des Graphen 442 Entropie 4, 70, 76, 155⫺56, 217⫺222, 333, 593 ⫺, Chinesisch 112 ⫺gleichgewicht 219 ⫺, paradigmatische 219 ⫺, Schriftzeichen- 963⫺964 ⫺, syntagmatische 217⫺219 entropy 116⫺117, 121, 131, 284, 308, 380, 712, 727, 735, 739, 761, 792, 794, 858⫺859, 862, 863, 875, 878⫺890 ⫺, algorithmic 882⫺883, 885⫺ 886 ⫺, Balasubrahmanyan-Naranan 884 ⫺, conditional 859 ⫺, degenerate 728, 882⫺883 ⫺, Gell-Mann 878 ⫺, Re´nyi 880 Entscheidung 10 Entwicklung 5, 7 environment 773 equilibrium 352, 410, 761⫺762 ⫺, punctuated 362 ⫺, thermodynamic 410 ⫺, transient 410 equivalent, functional 765, 767, 771 Erbwort 642 Ergativsprache 587 Ergebnis, sprachliches 780 Erklärung 6⫺8, 10, 12⫺13, 19⫺20, 35, 143, 330, 596, 687
⫺smechanismus 579 Ersetzungsprozess, unvollständiger 628 Erzeugendensystem 699 evaluation of terminology 972⫺ 974 evolution 410, 763 Expandierung 787 explanation 306, 348, 604, 646, 760⫺761, 764 ⫺, deductive-nomological 765 ⫺, functional 602, 762, 765 ⫺, linguistic 760 exploitation ⫺ of phonemes 194⫺195 ⫺ of types 204⫺205 Exponent 588 Exponententyp 588 Exponentialverteilung 149 Extension 780 extraction ⫺, information 925⫺926 ⫺, keyword 974⫺975 ⫺, knowledge 971 ⫺, terminology 971⫺987 Extremtyp 579 Exzentrizität der Ecke 442 Exzess 155
F factor analysis 92, 133, 138, 369, 380, 487, 488, 548⫺549, 759 Faktorenanalyse 333, 586⫺587 Falte 693 familiarity 474 family 555 ⫺ tree 308 feature ⫺, distinctive of style 370 ⫺, qualitative 751 ⫺, sub-stylistic 369 ⫺, supra-stylistic 369 feedback 762 Feigenbaum-Szenario 690 field 419 ⫺, attracting 421 Flesch Reading Ease 914⫺915 Flexion 227 Fließgleichgewicht 700 fluctuation 761 ⫺, micro semantic 417 ⫺, random 647 ⫺, stochastic 419 Fluktuation 689 focus 471 Folge 339 force 792⫺793, 801 ⫺, macroscopic 410 form, canonical 191 Form, kanonische 952 Formalismus, russischer 27, 31
1026 Formenrecycling 233 forward-backward algorithm 293 Fraktal 693 frequency 306, 766⫺768, 770⫺771 frequency dictionary 307⫺308, 312⫺324 ⫺, Czech 131 ⫺, German 121 ⫺, Japanese 83⫺85 ⫺, Polish 121⫺122 ⫺, Russian 121 ⫺, Slovak 121 frequency ⫺, co-occurrence 978 ⫺, inverse document 975 ⫺ of grammatical categories 118 ⫺, of sentence 275 ⫺, of syntactic construction 288 ⫺, parts of speech 992 ⫺, positional 193 ⫺, rank-ordered 194⫺195 ⫺, ratio of 981 ⫺ spectrum 398 ⫺, surface 251 ⫺, term 975 Frequenz 1, 3, 4, 20, 143, 330⫺ 331, 783⫺784, 787 ⫺, distributionelle 189 ⫺, Graphem- 966⫺967 ⫺, Kollokations- 467 ⫺, Konsonanten- 33 ⫺, Konsonantentypen- 32 ⫺, Laut- 98 ⫺, Laut-, Russisch 25 ⫺, Morph- 229, 231 ⫺, Morphem- 228⫺229, 231 ⫺, pragmatische 189 ⫺, russische Affix- 55 ⫺, russische Präpositionen55⫺56 ⫺, russische Suffix- 55 ⫺schwelle 144 ⫺spektrum 226, 229, 268, 335 ⫺, systemische 189 ⫺, Vokal- 33 ⫺, Wort- 17⫺18, 33⫺34, 55, 333, 341, 952 ⫺, Wortarten- (Wortklassen-) 17, 55, 154, 953⫺954 ⫺, Wortlängen- 17, 29, 51, 55 ⫺verteilung, Wort- 34 ⫺verteilung, Wort-, Chinesisch, 98 ⫺verteilung, Wort-, Englisch, 98 ⫺verteilung, Wort-, Latein, 98 Frequenzwörterbuch 16, 24, 70, 73⫺74 ⫺, chinesisch 100⫺105, 948, 949, 952⫺953 ⫺, englisch 21
Sachregister / Subject index ⫺, französisch 21 ⫺, russisch 21, 71 function ⫺, communicative 857 ⫺, reflecting 857 ⫺, syntactic 771 ⫺ word 387⫺388 Functional Grammar 277 functional ⫺ load 130⫺131, 769 ⫺ sentence perspective 133, 600 functionalism 471 Fündigkeitswert, relativer 509 Funktion 3 ⫺, emotionell-expressive der Sprache 458 ⫺, konfluente hypergeometrische 258, 263 ⫺, nominative der Sprache 458 ⫺, Potenz- 335 Funktionalanalyse 150 Funktionalstil 960⫺961 Funktionskomplexität 966⫺967 Fusion 587, 589 fuzzy sets 305
G Ganzheit, semantische 458 Gebräuchlichkeit 952 Gedächtnis ⫺aufwand 238, 588 ⫺trägheit 778 Gefühlsbetontheit, Grad der 208 Geltungsökonomie 786 Genauigkeit 783 genre 137, 734 Genre 336, 340 genus 555⫺558 geometrische Reihe 41 Gesamtdiffusität des Textes 430 Gesamtgrad, relativer 441 Gesetz 2, 9, 12⫺13, 17, 153, 182, 209, 239, 256, 261, 423, 581, 587, 622, 687 ⫺, allgemeines 12, 300 ⫺, allgemeingültiges 1 ⫺ der großen Zahlen 11, 33, 36⫺37, 40 ⫺ der Sprachentwicklung 60 ⫺, deterministisches 214, 222, 662 ⫺, Frumkina- 338 ⫺, Goebl’sches 499 ⫺, Laut- 12, 638 ⫺, linguistisches 661 ⫺, Lotka- 962 ⫺, Menzerath(-Altmann)- 17, 20, 224, 238, 255, 261, 298, 302, 338⫺339, 432, 434, 460, 659⫺687, 957, 964⫺965, 968 ⫺, Ohnos 235
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
Piotrowski- 627⫺633 Potenz- 149 Quantitäts- 660⫺661 Rang-Frequenz- 145, 147 Referenz- von Hrˇebı´cˇek 342 semiotisches Präferenz- 335 Sprach- 13, 271 statistisches 29 stilometrisches 37 stochastisches 1, 5⫺6, 327, 342, 662 ⫺, Text- 326, 333, 335⫺339, 345 ⫺, Zipf-Mandelbrot- 4, 11, 336, 337, 683, 961⫺963 ⫺, Zipfsches 1, 4, 70, 76, 99, 111, 145, 147, 150, 261, 335, 336, 343⫺344, 614⫺615, 666, 781 Gesetzmäßigkeit 11, 18⫺19, 43, 268 ⫺, sprachliche 25 ⫺, statistische 37, 76 Gewichtungsfunktion 344 givenness 474 ⫺ hierarchy 475, 478⫺479 Gleichgewicht 702, 778 ⫺, Entropie- 219 ⫺, Fließ- 700 ⫺smodell 334 Gleichverteilung 148 Gliederung 339 glossomania 992 glottochtronology 133, 309 Good’s measure 120 Grad der Polysemie 1 Gradientensystem 689 grammar ⫺, context-free 292 ⫺, generalized phrase structure 296 ⫺, history-based 851⫺852 ⫺, lexical-functional 296 ⫺, lexicalized tree insertion 297 ⫺, lexicalized tree-adjoining 297 ⫺, link 296 ⫺, phrase-structure 296 ⫺, probabilistic 292⫺297 ⫺, probabilistic context-free 848⫺850, 853⫺854 ⫺, probabilistic dependency 296, ⫺, probabilistic feature 296 ⫺, probabilistic tree 297 ⫺, probabilistic unification 296 ⫺ statistics, Japanese 87 ⫺, stochastic tree-substitution 297 ⫺, universal 295 grammaticalisation 281 grammaticality, degree of 275, Grammatikalisierungsprozess 701 Graph 437
1027
Sachregister / Subject index grapheme frequency, Czech 132 Graphem ⫺inventar 58 ⫺statistik 24 ⫺zahl 957⫺958 Greenbergs square-Methode 257 Grenzzyklus ⫺, stabiler 696, 698 ⫺verhalten 697 Größe 1 ⫺, Inventar- 149, 215, 218, 948 ⫺, Konstituenten- 659 ⫺, Konstrukt- 659 ⫺, Stichproben- 40, 70 growth curve 248 guessing ⫺, collective 860 ⫺, individual 860 ⫺ test 995 Guiraud’s R 405
H hallucinations, auditory 996 Hamming-Distanz 543 Handlung 777 Hapax legomena 229, 333 hapax legomena 244⫺245, 247⫺ 248, 364, 370, 375, 393, 944 Häufigkeit J Frequenz Hayashi’s theory 92 Hempel-Oppenheim-Schema 662 Hempel-Oppenheim-Scheme 764 Herdan’s C 406 Herdan’s type-token curve 793 Herkunft, Morphem- 228 Hexameter 34 hexameter 746⫺747 hiatus 137 Hidden Markov Model 3, 138, 293, 814, 926⫺928, 933⫺934, 981 Hierarchie 424 ⫺, grammatische 589 hierarchy 453, 569 ⫺, implicational 568 Hiragana 935⫺945 ⫺ frequency 84, 90 Hit Ratio 492 homogeneity 247, 248, 307, 365, 598, 707 ⫺, correlational 755 ⫺, lexical 357, ⫺, marginal 198⫺199 Homogenität 11, 211⫺212, 259, 270⫺271, 337 ⫺, stilistische 341 ⫺sgrad 341 Homonymie 1, 458⫺459 homonymy 306⫺308 Homöoskedastizität 11 honeycomb method 92
Hreb 426⫺428, 433⫺445 ⫺, Daten- 428 ⫺-Diffusität 431 ⫺, Kern- 428⫺429 ⫺, Listen- 428⫺429, 432⫺433, 435 ⫺-Mächtigkeit 428 ⫺, Mengen- 428, 440 ⫺, Positions- 428, 430 Human Interest formula 914 Hurst index 748 hypergeometric function 201, 773 Hyperlexem 959 hyperonym 448⫺450 Hypertext 267 Hyponymie 426 Hypothese 19, 326 ⫺, deduktive 9 ⫺, linguistische 9 ⫺, Skinners 332 ⫺, stochastische 9 ⫺, universale 13 Hypothesenbildung 17 ⫺, deduktiv 6 ⫺, induktiv 6 hypothesis 305 ⫺, deductive 191 ⫺, inductive, 191
I IBM model 814⫺815 Idealtyp 579, 587 Identität 330, 424 ⫺styp 534, 537 ⫺swert, relativer 501 Ikonizität 787 immediate constituents 191 implication 418 independence 248 Indeterminismus 329 index 306, 364, 366, 753 ⫺, absolute 754 ⫺, Greenberg’s typological 758 ⫺, Hurst 748 ⫺, lexical rarity 988 ⫺, lexicological 306 ⫺, mean length of utterance 988 ⫺, number of different words 988 ⫺ of gravity, Mistrı´k’s 375 ⫺ of lexical concentration, Guiraud’s 375 ⫺ of liveliness 306 ⫺ of polysemy 306 ⫺ of productivity 244⫺245 ⫺ of rarity 910 ⫺, Simpson’s of diversity 374 ⫺, standard frequency 316 Index 7, 32, 333 ⫺, Analytizitäts- 333
⫺, ⫺, ⫺, ⫺,
Einmaligkeits- 333, 341, 343 globaler 333 Greenbergs 7 Konzentrations- 333, 341, 343 ⫺, morphologischer 582, 584, 586 ⫺, relativer Zentralitäts442⫺443 ⫺, Synthese- 261 ⫺, Type-Token- (TT-Modell, TT-Verhältnis, TT-Ratio) 333, 337⫺338, 343, 433 ⫺, typologischer 7 ⫺, zentraler 442 indexation 971, 974 Indexierung, Text- 18 indexing 305, 923, 925 Index-Retrieval-System 537⫺538 Induktion 13 Ineffektivität 784 ⫺, systematische 781 ⫺, textuelle 781 Ineffizienz 784 ⫺, systematische 781 ⫺, textuelle 781 infant vocabulary, Japanese Inferenz 10 inflection, Polish 118 information 275, 284, 288, 308, 419, 712, 716, 725, 727, 734, 747⫺748, 770⫺772, 857, 878⫺890, 915⫺916 ⫺ content 728 ⫺, connotative 858 ⫺, encoding 368 ⫺, extrinsic 414 ⫺ flow 361⫺362, 364 ⫺, given 471 ⫺, grammatical 858, 872 ⫺, intrinsic 414 ⫺, lexical 857 ⫺, linguistically relevant 276 ⫺, morphological 872 ⫺, old 471, ⫺, potential 886 ⫺, pragmatic 857⫺858 ⫺ retrieval 305 ⫺, semantic 858, 860, 870 ⫺, syntactic 858⫺860, 862, 866⫺867, 871, 873 ⫺, sigmatic 858 ⫺, structural 283⫺284 ⫺ theory 91, 116⫺117, 407, 727, 734, 739⫺741, 857⫺875 Information 685, 783⫺784 ⫺, Struktur- 686 ⫺, syntaktische 593 ⫺sästhetik 156 ⫺sfluss 1, 434 ⫺sgehalt 76, 143, 217, 593, 963 ⫺sprozess 433 ⫺stheorie 4, 68, 70, 73, 76 ⫺sverarbeitung 329, 683
1028 informativity 308 Inhaltstypologie 587 injuries, brain 988 inside probability 294, inside-outside algorithm 293⫺ 295 Instabilität 328, 691 instablity 410 Intension 780 Intensität der Kombinierbarkeit 466⫺467 intensity 308 intentionality 414 Intepretierbarkeit 330 interconnection 751 interdependence between structure and function 761 Interpretation 10 ⫺, Prinzip der vollständigen 782 interpretation, semantic 360 interrelation 767 inter-sentence connection 377 Intervall 155 intonation 138, 988 Introspektion 5 invariance 248 Inventar 1 ⫺, Graphem- 58, 948, 966 ⫺größe 149, 215, 218, 948 ⫺, Merkmal- 216⫺217 ⫺, Morphem- 948 ⫺, Phonem- 58, 214⫺216 inventory 310 ⫺, morpheme 769 ⫺, phoneme 769 ⫺, phonemic 562 ⫺ size 306, 771 Inzidenz 440 irregular phonetic development 126 isogloss 92, 551 Isoglosse 509, 510, 533, 641 Isolation 589 isopleth-map 574 Isotopie des Textes 439 Isotopiekette 425, 439⫺440
J Jambus 30, 33, 35, 42⫺43, 48⫺ 52, 616 Junggrammatiker 12, 25, 611
K Kanji 730, 935⫺945 ⫺ frequency 82⫺84, 90 kappa 197 Katakana 935⫺945 ⫺ frequency 84, 90 Katastrophe, generalisierte 693
Sachregister / Subject index ⫺ntheorie 19, 329, 688⫺703 Kategorie, syntaktische 783 Kennwertsynopse 507 Kern 465 ⫺-Hreb 432 ⫺, Text- 428 Kette ⫺, nominative 425, 439 ⫺ semantischer Relationen 425 Klasse 579 ⫺, agglutinierend 586 ⫺, Äquivalenz- 331 ⫺, Denotations- 426 ⫺, flektierend 586 ⫺, isolierend 586 ⫺, Morphem- 949⫺951 ⫺, Toleranz- 331 ⫺, Wort- 340 Klassifikation 6, 8, 30, 40, 183, 189, 326, 327, 333, 339, 441, 498, 512, 532⫺533, 535⫺536, 544, 578, 580, 947 ⫺, distributionelle 186, 188, 189 ⫺, genetische 580 ⫺, hierarchisch-agglomerative 511, 512 ⫺, hierarchische 188, 579 ⫺, Kreuz- 532 ⫺, monovalente 580 ⫺, polythetische 21, 188, 584, 586 ⫺, Text- 341 Klimax 331 Klumpung 332, 343 ⫺stendenz 182, 332 Knotenpunkt 697 ⫺, stabiler 698 Knotenverhalten 697 knowledge base, linguistic 843, 923 Kodierungsbedürfnis 235 Koeffizient ⫺ des Bedeutungszusammenhangs 367 ⫺, Dispersions- 36⫺37 ⫺ von Bobrik 42 ⫺, Vorkommmens- 35 Kohärenz 328, 330, 342, 345, 424 ⫺begriff 329 ⫺, räumliche 511 ⫺, Text- 439⫺440 Köhasion 345, 424, 436 ⫺, grammatische 436 ⫺smittel 424 ⫺, positionale 436 ⫺srelation 332 Köhler’scher Regelkreis 216, 227, 237, 255⫺256, 261 Köhler-Martina´kova´’s type-token curve 795 Köhlers Basismodell 965⫺968 Koidentität 502, 509
Koinzidenz 331, 436⫺437, 441, 444 ⫺, positionale 436 ⫺, quasi-deterministische 436 ⫺, stochastische 436 Kollokat 465 Kollokation 952 ⫺, habituelle 468 ⫺sfrequenz 467 Kolon 45⫺46 ⫺ende 46 Kolonlänge 45 Kombinierbarkeit ⫺, lexikalische 464, 469 ⫺, Morphem- 228 ⫺, Selektivität der 468⫺469 ⫺, semantische 465 ⫺, syntaktische 465 ⫺sweite des Wortes 465, 467 Kommunikation ⫺sbedürfnis 632, 778 ⫺sprozess 424, 445 ⫺system 329 Kommunikativität 424 Kompaktheit, Text- 431 Kompensation 328 ⫺sprozess 615 Kompetenz 780 Komplexität 1, 6, 225, 424, 593, 596, 690, 783⫺784, 786, 964, 966 ⫺, artikulatorische 216 ⫺, Bedeutungs- 700 ⫺, Funktions- 966⫺967 ⫺, graphische 948, 964, 966⫺968 ⫺, Kommunikat- 780 ⫺, morphologische 589, 593 ⫺, Paradigmen- 593 ⫺, Phonem- 216 ⫺sgrad 327 Komponente, Denotations- 443 Komposition 227⫺228, 589, 951⫺952 Kompositum 236, 426, 665 Kompressionseffekt 659 Komprimierung 787 Kondensation, Text- 781, 785 Kondensierungsprozess 589 konfluente hypergeometrische Funktion 258, 263 Kongruenz, semantische 464 Konkordanz 18 Konkurrenz 328 Konnektivität 342 Konnexität 432 Konnotativität 440 Konsonant-/Vokal-Verhältnis 56 Konsonantenreduktion 665 Konstituentengröße 659 Konstrukt ⫺größe 659 ⫺, syntaktisches 1
1029
Sachregister / Subject index ⫺, typologisches 584 Konstruktion ⫺smechanismus 584 ⫺sprinzip 586 Kontext 459 ⫺, formaler 538 ⫺, lexikalischer 465 ⫺sensitivität 327 ⫺, stabiler 466, 468 ⫺, syntaktischer 465 ⫺, variabler 466 Kontextualität 1, 433, 700 Kontinuierlichkeit 335 Kontinuität 425 Kontrastminimum 182 Konversion 233 Konzentration 780 ⫺, konnotative 440⫺441 ⫺sindex 333, 341, 343 ⫺smaß, Herfindahlsches 429 Konzentriertheit 429 ⫺ des Gesamttextes 429 ⫺ des Kerns 429⫺430 ⫺ des Textes 430 Kookkurrenz 330⫺331, 436, 464⫺468 Kooperation 328 ⫺sprinzip, kommunikatives 784 Koreferenz 424 Korrelation 6, 8 Korrelationsanalyse 71 Kraft, Zipfsche 301, 330, 362 Kreativität 329 Kreisprozess 694⫺695 Kreuzklassifikation 532 Kriterium, Ord’sches 211⫺212, 258⫺259, 270⫺271 Kurtosis 155 Kürzungstendenz 662 Kuspe 692, 694, 702 Kybernetik 74⫺77
L Länge 1, 11, 20, 330⫺331, 783, 784 ⫺, Clause- 333 ⫺, Kolon- 45 ⫺, Morph- 20, 232, 255⫺259, 300 ⫺, Morphem- 223⫺225, 228 ⫺, Phrasen- 17, 665 ⫺, Satz- 17, 20, 44, 153⫺154, 209, 213, 256, 298, 333⫺334, 339, 343, 665, 668, 684, 959, 961 ⫺, Segment- 331 ⫺, Silben- 20, 208, 213, 256, 665, 669⫺670 ⫺, Teilsatz- 665 ⫺, Wort- 14, 16⫺17, 20, 22, 33, 51, 60, 144, 153⫺155, 208⫺
209, 213⫺214, 222⫺223, 256, 259⫺271, 339, 343, 460, 665, 667⫺669, 672⫺673, 678⫺ 680, 684, 700, 947, 959⫺961 language ⫺, Accadian 313 ⫺, actual 557, 558 ⫺ acquisition 138, 897⫺908 ⫺, Adigeh 864, 875 ⫺, Afrikaans 191, 198⫺199 ⫺, agglutinative 867 ⫺, Akan 493 ⫺, Amharic 477, 493 ⫺, analytical 747, 870⫺871, 874 ⫺, Ancient Armenian 313 ⫺, Ancient Greek 313 ⫺, Ancient Russian 313 ⫺, Ancient Turkic 313 ⫺, Angkola-Batak 197⫺199 ⫺, Arabic 127, 164⫺168, 173⫺174, 177⫺178, 191, 198⫺199, 313, 754, 757⫺759 ⫺, Armenian 313, 754, 757⫺758, 864 ⫺, Armenian-Polovian 313 ⫺, Austronesian 196⫺199, 205 ⫺, Azerbaijanian 864 ⫺, Aztecan 566 ⫺, Bantu 556 ⫺, Bare’e 197⫺199 ⫺, Bashkir 313 ⫺, Basque 313 ⫺, Bella Coola 477 ⫺, Belorussian 313 ⫺, Bengali 313, 493 ⫺, best 376 ⫺, Bulgarian 313, 493, 574, 863, 870 ⫺, Burmese 753 ⫺, Buryat ⫺, Canary 313 ⫺, Catalan 313, 493 ⫺, Cayuga 278 ⫺, Chamorro 477, 480 ⫺ change 92, 481, 558⫺559, 711, 762 ⫺, Chinese 313, 478, 479, 481, 494⫺495, 717⫺720, 722, 747, 753⫺755, 757⫺759, 885, 937⫺945 ⫺, Chorti 481, 605 ⫺, Chukchee 753 ⫺, Croatian 313 ⫺, Czech 129⫺134, 204, 274, 280, 313, 356, 376⫺378, 652, 863 ⫺, Dacian-Roman 313 ⫺, Danish 313, 574 ⫺, Dutch 245, 247, 249⫺251, 313, 403, 710 ⫺, Dyirbal 483 ⫺, English 133, 136⫺138, 164⫺ 168, 173⫺174, 178, 192, 243,
⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
⫺, ⫺, ⫺,
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
245, 247⫺248, 277, 280, 282, 289, 308, 313, 315, 356⫺357, 371, 376⫺378, 380, 389, 413, 420⫺421, 472, 474, 478⫺479, 485, 488⫺489, 492⫺495, 551, 706, 709⫺711, 717⫺723, 725, 730, 734, 740, 748, 752⫺755, 757⫺758, 772, 860, 863, 865⫺866, 868, 869, 871⫺875, 881, 885, 916, 1000 English, American 718⫺719, 722 Esperanto 164⫺168, 173⫺ 174, 177⫺178 Estonian 274, 313, 376, 493, 724, 864, 870⫺871 Filipino 388 Finnish 274, 280, 313, 493, 552, 711⫺713, 715 French 120⫺121, 274, 281⫺ 282, 308, 313, 315, 448, 653, 717, 748, 753, 757⫺758, 863, 865, 868, 870⫺874 fusional 747 Georgian 168, 313, 999 German 117, 133, 137, 164⫺ 168, 173⫺174, 178, 191⫺192, 245, 249, 274, 280, 288, 313, 351, 353, 420, 448⫺450, 452, 493, 551, 574, 650⫺651, 710, 717, 730, 753⫺754, 757⫺758, 769, 771, 863, 868, 875 Germanic 126, 281, 493, 555, 557, 754 Gothic 313 Greek 136⫺139, 164⫺168, 173⫺174, 177⫺178, 274, 280⫺281, 370, 717, 746, 747 Gujarati 313 Hanunoo 196⫺199 Hawaiian 197⫺199 Hebrew 313, 481, 909 Hebrew, Biblical 472, 477, 480⫺481, 494⫺495, 605 Hindi 313, 493, 723, 725, 753 Hungarian 192, 196, 202⫺ 203, 313, 376, 378 Icelandic 313 Indian 722, 734, 885 Indo-European 281, 486, 493⫺494, 555⫺556, 569, 753⫺754, 866 Indonesian 191, 193⫺194, 197, 199, 201⫺205, 313, 493, 753⫺754, 757⫺759 inflectional 867, 870, 873 Irish English 282 Isekiri 493 Italian 274, 313, 652, 747, 748, 874 Japanese 164⫺168, 173, 177⫺178, 274, 276, 313, 471, 478⫺479, 710, 753⫺755, 757⫺758, 935⫺945
1030 ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
⫺, ⫺, ⫺, ⫺, ⫺,
Javanese 191, 493 Kammu 493 Kannada 723, 725 Kara-Kalpak 313 Kazakh 313, 864, 868⫺871 Khmer 753 Kikongo 276 Kirghiz 313, 999 Korean 313, 753 Koyukon 483 Kutenai 483, 489⫺490, 494 Latin 164⫺168, 173⫺174, 177⫺178, 274, 280⫺282, 313, 378, 389, 719⫺720, 722, 741, 746⫺747, 885 Latvian 313, 376 Limouzi 493 Lithuanian 313, 376 Macassarese 313, 493 Malay 313, 472 Malayalam 723, 725 Maltese 493, Manchurian 753 Maori 493 Marathi 313, 723, 725 Middle English 281, 388 Moldavian 313 Mongolean 753 monkey 726, 727, 733, 881 Nez Perce 483 Niger-Kordofanian 556 Norwegian 274, 313, 717 Old English 281 Old French 281⫺282 Papago 600, 605 Papua 313 Persian 127, 313, 753 Philippine 482 Polish 115⫺129, 175, 313, 378, 390, 448⫺450, 454, 744⫺748, 863 Polynesian 206, 274, 281, 377 Portuguese 282, 313 possible 557, 558 Punjabi 493 Pushtu 313 Romance 126, 493, 555, 557, 652, 754, 873⫺875 Rumanian 313, 481, 552, 605, 864, 868⫺869, 871⫺875 Russian 124, 133, 164⫺168, 173⫺174, 177, 192, 313, 315⫺316, 376, 378⫺379, 717⫺720, 722, 745⫺746, 753⫺754, 757⫺759, 863, 865, 867⫺875, 885, 915, 990⫺ 1000 Sanskrit 717, 753 Slavic 192, 204, 206, 493, 754 Slovak 192, 313 Soddo 486 Spanish 313, 420⫺421, 477, 480⫺481, 485, 493, 605, 710, 864, 871, 874, 915
Sachregister / Subject index ⫺, Sundanese 197⫺199, 313, 493 ⫺, Swedish 313, 379, 493, 551, 717 ⫺, synthetic 747, 869⫺870, 873 ⫺, Tagalog 313, 482 ⫺, Tahitian 197⫺199 ⫺, Tajik 313 ⫺, Tamil 493, 723, 725, 730 ⫺, Telugu 723, 725, 753 ⫺, Thai 493, 551, 753 ⫺, Tibetan 753 ⫺, Tuamotu 197⫺199 ⫺, Tunisian 493 ⫺, Turkic 866 ⫺, Turkish 133, 164⫺168, 173⫺ 174, 177⫺178, 313, 351⫺356, 551, 753⫺754, 757⫺758 ⫺, Turkmen 313 ⫺, Tzotzil 481, 605 ⫺, Ucrainian 313, 315⫺316 ⫺, Urdu 313, 493, 753 ⫺, Ute 480, 605 ⫺, Uzbek 313, 864, 868 ⫺ variety 137 ⫺, Vietnamese 313, 753 ⫺, Wolof 493 ⫺, Yiddish 313 ⫺, Yoruba 493 Large Number of Rare Events (⫽ LNRE) 88, 247⫺248 Laut ⫺dauer 665, 667 ⫺frequenz 98 ⫺frequenz, Russisch 25 ⫺gesetz 12, 638 ⫺periode 44 ⫺statistik 24, 25⫺26, 56 ⫺wandel 144, 702 ⫺wandel, unregelmäßiger 614⫺ 621 ⫺zeichenstring 537, 543 law 275, 650, 760, 764⫺765 ⫺, allometric 792 ⫺, Beo˝thy’s 122, 125⫺126, 646 ⫺, Bradford’s 731⫺732, 883 ⫺, causal 765 ⫺, cumulative modified power 716, 722⫺723, 725, 728⫺729, 733 ⫺, deterministic 764 ⫺, diachronic 559 ⫺ formula 650 ⫺, Frumkina’s 286⫺287, 797⫺ 798 ⫺, Gibbs’ 410 ⫺, Goebl’s 646 ⫺, Herdan’s 88 ⫺ hypothesis 648 ⫺, Kabashima’s 90 ⫺, Krylov’s 122, 124, 797 ⫺, linguistic 743, 791 ⫺, Lotka’s 731
⫺, ⫺, ⫺, ⫺, ⫺,
Mandelbrot’s 88 Martin’s 308, 447, 646 Martin’s first 448 Martin’s second 448⫺449 Menzerath’s 122⫺123, 200, 203⫺204, 206, 559, 650, 652, 792⫺795 ⫺, Menzerath-Altmann 133, 274, 282⫺285, 308, 348⫺360 ⫺, Mizutani’s 88 ⫺, modified power 716, 718, 721⫺722, 725, 728, 731, 735 ⫺ of growing members 280 ⫺ of polysemy 795, 800 ⫺ of synonymy 797 ⫺ of vocabulary growth 793 ⫺, Ohno’s 90, 306 ⫺, phenomenological 283 ⫺, Piotrovskij 282, 309 ⫺, Poisson 374 ⫺, power 716⫺738 ⫺, representational 283 ⫺, Shibuya’s 88 ⫺, stochastic 764 ⫺, universal 306, 760 ⫺, universal linguistic 741 ⫺, Yule’s 88 ⫺, Zipf’s 88, 121⫺123, 131, 139, 309⫺310, 400⫺401, 406, 716⫺718, 721, 726, 728, 731⫺733, 735, 772, 793, 798, 881, 883, 885 ⫺, Zipf-Alekseev 651 ⫺, Zipf-Mandelbrot 288, 307, 401, 406, 646, 651, 724, 726, 792, 795⫺796, 989, 996⫺998 learning theory, statistical 897⫺ 899 left orientation, measure of 604 leftmost derivation 292⫺293 Lehnübersetzung 951 length 306, 766, 770, 773 ⫺ difference 280 ⫺, clause 283 ⫺ of syntactic construction 288, ⫺ of syntactic unit 275 ⫺ of verse 745 ⫺, sound 988 ⫺, syllable 988 Lesbarkeit 298, 343 Leseschwierigkeit 33 letter frequency 722 level ⫺, language 359 ⫺, supra-sentence 359 Levenshtein-Distanz 543 lexeme net 308 lexical ⫺ cohesion 121 ⫺ content 293 ⫺ richness 120, 376 lexicalisation 310
1031
Sachregister / Subject index lexicon size 310, 765, 767, 769 Lexik-Modell 20 Lexikonumfang 14, 783⫺784 Lexikostatistik 511, 641 linear predicted coding 837 Linearität 329 linguistic ⫺, engineering 320 ⫺, functional 129 ⫺ relativity 138 linguistics, synergetic 133, 288, 308⫺311, 647, 655, 760⫺773, 796 Linguistik ⫺, synergetische 330, 587, 629, 781 ⫺, Zipf’sche 4 Linguostatistik 24 LNRE 399⫺403 ⫺ mixture model 402 ⫺, adjusted 403⫺404 local tree 292 logistic curve 282, 305 loss, coefficient of 399 loudness 988 low-frequency words 944
M machine ⫺ learning 821⫺830 ⫺ translation 812⫺818, 923 macroevolution 418 macrostate 880 Makrostruktur 437⫺438 map, semantic 560⫺561 mapping, structurally stable 411 Markov ⫺ chain 740⫺741 ⫺-Kette 3, 326⫺327, 332 ⫺ model 407, 811, 839⫺840 Marrismus 60⫺61, 66 Maschinelle Übersetzung 71⫺74 Maß ⫺, Ähnlichkeits- 186, 344, 512, 536, 635⫺637 ⫺, Assoziations- 636 ⫺ der Aggressivität 185 ⫺ der Assoziativität 185 ⫺ der Attraktivität 185 ⫺ der Gleichmäßigkeit der Merkmalsausnutzung 251 ⫺ der konnotativen Konzentration 441 ⫺ der lexikalische Konzentration 337 ⫺ der modellinternen Aggressivität 185, 186 ⫺ der modellinternen Attraktivität 185, 186 ⫺ der Reflexivität 185 ⫺ der Symmetrie 185
⫺ ⫺ ⫺ ⫺ ⫺, ⫺, ⫺, ⫺,
der totalen Assoziativität 188 der totalen Reflexivität 188 der totalen Symmetrie 188 des Vokabularreichtums 435 diachrones Beziehungs- 639 Distanz- 536 Distributions- 185 Herfindahlsches Konzentrations- 429 ⫺, relatives Zusammenhangs441 ⫺, totales distributionelles 188 ⫺, Wahrscheinlichkeits- 637⫺ 638 Maximierung des Rezeptionsergebnisses 778 maximize compactness 288 Maximum an sprachlicher Effektivität 778 meaning ⫺, energic 752, 756 ⫺, informational 752, 756 ⫺, ontological 752, 756 ⫺, operative 756 ⫺, processive 756 measure 306 ⫺, distance 549 ⫺, Good’s 120 ⫺ of comprehensibility 909⫺ 912 ⫺ of importance 983 ⫺ of occupancy 204 ⫺ of organization 857 ⫺ of semantic affinity 456 ⫺ of syntheticism 764 ⫺, cosine 976 ⫺, similarity 563 measurement 306, 352 mechanism 365, 648, 764 Mechanismus 7, 13, 659 Median, des Graphen 442 mediator, instrumental 414 Mehrdeutigkeit 1 melody 999 mental lexicon 253 Merkmal ⫺, distinktives 216 ⫺inventar 216⫺217 ⫺, Stil- 340 ⫺svektor 499 message 879 Messen, Messung 2, 326, 499 Messpunktvektor 499 Messung, Ähnlichkeits- 504 Messvorschrift 7 method, Köhler-Galle 362 Methode ⫺, deduktive 10 ⫺, induktive 10 Metrisierung 7 microstate 880 Mini/Max-Prinzip 778 minimal description length 295
minimalist program 779, 781⫺782 Minimalwortschatz 21 Minimierung ⫺ des Artikulationsaufwands 216 ⫺ des Dekodierungsaufwands 144, 216, 330 ⫺ des Gedächtnisaufwands 238 ⫺ des Produktionsaufwands 144, 330 minimization of ⫺ domains 288 ⫺ forms 288 ⫺ memory effort 289 ⫺ production effort 288 ⫺ structural information 289 Minimum an sprachlichem Aufwand 778 model ⫺, 2-Poisson 977 ⫺ building 306 ⫺ diagnostics 743 ⫺ of lexical change 309 ⫺, explanatory 310 ⫺, functional-analytic 274 ⫺, Markov 407, 811, 839⫺840 ⫺, N-Gram 981, ⫺, power 406⫺408 ⫺, sequential 358 ⫺, two exponential 732, 734 ⫺, urn 398 modeling, analogical 705⫺714 Modell 9, 10 ⫺, deterministisches 8 ⫺, funktionalanalytisches 20 ⫺, Prozess- 334 ⫺, rekursives 3 ⫺, statistisches 9 ⫺, synergetisches 334, 689, 760⫺773 ⫺, Textrepräsentations- 331 Modellbildung 9 ⫺, deterministische 689 modification ⫺, ad-hoc 647 ⫺, permanent 648 ⫺ ratio 912 Monosyllabismus 959 Morph 227⫺228 Morphem 227⫺228 ⫺, derivative Produktivität 228 ⫺, Diskurseigenschaften 228 ⫺, freies 228 ⫺, gebundenes 228 ⫺, geographische Diversifikation 228 ⫺, Grad der Schriftsprachlichkeit 228 ⫺, grammatisches 228 ⫺, kompositionelle Produktivität 228 ⫺, konnotative Potenz 228
1032 ⫺, lexikalisches 228 ⫺, soziale Diversifikation 228 ⫺, Zugehörigkeit zum Flexionsparadigmen 228 ⫺ alter 228 morpheme inventory 769 Morphem ⫺frequenz 228⫺229 ⫺frequenz im Lexikon 231 ⫺grenze 222 ⫺herkunft 228 ⫺klasse 949⫺951 ⫺kombinabilität 228 ⫺länge 223⫺225, 228 ⫺polysemie 228 ⫺polytextie 228 ⫺synonymie 228, Morph ⫺frequenz 229 ⫺häufigkeit im Lexikon 231 ⫺länge 20, 232, 255⫺259, 300 Morphologie, archetypische 694 morphotactics 769 Motiv 41⫺42 multidimensional scaling 116 Multidimensionale Skalierung 642 Multidimensionalität 424 multifunctionality 771 multivariate analysis 92 Muster ⫺, konzeptuelles 425 ⫺, semantisches 425 mutation, 762⫺763 mutual information 979
N Nachfolgerphonem 183 Nähe, lexikalische 341 Natürlichkeitstheorie 12 need J requirement needs, system 310 negation in French 281 network 732, 734 ⫺, convergent lexical 451 ⫺, divergent lexical 451 ⫺, lexical 447⫺458 ⫺, neural 392, 705, 825, 934 ⫺, notional 453⫺454 ⫺, random 732 ⫺, scale free 732 neural network 392, 825, 934 neurolinguistics 891⫺895 N-gram model 811, 941 N-Gramm-Modell 962 Nichtattraktivität 187 nominality, degree of 377 nomination 992 Nominativsprache 587 Norm 31, 34 norm, neurophysiological 988
Sachregister / Subject index normalization, terminology 973 normalized variation coefficient 315 Normalverteilung 11, 583 Notwendigkeit 5 nouns, frequency of 376 NP, evoked 475⫺476 NP, inferable 475⫺476 NP, new 475⫺476 Nullisokline 696 number of phonemes 310
O observation 760 occupancy ⫺ function 204 ⫺ measure 204 Ökonomie 14 ⫺, Denk- 776 ⫺, formale 588 ⫺, Geltungs- 786 ⫺, informationsbezogene 786 ⫺, Paradigmen- 587⫺588 ⫺prinzip 782 ⫺, sprachliche 775⫺789 ⫺, systembezogene 786 Ökonomisierungsprinzip 683 Ontogenese 329 Operationalisierung 7 operator, communicative-pragmatic 992, 995, 998 operator-operand deviation 278 optimality theory 781 Optimierung ⫺ des Belastungsverhältnisses 787 ⫺, partikulare 787 ⫺, relative 787 optimization 779 Ord’s system 798 order 410, 889 ⫺ of syntactic units 275, ⫺ parameter 761⫺762, 773, 883, 886 ⫺, degree of 761 ⫺, sequential 883 orderliness 598 Ordnung 6, 7 ⫺ des Graphen 440 ⫺, chronologische 340 ⫺smuster, räumliches 512 ⫺sparameter 20, 330, 334 ⫺sstruktur 507 Ord’sches Kriterium 211⫺212, 258⫺259, 270⫺271 organization 886 ⫺ of text 859, 862 organs, articulatory 836 origin 307 outside ⫺ algorithm 294 ⫺ probability 294
P Paarreim 33 Paradigmenkomplexität 593 Paradigmenökonomie 587⫺588 paragrammatism 894 parsing 847⫺855 ⫺, data-oriented 827, 854⫺855 part of speech 275, 307⫺308, 910, 935 parts of speech, Japanese 90 Performanzbedürfnis 787 Periode, Laut- 44 Periodizität 331 Peripherie des Textes 428 persistence, topic 473, 477, 480, 482⫺483, 495 Persistenz, thematische 342 phase 410 phase rule 410 Philologie, dynamische 147, 148 Phonem ⫺distribution 181⫺190 ⫺, Nachfolger- 183 ⫺, Vorgänger- 183 phoneme ⫺ combinations, Czech 132 ⫺ frequency 191, 652, 722 ⫺ frequency, Czech 132 ⫺ frequency, Japanese 83 ⫺ frequency, Polish 116⫺118 ⫺ inventory 769 ⫺ number 310, 767 Phonemeigenschaft, distributionelle 182⫺183 Phonem-Graphem-Verhältnis 58 Phoneminventar 58, 214⫺216 ⫺, Vereinfachung 216 Phonem ⫺komplexität 216 ⫺statistik 60 ⫺system 181 ⫺zahl 14, 783⫺784 phonetic development 126 Phonetikum 947 Phonetizität 948 Phonometrie 17, 147 phrase length 121, 765, 769 Phrasenbildung 444 Phrasenlänge 17, 665 Phraseologismus 461 phrasing 999 Phylogenese 329 phylum 555 Plan, diskursiver 437 point ⫺, cusp 411 ⫺, fold 411 ⫺, regular 411 polyfunctionality 649, 770 Polyfunktionalität 783, 784 Polylexie 20, 236, 460, 784, 965, 968
1033
Sachregister / Subject index polylexy 122 Polysemie 1, 7, 10⫺11, 426, 458⫺463, 701, 959 ⫺, lexikalische 359, 458 ⫺, Morphem- 228 ⫺potential 236 ⫺stufe 462⫺463 ⫺-Verteilung 461⫺462 polysemy 124, 126, 306, 308, 310⫺311, 649, 764, 766⫺770 Polytextie 11, 20, 783⫺784, 965, 968 ⫺, Morphem- 228 polytextuality 311, 649, 766⫺769 POS tagging 810⫺812 position 766, 771, 773 ⫺, direct object 280 ⫺, of syntactic construction 288 Position 784 ⫺, Wort- 667 Potenzfunktion 335 power function 280 power law 350, 793 Prädiktivität 584 ⫺, externe 586 ⫺, interne 586 Präferenzgesetz, semiotisches 335 Prager Schule 432 Prague School 130, 471 predicate alert 417 predication 419, 992 predictability, lexical 867 prediction 117 principal component analysis 249, 388⫺389, 393 principle ⫺ of cross-category harmony 278 ⫺ of depth saving 289 ⫺ of domain minimization 279 ⫺ of least effort 279, 762, 792 ⫺ of model-independence 275⫺276 Prinzip ⫺ der Aufwandökonomie 785 ⫺ der geringsten Anstrengung 4, 143, 147, 216, 232, 458, 682, 778⫺779, 781 ⫺ der Häufigkeit 143 ⫺ der maximalen Distinktivität 216 ⫺ der relativen Häufigkeit 145, 146 ⫺ der Verzögerung 782 ⫺ der vollständigen Interpretation 782 ⫺ des letzten Auswegs 782 ⫺, Reinjektions- 697⫺698 ⫺, Relevanz- 594 ⫺, Selbstsucht- 782 probabilistic context-free grammar 292
probability model 292 process 769 ⫺, anamorphic 648 ⫺, Bernoulli-Markov 726 ⫺, birth-and-death 201, 408, 647, 654⫺655 ⫺, communication 857 ⫺, competing 761 ⫺, context centralising 311 ⫺, context globalising 311 ⫺, cooperative 761 ⫺, katamorphic 648 ⫺, Markov 869 ⫺, morpholytic 648 ⫺, morphostatic 648 ⫺, morphotransformatory 648 ⫺ of context-centralising 767 ⫺ of context-globalising 767 ⫺ of lexical change 309 ⫺, stochastic 364, 740 ⫺, Zipfian 646 processing process, natural language 808⫺ 818, 821⫺830, 834⫺847 process, speech 834⫺847 productivity 308 ⫺, category-conditioned degree of 244, 250, 252 ⫺, degree of 249⫺250 ⫺, index of 244⫺245 ⫺, morphological 243⫺253 Produktion, Text- 326⫺327, 334 ⫺saufwand 98, 144, 330 Produktivität 229 Produktivität ⫺, derivative 228 ⫺, kompositionelle 228 ⫺, morphologische 231, 950 ⫺, Prozedur- 231 ⫺ von Wurzelmorphemen 55 Produzierbarkeit, 326 Profil, lexikalisches 340 Profilvektor 584 Progression, thematische 431⫺432 pronominalization 475 pronunciation 931⫺935 property 191 ⫺, quantitative 276 ⫺, syntactic 275⫺276 Prototypensemantik 784 Prototypentheorie 781 proximity, genetic 308 Prozedur-Produktivität 231 Prozess 3, 330 ⫺, anaphorischer 702 ⫺begriff 327 ⫺ der Textproduktion 325 ⫺ der Textrezeption 325 ⫺, deterministischer 147 ⫺, Geburts- und Todes231⫺232, 499 ⫺, homöorhetischer 328
⫺, homöostatischer 328 ⫺, kataphorischer 702 ⫺, konkurrierender 20, 329 ⫺, kooperativer 20, 329 ⫺modell 334 ⫺, morphogenetischer 328 ⫺, probabilistischer 327 ⫺, stochastischer 326 ⫺, synergetischer 330 ⫺, Textproduktions- 330 ⫺, zyklischer 696 psychiatry 988⫺1000 Punktmenge, fraktale 698 Pyrrhichie 28
Q Q-Analyse 501 QSUM chart 394 quantification 306 Quantifizierung 7, 326 Quantitätsgesetz 660⫺661 Quotient, RC- 593 Quotientenbildung 333
R Radius des Graphen 442⫺443 Rahmeneinheit 181, 183 Rang 18, 153 Rangähnlichkeitsverteilung 344 Rang-Frequenz 229, 954 ⫺-Verteilung 148, 231, 335, 435 Rangzahl 4 rank 126, 307 ⫺ distribution 792 ⫺ frequency 724 ⫺ number 356 rare vocabulary 121 rarity, index of 910 ratio, association 979 Raum, semantischer 425 Raumstruktur 499 RC-Quotient 593 reaction time 138 readability 377 ⫺ formula 909⫺910, 913⫺915 ⫺ measure 910 reading motivation 913 Realisierung, optimale 787 recall ⫺, text 998 ⫺, word 995 recognition ⫺, language 924 ⫺, speech 836⫺846 ⫺, word 839⫺841 reduction, lexical 310 Reduktionsverfahren 537 redundancy 117, 131, 194, 308, 310, 740, 767, 769, 862⫺863,
1034 873, 867, 879, 882, 885⫺886, 989 Redundanz 4, 144, 217⫺222, 255, 683 ⫺freiheit des Transkriptionscodes 220 ⫺, lexikalische 337 ⫺, Merkmals- 219⫺221 ⫺, paradigmatische 219 ⫺, relative 215 ⫺, syntagmatische 217⫺219 ⫺, textuelle 785 Reduplikation ⫺, partielle 665 ⫺, volle 665 Referenzstruktur 338 reflection 857 Reflexivität, totale reflexivity 198 Regel 661 ⫺begriff 327 Regelkreis 424, 700 ⫺, Köhlerscher 216, 227, 237, 255⫺256, 261 ⫺, kybernetischer 328 Regelzusammenhang, deterministischer 326 Register 336, 340 Regularität 335 ⫺, stochastische 425 Reichtum, rhythmischer 43 Reim 49, 53, 331 Reinjektionsprinzip 697, 698 Rekonstruktion 70 Relation 426 ⫺, distributionelle 182⫺183 ⫺, funktionelle 182⫺183 ⫺, heterogene 331 ⫺ homogene 331 ⫺, logische 501 relation 760 ⫺, frequency ⫺ irregularity 50 ⫺, average word length ⫺ clause length 274 ⫺, causal 760 ⫺, contextual 354 ⫺, genus-differentia 994 ⫺ of combination 279 ⫺ of dependency 279 ⫺, paradigmatic 739 ⫺, part-whole 994 ⫺, polysemy ⫺ word length 307 ⫺, semantic 252 ⫺, size of syllables, word, sentences 569 ⫺, structural 761 ⫺, syntagmatic 739 ⫺, verb tenses ⫺ verb-adverb combinations 274 relationship ⫺, causal 765 ⫺, contextual 740 ⫺, spatial 551
Sachregister / Subject index relevance ⫺, communicative 311 ⫺, term 976 Relevanzprinzip 594 reliability 370 repeat rate 390, 563 Repellor 693⫺694 repetition 362 ⫺, degree of 357 ⫺, word 996⫺998 Repetitionsstruktur 345 Repetivität 424 Repräsentativität 10 representativity 307 requirement 769 ⫺, adaptation 766 ⫺, application 766, 768 ⫺, coding 310⫺311, 648, 766⫺ 767 ⫺, coding efficiency 766 ⫺, context economy 766 ⫺, context specificity 766 ⫺, control-level 766 ⫺, de-specification 766 ⫺, economy 766 ⫺, efficiency 310 ⫺, flexibility of expressionmeaning-relation 766, 768 ⫺, invariance of expressionmeaning-relation 766, 768 ⫺, language-constitutive 766 ⫺, language-forming 766 ⫺, limitation of embedding depth 766 ⫺, minimisation of inventories 766 ⫺, minimisation of structural information 766 ⫺ of coding effort minimisation 310, 648 ⫺ of complexity maximisation 766 ⫺ of context economy 648 ⫺ of context specificity 648 ⫺ of decoding effort minimisation 310, 648, 762⫺763, 766 ⫺ of encoding effort minimisation 766 ⫺ of flexibility 311 ⫺ of invariance vs. flexibility of the relation between expression and meaning 648 ⫺ of inventory minimisation 648 ⫺ of memory effort minimisation 762⫺763, 766 ⫺ of production effort minimisation 310, 648, 762⫺763, 766 ⫺ of redundancy 310 ⫺ of specification 310 ⫺, preference of right branching 766
⫺, specification 766 ⫺s, Köhlerian 648 ⫺, stability 766 ⫺, system external 773 ⫺, transmission security 766 restriction, phonological 310 retrieval 305 Reutlinger Raster 909 Rezeption, Text- 327 Rezipierbarkeit 326 rhyme 378, 390 rhythm 117, 133, 365, 413 rhythmische Einheit ⫺, Häufigkeitsverteilung 209 ⫺, Länge 208⫺213 ⫺, Sequenzen 213 Rhythmischer Kreis 31 Rhythmus 28⫺30, 32, 40, 43, 218 ⫺, Akzent- 584 ⫺, Prosa- 44⫺46 ⫺, Silben- 584 ⫺, Wortlängen- 265 richness ⫺, lexical 370 ⫺, vocabulary, 387, 389⫺390, 393 Rückkoppelung, negative 328 Ruhepunkt 691 rule ⫺ approach 705 ⫺ induction 829⫺80 runs, theory of 363 Russian formalist school 740
S sample ⫺, ideal Zipfian 990 ⫺, random 599 ⫺ size 244 ⫺, stratified 599 ⫺, systematic 599 sampling 133, 370, 554⫺559, 599 ⫺, stratified 555 sandpile 363 SARMA 745 Sattel 692 ⫺punktsverhalten 697 Satzende 46 Satzfolge, kohärente 325 Satzgliederung 154 Satzlänge 17, 20, 44, 153⫺154, 209, 213, 256, 298, 333⫺334, 339, 343, 665, 668, 684, 959, 961 ⫺nfolge 154 ⫺nverteilung 298, 959, 961 ⫺nverteilung, Chinesisch 112 Satzschachtelung 154 Satzstruktur 153
1035
Sachregister / Subject index scaling 548 ⫺, multidimensional 548, 561 Schachtelungsgrad 339 Scheinstammbaum 641 Schicht(ung), rhematische 432, 433 Schicht, Menzerath’sche 432, 433 Schichtung, Text- 433 Schiefe 507, 508 schizophrenia 990⫺991 Schlüssel, diagnostischer 584, 586 Schmetterling 692, 694, 702 Schnittecke 443⫺444 Schnittkante 443 Schnittmenge 443 Schrift ⫺, alphabetische 947, 963⫺964 ⫺, Buchstaben- 951 ⫺, chinesische 947⫺968 ⫺, ideographische 948 ⫺, kyrillische 963 ⫺, logographische 948 ⫺, morphosyllabische 948 ⫺, piktographische 948 ⫺zeichen, horizontal teilbar 958, 959 ⫺zeichen, vertikal teilbar 958, 959 Schule ⫺, Charkover linguistische 33 ⫺, Kazaner 27 ⫺, Moskauer 27 Schwalbenschwanz 692 Schwellenwert 544 Schwierigkeit ⫺, artikulatorische 1 ⫺sgrad 339 second language acquisition 117 Segment, Text- 330⫺331 segmentation, speech 837⫺839 Segmentierbarkeit 257 Segmentierung 331 ⫺, Text- 339, 343 ⫺, Wort-, Chinesisch 105⫺106 Segmentlänge 331 Selbstähnlichkeit 699 Selbstorganisation 4, 20, 150, 329, 330, 424 ⫺sprozess 700 Selbstregulation 149, 329⫺330, 424⫺425, 784 Selbstsucht-Prinzip 782 selection 762⫺763 Selektivität 469 self-organisation 362, 365, 724, 732, 765, 887⫺888 ⫺, evolutionary 764 self-regulation 648⫺650, 730, 874, 988 self-similarity 359⫺360, 733
Semantik ⫺, lexikalische 701 ⫺, Prototypen- 784 Semem 459 Semiattraktivität 187 Semiotik 74⫺77 sense information 858, 870⫺871, 873 sentence ⫺ aggregate 351 ⫺, complex, Czech 132 ⫺ length ⫺ linearity ⫺ semantics 134 ⫺ length 121, 134, 158, 293, 352, 371, 377, 390, 394, 652, 748, 912⫺913, 916 ⫺ length, Czech 132 ⫺ structure 377, 910 ⫺, type 275 sequence 727 ⫺ of Japanese characters 941 sequencing, temporal 472 sequential order ⫺, degree of 743 ⫺, measure of 743 Sequenz 36, 221⫺222, 330 ⫺, binäre 332 series ⫺, positional 358 ⫺, word frequency 358 set, self-similar 352 shortening 310 shorthand system 130 Signifikum 947 Silbe ⫺, betonte 34, 48 ⫺nlänge 20, 208, 213, 256, 665, 669⫺670 ⫺nrhythmus 584 ⫺nstruktur 17, 70, 700 ⫺nzählung 16 similarity 92, 116, 762 ⫺, document 976 ⫺ measure 563 simple object 292 simplicity 357, 792 simplification 276 Simpson’s index of diversity 374 size ⫺ of corpus 308 ⫺ of inventory 306, 762, 766, 771 ⫺ of lexicon 310, 765, 767, 769, 999 ⫺ of phoneme inventory 310, 767 ⫺ of vocabulary 399, 401, 995⫺ 997 Skala 7 ⫺, deterministische 8 ⫺, kontinuierliche 701 Skalierung, Multidimensionale 642
skewness 772 Skinners Hypothese 332 Soziogramm, textuelles 340 space, typological 757 Sparsamkeitsregel 661, 682 sparse-data problem 811, 822 Spearman’s rank coefficient 755 specification 310 spectral analysis 744, 747 spectrum 400⫺401, 403 ⫺, acoustic 836 ⫺, frequency 772 speech ⫺ disorder 988 ⫺, pathological 988 ⫺ recognition 923 Spektralverteilung 336 Spektrum ⫺, Frequenz- 229⫺230, 335⫺337 ⫺, lexikalisches 343 ⫺, linguistisches 38 Spontaneität 335 Sprachbund 574 Sprache ⫺, !Xu˜ 215, 223 ⫺, Afrikanische 625 ⫺, Ägyptisch 625 ⫺, Albanisch 639, 642, 685 ⫺, Altenglisch 583 ⫺, Altfranzösisch 608, 624⫺625 ⫺, Altgriechisch 210, 300, 583, 775 ⫺, Althebräisch 268⫺269 ⫺, Althochdeutsch 261, 268, 617 ⫺, Althochdeutsch 702 ⫺, Altiranisch 625 ⫺, Altisländisch 269 ⫺, Altkirchenslawisch 269, 583 ⫺, Altpersisch 583 ⫺, amerikanische 625 ⫺, amorphe 460 ⫺, analytische 460, 588⫺589 ⫺, Anatolisch 642 ⫺, Anjang 685 ⫺, Arabisch 261, 583, 614, 625, 685 ⫺, Armenisch 639 ⫺, Asoka 583 ⫺, Assyrisch 625 ⫺, australische 625 ⫺, baltische 625 ⫺, Bambara 685 ⫺, Bantu 642 ⫺, Baskisch 511, 625 ⫺, Bearnesisch 511 ⫺, Bengali 583 ⫺, Bulgarisch 225 ⫺, Chinesisch 96⫺112, 234, 265, 268, 270, 300⫺302, 589, 625, 685, 947⫺969 ⫺, Chinesisch: guoyu 947 ⫺, Chinesisch: Mandarin 223, 947
1036 ⫺, Chinesisch: putonghua 947 ⫺, Deutsch 18, 20, 24, 56, 144, 153, 211⫺212, 221⫺223, 228, 233⫺238, 255, 257, 261⫺262, 268⫺269, 271, 299⫺302, 426, 443, 458, 460⫺462, 467⫺468, 587, 589, 624, 660, 667⫺671, 673⫺674, 685, 701, 775, 947, 961⫺963 ⫺, Deutsch, Hoch- 268⫺269, 271 ⫺, Deutsch, Mittelhoch- 268 ⫺, Deutsch, Nieder- 268 ⫺, Deutsch, Schweizer- 268⫺269 ⫺, dravidische 642 ⫺, Englisch 153, 155, 211⫺213, 237, 255, 261⫺262, 269, 298, 300⫺301, 341⫺342, 458, 460, 462, 467, 583, 591, 594, 617, 620, 671, 673⫺674, 685, 702, 775, 947, 961⫺963 ⫺, Englisch, amerikanisches 215, 536, 669 ⫺, Eskimo 265, 268⫺269, 583 ⫺, Esperanto 155 ⫺, Estnisch 269, 460, 685 ⫺, Ewon 685 ⫺, Finnisch 269, 594 ⫺, flektierende 580 ⫺, Fränkisch 268 ⫺, Frankoprovenzalisch 508, 511 ⫺, Französisch 215, 221⫺222, 230, 235, 262, 499, 506⫺507, 587, 594, 607, 609, 611⫺613, 615⫺618, 620, 624⫺625, 641, 659, 678⫺679, 685, 775, 963 ⫺, Friaulisch 506, 508 ⫺, Frühneuhochdeutsch 268 ⫺, fusionierende 584 ⫺, Georgisch 223 ⫺, germanische 624, 639, 641⫺642, 702 ⫺, Gotisch 24, 583, 617 ⫺, Griechisch 16, 208, 261, 269, 583, 617, 639, 685 ⫺, Grönlandisch 261 ⫺, Hawaiianisch 215, 223⫺224 ⫺, Hebräisch 685 ⫺, Hethitisch 583, 642 ⫺, Hindi 223, 587, 685 ⫺, Hochdeutsch 268⫺269, 271 ⫺, Indianer- 261 ⫺, indoeuropäische 261, 268⫺ 269, 468, 580, 587, 589⫺590, 609, 611, 617 ⫺, indogermanische 642 ⫺, Indonesisch 229, 231, 670⫺ 671 ⫺, inkorporierende 580 ⫺, Iranisch 624⫺625 ⫺, Isländisch 271, 685 ⫺, isolierende 580, 584, 587, 947
Sachregister / Subject index ⫺, Italienisch 56, 223, 262, 506, 508⫺509, 609⫺613, 617, 619⫺620, 670⫺671, 685 ⫺, italienisch 963 ⫺, Jakutisch 583 ⫺, Japanisch 265, 268, 589, 625, 685 ⫺, Katalanisch 506, 616 ⫺, kaukasische 224 ⫺, Keltisch 625 ⫺, Ketschua 268⫺269 ⫺, Kirchenslawisch 24 ⫺, klassisches Griechisch 269 ⫺, Koine-Griechisch 269 ⫺, Koreanisch 268, 685 ⫺, Ladinisch 506, 533 ⫺, Lappisch 270 ⫺, Latein 24, 144, 155, 617, 222, 234, 261, 269, 609, 612, 619, 622, 951 ⫺, Litauisch 616 ⫺, Malayisch 625 ⫺, Maltesisch 583 ⫺, Maori 268, 594 ⫺, Mazedonisch 225, 685 ⫺, Mittelhochdeutsch 268 ⫺, monosyllabische 947 ⫺, Nahuatl 223 ⫺, Neupersisch 583 ⫺, Niederdeutsch 268 ⫺, Niederländisch 229, 233, 237⫺238, 255, 594, 673⫺674, 685 ⫺, Nootka 230 ⫺, Norwegisch 589 ⫺, Oskisch 610 ⫺, ostasiatische 269 ⫺, Persisch 685 ⫺, Pfälzisch 268 ⫺, poetische 75⫺76 ⫺, Polnisch 238, 262, 609, 617, 624 ⫺, polynesische 224⫺225 ⫺, polysynthetische 592 ⫺, Portugiesisch 678⫺680, 685 ⫺, Portugiesisch, brasilianisches 234 ⫺, Rätoromanisch 506 ⫺, Rigveda 583 ⫺, romanische 269, 271, 610, 616, 624, 637, 678 ⫺, Rotokas 215 ⫺, Rumänisch 610, 617, 624⫺625, 963 ⫺, Russisch 23⫺64, 65⫺78, 184⫺186, 188, 225, 269, 301, 460⫺462, 593⫺594, 685, 583 ⫺, Sanskrit 261 ⫺, Schweizerdeutsch 268⫺269 ⫺, Serbokroatisch 670⫺671, 685 ⫺, slawische 269, 610, 616, 624⫺625 ⫺, Slowakisch 300, 460, 685
⫺, Spanisch 611⫺613, 616, 625, 660, 678, 680, 685 ⫺, Spanisch 963 ⫺, Suaheli 583 ⫺, synthetische 588⫺589 ⫺, Tabassaranisch 588 ⫺, Thai 223 ⫺, Tibetanisch 625 ⫺, Tschechisch 268, 624, 685 ⫺, Tscheremissisch 269 ⫺, Türkisch 223, 255, 268⫺269, 338⫺339, 583, 677, 685, 701 ⫺, Ukrainisch 466 ⫺, Ungarisch 233, 269, 460, 591, 625, 685 ⫺, Urdu 587 ⫺, Vietnamesisch 583 Sprach⫺gesetz 13, 271 ⫺kontakt 216 ⫺modell, synergetisches 334 ⫺statistik 25 ⫺theorie 12⫺13 ⫺typ 460, 586 ⫺typologie 17, 21, 71, 261, 498, 506, 682 ⫺typologie, funktionale morphologische 589⫺596 ⫺verarbeitungssystem 682, 685 ⫺verständlichkeit 220⫺221 ⫺wandel 702, 785 Sprechaufwand 144 Sprichwort, Längenverteilung 303 Stabilität 329, 701 ⫺, strukturelle 691 stability ⫺, process 411 ⫺, static 411 ⫺, stylistic 369 standard frequency index 316 Stärke, assoziative 442 statistical stereotype 320 Status, phraseologischer 440 Stern 692 Sterndiagramm 643 Stichprobengröße 40, 70 Stil 17, 302 ⫺analyse 71 ⫺charakteristikum 327 ⫺, fachsprachlicher 462 ⫺merkmal 340 ⫺, regionaler 462 ⫺, umgangssprachlicher 462 ⫺, veralteter 462 Stilistik, quantitative 339 stock 555⫺556 Störfaktor 667 Störung 691 stratification ⫺, areal 556⫺557 ⫺, cultural 556 ⫺, genealogical 556⫺557
1037
Sachregister / Subject index Strichzahl 102, 955⫺957 ⫺verteilung 955⫺956 Strophe 35 structural ⫺ content 293 ⫺ description 292 structuralism 115, 122, 129⫺131, 739 structure ⫺, fractal 716 ⫺, monomorphemic 756 ⫺, monosyllabic 756 ⫺, ordered 764 ⫺, polymorphemic 756 ⫺, polysemantic 756 ⫺, rhythmic 744 ⫺, self-similar 717 ⫺, sequential 738⫺748 Struktur ⫺begriff 327 ⫺, clausale 684, 685 ⫺, dynamische 702 ⫺, fraktale 694 ⫺information 686 ⫺, phonologische 181 ⫺, semantisch-denotative 438 ⫺, semantische 459 ⫺, thematische 433 ⫺typ 959 ⫺, Wort- 70, 227, 578⫺580 ⫺, Zusammenhangs- 345 Strukturalismus 61, 65, 67⫺68, 71, 76, 146 Strukturiertheit 424 style 369, 886 ⫺ profile 380 ⫺, functional 368, 377 stylistics, statistical 368 stylometrics 370⫺371 ⫺, Japanese 85, 90⫺91 stylometry 119⫺120, 392, 748 ⫺, positional 377 ⫺ probability 126 Substanz 425 subsystem 191 ⫺, syntactic 770⫺771 Subsystem ⫺, grammatisches 634 ⫺, lexikalisches 634 ⫺, phonemisches 634 Sujet 41 suppletivism 126 supracontext 708 Supra-Satz-Konstrukt 425 S-word 725⫺726, 728, 734, 885 syllable ⫺ duration 136⫺137 ⫺ frequency 191 ⫺ frequency, Japanese 83 ⫺ length 121 ⫺ type 651 Symmetrie 181
symmetry 198 ⫺, internal 360 ⫺, structural 359 syndrome, hallucinatory-paranoid, 991 synergetics 760 ⫺, language 760⫺773, 792 Synergetik 19, 22, 423 ⫺, linguistische 330, 587, 629, 781 synergetisches Sprachmodell 334 synfunctionality 770 Synfunktionalität 783⫺784 Synkretismus 588 Synonym 426, 638 Synonymie 425⫺426 ⫺, Morphem- 228, synonymy 647⫺649, 766, 768 ⫺, construction 308, 310⫺311 syntactic inventory 769 syntax 127 Synthesegrad 581 Syntheseindex 261 synthesis, degree of 559 syntheticism 306, 308 ⫺, measure of 764 Synthetizität 460, 588⫺589 system ⫺, complex 305, 881, 883 ⫺, complex adaptive 717, 735, 878, 883⫺884, 886, 889 ⫺, complex dynamical 309 ⫺, concept 769 ⫺, dynamic 305, 410 ⫺, dissipative 878 ⫺, exemplar-based 705 ⫺, far from equilibrium 887⫺ 889 ⫺, hierarchical conceptual 769 ⫺, isolated 879, 887⫺889 ⫺, language 352 ⫺, lexical 308 ⫺, living 362 ⫺ modification 647 ⫺, non-linear 887 ⫺, open 305, 878 ⫺ of laws 765 ⫺, ordered 883 ⫺, random 883 ⫺ requirement 765 ⫺, self-organising 288, 305, 309, 760⫺761, 765, ⫺, self-regulating 288, 309, 760, 765, 792 ⫺, semiotic 761 ⫺, syntactic 278 ⫺s theory 305, 760⫺761, 792 System 3 ⫺, autonomes dynamisches 689 ⫺bedürfnis 330, 631 ⫺bedürfnis, konkurrierendes 330 ⫺bedürfnis, kooperierendes 330
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
chaotisches 690 dissipatives 697 dynamisches 329, 689, 691 effizientes 216 erregbares 697 konservatives 697 lineares dynamisches 689 nichtlineares dynamisches 689 ⫺, offenes dynamisches 328 ⫺organisation 688 ⫺, phonotaktisches 189, 190 ⫺, probabilistisches 330 ⫺, selbstorganisierendes 19, 684 ⫺, selbstregulierendes 19 ⫺, semiotisches 328 ⫺, textuelles 330 ⫺theorie 4, 74, 327⫺330, 423
T Taxierung 532 ⫺algorithmus 532⫺547 Taxonomie, numerische 21, 584 taxonomy 116, 133 Teilsatzlänge 665 tempo 137, 988⫺999 tendency 305 Tendenz 8, 182, 339 ⫺, stochastische 214 ⫺ zur Assoziation 189 ⫺ zur Dissoziation 189 ⫺ zur grammatischen Ikonizität 787 ⫺ zur Verlängerung 46 term ⫺ acquisition 971 ⫺, complex 977⫺979 ⫺hood 972 ⫺, multi-word 977⫺979 ⫺ recognition 984⫺985 ⫺ vector 976 text ⫺ block 286 ⫺ categorization 139 ⫺ classification 387 ⫺, compact 355⫺356, 359 ⫺ completeness 796 ⫺ comprehensibility 909⫺916 ⫺ count 473 ⫺ coverage 992 ⫺, deliberative 913 ⫺ emotionality 910 ⫺ entropy 874 ⫺ guessing 860⫺865 ⫺, informational structure of 865, 866 ⫺ law 348⫺360 ⫺ length 284, 308 ⫺ organization 910 ⫺, pathological 989⫺1000 ⫺ prosody 117
1038 ⫺ segmentation 357 ⫺ shortness 910 ⫺ theory 348, 792 ⫺-to-speech systems 931 ⫺ type 137 ⫺ understandability 910 Text 424 Text, kohärenter 335⫺336, 338 ⫺abdeckung 100, 336, 952⫺953 ⫺aggregat 338⫺339, 668, 677 ⫺algebra 325, 345 ⫺analyse, denotative 423⫺block 338 ⫺dynamik 4 ⫺gesetz 326, 333, 335⫺339, 345 ⫺gruppe 339⫺340 ⫺indexierung 18 ⫺klassifikation 341 ⫺kohärenz 439⫺440 ⫺kompaktheit 431 ⫺kondensation 781, 785 ⫺korpora 10, 11 ⫺korpus, Brown 98 ⫺korpus, Chinesisch 97⫺99, 106⫺112 ⫺korpus, LOB 98 ⫺korpus, russisches 34 ⫺länge 14, 265, 434 ⫺linguistik 325, 423 ⫺linguistik, kommunikationsorientierte 325 ⫺mischung 267, 270 ⫺organisation 334, 341, 345 ⫺organisation, statistische 325, 327, 331 ⫺position 330 ⫺potenz, konnotative 440 ⫺produktion 326⫺327, 334 ⫺produktionsprozess 330 ⫺prozess, stochastischer 330, 333 ⫺repräsentationsmodell 331 ⫺rezeption 327 ⫺schichtung 433 ⫺schwierigkeit 261, 344 ⫺segment 330⫺331 ⫺segmentierung 339, 343 ⫺sorte 259, 266, 268, 270, 302, 325, 336, 339⫺341, 443, 953 ⫺statistik 325, 345 ⫺struktur, assoziative 424 ⫺struktur, konnotative 424 ⫺strukturanalyse 445 ⫺theorie 298, 326, 335, 345, ⫺topologie 325, 345 ⫺typ 328 ⫺typologie 76, 431 ⫺umfang 337 ⫺verarbeitungsprozess 329 ⫺vokabular 4 ⫺wissenschaft, erklärende 327
Sachregister / Subject index ⫺, wissenschaftlicher 21 Textem 436, 439 Thema 424, 433 thema-rhema 133 Thema-Rhema 342, 431, 433 Thematik 424 theorem of Whitney 411 Theorie 6, 8, 209, 423, 587, 687 ⫺, allgemeine 162 ⫺bildung 10, 19, 22, 71 ⫺, linguistische 661 theory 760, 764⫺765 ⫺ building 306, 646 ⫺, general systems 310 ⫺, linguistic 764 ⫺, scientific 764 Thiessen-Parkettierung 509, 510 Thisted-Efron test 391 thread, associative 996⫺998 Tiefe 784 time series 358, 390 tonality 378 Tondauer, Verteilung der 155 Tonhöhe, Verteilung von 155 top-down probability 292 topic 471 topicality quotient 477 Topic-Comment 433, 342 Topikalität 429⫺430 Tornquist curve 367, 795 Tornquist-Kurve 340 Totalmaß, distributionelles 188 Trägheit des Artikulierens 778 training 811, 815 Trajektorie 689, 696 transcription 931 transfer, punctual 415 transformation 910 ⫺, logarithmic 767 Transkriptionscode, Redundanzfreiheit des 220 Transkriptionsstring 536 tree reconstruction 309 Trennhöhenschätzer 639 triggering, self-regulative 647 trigram 859 Trochäus 35, 48 Typ 532⫺533, 579 ⫺, agglutinierend 584⫺585 ⫺, flektierend 584⫺585 ⫺, introflexiv 584⫺585 ⫺, isolierend 584⫺585 ⫺, polysynthetisch 584⫺585 ⫺, strukturell 580 type ⫺ identification 361 ⫺, mixed 558 ⫺, pure 558 type-token 88 ⫺ curve, Köhler-Martina´kova´’s 795
⫺ ratio (TTR) 120, 284⫺286, 305⫺307, 361⫺367, 374, 487, 488, 988, 999 Type-Token-Index (TT-Modell, TT-Verhältnis, TT-Ratio) 333, 337⫺338, 433, 343 Typologie 12, 75,77, 214 ⫺, funktionale morphologische 579, 580 ⫺, ideale 587 ⫺, Inhalts- 587 ⫺, klassische morphologische 578⫺581 ⫺, kombinatorische 581 ⫺, moderne funktionale 587 ⫺, moderne morphologische 579⫺580, 587⫺589 ⫺, monothetische 584 ⫺, morphologische 578⫺596 ⫺, polythetische 586 ⫺, quantitative morphologische 581⫺583 ⫺, strukturalistische 578, 583⫺ 587 ⫺, Text- 76, 431 ⫺, Wortstellungs- 592 typology 134, 191, 472, 554⫺575 ⫺, implicational 598 ⫺, language 369 ⫺, linguistic 275, 278, 598 ⫺ of transitions 558 ⫺, word order 278
U Übergang 340 ⫺shäufigkeit 155 ⫺swahrscheinlichkeit 3, 36 Überschneidungsbeziehung 459 Übersetzung, maschinelle 71⫺74 Übertragungssicherheit 683 Umfang 1 ⫺, semantischer des Wortes 462 uncertainty 727, 861, 879⫺880 ⫺, compositional 252 unfolding 411 unification process 646⫺656 ⫺, lexical 310 Unifikation 147, 148, 232, 262 ⫺skraft 4 ⫺sprozess 331 unit, syntactic 275⫺276, universal 282, 598 ⫺, absolute 566 ⫺, bidirectional 564 ⫺, chained 565 ⫺, extended implicational 565 ⫺, implicational 564, 566⫺568 ⫺, implicational 600 ⫺, nested implicational 565 ⫺, statistical 566 Universale, implikatives 589, 596
1039
Sachregister / Subject index Universalienforschung 12, 214, 216, 682, 684 Urliste 635 urn model 246
V Vagheit 8, 327, 701 valency 857 value 857 Variabilität 89, 327, 425, 441, 499, 535 ⫺sbedürfnis 237 variability 392 ⫺, degree of 754 ⫺, sound 838 variable ⫺, formal-statistical (overt) 370 ⫺, latent 370 variant ⫺, alternative 602⫺603 ⫺, basic 602⫺603 Variation 458, 503, 579 variation 563, 598, 762 ⫺ linguistics 308 ⫺, degree of 761 ⫺, environmentally conditioned 647 ⫺, orthographic 943 ⫺, syntactic 274⫺275 Varietät 786 Veränderung 1 verb valence 413 Verb-Adjective-Ratio 276, Verbundenheit 444 Vereinfachung 785 ⫺sbedürfnis 237 Verfahren, kontextuelles 459 Vergleich 326⫺327 Verhältnis ⫺, Konsonanten/Vokale 56 ⫺, Phonem-Graphem- 58 Verknüpfungsstruktur 345 Verschiedenheitsindex von Fucks 154 verse length 121 Vers ⫺forschung 31 ⫺theorie 33 ⫺typ 52 ⫺wissenschaft 34 Verständlichkeit 261, 666 Verteilung 330⫺331 ⫺, 1-verschobene negative Binomial- 299⫺301 ⫺, 1-verschobene Poisson- 268 ⫺, 1-verschobenen Hyperpoisson 210⫺213, 232, 258, 263, 301 ⫺, Beta 338 ⫺, Betonungs- 52 ⫺, Binomial- 46⫺47, 187, 264, 338, 638, 955, 958
⫺, ⫺, ⫺, ⫺, ⫺,
Bradford- 963 ˇ ebanov-Fucks- 155 C Cohen-Poisson- 960 Consul-Jain-Poisson- 264 Conway-Maxwell-Poisson264 ⫺, Dacey-negative Binomial957 ⫺, Dacey-Poisson- 270, 957⫺958 ⫺ der Graphemzahl 957⫺958 ⫺ der Hrebgröße 434 ⫺, der Polysemie 461⫺462 ⫺, der Satzlänge 298 ⫺, der unbetonten Silben 46, 48 ⫺, der Wortlänge 299 ⫺, erweiterte positive Binomial269 ⫺, Exponential- 149 ⫺, Gamma- 215, 262 ⫺, Gaußsche Normal- 155 ⫺, gemischte 261, ⫺, gemischte negative Binomial233⫺234, 262 ⫺, gemischte Poisson- 262, 270 ⫺, geometrische 638 ⫺, Gleich- 148 ⫺, Häufigkeits- 11 ⫺, Hirata- 264 ⫺, Homographie- 951 ⫺, Hyperbinomial- 957 ⫺, hypergeometrische 436, 638⫺639 ⫺, Hyperpascal- 264, 269⫺270, 299⫺302 ⫺, Hyperpoisson- 55, 155, 259, 263, 265⫺266, 268⫺271, 302, 956, 958, 960 ⫺, inverse Gauss-Poisson- 229 ⫺, Lognormal- 229, 262, 299 ⫺, negative Binomial- 155, 232⫺234, 262, 264, 270, 302, 332, 334, 955, 957, 961 ⫺, negative hypergemonetrische 234, 338, 954⫺955 ⫺, Normal- 11, 155, 583, 955 ⫺, Palm-Poisson- 264 ⫺, Poisson- 638 ⫺, Poisson- 70, 261, 265, 269, 338, 950, 958 ⫺, Po´lya- 231 ⫺, positive Cohen-Binomial958 ⫺, positive Cohen-Poisson- 960 ⫺, positive negative Binomial268, 269 ⫺, positive Poisson- 268 ⫺, positive Singh-Poisson- 269 ⫺, Rangähnlichkeits- 344 ⫺, Rang-Frequenz- 148, 231, 335, 435, 962⫺963 ⫺, Satzlängen- 112, 959, 961 ⫺sbegriff 327
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
Spektral- 336 Sprichwortlängen- 303 Strichzahl- 955⫺956 Thomas- 265 Tondauer- 155 Tonhöhe- 155 verallgemeinerte Dacey-Poisson- 957 ⫺, verschobene Poisson- 154 ⫺, von Wiederholungen 333 ⫺, Wahrscheinlichkeits- 21, 334, 339 ⫺, Waring- 434⫺435 ⫺, Worthäufigkeits-, Chinesisch 98 ⫺, Worthäufigkeits-, Englisch 98 ⫺, Worthäufigkeits-, Latein 98 ⫺, Wortklassen- (Wortarten-) 17, 55, 154, 951, 953⫺955 ⫺, Wortlängen- 4, 52, 955, 959⫺ 961 ⫺, Yule-Simon- 229 ⫺, Zipf-Alekseev- 234, 434⫺435 ⫺, Zipf-Mandelbrot- 268, 435 ⫺, zusammengesetzte Poisson299 Verträglichkeit 465 ⫺, denotative 465⫺466 ⫺, lexikalische 465⫺466 ⫺, pragmatische 465⫺466 Verwandtschaft 641 ⫺, genealogische 633⫺644 Verzögerung, Prinzip der 782 Verzweigungsstruktur 511 vocabulary ⫺ measure 913 ⫺ richness 284, 306, 308, 361, 374, 375 ⫺ size 248, 400 voice system 482 Vokabular ⫺, gemeinsames 341 ⫺, Text- 4 ⫺reichtum 340 ⫺reichtum, relativer 337 ⫺umfang 336⫺338, 343 ⫺wachstum 334, 336 Vokal ⫺epenthese 665 ⫺harmonie 221, 701 Vollständigkeit von Texten 337 Voraussage 6, 12 Vorgängerphonem 183 Vorkommmenskoeffizient 35 Voronoi-Diagramm 544⫺546 vowel ⫺ harmony 195⫺197, 305 ⫺ perception 137
W Wahrscheinlichkeit ⫺smaß 637⫺638 ⫺sverteilung 21, 334, 339
1040 Wandel ⫺, analogischer 607 ⫺, Bedeutungs- 951 ⫺, Laut-144, 702 ⫺prozess 216 ⫺, Sprach- 702, 785 Weg, kürzester 442 weight ⫺, informational 874 ⫺, typlogical 755 weighting, term 976 Whitney theorem 411 Wiederholung 330⫺331, 345 ⫺, aggregative 332 ⫺, ähnlichkeitsaggregative 332 ⫺, assoziative 331 ⫺, blockmäßige 332 ⫺, formlose 331 ⫺, iterative 332 ⫺, positionale 331 ⫺srate 429 ⫺, zyklische 332 word ⫺ abstractness 912 ⫺ association 353, 373, 651⫺652 ⫺ class 137, 192, 376, 649, 652, 992 ⫺ classes, Czech 132 ⫺ count, Japanese 87⫺88 ⫺ entropy 390 ⫺, familiar 912 ⫺-form, diagnostic 924 ⫺ formation, Polish 118⫺119 ⫺ frequency 122, 652, 717, 726⫺730, 772, 910 ⫺ frequency distribution 244 ⫺, location 355⫺356 ⫺, low-frequency 403 ⫺ length 122, 134, 158⫺159, 192, 202, 306⫺307, 310, 371, 373, 487⫺488, 649, 651⫺653, 762, 765, 767, 769, 871, 881, 910, 916 ⫺ length, average 121, 280 ⫺ order 134, 137, 278⫺281, 480, 560, 569, 598⫺605 ⫺ order change 281 ⫺ order coefficient 603⫺604 ⫺ order consistency 603 ⫺ order dominance 600 ⫺ order flexibility 603 ⫺ order, basic 600⫺601 ⫺ order, dominant 600 ⫺ order, free 600, 747 ⫺ order, ideal 605 ⫺ order, more frequent 600 ⫺ order, recessive 600 ⫺ order, rigid 600 ⫺ spectrum 371 ⫺ structure 307 ⫺ structure, Japanese 89
Sachregister / Subject index ⫺ structure, phonic 191 ⫺, unseen 399 Wort 265 ⫺alter 6, 20, 148, 233⫺235, 331, 333, 339⫺340 ⫺art 460, 590, 701, 951⫺955, 961 ⫺artenhäufigkeit (Wortklassen-) 17, 55, 154, 953⫺954 ⫺artenverteilung (Wortklassen-) 951, 954⫺955 ⫺assoziation 366 ⫺betonung 144 ⫺bildung 227, 961 ⫺bildungsfähigkeit 101, 949⫺950 ⫺frequenz 17⫺18, 33⫺34, 55, 333, 341, 952 ⫺häufigkeitsverteilung, Chinesisch 98 ⫺häufigkeitsverteilung, Englisch 98 ⫺häufigkeitsverteilung, Latein 98 ⫺-Hreb 425, 432 ⫺klasse 340 ⫺klassenhäufigkeit (Wortarten-) 17, 55, 154, 953⫺954 ⫺klassenübergang 154 ⫺klassenverteilung J Wortklassenhäufigkeit ⫺länge 14, 16⫺17, 20, 22, 33, 51, 60, 144, 153⫺155, 208⫺ 209, 213⫺214, 222⫺223, 256, 259⫺271, 339, 343, 460, 665, 667⫺669, 672, 673⫺678⫺ 680, 684, 700, 947, 959⫺961 ⫺längenfrequenz 17, 29, 51, 55 ⫺längenrhythmus 265 ⫺längenverteilung 4, 52, 299, 955, 959⫺961 ⫺position 667 ⫺schatz 154, 951⫺955 ⫺schatzumfang 952 ⫺segmentierung, Chinesisch 105⫺106 ⫺stellungstypologie 592 ⫺struktur 70, 227, 578⫺580 ⫺verbindung, feste 466, 468 ⫺verbindung, freie 466 ⫺verbindung, lose 466, 468 Wörterbuchtyp 460 writing, Japanese 935⫺945 Wurzelmorpheme, Produktivität 55
Y Yule’s characteristic K 120, 371, 374 Yule-Herdan index 374
Z Zahl ⫺, Zipfsche 336 ⫺, zyklomatische 441 Zählen, Zählung 2 Zeichentheorie 74 Zeit ⫺reihe 332 ⫺schätzer 639 Zentralität 442, 507 ⫺sindex, relativer 442⫺443 Zentrum des Graphen 442 Zipf line 989 Zufall, Zufälligkeit 5, 325 Zusammenhang 6, 8, 10, 12⫺13, 17⫺21, 45, 183, 214⫺226, 581, 590 ⫺, Akzent ⫺ Wortlänge 225⫺226 ⫺, Analytizität ⫺ Polysemie 459 ⫺, Artikulation ⫺ Deutlichkeit 144 ⫺, Entropie ⫺ Inventargröße 218 ⫺, Frequenz ⫺ Funktionskomplexität 966 ⫺, Funktionskomplexität ⫺ graphische Komplexität 966 ⫺, grammatische Funktion ⫺ semantische Funktion 239 ⫺, Graphemfrequenz-Funktionskomplexität 966⫺968 ⫺, graphische Komplexität ⫺ Frequenz 966⫺967 ⫺, Häufigkeit ⫺ Alter 148 ⫺, Häufigkeit ⫺ Auffälligkeit 98 ⫺, Häufigkeit ⫺ Produktionsaufwand 98 ⫺, Kasus ⫺ Genus 239 ⫺, Kompositumlänge ⫺ Kotextualität 239 ⫺, Kompositumlänge ⫺ Polysemie 239 ⫺, Kompositumlänge ⫺ semantische Korrespondenz 238 ⫺, Kotextualität ⫺ Kompositabildung 239 ⫺, Länge ⫺ Frequenz 615 ⫺, latenter 188 ⫺, Lautdauer ⫺ Wortlänge 668 ⫺, linearer 49 ⫺, linguistische Ähnlichkeit ⫺ geographische Distanz 505 ⫺, Merkmals- 189 ⫺, Merkmalsredundanz ⫺ Sprachverständlichkeit 221 ⫺, Morphemlänge ⫺ Phonemanzahl ⫺ Wortlänge 224 ⫺, Morphempolylexie ⫺ Morphemhäufigkeit ⫺, Morphinventarumfang ⫺ Morphpolylexie 235
1041
Sachregister / Subject index ⫺, Morphlänge ⫺ Morphhäufigkeit 237 ⫺, Morphlänge ⫺ MorphToken-Frequenz 255 ⫺, Morphlänge ⫺ Phonotaktik 255 ⫺, Morphlänge ⫺ Umfang des Morphinventars 255 ⫺, morphologischer Sprachtyp ⫺ Grammatikalisierungsprozess 588 ⫺, Morph-Types ⫺ MorphTokens 237 ⫺, Numerus ⫺ Kasus 239 ⫺ paradigmatische Redundanz ⫺ syntagmatische Redundanz 219 ⫺, Phonemanzahl ⫺ Lexikongröße ⫺ Redundanz 223 ⫺, Phonemanzahl ⫺ Wortlänge ⫺ Redundanz 222 ⫺, Phoneminventar ⫺ Suprasegmentalia 224⫺225 ⫺, Polylexie ⫺ Phrasenlänge 236 ⫺, Polylexie ⫺ Zahl der Komposita 236⫺237 ⫺, Polysemie ⫺ Frequenz 461
⫺, Polysemie ⫺ Länge 7 ⫺, Polysemie ⫺ Wortlänge 460⫺461, ⫺, prozesshafter 326 ⫺, quantitativer 2 ⫺, Satzlänge ⫺ Teilsatzlänge 672, 675 ⫺, semantische Relevanz ⫺ Anordnung im Lexem 239 ⫺, semantische Relevanz des Affix ⫺ Reihenfolge der Affixe 595 ⫺, semantischer 468 ⫺skomponente 441, 443 ⫺smaß, relatives 441 ⫺, sprachliche Ikonizität ⫺ Frequenz 786 ⫺, sprachliche Ikonizität ⫺ Performanz 786 ⫺sstruktur 345 ⫺, Stilart ⫺ Polysemie 463 ⫺, Strichzahl ⫺ Graphemzahl 958 ⫺, suprasegmentale Komplexität ⫺ Wortlänge 223 ⫺, Type of exponence ⫺ Number of terms 588 ⫺, Umfang ⫺ Frequenz 614
⫺, Umfang des Phoneminventars ⫺ durchschnittliche Morphemlänge 214 ⫺, Wortalter ⫺ Kompositabildung 239 ⫺, Wortbildungsaktivität ⫺ Häufigkeit des Morph-Types 237 ⫺, Wortbildungsaktivität ⫺ Häufigkeit von MorphTokens 237 ⫺, Worthäufigkeit ⫺ Wortbildungsaktivität 238 ⫺, Wortlänge ⫺ Kompositionsaktivität 238 ⫺, Wortlänge ⫺ Morphemlänge 671⫺672 ⫺, Wortlänge ⫺ Morphlänge 224 ⫺, Wortlänge ⫺ Silbendauer 669 ⫺, Wortlänge ⫺ Wortart 961 ⫺, Wortlänge ⫺ Wortbildungsaktivität 238 ⫺, Zahl der Komposita ⫺ semantische Korrespondenz 238