171 81 54MB
German Pages 262 [264] Year 1991
Linguistische Arbeiten
269
Herausgegeben von Hans Altmann, Peter Blumenthal, Herbert E. Brekle, Hans Jürgen Heringer, Heinz Vater und Richard Wiese
Stefan J. Schierholz
Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive
Max Niemeyer Verlag Tübingen 1991
D 7 Philosphische Fakultät
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Schierholz, Stefan J . : Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive / Stefan J. Schierholz. - Tübingen : Niemeyer, 1991 (Linguistische Arbeiten ; 269) NE:GT ISBN 3-484-30269-0
ISSN 0344-6727
© Max Niemeyer Verlag GmbH & Co. KG, Tübingen 1991 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Druck: Weihert-Druck GmbH, Darmstadt Einband: Hugo Nadele, Nehren
Inhaltsverzeichnis Inhaltsverzeichnis Verzeichnis der Tabellen Verzeichnis der Abbildungen Danksagung
V VII VIII IX
Vorwort
l
1.
Die Zielsetzung dieser Arbeit
3
2. 2.1 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7 2.2.8 2.2.9
Das Untersuchungsobjekt Definitorische Abgrenzungen Die Kernkonstituenten Doppelerklärungswörter Konjunktionen Adverbien Eckige Klammern Stilistische Erläuterungen Attribute mit "als" Runde Klammern Substantivierungen Nichtsubstantivische Erklärungen
3.
Die Bestimmung des Abstraktheitsgrades
der Substantive
18
3.1 3.2
Die Untersuchungen Robert Martins Weitere Untersuchungen zum Abstraktheitsmodell Die Bestimmung der Abstraktheitsebenen in der deutschen Sprache Die Auswahl und der Umfang der Stichprobe Die Bildung der Begriffsketten Die Wahl der Erklärungswörter Die substantivierten Erklärungswörter Die Erklärungstiefe der Kettenglieder Der Abbruch der Ketten Die Darstellung der Ergebnisse Die mathematische Beschreibung
18
3.3 3.3.1 3.3.2 3.3.2.1 3.3.2.2 3.3.2.3 3.3.3 3.4 3.5
10 10 11 13 14 14 14 15 15 16 16 16
22 25 26 28 28 29 30 30 32 36
3.6
Die Diskussion der Ergebnisse
41
3.7 3.8
Die Größe der Stichproben Ein empirisches Verfahren zur Abstraktheitsbestimmung der Substantive ( V I )
45
4. 4.1 4.2 4.3
Die Häufigkeitsbestimmung der Substantive (V 2) Definitorische Abgrenzungen zur Häufigkeitsbestimmung Die Vorgehensweise in V 2 Die Darstellung der Ergebnisse aus V 2
48 55 56 57 60
VI
5. 5.1 5.1.1 5.1.2 5.1.3 5.2 5.2.1 5.2.2 5.3
Die Bestimmung der Polysemie der Substantive (V 3) T r a d i t i o n e l l e Ansätze zur P o l y s e m i e P o l y s e m i e oder Homonymie ? Die D e f i n i t i o n der Polysemie Die lexikographische Polysemiedarstellung Die Vorgehensweise in V 3 G l e i c h e Kernkonstituenten Ersatzkernkonstituenten Die Darstellung der Ergebnisse aus V 3
64 64 65 69 70 75 76 77 77
6. 6.1 6.1.1
Die Überprüfung der Arbeitshypothesen Die Deskription der Daten Fenced letter displays
81 82 86
6.1.2
Box p l o t s
88
6.1.3 6.2 6.2.1 6.2.2 6.2.3 6.2.3.1
91 92 92 94 95
6.2.3.2 6.3 6.4 6.4.1 6.4.2 6.4.3 6.5 6.5.1 6.5.1.1 6.5.1.2 6.5.1.3 6.5.2 6.5.2.1 6.5.2.2 6.5.3 6.5.3.1 6.5.3.2 6.5.3.3 6.5.4
Median und arithmetisches M i t t e l Die Datentransformationen Die statistische Begründung Die i n h a l t l i c h e Begründung Die Darstellung der Transformationen Fenced letter displays zu den transformierten Daten Box plots zu den transformierten Daten Die Bewertung der Transformationen Die Berechnung der K o r r e l a t i o n s k o e f f i z i e n t e n Abstraktheit und H ä u f i g k e i t Abstraktheit und Polysemie Häufigkeit und Polysemie Die Interpretation der Resultate Das Variablenpaar 'Abstraktheit/Häufigkeit 1 Die Verteilung der Counts Die Verteilung der dynamischen K o e f f i z i e n t e n Die Beurteilung der Resultate Das Variablenpaar 'Abstraktheit/Polysemie' Die V e r t e i l u n g der Counts Die Beurteilung der Resultate Das Variablenpaar ' H ä u f i g k e i t / P o l y s e m i e ' Die Verteilung der Counts Die Verteilung der dynamischen K o e f f i z i e n t e n Die Beurteilung der Resultate Fazit aus den Berechnungen
96 98 102 109 109 112 113 114 116 117 123 129 130 131 135 137 139 142 144 147
7. 7.1 7.2 7.2.1 7.2.2 7.2.2.1 7.2.2.2 7.2.2.3 7.2.2.4 7.2.2.5 7.2.2.6 7.3
Die Bewertung der Resultate Die Abstraktheitsbestimmung Die Häufigkeitsbestimmung Lexikologischer Vergleich Der Versuch einer mathematischen Beschreibung Die Potenzfunktion Die Exponentialfunktion Die Logarithmusfunktion Die Hyperbel Der V e r g l e i c h der theoretischen Funktionen Die Berechnung und Beurteilung der Werte Die Polysemiebestimmung
149 149 159 159 167 167 168 169 170 172 173 175
VII
7.4 7.5 7.5.1 7.5.2 7.5.3 7.5.4
Der Substitutionstest Zur Qualität des Untersuchungsgegenstandes Die lexikographische Kritik Wörterbuchvergleich Wörterbuchoptimierung Die Auswirkungen auf die durchgeführten Versuche Resultatsapplikationen
7.6 .
181 183 183 194 197 199 200
Zusammenfassung und Kritik
207
9.
Literatur
211
10.
Anhang
Verzeichnis der Tabellen
Tab.
l
Tab.
2
Tab.
3
Tab.
4
Tab.
5
Tab.
6
Tab.
7
Tab.
8
Tab. 9 Tab. 10 Tab. ll Tab. 12 Tab. 13 Tab. 14
Anzahl der Wörter auf den e i n z e l n e n Abstraktionsebenen nach Martin Anzahl der Wörter auf den e i n z e l n e n Abstraktionsebenen, wenn jedes Wort nur in einer Ebene vorkommt Anzahl der Wörter auf den e i n z e l n e n Abstraktheitsebenen Beobachtete und berechnete Anzahl der Wörter auf den e i n z e l n e n Abstraktheitsebenen Anzahl der Wörter pro Abstraktheitsebene aus Untersuchungen zu verschiedenen Sprachen Anzahl der Substantive pro Ebene in der ersten Stichprobe, wenn jedes Wort nur einmal vorkommt Anzahl der verschiedenen Wörter aus beiden Stichproben auf den e i n z e l n e n Abstraktheitsebenen Anzahl a l l e r Wörter auf den e i n z e l n e n Abstraktheitsebenen Substantive m i t höchsten -Werten a u s V I Häufigkeitsverteilung der Substantive nach A-Werten Lemmata und Erklärungswörter ( E w ' s ) der Sets I - VI Lemmata und Erklärungswörter ( E w ' s ) der Sets I - IX Countverteilung der Substantive zum Merkmal ' H ä u f i g k e i t 1 Countverteilung der Substantive nach P-Werten
21 22 33 40 42 45 47 50 53 54 58 60 61 79
VIII
Tab. 15 Tab. 16 Tab. 17 Tab. 18 Tab. 19 Tab. 20 Tab. 21 Tab. 22 Tab. 23 Tab. 24 Tab. 25 Tab. 26 Tab. 27 Tab. 28 Tab. Tab. Tab. Tab.
29 30 31 32
Tab. 33 Tab. 34 Tab. 35
M e d i a n , arithmetisches Mittel und Extremwerte zu den drei Datensätzen Zentrale Momente und Maße der S c h i e f e Korrelationsmatrix zu den Variablen Abstraktheit und H ä u f i g k e i t Korrelationsmatrix zu den Variablen Abstraktheit und P o l y s e m i e Korrelationsmatrix zu den Variablen Häufigkeit und P o l y s e m i e Countverteilung zur 'Abstraktheit 1 und ' H ä u f i g k e i t 1 Substantive mit hohen A- und H-Werten Korrelationskoeffizientendynamik Countverteilung zur 'Abstraktheit' und ' P o l y s e m i e ' Substantive mit hohen A- und P-Werten Countverteilung zur ' H ä u f i g k e i t ' und ' P o l y s e m i e ' Substantive mit hohen H- und P-Werten Korrelationskoeffizientendynamik Abstraktheitsindices zu "Lebewesen" und "Wesen" Substantive auf oberen Abstraktheitsebenen Substantivvergleich zu zwei Wörterbüchern 100 Substantive mit höchsten -Werten in V 2 Beobachtete und berechnete Countwerte nach H ä u f i g k e i t e n Determinationskoeffizienten Lexemverteilung nach Anfangsbuchstaben Daten zu zwei Wörterbüchern
91 108 110 112 114 118 122 124 132 134 138 141 143 152 155 162 164 171 173 185 195
Verzeichnis der Abbildungen
Abb.
1
Abb.
2
Abb.
3
Abb.
4
Abb. 5 Abb. 6 Abb. 7 Abb. 8 Abb. 9 Abb. 10
Graphische Darstellung der Wortanzahl pro Abstraktheitsebene aus Stichprobe I Histogramm der verschiedenen Wörter nach Abstraktheitsebenen aus Stichprobe I Graphische Darstellung zur Verteilung der Häufigkeiten a l l e r untersuchten Substantive Stabdiagramm zur Verteilung der P-Werte a l l e r untersuchten Substantive Box plot zu den A-Werten Box plot zu den H-Werten Box plot zu den P-Werten Box plot zu den AS-Werten und ASS-Werten Box plot zu den HS-Werten und HSS-Werten Box p l o t zu den PS-Werten und PSS-Werten
34 35 62 80 88 89 90 99 100 101
DANKSAGUNG
Danken möchte ich zuerst Dr. Hartmut A. Oldenbürger, der für mich zu jeder Tages- (und Nacht-)zeit eine wertvolle und unermüdliche Unterstützung war, der mir zu v i e l e n Problemstellungen dieser Arbeit immer ein geduldiger, kritisch-konstruktiver und h i l f r e i c h e r Freund und Gesprächspartner war, dessen Tips und Ideen ich auch in Zukunft nicht missen möchte und dem ich meine ersten Gehversuche auf dem Computer zu verdanken habe. Ebenso bin ich Herrn Dr. Karl-Heinz Best, Betreuer meiner schriftlichen Hausarbeit zum ersten Staatsexamen, verpflichtet, der mich zur Durchführung dieser wissenschaftlichen Arbeit inspiriert und mit wertvollen Hinweisen unterstützt hat. Genaugenommen habe ich ihm meine Neigung zur Sprachwissenschaft zu verdanken, denn er war es, der mich im ersten Semester meines Germanistikstudiums mit mir damals gänzlich unbekannten Termini wie "taxonomischer Strukturalismus", "Pragmatik", "Semiotik", . . . vertraut gemacht hat. Weiterhin danke ich Herrn Prof. Dr. Dieter Cherubim (Göttingen) und Herrn Prof. Dr. Gabriel Altmann (Bochum), für ihre wertvollen Hifeleistungen zur vollständigen und verständlichen Formulierung komplexer Sachverhalte und ihr wissenschaftliches Geleit während der Entstehung der vorliegenden Untersuchung. Außerdem bin ich Herrn Dr. Rolf Hammerl für seine f r e u n d l i chen Korrekturen und aufmerksamen Hinweise verbunden, die er trotz seines z e i t l i c h begrenzten Deutschlandaufenthaltes mit viel Aufwand geleistet hat. Für das sorgfältige tiberarbeiten des Manuskripts sei ebenf a l l s Sabine Langhorst und Thomas Richter gedankt, die mit ihrem fachkundigem Urteil eine wichtige Unterstützung waren.
Letztlich habe ich meiner lieben Frau zu danken, weil sie in den letzten Jahren viel zu häufig einen mürrischen und in seine Daten vertieften Mann ertragen mußte, was sicherlich nicht ganz einfach ist, soweit ich mich selbst einzuschätzen vermag,
Göttingen, im November 1989
Stefan J.
Schierholz
Vorwort
Die vorliegende Arbeit s t e l l t lexikologische Untersuchungen zu Substantiven der deutschen Sprache vor. Als Grundlage für die geplanten Analysen s o l l ein umfangreiches Datencorpus fungieren, das anhand eines Wörterbuchs e r s t e l l t werden w i r d . Durch die empirische Ermittlung verschiedener Merkmale zu den Wörtern des Corpus wird angestrebt, semantische Zusammenhänge zwischen den lexematischen Einheiten zu erfassen. Die Methodik dieser Arbeit ist dem Bereich der Quantitativen Linguistik zuzuordnen. Es s o l l gezeigt werden, daß empirische Methoden sowohl in der Lexikologie als auch in anderen Forschungsgebieten der Linguistik aufschlußreiche Resultate ergeben können. Ausgehend von einer genaueren Festlegung der Zielsetzung dieser Arbeit (Kapitel 1) wird das Untersuchungsobjekt vorgestellt (Kapitel 2 ) , und es f o l g e n Versuche zur Bestimmung von Abstraktheit (Kapitel 3), Häufigkeit (Kapitel 4) und Polysemie (Kapitel 5 ) . Die Überprüfung der Arbeitshypothesen (Kapitel 6) macht ausführliche statistische Analysen nötig, die sich auch mit den statistischen Methoden, die appliziert werden s o l l e n , kritisch auseinandersetzen. Dagegen s o l l e n anschließend in einer R e f l e x i o n der Resultate (Kapitel 7) vor a l l e m die linguistischen Aspekte der Untersuchungsergebnisse betrachtet werden. Im A u s b l i c k (Kapitel 8) wird versucht werden, Perspektiven zur Erforschung neuer Gesetzmäßigkeiten in der Sprache aufzuzeigen. Der Anhang enthält Tabellen, die wegen ihres Umfangs im laufenden Text keinen Platz finden und zum erweiterten Verständnis der Untersuchungsresultate geeignet sind.
Eine ausführliche Schilderung der Verknüpfungen zwischen den intendierten Vorhaben und den Teilgebieten der Linguistik erf o l g t nicht zu Beginn der Arbeit, sondern in den Kapiteln zu den einzelnen Versuchen sowie in der Bewertung der Ergebnisse, Da die Arbeit sehr s p e z i e l l e Gebiete aus der Statistik beinhaltet, die vielen Linguisten unbekannt sein mögen, wird ein besonderer Wert darauf gelegt, den Gang der Untersuchungen verständlich und kleinschrittig zu erläutern, ohne jedoch die Fachterminologie zu vernachlässigen.
l.
Die Zielsetzung dieser Arbeit
In dieser Arbeit s o l l e n semantische Verknüpfungen von Substantiven im System der deutschen Gegenwartssprache untersucht werden. Dabei wird davon ausgegangen, daß die Entitäten einer natürlichen Sprache (Phoneme, Morpheme, Wörter, Clauses, Sätze, . . . ) nicht in einem ungeordneten Nebeneinander existieren, sondern in irgendeiner Weise strukturiert s i n d . 1 ' Dies b e t r i f f t auch die Semantik, in der jedoch die Zusammenhänge besonders schwer zu erkennen s i n d . 2 ) Sprache s o l l als ein komplexes System mit einer V i e l z a h l von Subsystemen betrachtet werden, deren Funktionsfähigkeit von Gesetzmäßigkeiten, die kommunikationssteuernd wirken, abhängt . Eine Sprachtheorie besteht aus einem System von Gesetzen, die Erklärungen von Einzelaussagen e r m ö g l i c h e n . 3 1 Außerdem systematisiert sie vorhandenes Wissen und zeigt die Abhängigkeiten zwischen sprachlichen E i n h e i t e n . * 5 Der Weg zu einer Sprachtheorie läßt sich mit den nachstehenden Folgeschritten beschreiben: - "Bildung von B e g r i f f e n " zur Entdeckung der sprachlichen Entitäten - " A u f s t e l l u n g von Hypothesen" als empirische Generalisierungen, z . B . in Form von Abhängigkeiten zwischen den Entitäten (Voraussetzung der Theoriebildung) - "Deduktion" der Hypothesen (Beginn der Theoriebildung) 1) V g l . 2) V g l . 3) V g l . Vgl. 4) V g l .
Altmann 1981, S. 31. Altmann 1985a, S. 177. Altmann 1985b, S. 3 f. Köhler 1986, S. 5. Altmann 1985b, S. 3.
- "Überprüfung der theoretischen Ableitungen" mit empirischen Daten und mit H i l f e der Statistik - "Systematisierung der Hypothesen", d . h . Verknüpfung mit anderen Hypothesen, Aufbau eines Systems von G e s e t z e n . 5 ' In der Sprachwissenschaft ist es vor a l l e m die Quantitative Linguistik, die es - aufbauend auf Begriffen der qualitativen Linguistik - ermöglicht, zu "explanativen Gesetzessystemen" zu gelangen, t· ; Die allgemeinen Ziele der Quantitativen Linguistik sind von KÖHLER zusammengefaßt w o r d e n ; 7 ' die Methoden der Quantitativen Linguistik bestehen neben anderem darin, "Sprache mit numerischen Methoden zu beschreiben, d . h . ihre Eigenschaften mit H i l f e von Zahlen, Vektoren, mathematischen Funktionen, Matrizen, Graphen u . a . zu charakterisieren" . a ' Im weiteren Verlauf dieser Arbeit geht es nicht darum, eine Sprachtheorie vollständig oder in Teilen zu entwickeln, sondern es s o l l durch die Überprüfung von Hypothesen mit H i l fe empirischer Daten ein Beitrag zur quantitativen Forschung geleistet werden. Dabei s o l l der systematisch-methodische Weg, wie er von ALTMANN beschrieben w i r d , q zugrunde gelegt und durch neue Methoden der Statistik sowie moderne Auffassungen über die Bedeutung und Behandlung von Datenstrukturen ergänzt w e r d e n . 1 0 ' Die Untersuchungsresultate lassen sich möglicherweise zu einem späteren Zeitpunkt in eine Sprachtheorie integrieren.11' 5) V g l . Altmann 19 , S. 7 f. 6) V g l . Köhler 1986, S. 2 ff. 7) V g l . Köhler 1986, S. 4. 8) Altmann 1972, S. 2. 9) V g l . Altmann 1988, S. 7 f. 10) V g l . u . a . Tukey 1977. 11) Dabei ist insbesondere an die begonnene Theoriebildung zur linguistischen Synergetik gedacht, u . a . , w e i l gerade dort die oben aufgeführten Prinzipien zur Theoriebildung berücksichtigt werden; vgl. Köhler 1986.
In den intendierten Untersuchungen reicht zur Stützung theoretischer Aussagen eine K o l l e k t i o n zutreffender F a l l b e i s p i e l e nicht aus, sondern es müssen umfangreiche Datenmengen zur quantitativen Erfassung der linguistischen - hier: semantisehen - Strukturen erhoben werden. Das im folgenden zu betrachtende Subsystem der Sprache besteht a u s s c h l i e ß l i c h aus Substantiven, dessen Struktur in einem semantischen Netz dargestellt werden kann. Es wird von der Annahme ausgegangen, daß dieses Netz eine k l e i n e Menge von Substantiven enthält, die im Kern des Netzes oder im Zentrum von Subnetzen liegt und eine große Anzahl von Substantiven, die am äußeren Rand einzuordnen ist. Die im Inneren gelegenen Substantive s o l l e n Zentralwörter heißen, die am Rand des gesamten Netzes sortierten Substantive Peripheriewörter. Zur Ermittlung regelhafter Relationen zwischen den Wörtern ist zunächst die Erstellung eines geeigneten Datencorpus, dann die Parametrisierung der zu untersuchenden Substantive anhand auszuwählender Variablen und in einem dritten Arbeitsschritt die Messung der Korrelationen zwischen diesen Merkmalen erforderlich. Die Variablen, die hier verwendet werden, s o l l e n Abstraktheit, Häufigkeit und Polysemie sein. Die Untersuchungen werden so angelegt, daß eine Ergänzung durch weitere Variablen potentiell m ö g l i c h sein wird. Dies wird für eine v o l l ständige Erfassung der Netzstrukturen auch notwendig sein, so daß in den intendierten Untersuchungen l e d i g l i c h ein grobes Gerüst geschaffen wird, das als eine empirisch fundierte Ausgangsbasis für detailliertere semantische Analysen dienen kann. Durch die Bestimmung empirischer Werte zu den lexematischen Einheiten sind außerdem Vergleiche zu ähnlich angelegten Vorhaben durchführbar. Begonnen werden die Untersuchungen mit den Datenerhebungen, die zum Aufbau eines Datencorpus führen, mit dem sich die geplanten Analysen durchführen lassen.
Bei der Abstraktheitsbestimmung (= Versuch l l 2 '· ) wird, ausgehend von den Untersuchungen Robert MARTINS ! 3 ' und den weiterführenden mathematischen Beschreibungen ALTMANN/KINDS, 4 > MARTINS Methode zur Abstraktheitsbestimmung erweitert mit dem Z i e l , für jedes analysierte Substantiv einen empirischen Abstraktheitswert zu errechnen. Z u g l e i c h s o l l MARTINS Gesetz der Abstraktionsebenen, das für die deutsche Sprache noch nicht bestätigt werden k o n n t e , i s ; überprüft werden. Da der Abstraktheitsgrad traditionell ein Klassifikationskriterium für Substantive darstellt, erscheint dieses Merkmal besonders geeignet, Hierarchisierungstendenzen innerhalb semantischer Strukturen zu beschreiben. Zudem wird der Variablen 'Abstrakth e i t ' nicht nur in der Linguistik, sondern auch in benachbarten D i s z i p l i n e n ( z . B . Psychologie) im Zusammenhang mit der Erforschung des Kommunikationsverhaltens oder der Erstellung von Inhaltsanalysen große Bedeutung b e i g e m e s s e n . ! " > Die V a l i dität und R e l i a b i l i t ä t der neuen Abstraktheitsbestimmungsmethode kann durch die Betrachtung bereits erprobter Verfahren zur Abstraktheitsbestimmung evaluiert w e r d e n . 1 7 ) In der Häufigkeitsuntersuchung (= Versuch 2 i s t ) wird gez ä h l t , wie häufig die Substantive in lexikalischen Paraphrasen vorkommen. Das Attribut 'Häufigkeit' spielt bei a l l e n statistischen und empirischen Sprachuntersuchungen eine grundlegende R o l l e . Dabei lassen sich ökonomiesierungstendenzen in der Sprachverwendung, besonders im Zusammenspiel mit anderen Variablen (Wortlänge, -bedeutung, S i l b e n z a h l ) f e s t s t e l l e n . 1 ^ ' Die erzielten Resultate s o l l e n auch mit Wortschatzuntersu12) Im weiteren V 1. 13) Martin 1974. 14) Altmann/Kind 1983. 15) V g l . Schierholz
16) 17) 18) 19)
1989.
V g l . u . a . Kisro-Völker 1984, S. 139. V g l . u . a . Günther/Groeben 1978. Im weiteren V 2. V g l . u . a . Altmann/Beöthy/Best 1982, Rothe 1983.
chungen aus anderen Erhebungen, z . B . Frequenzwörterbüchern, verglichen werden. Bei der Bestimmung der Polysemie (= Versuch 3 ^ o ; ) wird angestrebt, jedem untersuchten Substantiv einen empirischen Polysemiewert zuzuordnen. Ein derartiges Verfahren kann möglicherweise dazu beitragen, die Ungenauigkeiten bisheriger Polysemiebestimmungen zu überwinden. Da Mehrdeutigkeiten ein gemeinsames Merkmal a l l e r natürlichen Sprachen sind, die auch in der Phonologie, Morphologie oder Syntax a n z u t r e f f e n sind, ist die Polysemie in lexikologischen Untersuchungen für die unmittelbaren semantischen Verbindungen zwischen den lexematischen Einheiten von Bedeutung. Als Datenbasis für die drei Versuche wird ein einsprachiges Bedeutungswörterbuch der deutschen Sprache ausgewählt. Damit ist zunächst nur die Struktur des Wörterbuchs Gegenstand der Untersuchungen. Für die intendierten Analysen dürfte ein Wörterbuch besser geeignet sein als ein umfangreiches Textcorpus. Wörterbuchartikel s t e l l e n eine besondere Textsorte dar, die unter der Zielperspektive, die j e w e i l i g e n Informationsbedürfnisse der Benutzer zu befriedigen, geschrieben w e r d e n . 2 1 > In der Herstellung handelt es sich (neben dem Kopieren aus vorherigen Wörterbüchern) um die Verarbeitung von Textbelegen durch den Lexikographen. Besonders semantische Forschungen können davon profitieren, w e i l in Bedeutungswörterbüchern die Sprache durch den Bearbeitungsfilter des Experten gelaufen i s t . 2 - 1 Inwieweit Unzulänglichkeiten der Wörterbuchkonzep20) Im weiteren V 3. 21) Ob das auch in dieser Weise erreicht w i r d , kann hier nicht diskutiert werden; o f f e n s i c h t l i c h besteht eine nicht geringe Diskrepanz zwischen den Benutzungsansprüchen in Theorie und Praxis sowie der Wörterbuchqualität; v g l . Wiegand 1977a, S. 61 ff. und 1977b, S. 63 ff. 22) Jedoch werden die Wörterbücher von den Lexikographen mit herber K r i t i k überzogen, und die Bundesrepublik g i l t bei vielen als ein lexikographisches Entwicklungsland; v g l . u . a . Wiegand 1977a, S. 101, Wiegand/Kucera 1981, Bergenholtz/Mugdan 1986.
tion die Brauchbarkeit der Datenbasis herabsetzen, kann nicht antizipiert werden. Es wird jedoch m ö g l i c h sein, im Anschluß an die intendierten Versuche die Qualität der Datenbasis für den Bereich von lexikologischen Untersuchungen zu Substantiven beurteilen zu können. Zur Konstruktion der semantischen Struktur(en) müssen die gewählten Variablen zueinander in Beziehung gesetzt werden. Dabei wird von folgenden Arbeitshypothesen ausgegangen, deren Falsifikation p r i n z i p i e l l angestrebt wird: (1) Je häufiger ein Substantiv vorkommt, desto höher ist der Abstraktheitsgrad des Substantivs. (2) Je umfangreicher die Polysemie eines Substantivs ist, desto höher ist der Abstraktheitsgrad des Substantivs. (3) Je häufiger ein Substantiv vorkommt, desto umfangreicher ist die Polysemie des Substantivs. Die erste Hypothese konstatiert auch M E I E R ; 2 3 1 allerdings hat MEIER die Häufigkeitswerte aus KAEDINGS Zählungen 2 4 i übernommen und Einheiten a l l e r Wortarten berücksichtigt. Zudem findet man bei MEIER keine exakte Definition von Abstraktheit, 25) s o d a ß sich d i e geplanten Versuche dieser Arbeit sowohl methodisch als auch in bezug auf den Untersuchungsgegenstand von MEIERS Analysen unterscheiden werden. 23) V g l . Meier 1967, Bd. l,
S. 33 ff.
24) Kaeding 1898. 25) V g l . Meier 1967, Bd. l, S. 33. Abstrakta werden mit den Termini " A l l g e m e i n b e g r i f f e " und "Oberbegriffe" zusammengefaßt .
Die dritte Hypothese entspricht in der Formulierung einem der ZIPFschen Gesetze ^ b > , b e i d e m d i e Häufigkeit jedoch a u s Texten ermittelt worden ist, während ein Wörterbuch eine Textsorte in einer übergeordneten Ebene d a r s t e l l t , welche zwischen dem Sprachsystem und den Texten a n z u s i e d e l n ist. Folgt man der D i f f e r e n z i e r u n g HAMMERLS in Text-, Verteilungsgesetze und kognitive G e s e t z e , - 7 : so handelt es sich in dieser Arbeit um Untersuchungen, deren Ergebnisse zur Entstehung eines Verteilungsgesetzes führen können. Ob sich die Resultate der Analysen von dem untersuchten Wörterbuch auf andere sprachliche Erscheinungsformen transferieren lassen, wird im Anschluß an die Untersuchungen zu zeigen sein. Betrachtet man die Auswirkungen auf die mit der Linguistik verbundenen Forschungsdisziplinen, so wird die Applikationsv i e l f a l t der Resultate neben der Semantik und L e x i k o l o g i e die Quantitative Linguistik, die Computerlinguistik, die Psycholinguistik, die Lexikographie sowie die KI-Forschung b e t r e f f e n können. 26) V g l . Zipf 1949, S. 22 27) V g l . Hammerl 1989b, S.
ff. 132.
2.
Das Untersuchungsobjekt
Das Datenmaterial zur Untersuchung der oben aufgeführten Z i e l setzungen s o l l d a s DUDEN-Universalwörterbuch i > l i e f e r n . I n der folgenden Versuchsbeschreibung werden die Substantive, die dem Wörterbuch entnommen sind, terminologisch d i f f e r e n z i e r t : Lemmata sind die im Wörterbuch halbfett gedruckten Wörter. Kernkonstituenten '* > bzw. Erklärungswörter sind die Wörter, die die Bedeutungen der Lemmata erklären.
2.l
Definitorische Abgrenzungen
Das Z i e l der unten aufgeführten D e f i n i t i o n e n besteht darin, eindeutige Kriterien zur Ermittlung der Kernkonstituenten zu l i e f e r n , so daß intuitive Entscheidungen ausgeschlossen sind. Nur dadurch kann eine intersubjektive uberprüfbarkeit der Ergebnisse gewährleistet werden. Für die zu den D e f i n i t i o n e n ausgewählten Beispiele sind f o l gende Benutzungshinweise zu b e a c h t e n : 3 ' - A l l e Beispiele entstammen dem DUDUNI. - Es wird zuerst die Seite aufgeführt, auf der das Lemma im Wörterbuch steht und dann das Lemma, das im Wörterbuch halbfett gedruckt ist, in Großbuchstaben. Die Trennungszeichen, die im Wörterbuch zur Kennzeichnung der 1) Duden 1983. Im weiteren wird das Universalwörterbuch mit (das) DUDUNI abgekürzt. 2) V g l . Jansen 1977, S. 348. 3) Die Hinweise gelten ebenso für die in Kap. 3.3, 4 . 1 , 5, 7 . 3 , 7.4 und 7 . 5 angeführten Beispiele.
11
Silbentrennung dienen, werden nicht übernommen. Hochgestellte I n d e x z i f f e r n , die im Wörterbuch vor dem Lemma stehen, werden hier in Winkelklammern und hochg e s t e l l t geschrieben, um sie von den Anmerkungen unterscheiden zu können. Hochgestellte I n d e x z i f f e r n , die im Wörterbuch hinter dem Lemma stehen, werden nicht berücksichtigt. Hinter dem in Großbuchstaben geschriebenem Lemma folgt j e w e i l s ein Kolon. Grammatische Angaben, Aussprache und Hinweise in eckigen oder runden Klammernder Winkelklammern, die im Wörterbuch vor dem Doppelpunkt stehen, werden nicht übernommen. Die arabischen Zahlen bzw. Kleinbuchstaben, die im Wörterbuch zur Gliederung der Bedeutungsangaben dienen, werden nur dann zusätzlich a u f g e l i s t e t , wenn dies zur besseren Orientierung notwendig ist. Aus den l e x i k a l i s c h e n Paraphrasen im Wörterbuch werden nur die für die j e w e i l i g e D e f i n i t i o n relevanten Teile verwendet. A l l e in die Auswertung einzubeziehenden Kernkonstituenten werden in den Beispielen unterstrichen. Es f o l g t nur dann ein zusätzlicher Hinweis, welches Erklärungswort berücksichtigt wird, wenn dies zur Verdeutlichung e r f o r d e r l i c h ist.
2.2
Die Kernkonstituenten
Die Bedeutungsangaben zu den Lemmata werden im DUDUNI "durch einen Doppelpunkt angekündigt und sind kursiv g e d r u c k t " 4 ' . Wenn man entsprechend der Terminologie JANSENS die Bedeutungs-
4) DUDUNI 1983, S. 17.
12
angaben in Kernkonstituenten und Modifikatoren d i f f e r e n z i e r t , s ' müssen für die beabsichtigten Untersuchungen die Kernkonstituenten isoliert werden. Eine Kernkonstituente entspricht genau dem Erklärungswort, das sich in dem nachfolgenden Substitutionstest unmittelbar auf das j e w e i l i g e Lemma beziehen läßt: (Ein/eine/der/die/das) "L" ist (ein/eine/der/die/das) (Ein/eine/der/die/das) "L" sind (der/die/das) E-Wort. "L" ist das j e w e i l i g e Lemma, die Kernkonstituente.
-Wort,
" -Wort" das Erklärungswort b z w .
Beispiel: S. 45
ABWEISER : 1. Prellstein
2. in den Strom hineingebaute Buhne, die die Strömung vom Ufer abweist, Folgende Sätze können mit dem Substitutionstest gebildet werden: (a) Ein Abweiser ist ein (b) #Ein Abweiser ist ein (c) Ein Abweiser ist eine (d) #Ein Abweiser ist eine (e) #Ein Abweiser ist ein
Prellstein. Strom.# Buhne. Strömung.* Ufer.#
Die Aussagen (a) und (c) ergeben einen Sinn. "Prellstein" und "Buhne" sind als Kernkonstituenten für das Wort "Abweiser" zu markieren. Die Aussagen ( b ) , (d) und (e) sind unsinnig, so daß "Strom", "Strömung" und "Ufer" nicht als Kernkonstituenten anzusehen sind, sondern in den Zusammensetzungen "in den Strom hineingebaute" und "die die Strömung vom Ufer abweist" als 5) V g l . Jansen 1977, S. 348.
13
Modifikatoren zu "Buhne" betrachtet werden m ü s s e n . & ; Es kann außerdem der Fall eintreten, daß vor dem Lemma oder dem Erklärungswort kein Artikel steht ( z . B . bei dem Wort "Leute") oder daß das Erklärungswort im Plural vorkommt, während das Lemma im Singular erscheint b z w . umgekehrt. Beispiele: S. 1204 S. 144
STARS AND STRIPES sind eine Nationalflagge. (Eine) ÄUSSERUNG sind Worte.
Jedoch werden mit Ausnahme der Pluraliatantum, die im DUDUNI lemmatisiert sind, a l l e Wortformen im Singular notiert, so daß die Kernkonstituente "Worte" bei "Wort" subsumiert wird. Die Ermittlung der Kernkonstituenten d i f f e r e n z i e r t somit nicht zwischen Hyperonymen, Hyponymen, Partonymen, Synonymen oder Quas i synonymen.
2.2.1
Doppelerklärungswörter
Stehen zwei Kernkonstituenten im Nominativ und direkt hintereinander, so sind beide zu notieren. Beispiel: S. 1472
ZETTEL : . . . kleines, meist rechteckiges Stück Papier, . . . .
6) Zwar beruht die Beurteilung der Sinnhaftigkeit der gebildeten Sätze im Einsetztest auf der subjektiven Entscheidung des Untersuchenden ("der Objektive Faktor Subjektivität 1 des Lexikographen", Henne 1976, S. 105), aber der Test läßt sich bei der überwiegenden Mehrzahl der Fälle problemlos durchführen, so daß eine intersubjektive Überprüfung gewährleistet ist. Bei den wenigen nicht eindeutigen F ä l l e n (vgl. z . B . DUDUNI, S. 120, "Aufschnitt") ist auf eine Kernkonstituentenbestimmung verzichtet worden.
14
Für " Z e t t e l " werden die Erklärungswörter "Stück" und "Papier" gezählt.
2.2.2
Konjunktionen
Kernkonstituenten, die in Bedeutungsangaben mit "und" b z w . "oder" verbunden sind, werden beide berücksichtigt. Beispiel: S.
2.2.3
994
QUELLENFORSCHUNG : Ermittlung u. Erforschung der in einem [literarischen] Werk zugrunde liegenden Quelle[n],
Adverbien
Erklärungswörter, die den Zusatz "bes." oder "meist" haben, werden verwendet. · Beispiel: S. 24
2.2.4
ABATON : Das AIlerheiligste, bes. der Altarraum in den Kirchen mit orthodoxem Ritus.
Eckige Klammern
Sollten in einem Erklärungswort eckige Klammern vorkommen, so sind zwei Kernkonstituenten zu markieren. 7) "Allerheiligste" wird nicht als Erklärungswort gezählt; vgl. Kap. 2 . 2 . 8 dieser Arbeit.
15
Beispiel : S. 1198
STABILISIERUNGSFLOSSE :
[Siech]platte.
Die Kernkonstituenten sind "Blechplatte" und "Platte".
2.2.5
Stilistische Erläuterungen
Zusätzliche Erläuterungen im DUDUNI, die sich auf stilistische Bewertungen, auf räumliche oder z e i t l i c h e Zuordnungen der Substantive oder auf die Verwendung in Fach- b z w . Sondersprachen beziehen, haben keinen E i n f l u ß auf die Ermittlung der Kernkonstituente. Beispiel: S. 1002
2.2.6
RÄPPLI (schw. mundartl.) : Rappen.
Attribute mit "als"
Erklärungswörter, die den Zusatz "als" haben, werden nicht als Kernkonstituente berücksichtigt: Beispiel: S. 662
KANINCHEN : wegen seines Felles u, Fleisches als Haustier gehaltenes, dem Hasen ähnliches Tier mit graubraunem, grauem, weißem od. schwarzem Fell.
16
2.2.7
Runde Klammern
Erklärungswörter, die in runden Klammern stehen, werden nicht notiert. Beispiel: S. 759
2.2.8
LAIB : rund od. oval geformte Masse Käse).
(Brot,
Substantivierungen
Substantivierungen von Adjektiven oder Verben mit Ausnahme derjenigen, die selbst als Substantive im Wörterbuch lemmatisiert sind, werden nicht als Kernkonstituente markiert. Beispiele: S. 184 S. 187 S. 868
2.2.9
BESCHAFFENHEIT : das Beschaffensein einer Sache, . . . BESEELUNG : das Beseelen NACHLEBEN : Leben eines Verstorbenen in der Erinnerung der Hinterbliebenen.
Nichtsubstantivische Erklärungen
Wenn in einer lexikalischen Paraphrase zu einem Lemma eine Erklärung mit " j m d . , der . . . " steht, so wird das Substantiv
17
"Person" als Ersatzkernkonstituente eingesetzt, wenn dadurch keine der oben genannten Regeln verletzt wird und der Einsetztest durchgeführt werden kann. Beispiel:
S. 667
KÄUFER : jmd., der etw. kauft,
gekauft
hat.
Ein "Käufer" ist eine "Person". Ä h n l i c h s o l l bei Erklärungen mit "etw., das", "das, was", "etw., was" oder " a l l e s , was" verfahren werden. Hier wird das Substantiv "Sache" als Ersatzkernkonstituente verwendet, wenn der Substitutionstest durchführbar i s t . 8 1 Beispiel: S. 1016
REGENSCHUTZ : ettf., Ȋs geeignet ist, als Schutz gegen Regen zu dienen.
Die Kernkonstituente
für "Regenschutz" lautet " S a c h e " . 9 )
8) Durch die Applikation dieses Verfahrens wird die Abhängigkeit von dem verwendeten Wörterbuch etwas gemildert, w e i l eine häufige Benutzung von " j m d . , der", "etwas, w a s " , usw. zwar lexikographisch sinnvoll sein kann, aber die lexikologischen Untersuchungen zu Substantivstrukturen negativ beeinflussen würde. 9) Die Verwendung von Ersatzkernkonstituenten wird bei der Datenspeicherung markiert, so daß die Ersatzkernkonstituenten von dem sonstigen Vorkommen der Substantive "Person" und "Sache" unterscheidbar sind.
3.
Die Bestimmung des Abstraktheitsgrades der Substantive
Eine natürliche Sprache kann unter anderem als ein K l a s s i f i kationssystem aufgefaßt werden, das dazu d i e n t , die Dinge der realen Welt zu ordnen, um sich in der W e l t leichter orientieren zu k ö n n e n . i ) Wenn man dazu die Substantive einer Sprache nach ihrem Abstraktheitsgrad d i f f e r e n z i e r t , wird man sehr v i e l e Substantive finden, die eine sehr s p e z i f i s c h e Bedeutung haben und wenige Substantive, die eine sehr allgemeine Bedeutung aufweisen. Dieser Zusammenhang läßt sich schematisch in Form eines Dreiecks veranschaulichen. 2 ' Die Ursache dieses Zusammenhangs liegt darin begründet, daß ein Wort mit niedrigem Abstraktheitsgrad durch ein genus proximum erklärt wird und daß dieser Oberbegriff für ein oder mehrere andere spezifische Wörter als Erklärung dient.
3.l
Die Untersuchungen Robert Martins
MARTIN hat anhand eines einsprachigen Wörterbuchs den Abstraktheitsgrad von Substantiven der französischen Sprache untersucht. 3 > Zur Ermittlung des Abstraktheitsgrades werden Explikationsketten gebildet, bei denen jedes Wort als Erklärungswort für a l l e vorherigen Wörter der Kette g i l t . Dazu wählt man aus einem Wörterbuch ein beliebiges Lemma aus und ermittelt aus der Bedeutungserklärung das genus proximum. Das Lemma ist der
1) V g l . Altmann/Kind 1983, S. 1. 2) V g l . Schierholz 1988, S. 469 f. 3) Martin 1974.
19
Ebene N I , das erklärende Substantiv der Ebene N 2 zuzuordnen. Das Erklärungswort für das Substantiv in der Ebene N 2 ordnet man dann in die Ebene N s e i n . 4 1 Bei dieser Art der Kettenbildung hat MARTIN für das Französische z . B . f o l g e n d e Kette entwickelt: p i s t o l e t - arme - instrument - outil - objet - c h o s e . 5 ' Hier ist Ebene
"pistolet" der Ebene N I zuzurechnen, "arme" der , und "chose" ist
ein Wort der Ebene N & .
Zur Vorgehensweise in seiner Datenerhebung gibt MARTIN
fol-
b
gende H i n w e i s e : > Kommt es zu zirkulären Erklärungen, so ist zu streichen, und die Kette ist
das letzte Wort
nach eigener Kompetenz zu ver-
vollständigen. Ein Beispiel: reveil - pendule - appareil - machine - appareil. Hier ist das letzte Vorkommen von "appareil" zu e l i m i n i e r e n . Die Vervollständigung der Kette könnte folgendermaßen
aus-
sehen: " . . . - machine - instrument - outil - objet - c h o s e " 7 1 . N i c h t n o m i n a l e Erklärungen wie "das, was" oder "etwas, was" (im Französischen "ce que") werden nicht g e z ä h l t . Hier ist das Wort vor "das, was" als
letztes der Kettenbildung zu betrach-
ten,
nach eigener Kompetenz zu komplet-
oder die Kette ist 8
tieren. ' Metonymische Erklärungen mit " T e i l " , " G l i e d " , "Stück", "Menge" usw. werden gesondert gezählt und sind Endpunkte einer Kette 4) In Martins Daten sind die Ebenen um eine Ebene nach unten verschoben, s o d a ß N i = N o , N 2 = N i , N 3 = N 2 , . . . ist. 5) V g l . Martin 1974, S. 66. 6) V g l . Martin 1974, S. 63 f. 7) Altmann/Kind 1983, S. 2. 8 ) V g l . Martin 1974, S . 6 3 f .
20
Bei MARTIN findet man unter anderem folgende Beispiele: "bras : 'partie du corps'" "ancre: 'piece de fer q u ' o n fait descendre dans la mer ou la riviere pour arreter un navire . . . ' " ' J . Nur die gesamte Bedeutungserklärung gibt den Sinn der Stichwörter ("bras", "ancre") wieder; "partie" und "piece" sind unzureichende Erklärungen, so daß die Kette nicht weiter verfolgt wird. Für manche Substantive sind mehrere Bedeutungserklärungen vorhanden, so daß verschiedene Ketten entstehen können. Man kann entweder nur j e w e i l s das erste Erklärungswort oder a l l e Bedeutungen des Lexems separat untersuchen. Allerdings würden sich im letztgenannten Fall die Ergebnisse kaum verändern. Die Zahl der Wörter in der unteren Ebene würde sich zwar erhöhen, die Zahl der Wörter in den höheren Ebenen bliebe jedoch unverändert. ° > Aus diesem Grunde erscheint es sinnv o l l , nur eine Bedeutung zu untersuchen, w e i l es sonst zu einer Verzerrung der Ergebnisse kommen würde.* 1 MARTIN hat eine Stichprobe von 1723 Wörtern ermittelt und i s t durch d i e Kettenbildung a u f sechs Abstraktionsebenen * 2 > gekommen. Seine Ergebnisse sind in der Tabelle l dargestellt.
9) V g l . Martin 1974, S. 63. 10) V g l . Martin 1974, Tab. 2, S. 70. 11) V g l . Altmann/Kind 1983, S. 3. 12) Es muß "Abstraktheitsebene" heißen, weil die Ebene nichts abstrahiert und auch keine Abstraktion darstellt. Der Begriff "Abstraktion" wird auch nur bei der Darstellung der Martinschen Resultate benutzt und in den Untersuchungen des Deutschen durch "Abstraktheit" ersetzt.
21
Tabelle l:
Anzahl der Wörter auf den einzelnen Abstraktionsebenen nach MARTIN i a >
Ebene ( N j )
Zahl der Wörter
X
Yx
1
1723 348 108 39 13
2 3 4 5 6
3
Dem Wörterbuch sind 1723 Lemmata entnommen worden, die unter 348 Wörter in der Ebene N: subsumiert sind und diese wiederum unter 108 Wörter der Ebene N 3 . . . . In der Kritik ALTMANN/KINDS i * > wird darauf hingewiesen, daß bei der Zählweise in MARTINS Arbeit a l l e Wörter höherer Ebenen auch in den unteren Ebenen a u f t r e t e n . 1 5 1 Es gibt also Wörter, die in mehreren Ebenen enthalten sind. Durch Subtraktion der Wörter in der Ebene y x + i von y x läßt sich dies verhindern, und es entsteht folgende Verteilung: 13) V g l . Martin 1974 Tab. 2, S. 70. 14) V g l . Altmann/Kind 1983, S. 12. 15) Bei Altmann/Kind wird die Einordnung der Wörter in verschiedene Ebenen als der Aufbau einer Ordnungsskala verstanden: Ein Begriff der Ebene N I "ist von 1. Ordnung, der B e g r i f f , der das genus proximum darstellt, von 2. Ordnung. Ein Begriff 2 . Ordnung wird wiederum durch einen Beg r i f f 3. Ordnung definiert usw." (Altmann/Kind 1983, S. 2). Diese Auffassung wird hier nicht vertreten, vielmehr ist die jeweilige Kettenlänge ausschlaggebend, so daß jeder Ebenenwert als eine natürliche Zahl angesehen werden kann. Somit hat ein Wort mit sechs Kettengliedern doppelt so v i e l e Glieder wie ein Wort mit drei Kettengliedern.
22
Tabelle 2:
Anzahl der Wörter auf den einzelnen Abstraktionsebenen, wenn jedes Wort nur in einer Ebene vorkommt 11> >
Ebene (N i )
Zahl der Wörter
X
1 2 3 4 5 6
1375 240 69 26 10 3
Mit den in der Tabelle l gewonnenen Daten lassen sich die zu Beginn dieses Kapitels aufgezeigten Zusammenhänge für das Französische durch die von ALTMANN/KIND durchgeführten mathematischen Berechnungen b e s t ä t i g e n . 1 7 ) Diese Ergebnisse werden von ALTMANN/KIND als "Martins Gesetz der Abstraktionse b e n e n " i 8 - bezeichnet.
3.2
Weitere Untersuchungen zum Abstraktheitsmodell
In der Folge der Modellentwicklung ALTMANN/KINDS sind eine Reihe von Arbeiten zu diesem Themenkomplex e n t s t a n d e n . ! q > Dabei wird darauf hingewiesen, daß MARTINS Zuordnung der Begriffe zu den Ebenen änderungsbedürftig sei, wodurch es zu 16) 17) 18) 19)
V g l . Altmann/Kind 1983, Tab. 7, S. 13. V g l . Altmann/Kind 1983, S. 4 ff. Altmann/Kind 1983, S. 12. V g l . u . a . Hammerl 1987, Hammerl 1988a, Hammerl 1988b, Hammerl 1989a, Hammerl 1989b, Hammerl 1989c, Hammerl 1989d, Hammerl 1989e, Kisro-Völker 1984, Sambor 1982, Sambor 1983, Schierholz 1988, Schierholz 1989, SchulzOtto/Hammer l 1989.
23
verbesserten Aussagen über das Abstraktheitsniveau der Substantive kommen k a n n . 2 0 ' HAMMERL entwickelt ein neues mathematisches M o d e l l , das die Formel ALTMANN/KINDS als S p e z i a l f a l l betrachtet,^ dessen Handhabung jedoch von HAMMERL selbst kritisiert w i r d , weil es sich um eine mathematische Funktion mit einem "erheblichen Kompliziertheitsgrad" h a n d e l t . - 2 * Zwar lassen sich damit die Resultate aus mehreren Sprachen "statistisch signifikant" b e s c h r e i b e n , ; J ' aber vor a l l e m die Interpretation der zu verwendenden Parameter ist relativ k o m p l i z i e r t . - ^ Andere Modifikationsvorschläge zur Bestimmung der Abstraktheitsgrade beinhalten eine grundsätzlich veränderte Einordnung der e i n z e l n e n Substantive in die Ebenen, indem die Endglieder jeder Begriffskette zusammen in die abstrakteste Ebene sortiert werden, die j e w e i l i g e n U n t e r b e g r i f f e davor, . . . . *' · Mit diesem Verfahren wird die MARTINsche Zuordnung der Substantive in die Ebenen umgedreht. Es lassen sich jedoch damit noch weitere Dateninterpretationen umsetzen, z . B . die Berechnung der Subsumptionspotenz der B e g r i f f e oder die Betrachtung der jeweiligen Kettenlänge als Mafi für Abstraktheit/Konkretheit . 2 « ) Die in einigen Ansätzen vorgenommene D i f f e r e n z i e r u n g zwischen Abstraktheits- und Hyponymiestrukturen 2 7 ! kann jedoch nur z u t r e f f e n , wenn man strenge d e f i n i t o r i s c h e Kriterien zur Unterscheidung von genus proximum gegenüber Quasisynonymen entwickelt. 20) 21) 22) 23) 24) 25)
Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. 26) V g l . 27) V g l . Vgl.
Hammerl 1988a, S. 118. Hammerl 1987, S. 119. Hammerl 1988b. Hammerl 1989d. Hammerl 1989d. Kisro-Völker 1984, S. 148. Hammerl 1989b, S. 133 f. Hammerl 1989e. Schulz-Otto/Hammerl 1989, S. 221 f. Hammerl 1988a, S. 105 f. Schulz-Otto/Hammerl 1989, S. 221 f. Hammerl 1989e.
24
Die Berücksichtigung der Häufigkeiten, mit denen die Wörter auf den einzelnen Ebenen auftreten, ist als ein besonders wichtiges Kriterium zu betrachten. Während KISRO-VÖLKER das arithmetische Mittel aus a l l e n Ebenenwerten, in denen ein Substantiv auftritt, benutzen w i l l , i * ' zieht HAMMERL den Mediän vor, um den Extremwerteinflufl zu m i n i m a l i s i e r e n . 2 9 > Eine befriedigende Lösung zur Bestimmung der Abstraktheit wird jedoch in keinem Ansatz erreicht. Allerdings verdeutlichen a l l e Vorschläge, daß es vor einer Modellierung der vorliegenden Daten unbedingt notwendig ist, ähnliche Voraussetzungen bei der Datenerhebung zu s c h a f f e n , um einen vernünftigen Vergleich der Resultate verschiedener Datenerhebungen überhaupt erst m ö g l i c h zu machen. Die von HAMMERL gemachten Vorschläge 3 0 > sind dazu ein erster wichtiger Beitrag, lassen sich aber nur schwer r e a l i s i e r e n , 3 1 ) so daß man zunächst die Forderung erheben muß, jeder Forscher s o l l e seine Methoden zur Datenerhebung vollständig und eindeutig vorstellen. Dies umfaßt insbesondere die definitorischen Abgrenzungen ("objektive Kriterien b e i der Datenerfassung" 3 2 > ) , die jedoch nicht zu jeder Sprache gleich sein müssen, weil man dadurch leicht typische Eigenschaften einzelner Sprachen verdecken würde. Dies b e t r i f f t im Deutschen z . B . die Kompositabildung, die ein Typikum der deutschen Sprache darstellt 3 3 ' und deren Auflösung in der von HAMMERL vorgeschlagenen Weise 3 * > zu einer erheblichen Verkürzung der Begriffsketten führen muß. Weiterhin entwickelt HAMMERL ausschließlich formale Kriterien, die zum Teil den Abgrenzungen der Untersuchung zur polnischen 28) 29) 30) 31) 32) 33) 34)
V g l . Kisro-Völker 1984, S. 146. V g l . Hammerl 1988b. V g l . Hammerl 1987, S. 115. V g l . Schierholz 1989, S. 108. Hammerl 1987, S. 128. V g l . Schierholz 1989, S. 124 f. Hammerl löst a l l e "endozentrischen Komposita" (Bestimmungswort in Endstellung) a u f , so daß z . B . "Autoschlüssel durch "Schlüssel" ersetzt wird; vgl. Hammerl 1989d.
25
Sprache 3 5 ; nachempfunden sind und somit möglicherweise die Eigenarten des Deutschen nicht genügend b e r ü c k s i c h t i g e n . 3 6 1 Zwar ist es begrüßenswert, wenn die definitorischen Abgrenzungen a u s f ü h r l i c h aufgezeigt werden - MARTINS Erläuterungen sind bei weitem nicht ausreichend -, aber erst die weitere wissenschaftliche Diskussion wird in diesem Punkt zu einer Optimierung führen. Im folgenden s o l l e n die Arbeiten zum MARTINschen Modell der Abstraktheitsebenen für die Entwicklung eines verbesserten Verfahrens der Datenermittlung im Deutschen berücksichtigt werden; der wesentliche Ausgangspunkt der Überlegungen bleibt jedoch das Verfahren Robert MARTINS sowie das von ALTMANN/ KIND entworfene M o d e l l .
3.3
Die Bestimmung der Abstraktheitsebenen in der deutschen Sprache
In dieser Untersuchung wird MARTINS Verfahren der Begriffskettenbildung mit Substantiven der deutschen Sprache durchgeführt. Dabei wird jedoch MARTINS Vorgehensweise einigen Modifikationen zu unterwerfen sein, um die Kettenbildung so objektiv wie möglich zu gestalten. Die Vervollständigung der Ketten nach eigener Kompetenz 3 7 > muß grundsätzlich abgelehnt werden, w e i l die Länge der Ketten damit vor a l l e m vom Wortschatz des Untersuchenden abhängen würde. Somit wäre der Untersuchungsgegenstand nicht nur das
35) V g l . Sambor 1983. 36) V g l . Hammerl 1989d. 37) V g l . Altmann/Kind 1983, S. 2 f.
26
Wörterbuch, sondern auch der Untersuchende s e l b s t . 3 8 ' Ebenso wäre eine intersubjektive überprüfbarkeit der Ergebnisse nicht gewährleistet, w e i l eine zweite Person die Ketten möglicherweise auf eine andere Weise komplettieren würde, so daß verschiedene Untersucher zu verschiedenen Daten kämen. Dies ist jedoch mit den Anforderungen der quantitativen Linguistik, die mit meßbaren, möglichst objektiven Resultaten aufwarten w i l l , nicht zu vereinbaren. E b e n f a l l s kann MARTINS Abgrenzung der metonymischen Erklärungen nicht übernommen w e r d e n , 3 9 > weil hier keine eindeutige D e f i n i t i o n zur Kennzeichnung metonymischer Erklärungen vorliegt. Dies g i l t für das Französische wie für die deutsche Sprache.
3.3.1
Die Auswahl und der Umfang der Stichprobe
Der Umfang der Stichprobe beträgt 1482 Wörter. Es wird im DUDUNI pro Seite j e w e i l s das erste Lemma mit großgeschriebenem I n i t i a l in die Stichprobe aufgenommen. Bei der Auswahl der Lemmata wird nicht berücksichtigt, ob das Lemma j e w e i l s am Beginn eines neuen Wörterbuchartikels steht. Das Substantiv "Aktant" ist im DUDUNI im Artikel zum Lemma "Akt" aufgeführt, ist aber auf der Seite 55 das erste halbfett gedruckte Substantiv und gehört somit in die Stichprobe. Weiterhin muß jedes Lemma der Stichprobe nach einem Doppelpunkt eine lexika38) Auch ein Wörterbuch entsteht durch subjektive Entscheidungen der Autoren. Jedoch ist das Wörterbuch mit der Absicht erstellt worden, Informationsbedürfnisse der Benutzer zu befriedigen, z . B . wird in den lexikalischen Paraphrasen eine Erklärung zur Bedeutung eines Lemmas gegeben. Dabei werden - durch den j e w e i l i g e n Lexikographen unbewußt - auch Informationen über semantische Strukturen der Sprache gegeben, u.a. durch Benutzung eines genus proximum als Bedeutungserklärung. Eine Untersuchungsmethode, die unabhängig von der Arbeit des j e w e i l i g e n Lexikographen semantische Strukturen ermittelt, s t e l l t somit eine "objektivere" Qualität dar, als wenn der Untersuchende, der sein Untersuchungsziel kennt, mit H i l f e seiner linguistischen Kompetenz Daten generieren würde. 39) V g l . A l t m a n n / K i n d 1983,
S.
3.
27
lische Paraphrase in kursiver Schrift e n t h a l t e n . 1 » 0 ; S o l l t e dies nicht der F a l l sein, wird das nächste halbfett gedruckte Substantiv verwendet. Beispiel: S. 66
AMOR : römischer Gott der Liebe.
Das Lemma "Amor" enthält im DUDUNI keine kursiv gedruckte Bedeutungsangabe, so daß das nächste h a l b f e t t gedruckte Substantiv zur Auswertung herangezogen wird. Wenn das erste h a l b f e t t gedruckte Substantiv einer Seite die substantivierte Form eines Verbs oder Adjektivs, welche selbst nicht als Substantiv im DUDUNI aufgeführt ist, als Erklärungswort hat, so wird das nächste h a l b f e t t gedruckte Substantiv g e n o m m e n . 4 i > Beispiel:
S. 69
ANBIEDERUNG : das Sichanbiedern ANBIEDERUNGSVERSUCH : Versuch, sich bei
jmdn. anzubiedern, Das Lemma "Anbiederungsversuch" wird für die Stichprobe berücksichtigt. Lemmata, die g l e i c h geschrieben werden, aber verschiedene Bedeutungen haben und die im DUDUNI durch hochgestellte Indexz i f f e r n vor dem Substantiv gekennzeichnet sind (Homonyme), werden als ein Lemma b e h a n d e l t . 4 2 > Dadurch werden Homonyme 40) Diese Abgrenzung ist notwendig, um ein eindeutiges formales Kriterium zur Ermittlung der Paraphrasen für die Auswertung zu erhalten. 41) Dies ist notwendig, w e i l sonst die Kettenbildung gar nicht zustande kommt, so daß die Resultate aufgrund lexikographischer Mängel verzerrt werden würden. 42) Da es keine eindeutige D i f f e r e n z i e r u n g von Homonymie und Polysemie gibt und im DUDUNI dazu keine erkennbare einheitliche Auffassung vorliegt, ist diese Gleichsetzung s i n n v o l l ; v g l . Kap. 5.1 dieser Arbeit.
28
mit einer hochgestellten I n d e x z i f f e r , die größer als Eins ist, nicht in die Stichprobe aufgenommen, sondern das nachfolgende halbfett gedruckte Substantiv der j e w e i l i g e n Seite im Wörterbuch. Beispiel: S. 798
' 2 > L O T : zusammengestellter Posten einer bestimmten Ware . . . LÖTAPPARAT : Apparat zum Löten.
Das Substantiv "Lötapparat" wird in die Stichprobe aufgenommen .
3.3.2
Die Bildung der Begriffsketten
Zusatzlich zu den in Kapitel 2 genannten Definitionen müssen in V l weitere Regeln beachtet werden. Dabei steht auch hier die Schaffung eindeutiger und operationalisierbarer Abgrenzungen im Vordergrund.
3.3.2.1
Die Wahl der Erklärungswörter
Es wird immer die erste Kernkonstituente der Bedeutungserläuterung, die entsprechend den oben aufgestellten Regeln gezählt werden kann, v e r w e n d e t . * 3 > Dies g i l t auch bei Doppelerklärungswörtern, bei mit Konjunktionen verbundenen Erklärungswörtern und beim Auftreten von eckigen Klammern. 43) Die von Hammerl geforderte Differenzierung zwischen Oberbegriffen und Synonymen (gemeint sind wohl Quasisynonyme) läßt sich nicht nach einem zuverlässigen Kriterium vornehmen; v g l . Hammerl 1989b, S. 131; Hammerl 1989d.
29
Beispiele: S. 168
S. 160 S. 158
3.3.2.2
BEFUND : nach einer Untersuchung, Prüfung festgestelltes Ergebnis, festgestellter Zustand BAUCHDECKE : Muskel- u. Bindegewebsschicht über den Organen in der Bauchhöhle BAROCKZEIT : Zeit[alter] des Barocks.
Die substantivierten Erklarungswörter
Wenn in einer Bedeutungserklärung nach einem substantivierten Erklärungswort, das nicht als Substantiv im DUDUNI lemmatisiert ist, noch eine weitere Kernkonstituente für das Lemma ermittelt werden kann, so wird diese zur Kettenbildung benutzt, Beispiel: S. 186
BESCHLEUNIGUNG
: l . a ) das Schnellerwerden, Schnei lermachen b) Eile, ... .
Bei nichtsubstantivischen Bedeutungserklärungen werden "Person" b z w . "Sache" nicht als Ersatzkernkonstituente eingesetzt, wenn in der lexikalischen Paraphrase noch eine weitere Kernkonstituente f o l g t . Beispiel: S. 135
AUSHELFER : jmd., der vorübergehend irgendwo aushilft, Aushilfe.
30
3.3.2.3
Die Erklärungstiefe der Kettenglieder
Beim E r m i t t e l n der Explikationsketten ist zu beachten, daß jedes Substantiv der Kette durch a l l e Substantive in den nachfolgenden Ebenen erklärt werden k a n n . 4 4 ' Zur Überprüfung wird der Substitutionstest verwendet. Beispiel: Abate - W e l t g e i s t l i c h e r - G e i s t l i c h e r - Seelsorger. Der Einsetztest ergibt: Ein ein Ein Ein
3.3.3
Abate ist ein W e l t g e i s t l i c h e r , ein G e i s t l i c h e r , Seelsorger. W e l t g e i s t l i c h e r ist ein G e i s t l i c h e r , ein Seelsorger. G e i s t l i c h e r ist ein Seelsorger.
Der Abbruch der Ketten
S o l l t e man unter Berücksichtigung der oben aufgestellten Regeln keine Kernkonstituente zu einem Substantiv ermitteln können, so ist die Kette an dieser Stelle abzubrechen. Die Kettenbildung ist e b e n f a l l s beendet, wenn eine Erklärung zirkulär v e r l ä u f t . Zirkularität liegt vor, wenn zwei Substantive in einer Kette direkt aufeinander folgen und sich gegenseitig e r k l ä r e n . 4 5 ' 44) Dieses Verfahren schlägt auch Kisro-Völker vor; v g l . Kisro-Völker 1984, S. 144. 45) Auch Substantivierungen, die als Kernkonstituente auftreten, s o l l e n als zirkuläre Erklärungen aufgefaßt werden, so daß die Ketten abzubrechen sind, wenn in den Ebenen - außer der ersten ( v g l . Kap. 3 . 3 . 1 ) - Substantivierungen auftreten: Wenn eine "Zusammenstellung" "das Zusammenstellen" ist, so hat diese Bedeutungserklärung keinen Explikationswert, sondern es handelt sich nur um eine Transformation des Lemmas.
31
Beispiel: S. 35 S. 1357
ABMACHUNG : Vereinbarung VEREINBARUNG : Abmachung.
In der Kettenbildung ergibt das: Abmachung - Vereinbarung - Abmachung. Die Kette wird mit "Vereinbarung" abgebrochen. Zirkularität liegt auch vor, wenn sich zu einem Lemma eine Kernkonstituente ermitteln läßt, die unter mehreren Erklärungswörtern innerhalb der gesamten Bedeutungserklärung nicht die erste ist, aber in der betreffenden Kette auf einer niedrigeren Ebene schon vorgekommen
ist.
Beispiel: S. 1189 S. 279
SPORTART : Disziplin DISZIPLIN : l . a ) Ordnung ...
2. 3.
Wissenschaftszweig, Unterabteilung . . . Teilbereich . . .; Sportart.
"Ordnung" und "Wissenschaftszweig" kommen nicht als
Kernkon-
stituente in Frage, w e i l sie nicht als Erklärungswort für "Sportart" verwendet werden können. Entsprechend den
bis-
herigen Regelfestlegungen müßte die Kette folgendermaßen gebildet werden: Sportart - D i s z i p l i n - Unterabteilung. Da jedoch in der Bedeutungserläuterung " D i s z i p l i n " auch "Sportart" als Kernkonstituente a u f t r i t t , indirekte Zirkularität vor,
muß:
liegt hier eine
so daß die Kettenbildung lauten
32
Sportart - D i s z i p l i n - Sportart. Die Kette ist abzubrechen und "Disziplin" in diesem F a l l e als das abstrakteste Wort zu markieren. Durch diese Regel wird zum Ausdruck gebracht, daß " D i s z i p l i n " als Erklärungswort für "Sportart" eben in gerade dem Sinne verstanden werden muß, wie " D i s z i p l i n " selbst wieder erklärt wird und nicht als "Unterabteilung" oder "Teilbereich".
3.4
Die Darstellung der Ergebnisse
Zu den 1482 Substantiven der Stichprobe sind in den Explikationsketten insgesamt 4520 Substantive ermittelt worden. Beispiel: Tischfernsprecher - T i s c h t e l e f o n - T e l e f o n - Apparat Gerät - Gegenstand - Ding - Gegenstand. * o > "Tischfernsprecher"
ist
ein Lemma a u s d e r Stichprobe < 7 > u n d
der Ebene NI zuzuordnen, T e l e f o n der Ebene N2, . . . und "Ding" der Ebene N 7 . Die Gesamtzahl a l l e r Substantive beträgt 6002 Wörter, die längste Kette umfaßt neun Substantive. Wenn jedes Substantiv pro Ebene nur einmal gezählt wird, beträgt die Anzahl der Wörter 3 8 3 4 . * e i Die Ergebnisse sind in der Tabelle 3 eingetragen.*') Um die Validität der erhobenen Stichprobe zu erhöhen, wird eine zweite Stichprobe aus dem DUDUNI entnommen. Dabei wird entsprechend den oben aufgestellten Definitionen j e w e i l s das 46) V g l . DUDUNI 1983. 47) V g l . DUDUNI 1983, S. 1271. 48) Eine Auswahl von Ketten ist halten. 49) V g l . S. 33 dieser Arbeit.
im Anhang AI und A2 ent-
33
Tabelle 3:
Anzahl der Worter auf den einzelnen Abstraktheitsebenen
y
X
Stichprobe I Ni
A
1 2 3 4 5 6 7
14 2 1110 642 334 160 74 23 7 2
9
Ni-Ni+i
372 46 308 174 86 51 16 5 2
3834
Stichprobe II A 1482 1101 642 361 189 87 36 14 4
Ni-Nio 381 459 281 172 102 51 22 10 4
3916
Erläuterungen zu Tab. 3: Ni = Abstraktheitsebene A = Anzahl der Wörter pro Ebene N i - N i + i = Anzahl der Wörter, wenn jedes Wort nur einmal pro Ebene auftritt. erste Substantiv der zweiten Spalte einer Seite aus dem DUDUNI aufgenommen und die Kettenbildung durchgeführt. Die Gesamtzahl a l l e r ermittelten Substantive beträgt hier 6106, die Zahl der Substantive, wenn jedes Wort pro Ebene nur einmal gezählt wird, 3916. Die Abbildungen l und 2 5 0 > verdeutlichen den Zusammenhang zwischen steigenden Ebenenwerten und kleiner werdenden Wortmengen pro Ebene in graphischen Darstellungen; auf die Besonderheiten in der Abbildung 2 (weniger Wörter in der Ebene Eins als in der Ebene Zwei) wird in Kapitel 3.7 eingegangen. 50) V g l . S. 34 und S. 35 dieser Arbeit.
34
1500 1400 .
1300 1200 -
1100 -
1000 -
900 800 700 -
600 -
500
-
400
-
300 -
200 100 -
~r 4
Abb. 1:
-r 7
Graphische Darstellung der Wortanzahl pro Abstraktheitsebene aus Stichprobe I ( N i = Abstraktheitsebene, A = Anzahl der Wörter)
35
j\ 500 -
400-
300-
200-
100-
—
0
2
1
;Ubb.
2:
3
4
5
6
, 7
, 8
J 9
Histogramm der verschiedenen Wörter nach Abstraktheitsebenen aus Stichprobe I (Ni = Abstraktheitsebene, A = Anzahl der Wörter).
^
Ni
36
3.5
Die mathematische Beschreibung
In der mathematisch-theoretischen Überprüfung der Ergebnisse wird zu zeigen sein, ob die Anordnung der Substantive bestimmten Gesetzmäßigkeiten unterliegt. Dazu soll die von ALTMANN/KIND entwickelte Funktionsgleichung über die K l a s s i f i kationstendenz der Sprache benutzt w e r d e n . 5 1 ' ALTMANN/KIND gehen von den Annahmen aus, daß sich die Zahl der Oberbegriffe in der Ebene N i + 1 proportional zu der Ebene N i vermindert und g l e i c h z e i t i g die Anzahl der Wörter auf einer Ebene proportional zu der Höhe der Ebene ist. Aus der Zusammensetzung dieser beiden Annahmen entwickeln ALTMANN/KIND die allgemeine Formel: yx = y 1 x!a x
1
.52!
(i)
In dieser Gleichung sind yi und der Proportionalitätskoeffizient ' a ' die Konstanten; yi ist die Anzahl der Wörter in der ersten Ebene. Für die Berechnung der Konstante ' a ' bestehen mehrere Möglichkeiten, von denen zunächst die erste, die eine allgemeine Approximation an die Datenstruktur darstellt, angewendet werden s o l l :
53
Setzt man aus der ersten Stichprobe s * > die Werte yi und
51) 52) 53) 54)
Vgl. Altmann/Kind 1983, S. 4 ff. V g l . Altmann/Kind 1983, S. 4. V g l . Altmann/Kind 1983, S. 5. Die Berechnungen s o l l e n nur mit H i l f e der Daten aus Stichprobe I durchgeführt werden, w e i l die Verteilung der Substantive in beiden Stichproben annähernd gleich ist.
37
y 2 (die Wortanzahl in Ebene N i und N ? ) ein, ergibt sich:
1110 2(482) a = 0.3744939 .
Nimmt man aus der Stichprobe yi = 1482 und a = 0.3744939 sowie die Werte der Tabelle 3 und setzt diese in die Formel (1) ein, so erh lt man die in Spalte A der Tabelle 4 stehenden R e s u l t a t e . 5 5 ' Die Abweichungen der berechneten Daten von den beobachteten sind erheblich. Statt zu f a l l e n , steigen die Werte an. Dies ist mit einem wesentlich zu hohen Wert f r ' a 1 zu erkl ren, welcher sich wiederum aus der D i f f e r e n z zwischen y i und y j ergibt. Darum s o l l eine weitere Sch tzung von ' a 1 nach folgender Formel durchgef hrt werden:
Σ ( x - l ) l n y - In y In a = — X
Σ (x-1) - Σ ( x - l ) l n ( x ! ) X ^— —
X
Σ (x-1)
Die Berechnung der Variablen ergibt:
Σ (x-l)ln y x χ
= 117.175249
In y. Σ (x-1) = 262.841321 χ Σ (x-1) l n ( x i ) = 293.654859 χ
55) V g l . S. 40 dieser Arbeit. 56) Vgl. Altmann/Kind 1983, S. 6.
2
.sei
(3)
38
( -1) 2
= 204 .
Beim Einsetzen in die Formel (3) erhält man: 117.175249 - 262.841321 - 293.654859 In
204
a =
0.116073232 .
Berechnet man mit diesem neuen Wert für ä die Werte nach Formel ( 1 ) , so erhält man die Resultate der Spalte B in der Tabelle 4 . s ? Die Resultate zeigen, daß die errechneten Werte zwar eine fallende Tendenz haben, aber vor a l l e m in den unteren Ebenen weichen die Werte der Spalte B in der Tabelle 4 sehr stark von den Originaldaten ab. Berechnet man die Summe der Abweichungsquadrate, so erhält man einen SSE-Wert ^ e ' von 956212.432, der e b e n f a l l s sehr hoch ist. Da die Anpassung der Datenstruktur an das Modell von ALTMANN/ KIND nicht besonders gut verlaufen ist, s o l l das von HAMMERL entwickelte Modell zum MARTINgesetz benutzt w e r d e n . ^ HAMMERL zeigt, daß das mathematische Modell ALTMANN/KINDS als ein S p e z i a l f a l l der Formel
anzusehen i s t . * ' - ' 1 Die Berechnung der Konstanten ' a ' und ' b 1 sowie des Proportionalitätsfaktors 'c' geschieht folgender maßen: 57) 58) 59) 60)
V g l . S. 40 dieser Arbeit. V g l . Altmann/Kind 1983, S. 5. Hammerl 1987. V g l . Hammerl 1987, S. 119.
39
N * R a
=
b =
S *M
Q * R - P * M~
N * P -
S * Q
M * P -
R * Q
A + a * H - b * E c = exp
Dabei sind die einzelnen Komponenten folgenderma en zu bestimmen: N = A * B - C * D R = E -
B * D
S = A -
F * D
M =
E * B - G * D
Q = - E * D
+
H*B
P = D * D + H
n-1
A =
Σ In y x=l
B =
n-1 Σ In v 3 x=l
=
n-1 Σ In y x=l
* In (x+1)
* In y ( x + 1 )
D =
n-1 Σ In (x+1) x=l
E =
n-1 Σ In y * In (x+1) x x=l
40
F =
n-1 Σ In yx+1 x=l
G =
n-1 Σ ( I n y )' X x=l
Η =
Σ In (x+1) x=l
.61>
Setzt man die Werte in die Formel (4) ein, so erh lt man die Resultate der Spalte C in der Tabelle 4.
Tabelle 4:
X
Υχ
1 2 3 4 5 6 7 β 9
1482 1110 642 334 160 74 23 7 2
Beobachtete und berechnete Anzahl der W rter auf den e i n z e l n e n Abstraktheitsebenen
A Υχ
1482 1109.9999 1247.0638 1868.0704 3497.8993 7859.6032 20603.261 61726.129 208016.45
B
C
Yx
Yx
1482 344.0411 119.8019 55.6232 32.2818 22.4823 18.2672 16.9627 17.7202
1482 902.314714 677.190061 363.286935 169.385979 70.913105 28.306336 6.923214 1.646028
Erl uterungen zu Tab. 4; χ
y* y*
A B C
= = = = = =
Abstraktheitsebene Beobachtete Anzahl der W rter pro Ebene Berechnete Anzahl der W rter pro Ebene Y X nach Formel (1) und (2) berechnet y x nach Formel (1) und ( 3 ) berechnet Y X nach Formel (4) und (5) berechnet.
61) Au erordentlich zu danken ist Herrn R o l f Hammerl f r die freundliche bersendung der obigen Berechnungsgrundlagen.
41
Die Werte weisen eine wesentliche bessere Anpassung an die empirischen Werte auf als die Werte der Spalten A und B. Die Summe der Abweichungsquadrate (SSE-Wert) ergibt 45355.1567. Dies wird auch durch die Berechnung des Determinationskoeff i z i e n t e n bestätigt: n
D = 1
x=l
2
(y - y_J 2 -
x=l
2
(yX - y„r X
Hier ergibt sich ein Wert von .09586172. Somit kann die Anpassung als sehr gut bezeichnet w e r d e n . b 2 > Da HAMMERL auch für die polnische Sprache eine gute Anpassung erreicht hat, kann dieses Modell möglicherweise die Tendenzen der Abstraktheitsstufen in verschiedenen Sprachen erfassen. Durch einen Vergleich der Resultate zu verschiedenen Sprachen s o l l e n die bisher ermittelten Daten genauer analysiert werden.
3.6
Die Diskussion der Ergebnisse
Die Tabelle 5 b 3 ' enthält die bisher bekannten Daten zum MARTINgesetz. Vergleicht man zunächst die Werte beider Stichproben aus der obigen Untersuchung zum Deutschen, so ist zu erkennen, daß die Anzahl der ermittelten Ebenen gleich ist und die Wortanzahl pro Ebene nur geringfügig d i f f e r i e r t ; die
62) A l l e r d i n g s ist ein derart gutes Resultat bei einer Schätzung von drei Parametern zu acht verschiedenen Werten fast zu erwarten. 63) V g l . S. 42 dieser Arbeit.
42
T a b e l l e 5:
Ebene Ni
Anzahl der Wörter pro Abstraktheitsebene aus Untersuchungen zu verschiedenen Sprachen
Zahl der 1Wörter Französisch 6 4 > P o l n i s c h 6 5 ' Deutsch 6 6 > (Wahr ig) 1723 348 108 39 13 3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1000 618 271 110 44 16 9 3 1
1483 1039 443 192 99 49 30 20 15 12 9 9 8 6 6 2
Deut seh" 7 ' I II 1482 1110 642 334 160 74 23 7 2
1482 1101 642 361 189 87 36 14 4
größte Abweichung findet sich in Ebene Fünf mit 29 Wörtern, so daß davon ausgegangen werden kann, bei weiteren Datenerhebungen mit der gleichen Untersuchungsmethode zu ähnlichen Resultaten zu gelangen. Bei einem Vergleich der Ergebnisse zu den verschiedenen Sprachen f a l l e n die Resultate zum Französischen besonders a u f . Dort gibt es nur sechs Ebenen, und die Abnahme der Wortanzahl pro Ebene ist
wesentlich größer, besonders von Ebene Eins zu
Ebene Z w e i . Jedoch ist
das von ALTMANN/KIND formulierte Modell
gerade anhand dieser Daten entwickelt worden. Mit den in der 64) 65) 66) 67)
Vgl. Vgl. Vgl. Vgl.
Martin 1974, Tab. 2, S. 70. Hammerl 1987, Tab. 3, S. 115 (nach Sambor 1982). Schierholz 1989. Kap. 3.4 dieser Arbeit.
43
Tabelle 5 aufgeführten Resultaten, die auf dem "dtv-Wörterbuch der deutschen Sprache" 6 8 ) basieren, konnte die von ALTMANN/KIND entwickelte mathematische Beschreibung der MARTINDaten nicht bestätigt werden. Folgende Ursachen sind im Anschluß an die WAHRIG-Untersuchung erörtert w o r d e n : ^ ) - MARTINS Gesetz der Abstraktionsebenen muß m o d i f i z i e r t werden. - Das ALTMANN/KIND-Modell g i l t nicht für die deutsche Sprache. - Die nahezu unbegrenzten Möglichkeiten der Kompositabildung in der deutschen Sprache führen zu einer übermäßigen Akkumulation von verschiedenen Substantiven auf den Ebenen ab N 2 . Im Französischen verringert sich die Zahl der Substantive, w e i l die Erklärungswörter aus einem sich häufig wiederholenden Grundwort plus einer im Genitiv stehenden S p e z i f i k a t i o n b e s t e h e n . 7 ° > Aus diesem Grunde würden sich im Deutschen die Ergebnisse bei einer Auflösung der Komposita den Daten des Französischen annähern. - Die definitorischen Abgrenzungen in der Untersuchung der deutschen Substantive sind f e h l e r h a f t , so daß die Resultate davon beeinflußt werden. - Das benutzte Datenmaterial ist für derartige Untersuchungen ungeeignet. Vor a l l e m der letzte Aspekt, die mangelhafte Qualität des WAHRIG-Wörterbuchs, 7 1 die sich besonders in der fehlenden Lemmatisierung des erklärenden Vokabulars niederschlägt, hat 68) Wahrig 1981. 69) V g l . Schierholz 19 9, S. 120. 70) Im Deutschen erhält man mit "Maschinenteil", "Pflanzent e i l " und "Körperteil" drei verschiedene Erklärungswörter, im Französischen hätte man nur ein Wort, nämlich "Teil". 71) V g l . Schierholz 1988, S. 465 ff.
44
bei den Datenerhebungen die Ergebnisse erheblich beeinträchtigt. Das DUDUNI weist nicht die gleichen Mangel a u f ; es müssen nur selten Explikationsketten wegen Lemmalücken abgebrochen werden. Damit sind die Überlegungen zur Kompositaauflösung wie sie in der Untersuchung angestellt worden sind, die auf den Daten aus dem WAHRIG-Wörterbuch beruht, ü b e r f l ü s s i g . 7 * ' Die definitorischen Abgrenzungen sind in der hier vorgenommenen Untersuchung gemäß den Erfahrungen aus der WAHRIG-Untersuchung optimiert worden. Dies b e t r i f f t insbesondere die Erklärungstiefe der K e r n k o n s t i t u e n t e n . 7 3 > Da das von ALTMANN/KIND entworfene Modell auch mit den hier vorliegenden Daten f a l s i f i z i e r t worden ist, s o l l t e man das Modell HAMMERLS für weitere Untersuchungen verwenden. Um eine "Universalität" des M o d e l l s zu beanspruchen, müßten jedoch noch zu weiteren Sprachen Daten erhoben werden. Ob die Resultate dann jedoch ohne weiteres verglichen werden können, wird auch von HAMMERL a n g e z w e i f e l t , 7 4 ) weil dazu ähnlich aufgebaute Wörterbücher, ähnliche definitorische Abgrenzungen zur Begriffskettenbildung und die Vermeidung subjektiver Einflüsse (Vervollständigung der Ketten nach eigener Kompetenz) Voraussetzung wären. Bei MARTIN, der seine definitorischen Abgrenzungen kaum dokumentiert hat, besteht zumindestens der Verdacht, daß er durch eine zu häufige Vervollständigung der Ketten nach eigener Kompetenz mehr seine eigenen Fähigkeiten untersucht, das genus proximum zu einem Begriff zu finden, als die französische Sprache. 72) V g l . Schierholz 19 9, S. 124 f. 73) V g l . Kap. 3 . 3 . 2 . 3 dieser Arbeit. 74) V g l . Hammerl 1987, S. 122.
3.7
Die Größe der Stichproben
Zu dem von MARTIN konzipierten Verfahren und zu den dazu entwickelten semantischen Modellen ergeben sich jedoch weitere Schwierigkeiten, die bisher nicht berücksichtigt worden sind. Da bei MARTINS Erhebungsmethode manche Wörter auf mehreren Ebenen erscheinen, muß man zur Lösung dieses Problems die Wortanzahl der Ebene N i + i von der der Ebene Ni subtrahieren. 7 * > Für die Berücksichtigung der Wörter ausschließlich auf der j e w e i l s höchsten Ebene findet auch HAMMERL "keine überzeugende Begründung". 7 '') Die Tabelle 6 verdeutlicht, daß die resultierenden theoretischen Werte von den tatsächlichen erheblich abweichen. Ab Ebene N 6 entsprechen die theoretischen Werte in etwa den empirischen.
Tabelie 6:
Anzahl der Substantive pro Ebene in der ersten Stichprobe, wenn jedes Wort nur einmal vorkommt Ebene Ni
Zahl der Wörter theoretisch empirisch
1 2 3 4 5 6 7 8 9
372 468 308 174 86 51 16 5 2 1482
75) V g l . Altmann/Kind 1983, S. 12. 76) Hammerl 1989e.
1437 841 419 217 107 56 17 5 2
3101
46
Dies weist darauf h i n , daß ab N 6 nahezu a l l e Wörter in den höher liegenden Ebenen enthalten sind. Je größer die Stichprobe wird, desto mehr Ebenen lassen sich theoretisch richtig berechnen. Erst wenn die Stichprobe so groß ist, daß a l l e Wörter in den Ebenen größer N I auch in der Stichprobe enthalten sind, werden die theoretischen mit den empirischen Werten übereinstimmen. Bei den theoretischen Werten der Tabelle 6 f ä l l t zudem a u f , daß es mehr Wörter in Ebene Zwei als in Ebene Eins gibt, was natürlich nicht m ö g l i c h ist, weil es nicht mehr Erklärungswörter als Lemmata geben kann, wenn man pro Lemma nur eine Kernkonstituente berücksichtigt. Vergleicht man die Summe a l l e r verschiedenen Substantive, so erhält man empirisch 3101 und theoretisch 1482 Substantive. Die theoretische Berechnung der verschiedenen Substantive durch Subtraktion der Wortmengen aus Ni + i von N I ist also zu ungenau und hangt von der Größe der ausgewählten Stichprobe ab. Ein zweites Problem besteht darin, daß sich auch die Verteilung der empirischen Werte ab Ebene N 2 mit der Größe der ausgewählten Stichprobe verändert. Die Tabelle 7 7 > zeigt, daß sich bei einer j e w e i l i g e n Verdoppelung der Stichprobengröße die Wortmengen auf den darüberllegenden Ebenen nicht verdoppeln. Geht man von der halbierten ersten Stichprobe aus, so erhält man auf Ebene Zwei bei einer theoretischen Verdoppelung 1236 Wörter (Spalte I I ) , aber einen empirischen Wert von 1110 Wörtern (Spalte I I I ) . Bei einer nochmaligen Verdoppelung des theoretischen Wertes kommt man theoretisch auf 2472, empirisch auf 1975 Wörter. Für noch größere Stichproben liegen keine empirischen Werte vor, so daß man mit H i l f e der vorliegenden Daten die Entwicklung der Verteilung zu größeren Datensätzen abschätzen müßte. 77) V g l . S. 47 dieser Arbeit.
47
Tabelle 7:
Anzahl der verschiedenen Wörter aus beiden Stichproben auf den e i n z e l n e n Abstraktheitsebenen
Ni
I
II
1 2 3 4 5 6 7 8 9
741 618 385 203 101 43 17 5 2
1482 1236 770 406 202 86 34 10 4
III
1482 1110 642 334 160 74 23 7 2
IV
2964 2472 1540 812 404 172 68 20 8
V
2964 1975 1031 525 261 120 43 15 5
Erläuterungen zu Tab. 7: N; I II III IV V
= Ebene = Empirische Werte, wenn man die erste Stichprobe halbiert. = Theoretische Werte, wenn man die Werte der Spalte I verdoppelt. = Empirische Werte, wenn die Größe der Stichprobe verdoppelt wird. = Theoretische Werte, wenn man die Werte der Spalte II verdoppelt. = Empirische Werte, wenn die Größe der Stichprobe aus Spalte III verdoppelt wird.
Mit dieser Tendenz führen die mathematischen Berechnungen zu Resultaten, die durch den Umfang der Stichprobe determiniert sind. Die Ursache dieses Phänomens liegt darin begründet, daß die Zahl der verschiedenen Wörter in den höheren Ebenen nicht ständig zunimmt, wenn man neue Wörter in die Stichprobe aufnimmt. Dies b e t r i f f t zuerst die höchste Ebene und wird sich bei Vergrößerung der Stichprobe langsam weiter auf die unteren Ebenen ausdehnen. In der Ebene Zwei wird es natürlich erst dann keine Veränderungen mehr geben, wenn man nahezu a l l e Substantive des Wörterbuchs in Ebene Eins aufgenommen
48
hat. Dann würde auch die D i f f e r e n z zwischen N I und N 2 wesentlich größer sein, so daß die Bestimmung des Proportionalitätsk o e f f i z i e n t e n , wenn sie mit H i l f e der Daten aus N I und N2 erfolgt, zu ganz anderen Ergebnissen führen würde als bei einer Bestimmung mit den Werten aus den Spalten I, III oder V in der Tabelle 7. Zwar mag sich der Typ der Abhängigkeit zwischen und y x 8 dadurch nicht grundsatzlich verändern, > aber die Parameter in den Funktionen sind von der Größe der Stichprobe in erheblichem Maße abhängig, was in den Untersuchungen zu verschiedenen Sprachen, die immer mit überschaubaren Stichproben (ca. 1000 Ausgangswörter) durchgeführt worden sind, nicht berücksichtigt worden ist. Den MARTINschen Ergebnissen käme man wohl am nächsten, wenn man das ganze Wörterbuch untersuchen würde. Die Dependenz der Ergebnisse von der Stichprobengröße sollte in Zukunft beachtet werden, um eine zuverlässigere Vergleichbarkeit der Resultate zu gewährleisten.
3.
Ein empirisches Verfahren zur Abstraktheitsbestimmung der Substantive (V 1)
Aus der Diskussion der Ergebnisse zur MARTINschen Methode der Abstraktheitsbestimmung hat sich ergeben, daß - die Relation zwischen den Wortmengen pro Ebene von der Größe der Stichprobe abhängt - sich die Anzahl der verschiedenen Wörter pro Ebene in 78) Allerdings verändert sich der Typ, wenn man die oben dargestellte Methode der Subtraktion der Wörter auf der Ebene N i + i von Ni durchführt, weil erst bei sehr großen Stichproben auf der untersten Ebene die höchsten Werte stehen würden; v g l . Tab. 6, S. 45 dieser Arbeit.
49
den höheren Ebenen wenig, in den unteren Ebenen jedoch stark verändert, wenn die Stichprobe vergrößert wird - die Anzahl der Ebenen (bis N g ) als konstant angesehen werden kann - die Zuordnung eines Substantivs zu einer bestimmten Ebene nicht eindeutig ist, weil viele Substantive in mehreren Ebenen auftreten. G l e i c h z e i t i g verläuft die vorgestellte BegriffskettenbiIdung immer von den konkreteren Substantiven zu den abstrakteren h i n . Zudem f ä l l t während der Datenerhebung (Bildung der Begriffsketten anhand des Wörterbuchs) a u f , daß die e i n z e l n e n Substantive zum einen durch ihre Position in einer Kette und zum anderen durch das j e w e i l i g e Auftreten in einer Kette gekennzeichnet sind. Somit sind zwei Faktoren ausschlaggebend: (1) die Häufigkeit, mit der ein Substantiv pro Ebene vorkommt (2) die Ebene, auf der das Substantiv j e w e i l s a u f t r i t t . Wenn man diese beiden Faktoren zueinander in Beziehung setzt, so läßt sich das MARTINsche Verfahren in der Weise weiterentwickeln, daß jedem untersuchten Substantiv ein empirisch ermittelter Abstraktheitswert zugewiesen werden kann. Es erfolgt zunächst die ExplikationskettenbiIdung gemäß den oben genannten Definitionen mit zwei voneinander unabhängigen Stichproben. Da die Wörter der Stichprobe z u f ä l l i g ermittelt worden sind, enthalten sie keine Aussagekraft über ihren Abstraktheitsgrad und werden im weiteren nicht berücksichtigt. Damit wird die bisherige Ebene N2 zur Ebene N I , und es existieren insgesamt acht Ebenen. Da zur Auswertung nicht die verschiedenen Wörter berücksichtigt werden s o l l e n , sondern a l l e Substantive, die in den Begriffsketten auftreten, bekommt man die folgende Verteilung zu acht E b e n e n : 7 9 ' 79) V g l . Tab. 8, S. 50 dieser Arbeit.
50
Tabelle 8:
Anzahl a l l e r Wörter auf den einzelnen Abstraktheitsebenen
Ebene Ni 1 2 3 4 5 6 7 8
Zahl der Wörter Stichprobe II Stichprobe I
1482 1251 883 536 255 87 20 6
1482 1246 910 562 292 100 26 6
Zusammen sind das 4520 Substantive in der ersten und 4624 Substantive in der zweiten Stichprobe, wobei die abstrakteren Substantive in den jeweiligen Stichproben mehrfach (auf verschiedenen Ebenen) und in beiden Stichproben auftreten. Zu jedem Substantiv wird dessen Auftretenshäufigkeit Hi in der Ebene N J gezählt und durch die Gesamtzahl a l l e r Wörter in der Ebene Ni dividiert. Damit erhält man zu den Substantiven für jede Ebene, in der diese auftreten, einen Häufigkeitswert Z i , dessen Größe von der Anzahl der Wörter einer Ebene abhängig ist:
Um den E i n f l u ß einer jeden Ebene Ni entsprechend der Höhe von ' i 1 zu berücksichtigen, wird Zi mit dem Wert der Ebene, in der Z i ermittelt worden ist, m u l t i p l i z i e r t , und man erhält einen Abstraktheitsindex
51
= Z i * Ni .
Ein Substantiv, das in a l l e n acht Ebenen vorhanden ist, besitzt also acht Abstraktheitsindices . Beispiel :
GEGENSTAND:
zi
Ni
.13 1.84 1 .93 3.92 5.88 3.45 10.00
1 2 3 4 5 6 7
.13 3.68 5.79 15.68 29.40 20.70 70.00 .
Das Wort "Gegenstand" kommt in den ersten sieben Ebenen vor und erhält somit sieben verschiedene Abstraktheitsindices. Da diese eine große Streuungsbreite aufweisen, wird aus den Indices nicht das arithmetische Mittel gebildet, sondern der Mediän zur Bestimmung des Abstraktheitswertes 8 ° > gewählt; 8 i > i n diesem F a l l e 15.6 . 8 2 ' Auf diese Weise lassen sich zu 1664 verschiedenen Wörtern aus der Stichprobe I und 1700 Wörtern aus der Stichprobe II j e w e i l s die -Werte errechnen. Das Wort mit dem höchsten -Wert ist in beiden Stichproben "Wesen" (I: 89.015; II: 7 7 . 7 9 ) , gefolgt von "Lebewesen" ( I : 57.88; I I : 4 8 . 4 0 ) . Um jedem Wort nur einen -Wert zuwei80) Im weiteren -Wert. 81) Der Mediän ist der Wert, "bis zu dem sich 'von unten' bzw. 'von oben 1 50% a l l e r Werte einer Verteilung aufkumuliert ( s i e ! ) haben. ( . . . ) Der Mediän ist also das 50%Quantil; ( . . . ) " ; Sievers 1987, S. 101. 82) Sollte eine gerade Anzahl von Indices vorliegen, so ist aus den beiden in der Mitte liegenden Werten der Mittelwert zu b i l d e n .
52
sen zu können, wird bei den Wörtern, die in beiden Stichproben vorkommen, aus beiden -Werten der Mittelwert g e b i l d e t . 8 3 ; Bei Substantiven, die nur in einer Stichprobe vorkommen, wird der -Wert so belassen. Die Resultate für die zwanzig Wörter mit den höchsten A-Werten sind in der Tabelle 9 8 4 > dargestellt. Betrachtet man die Rangpositionen der Wörter, so ist zu erkennen, daß die Resultate aus beiden Stichproben nicht wesentlich voneinander abweichen. Auch wird man bei einer intuitiven Einschätzung ihres Abstraktheitsgrades diesen zwanzig Wörtern eine relativ hohe Abstraktheit zuweisen. Trotzdem hängt in der Sprachproduktion bzw. -rezeption der Abstraktheitsgrad von Wörtern natürlich auch von ko- und kontextuellen Faktoren ab. Jedoch stellen die empirisch ermittelten -Werte eine wichtige Variable dar, die zur Deskription lexikologischer Strukturen eingesetzt werden kann. Die Verteilungen der untersuchten Substantive für beide Stichproben sind in der Tabelle 10 8 5 > dargestellt. Es haben sich insgesamt 243 verschiedene -Werte ergeben, so daß zur besseren Übersicht die -Werte in Gruppen zusammengefaßt worden s i n d . e t i Eine ausführliche Analyse der Distribution der A-Werte wird im Kapitel 6 erfolgen; anhand der Tabelle 10 kann man erkennen, daß die Werte in Spalte III sehr breit gestreut 83) Das arithmetische Mittel errechnet man nach der Formel:
_ l n x = -n * ; i-i v g l . Sievers 1987, S. 97. 84) V g l . S. 53 dieser Arbeit. 85) V g l . S. 54 dieser Arbeit. 86) Eine Tabelle mit der Verteilung a l l e r ermittelten A-Werte befindet sich in Tab. A 2 im Anhang.
53
Tabelle 9:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Substantive mit höchsten
WESEN LEBEWESEN MENSCH GEGENSTAND SACHE DING TEIL SUBSTANZ STOFF WEISE PERSON ORGANISMUS TIER PLAN KÖRPER GERÄT MOTOR STÜCK TATSACHE KONSTRUKTION
-Werten aus V l
I
II
III
89.015 57.88 14.68 15.68 8.20 11.75 9.18 6.90 5.52 4.77 5.90 4.48 4.555 4.425 3.00 4.315 3.90 3.72 1.95 2.24
77.79 48.40 15.64 9.96 11.165 6.40 7.98 5.68 5.31 5.15 3.85 4.025 3.825 3.85 5.00 2.935 1.70 1.7 3.4 2.84
83.402 53.14 15.16 12.82 9.6825 9.075 8.58 6.29 5.415 4.96 4.875 4.2525 4.19 4.1375 4.0 3.625 2.8 2.71 2.675 2.54
IV
V
VI
1 2 4 3 7 5 6
1 2 3 5 4 7 6 8 9 10 15 13 12 14 11 22 39 36 16 23
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
10 11 9 12 16 13 20 14 15 18 31 23
Erläuterungen zu Tab. 9; I II III IV V VI
= = = = = =
-Werte aus Stichprobe I -Werte aus Stichprobe II Mittelwert aus Spalte I und II Rang in Stichprobe I Rang in Stichprobe II Rang in der Abstraktheitsbestimmung.
sind und viele Substantive mit einem niedrigen -Wert sowie wenige Substantive mit einem hohen -Wert existieren. Dies korrespondiert mit der entwickelten Vorstellung über die Beziehungsstruktur der untersuchten Substantive, in der es v i e l e Peripheriewörter und wenige Zentralwörter gibt.
54
Tabelle 10:
Häufigkeitsverteilung der Substantive nach A-Werten
A-Wert 0.0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1.0 1.05 1.1 1.15 1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6 1.65
-
0.049 0.099 0.149 0.199 0.249 0.299 0.349 0.399 0.449 0.499 0.549 0.599 0.649 0.699 0.749 0.799 0.849 0.899 0.949 0.999 1.049 1.999 1.149 1 .199 1.249 1 .299 1.349 1 .399 1.449 1 .499 1.549 1.599 1.649 1.699
I
II
III
0 774 136 321 66 9 153 3 11 23 14 2 10 19 2 34 3
0 768 116 313 84 6 170 14 18 22 22 5 6 25 29 3 3 11 4 8 4 3 2 1 6
0 1377 244 468 142 26 170 27 34 25 32 8 9 20 21 14 9 1 11 4 12 5 8 2 4 3 2 2 3 1 2 1
2 10 5 8 3 1 5 1 8
7 6 1 1
1
1
A-Wert
I
II
III
1.7 - 1.749 1.75 - 1.799 1.8 - 1.849
2 1
9
3 1 2 3
1.85 - 1.899 1.9 - 1.949 1.95 - 1.999 2.0 - 2.099 2.1 - 2.199 2.2 - 2.299 2 . 3 - 2.399 2.4 - 2.499 2.5 - 2.599 2.6 - 2.699 2.7 - 2.799 2 . 8 - 2.899 2.9 - 2.999 3.0 - 3.199 3.2 - 3.399 3.4 - 3.599 3.6 - 3.799 3.8 - 3.999 4.0 - 4. 199 4.2 - 4.399 4.4 - 4.599 4.6 - 4.799 4 . 8 - 4.999 5 . 0 - 5.999 6.0 - 6.999 7.0 - 7.999 8 . 0 - 8.999 9.0 - 9.999 10.00 -19.999 20.00 -59.999 ab 60.00
Erläuterungen zu Tab. 10: I II III
= Anzahl der Wörter aus Stichprobe I = Anzahl der Wörter aus Stichprobe II = Anzahl der Wörter aus V 1.
1 5 4
1
1 1
3 1 3
3 1
1 1 2 1 1 3
2 1 1 1 1 1
1 1 2 2 1 1 1 2 1 1 1 3 1 1
2 2 1 2 1
3 1
1 4 1 1 1 2 1 1
2 1 1 1 2 2 1 1
4.
Die Häufigkeitsbestimmung der Substantive (V 2)
Im folgenden Versuch soll untersucht werden, in welcher Häufigkeitsverteilung die Auftretenshäufigkeiten der Substantive im DUDUNI vorkommen. G l e i c h z e i t i g wird zu jedem untersuchten Substantiv ein empirischer Häufigkeitswert i ' ermittelt werden. Um die terminologische Verwirrung zwischen der H ä u f i g k e i t d e s Auftretens einer Kernkonstituente i m DUDUNI u n d d e r H ä u f i g k e i t i n d e r dazugehörigen Häufigkeitsverteilung zu vermeiden, wird folgende Differenzierung vorgenommen: Das Attribut 'Häufigkeit 1 ist d e f i n i e r t durch die Anzahl des Auftretens eines Substantivs als Kernkonstituente innerhalb des untersuchten Datencorpus (= Z u f a l l s v a r i a b l e ) Die Häufigkeiten, mit denen die Ausprägungen der Z u f a l l s v a r i a b l e n ' H ä u f i g k e i t 1 in einer Häufigkeitsverteilung besetzt sind, heißen Counts. Da die Bestimmung der Kernkonstituenten nicht durch den Computer e r f o l g e n kann, ist es im Rahmen dieser Arbeit nicht mögl i c h , sämtliche Substantive des DUDUNI zu untersuchen. Die Anzahl der im Wörterbuch lemmatisierten Wörter wird mit etwa 120000 angegeben,'·· so daß der Anteil der Substantive mit ca. 70000 geschätzt werden k a n n . 3 1 Analog zu früheren Datenerhebungen * ' wird angenommen, daß bei einer Countverteilung zum Merkmal ' H ä u f i g k e i t ' v i e l e Substantive selten (ein bis 1) Im weiteren -Wert. 2) V g l . DUDUNI 1983, S. 7. 3) Marx schätzt (nach Erben 1965) einen Substantivanteil am Gesamtwortschatz in Höhe von 58 %; v g l . Marx 1979, S. 597.
4) V g l . Schierholz 1988, S. 466 ff.
56
zwei M a l ) und wenige Substantive sehr oft vorkommen. Für Untersuchungen der semantischen Strukturbeziehungen sind die Substantive, die im Wörterbuch häufig als Kernkonstituente fungieren, von größerem Interesse. Diese Substantive werden für die Überprüfung der oben aufgestellten Hypothesen benötigt. Von den selten vorkommenden Substantiven braucht nur ein Teil untersucht zu werden, um die Verbindungen zu den häufig auftretenden Substantiven exemplarisch verdeutlichen zu können. In Kapitel 4.2 wird eine Methode vorgestellt werden, mit der man a l l e häufigen und zentralen Substantive des DUDUNIWortschatzes ermitteln kann.
4.l
Definitorische Abgrenzungen zur Häufigkeitsbestimmung
In V 2 werden entsprechend den obigen Definitionen 5 > a l l e Substantive einer Bedeutungserklärung, die nach dem Substitutionstest als Kernkonstituente fungieren können, notiert. Jedoch werden zu einem Lemma nur die verschiedenen Kernkonstituenten markiert, so daß ein Erklärungswort, das in einer Bedeutungserläuterung mehrfach vorkommt, nur einmal gezählt wird. Beispiel: S. 505
GLÜCKSSPIEL : 1. Spiel, bei dem der Erfolg fast nur vom Zufall abhängt 2. Spiel, bei dem um Geld gespielt wird.
Bei den nichtsubstantivischen Erklärungen werden "Person" 5) V g l . Kap. 2.2 dieser Arbeit.
57
bzw. "Sache" auch dann als Ersatzkernkonstituente notiert, wenn in der Bedeutungserklärung eine weitere verwendbare Kernkonstituente n a c h f o l g t . Beispiel:
S. 135
AUSHELFER : j'/nd., der vorübergehend irgendwo aushilft,
Aushilfe,
Für "Aushelfer" werden "Person" und " A u s h i l f e " als Erklärungswörter gezahlt.
4.2
Die Vorgehensweise in V 2
Den Ausgangspunkt der Untersuchung bilden die Substantive, denen in V l ein -Wert zugewiesen worden ist. Man erhält somit aus der ersten Stichprobe der Abstraktheitsbestimmung 1664 verschiedene Substantive, welche in V 2 die Lemmata des Datensets I darstellen. Aus der zweiten Stichprobe in V l ergeben sich 1700 verschiedene Substantive, von denen diejenigen Wörter, die schon im Datenset I lemmatisiert sind, subtrahiert werden. Es verbleiben 1060 verschiedene Lemmata für das Datenset I I . 6 > Ermittelt man gemäß den aufgestellten Definitionen zu den Substantiven in beiden Sets die Kernkonstituenten, so erhält man im Set I 5148 Kernkonstituenten (2647 verschiedene) und im Set II 2624 (1706). Vergleicht man a l l e verschiedenen Kernkonstituenten mit den bisher ermittelten Lemmata aus beiden Sets, so bleiben 2076 Substantive übrig, die noch nicht im Datencorpus lemmatisiert sind und die die Lemmaliste zum Set III b i l d e n . Setzt man diese Methode der Kernkonstituenten6) V g l . Tab. 11, S. 58 dieser Arbeit.
58
ermittlung und des Vergleichens fort, so entstehen nach und nach die Sets IV, V und V I . Die Anzahl der neuen Lemmata wird immer geringer, und im Set VI erhalt man nur noch so wenige neue Substantive, daß der Aufbau eines weiteren Sets nicht mehr l o h n t . ?
T a b e l l e 11:
Lemmata und Erklärungswörter ( E w ' s ) der Sets I - VI
Set
Lemmata
Anzahl Ew's
Wortschatz Ew's
I II III IV
1664 1060 2076 966 431 244
5148 2624 4056 1738 659 429
2647 1706 2314
6441
14654
v
VI
1244 541 333 5532
Diese Methode der Lemmataermittlung b z w . des Datencorpusaufbaus gewährleistet, daß a l l e gefundenen Kernkonstituenten auch als Stichwort im Datencorpus auftreten, sofern sie im DUDUNI lemmatisiert sind. Es bleiben l e d i g l i c h 909 Substantive übrig, die aus den Ausgangssets (I und II) stammen und nicht in den folgenden Sets als Kernkonstituente auftreten. Wegen der großen Wahrscheinlichkeit, in den Bedeutungserklärungen zuerst auf die häufigen Wörter zu t r e f f e n , gelangt man auf diese Weise zu den häufig auftretenden Substantiven im DUDUNI. Verfolgt man bei der Entstehung der einzelnen Sets die Anzahl der neuen Lemmata, so nimmt diese lediglich bei 7) Die neuen Lemmata, die aus dem Set VI extrahiert werden, würden das Set VII bilden. Da es sich um sehr wenige Wörter handelt, sind sie in das Set VI integriert worden, so daß in Tab. 11 die genaue Verringerung der Lemmamenge von Set V zu Set VI etwas größer a u s f ä l l t .
59
der Bildung des Sets III
zu. Daraus ist
zu schließen, daß die
Ausgangssets I und II noch zu k l e i n sind, um den zentralen Wortschatz, welcher u.a. durch das Merkmal 'Häufigkeit 1 gekennzeichnet ist, zu erfassen. Dabei ist zu beachten, daß die aus V l übernommenen Substantive, die in den Sets I und II Lemmata sind, nicht zu den Stichprobenwörtern in V l gehören, sondern in der Kettenbildung in Ebene Eins oder darüber aufgetreten sind. Wenn die abstrakten Wörter auch die häufigen sind, so t r i f f t dies nach der Vorgehensweise in V 2 nur part i e l l zu; jedoch wäre in V 2 bei einem noch kleineren Ausgangsdatenset die Zunahme in dem nachfolgenden Set erheblich größer gewesen und hätte sich über mehrere Sets fortgesetzt. > Damit kann davon ausgegangen werden, daß wörterbuchintern die Zentralwörter, der Kernwortschatz der Erklärungswörter, erfaßt sind. A l l e r d i n g s muß die geringe Wahrscheinlichkeit, daß die bisher ermittelten 6441 Substantive der Sets I - VI eine riesige W o r t f a m i l i e bilden, deren Mitglieder sich gegenseitig erklären, überprüft werden. Dazu werden aus einer Untersuchung zum dtv-WAHRIG 9 > a l l e Substantive, die mehr als zweimal als Erklärungswort vorkommen, notiert und mit den 6441 Substantiven verglichen. Dabei ergeben sich 363 neue Lemmata, die bisher noch nicht untersucht worden sind. Diese bilden das Set V I I , und das weitere Vorgehen (Bestimmung der Kernkonstituenten nach dem obigen B e i s p i e l ) ergibt ein Set V I I I mit 221 neuen und ein Set IX mit 154 neuen Substantiven, wie Tabelle 12 z e i g t . i ° >
8) Wenn man z . B . das erste Wort im DUDUNI ( " A a " ) als Ausgangspunkt nimmt und dann die Kernkonstituenten bestimmt, so erhält man zwei neue Wörter, für diese neun neue Erklärungswörter, dann 23 und daraufhin 89. Dieser Vermehrungsprozeß würde sich so lange fortsetzen, bis a l l e häufigen Kernkonstituenten als Lemma erfaßt sind. Danach würde die Zahl der noch nicht lemmatisierten Kernkonstituenten abnehmen. Dieser Wendepunkt ist in dieser Untersuchung ab dem Set IV erreicht. 9) V g l . Schierholz 1988, S. 465 ff. 10) V g l . S. 60 dieser Arbeit.
60
Tabelle 12:
4.3
Lemmata und Erklärungswörter ( E w ' s ) d e r Sets I-IX n >
Set
Lemmata
Anzahl Ew 1 s
Wortschatz Ew ' s
I II III IV V VI VII VIII IX
1664 1060 2076 966 431 244 363 221 154
5146 2624 4056 1738 659 429 888 420 240
2647 1706 2314 1244 541 333 690 352 203
7179
16202
6036
Die Darstellung der Ergebnisse aus V 2
Die untersuchten Sets ( I - I X ) bilden zusammen das Master Corpus, das aus 7179 verschiedenen Lemmata besteht. Die Resultate der Häufigkeitsbestimmung sind der Tabelle 13 1 2 > zu entnehmen. In der Spalte xi stehen die Häufigkeiten der untersuchten Wörter, in der Spalte y die Counts der Substantive pro Häufigkeitswert 1 3 ) . Die Summe der verschiedenen Kernkonstituenten beträgt 6036 Wörter; 1143 Substantive (7179 minus 6036) 11) Ebenso wie beim Set VI ist aus den restlichen neuen Wörtern aus dem Set IX kein Set X gebildet worden, sondern die Substantive sind im Set IX enthalten. 12) Vgl. S. 61 dieser Arbeit. 13) Im weiteren H-Wert.
61
Tabelle 13:
Countverteilung der Substantive zum Merkmal 'H u f i g k e i t '
Xi
1 2 3 4 5 6 7 θ 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
y
χι *y
Xi
y
Xi*y
3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4
3671 2128 1290 996 640 612 525 456 423 310 165 252 234 140 90 128 204 54 114 220 105 132 23 24 50 78 108 28 116
30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261
3 3 1 2 3 1 1 4 1 3 1 1 1 1 2 3 2 1 1 1 1 1 1 1 1 1 1 1 1
90 93 32 70 108 37 39 160 43 132 45 47 48 49 106 162 110 65 68 76 84 85 100 115 143 144 145 229 261
Σ
6036
16202
Erl uterungen zu Tab. 13: Xi = H-Wert y = Counts der Erkl rungsw rter pro H-Wert X i * y = Produkt aus Η-Wert und Count.
3000
-
2000
-
1000
-
500 -
100 20
Abb. 3:
40
60
80
100
120
140
Graphische Darstellung zur Verteilung der Häufigkeiten a l l e r untersuchten Substantive (ohne Extremwerte auf der x-Achse, = Häufigkeit, y = Counts der Substantive)
63
treten nur als Lemma aber nie als Kernkonstituente auf und besitzen den -Wert ' N u l l 1 . Den höchsten -Wert hat das Wort " T e i l " , welches insgesamt 261mal als Kernkonstituente fungiert. Insgesamt sind zu den untersuchten Lemmata 16202 Erklärungswörter ermittelt worden. Diese Zahl kann man anhand der Tabelle 13 durch Bildung der Summe a l l e r Werte der Spalte x i * y e r r e c h n e n . 1 4 ' Es existieren wenige Wörter, die sehr häufig als Kernkonstituente fungieren und v i e l e Wörter, die nur ein- oder zweimal auftreten. Die Daten der Tabelle 13 sind in der Abbildung 3 i s ) dargestellt und verdeutlichen diesen Zusammenhang auf graphische Weise. 14) V g l . S. 61 dieser Arbeit. 15) V g l . S. 62 dieser Arbeit.
5.
Die Bestimmung der Polysemie der Substantive (V 3)
Die Bestimmung von Mehrdeutigkeiten spielt u.a.
in der Lexiko-
logie und der Semantik, bei der Erstellung von Dokumentationssystemen sowie in der KI-Forschung eine wichtige R o l l e . Bei Wortschatzuntersuchungen und bei der Konstruktion semantischer NetzStrukturen mit H i l f e eines Wörterbuchs können durch die Erfassung der Polysemie der Lexeme die Verknüpfungen der Wörter untereinander eruiert werden. Jedoch liefern die theoretischen Ansätze aus der Lexikologie b z w . der Semantik nicht immer eindeutige Modelle zur Durchführung der Polysemiebestimmung. Aus der kritischen Betrachtung dieser Konzepte soll eine Polysemiedefinition entwickelt werden, die durch eindeutige und intersubjektiv überprüfbare Kriterien gekennzeichnet ist.
5.l
Traditionelle Ansätze zur Polysemie
Betrachtet man die wissenschaftliche Literatur zum Thema Polys e m i e , ! ) so stellt man fest, daß die Resultate und die Untersuchungsmethoden häufig von den subjektiven Entscheidungen und Intuitionen der Untersuchenden beeinflußt sind. Insbesondere zu einer klaren Differenzierung von Polysemie und Homonymie herrscht weitgehende U n e i n i g k e i t . 2 > Da im bisherigen Ver1) V g l . u.a. Bergmann 1973 und 1977, Blanke 1973, Fries 1980, Gipper 1971, Heger 1963 und 1969, Henne 1972 und 1977, Horlitz 1975, Kühn 1979, Lyons 1977, Martin 1974, Muller 1972, Pinkai 19 5, Schildt 1969, Schippan 19 4, Schneider 1988, Spillner 1971, Ullmann 1973, Viehweger 1977, Weber 1974, Wersig 1978, Wichter 1988, Wiegand 1970, Wotjak 1971. 2) V g l . Wichter 1988, S. 14 ff.
65
lauf der Untersuchungen stets mit dem Begriff 'Polysemie 1 gearbeitet worden ist, muß zunächst geklärt werden, welcher Terminus für die geplanten empirischen Datenanalysen geeignet ist.3)
5.1.1
Polysemie oder Homonymie ?
Wenn die Termini 'Polysemie' und 'Homonymie 1 tatsächlich etwas Verschiedenes bezeichnen, so s o l l t e es möglich sein, diese Unterschiede definitorisch zu verankern. Unbefriedigend sind Differenzierungsversuche, in denen Äußerungen, wie "subjektive Faktoren sind dabei wohl nicht ganz auszuschließen, ( . . . ) " * > a l s Lösungshilfen akzeptiert werden. Auch ULLMANNS Feststellung, die "Entscheidung (zwischen Homonymie und Polysemie) ist immer subjektiv und in gewissem Maße w i l l k ü r l i c h " , s t ist unter den wissenschaftlichen Kriterien, die für diese Arbeit maßgebend sein s o l l e n , unbrauchbar. Ein Rückgriff auf das j e w e i l i g e Bewußtsein des Sprechers bzw. Untersuchenden erscheint für wissenschaftliche Arbeiten untauglich zu sein, insbesondere, wenn damit auch noch ein Objektivitätsanspruch der erzielten Ergebnisse verbunden w i r d . * · ) Nimmt man syntaktisch-morphologische Kriterien zu H i l f e , ? > so liegt Polysemie dort vor, "wo ein und derselbe Wortkörper zwei (oder mehr) verschiedene Bedeutungen, aber ein und dieselbe syntaktische Funktion h a t " . 8 > Entsprechend müssen bei Homonymie zu verschiedenen Bedeutungen unterschiedliche
3) Köhler wählt den Terminus "Polylexie" und unterscheidet nicht Polysemie und Homonymie, w e i l die Polylexie "nicht zwischen semantischen und grammatischen Bedeutungen differenzieren" s o l l ; vgl. Köhler 1986, S. 57 f. 4) Weber 1974, S. 23. 5) Ullmann 1973, S. 225. 6) V g l . Bergmann 1977, S. 35 f. 7) V g l . Schildt 1969, S. 352 ff. 8) Heger 1963, S. 484.
66
syntaktisch-morphologische Kriterien vorliegen. Jedoch führt diese Lösung des Problems nach BERGMANN nur zu einer Vermischung der Ebenen, so daß keine eindeutige Unterscheidung der beiden Termini m ö g l i c h ist oder erneut das Sprachbewußtsein des Einzelnen als Entscheidungsinstanz f u n g i e r t . 9 1 W i l l man Polysemie und Homonymie über semantische Merkmal s Zuordnungen d i f f e r e n z i e r e n , so ist beiden B e g r i f f e n gemeinsam, daß "ein Signifikat als disjunktive Kombination aus zwei oder mehreren Sememen darstellbar ist". Polysemie liegt vor, "wenn die Sememe eines Signifikats untereinander mindestens ein gemeinsames Sem aufweisen", Homonymie, wenn kein ge meinsames Sem auffindbar i s t . 1 0 ) In kritischer Auseinandersetzung mit HEGER (vor a l l e m bei WIEGAND) und mit Rückgriff auf die sprachtheoretische Zeichen auffassung nach HJELMSLEV n > definieren HENNE bzw. WIEGAND Polysemie und Homonymie. Nach HENNE liegt Polysemie vor, wenn "zwei disjunktive Substanzkollektionen" eines Signifikats "zu mindest ein gemeinsames semantisches Merkmal haben", Homonym i e , wenn "kein gemeinsames semantisches Merkmal" v o r l i e g t . 1 2 ) I n h a l t l i c h gleich, aber mit anderer Terminologie niert WIEGAND:
13
' defi-
"Polysemie liegt vor, wenn autonom-semasiologisch nachgewiesen werden kann, daß die Semasem-Sem-Summe eines lexikalischen Signems i n n e r h a l b nur e i n e s S p r a c h s y s t e m s darstellbar i s t a l s disjunktive Kombination aus zwei oder mehreren SemasemSem-Kollektionen."' i * >
9) V g l . Bergmann 1977, S. 58. 10) V g l . Heger 1969, S. 176 ff. 11) H j e l m s l e v 1963. 12) V g l . Henne 1972, S. 159 f. 13) Zu den terminologischen Konventionen bei Henne und Wiegand vgl. Wiegand 1970, S. 359 f . , Anm. 72. 14) Wiegand 1970, S. 318 (Hervorhebungen im O r i g i n a l ) .
67
"Systemimmanente Homonymie liegt vor, wenn autonomsemasiologisch nachgewiesen werden kann, daß die Semsumme eines lexikalischen Signems innerhalb nur ein und desselben Sprachsystems darstellbar ist als eine disjunktive Kombination aus mindestens zwei autonomen Semkollektionen." i s >
Vor a l l e m für die theoretische Fundierung der Lexikologie (und besonders für Semasiologie und Onomasiologie) sind WIEGANDS D e f i n i t i o n e n von grundlegender Bedeutung, in der Praxis werfen sie jedoch einige Probleme a u f . Homonymie laßt sich nämlich immer nur vorläufig bestimmen, weil eine semantische Analyse unendlich lange fortgesetzt werden kann, bis das Finden eines gemeinsamen Sems tatsächlich ausgeschlossen ist. WIEGANDS Auffassung, es müßte "in der Lexikologie möglich sein, ( . . . ) einen exhaustiven Semkatalog auf zustel len" , i < > ' kann nicht zugestimmt werden. Anhand sehr allgemeiner Merkmale ( z . B . "belebt") lassen sich immer - wenn auch triviale - Übereinstimmungen e r u i e r e n , 1 7 1 so daß Homonymie praktisch nie vorkommen würde. Eine Abgrenzung der gültigen von den zu allgemeinen Merkmalen würde von den subjektiven Entscheidungen des Untersuchenden abhängen. Ebenso wie zu den theoretischen Betrachtungen kann man bei einem Vergleich verschiedener Wörterbücher feststellen, daß in der lexikographischen Praxis keine e i n h e i t l i c h e Homonymiebestimmung e x i s t i e r t . 1 8 » Die Resultate haben BERGMANN veranlaßt, Homonymie und Polysemie "als korrespondierende Betrachtung des einen Phänomens sprachlicher Mehrdeutigkeit" ? > zu 15) Wiegand 1970, S. 326 (Hervorhebungen im O r i g i n a l ) . 16) Wiegand 1970, S. 291, formuliert als Arbeitshypothese; vorher heißt es jedoch: "In der Lexikologie läßt sich (...) e i n exhaustiver Katalog a l l e r Seme, ( . . . ) nicht a u f s t e l l e n , . . . ( ; Wiegand 1970, S. 2 f. 17) V g l . Weber 1974, S. 23 f. 18) V g l . Bergmann 1973, S. 22 ff. 19) Bergmann 1977, S. 60.
6
bezeichnen. Erst das Beziehen auf Ausdruck und Inhalt des sprachlichen Zeichens und die semasiologische (vom Ausdruck zum Inhalt gerichtete) und onomasiologische (vom Inhalt zum Ausdruck gerichtete) Betrachtungsweise ermöglichen eine eindeutige U n t e r s c h e i d u n g . 2 0 » Somit ist von Polysemie zu sprechen, wenn einem Ausdruck mehrere Inhalte zugeordnet werden können, und von Homonymie, wenn für mehrere Inhalte ein Ausdruck ausgewählt wird. Bei diachronen Sprachbetrachtungen können etymologische Gesichtspunkte (Lautentwicklung, Bedeutungsentwicklung) zu H i l f e genommen w e r d e n . 2 1 » Alphabetische, von einem semasiologischen Ansatz ausgehende einsprachige Bedeutungswörterbücher sortieren die lexikalischen Einheiten nach den Merkmalen der A u s d r u c k s s e i t e . 2 2 ) Den Signifikanten werden verschiedene Signifikate zugeordnet, so daß ausschließlich Polysemie v o r l i e g t . 2 3 ) Für die hier intendierte Untersuchung zur Mehrdeutigkeit der Substantive kommt somit nur der Terminus ' P o l y s e m i e ' zur Anwendung, weil es sich um eine synchrone Sprachbetrachtung h a n d e l t , 2 4 ) die benutzte Datenbasis ein semasiologisch aufgebautes einsprachiges Bedeutungswörterbuch und der jeweilige Lexikoneintrag Ausgangspunkt der Analysen i s t . 2 5 ' Die Lemmata der Datenbasis entsprechen den Signifikanten, die Bedeutungserklärungen den Signifikaten. 20) 21) 22) 23) 24) 25)
V g l . Bergmann 1977, S. 60. V g l . Bergmann 1977, S. 34. V g l . Schaeder 1981, S. 97. V g l . Bergmann 1977, S. 5 . V g l . Fries I960, S. 60. Damit kommt auch der Terminus "Multisemie" (vgl. Henne 1972, S. 161 f . ) für die weiteren Untersuchungen nicht in Betracht. Die von Wichter aufgestellten Abgrenzungskriterien zur Differenzierung von Vagheit, Polysemie und Homonymie ( v g l . Wichter 1988, S. 97 f.) werden unter einer anderen Zielperspektive erstellt und sollen im weiteren Verlauf dieser Arbeit nicht zugrunde gelegt werden.
69
Auf diese Weise ist zwar zwischen den konkurrierenden Termini eine Entscheidung getroffen worden, aber es liegt noch keine für empirische Erhebungen operationalisierte Polysemiedefinition vor.
5.1.2
Die Definition der Polysemie
SCHNEIDER hält eine Ermittlung der BedeutungsStruktur ohne eine kontextsensitive Selektion nicht für möglich 2 > und weist auch auf die Abhängigkeit vom gewühlten Wörterbuch hin, die bei einer wörterbuchinternen Polysemiebestimmung existiert. 2 7 ; Jedoch hängt die Methode der Polysemieermittlung immer von den gesetzten Zielsetzungen der jeweiligen Untersuchung ab. Innerhalb der vorliegenden Arbeit konnte bislang nicht einmal eindeutig geklärt werden, wie in einer Wortschatzuntersuchung mit einem einzigen Wörterbuch als Datenbasis die verschiedenen Bedeutungen eines Lemmas erkannt und evaluiert werden können. Da das hier untersuchte Corpus nur aus Substantiven besteht, spielen syntaktisch-morphologische Kriterien bei der Polysemiebestimmung keine R o l l e . Analog den Aussagen BERGMANNS im Kapitel 5.1.1 bezeichnet dieser Polysemie als die "Relation von Pluralität der Inhalte und Identität des Ausdrucks unter synchronem semasiologischen Aspekt; ( . . . ) " 2 > .
26) V g l . Schneider 19 8, S. 83 ff. 27) V g l . Schneider 1988, S. 26. 28) Bergmann 1977, S. 53.
70
Ä h n l i c h schreibt WOTJAK: "Bei der Untersuchung der Polysemie gilt es, von einem Formativ ausgehend nach den ihm zugeordneten Sememen zu suchen." 2 " >
Ein Beispiel dazu ergibt das Wort "Post", dem die drei Sememe "Gebäude", "Institution" und "Briefschaff zugeordnet werden. Dieser D e f i n i t i o n würde in dieser Arbeit die Bestimmung der Kernkonstituenten zu den Lemmata entsprechen. Undeutlich blei ben jedoch die Kriterien, die die Pluralität der Inhalte als solche kennzeichnen. Für quantitative Untersuchungen muß ein eindeutig nachvollziehbares Desambiguierungsverfahren der polysemen Lexikoneinträge konzipiert werden. Da sich dies aus den vorgelegten Polysemiedefinitionen nicht ableiten läßt, s o l l untersucht werden, ob das DUDUNI praktikable K o d i f i z i e rungsprinzipien zur Polysemie enthält.
5.1.3
Die lexikographische Polysemiedarstellung
In den Hinweisen zum Artikelaufbau des untersuchten Wörterbuchs heißt es, daß die Bedeutungsangaben "mit arabischen Zahlen und (bei enger zusammengehörenden Bedeutungen) mit K l e i n buchstaben gegliedert" w e r d e n . 3 1 » Nähere Erläuterungen zur Kennzeichnung der Polysemie oder zu den sprachtheoretischen Voraussetzungen der Notierung von Polysemie existieren aus der Sicht des Wörterbuchbenutzers n i c h t . 3 2 ) Daher soll eine Analyse der G liederungsStrukturen an ausgewählten Wörterbuch29) Wotjak 1971, S. 40.
30) V g l . Wotjak 1971, S. 171. 31) V g l . DUDUNI 1983, S. 17. 32) V g l . Bergenholtz/Mugdan 19 6. S. 84 f f .
71
artikeln angelegt werden. Folgende Erklärungstypen sind für die weiteren Untersuchungen relevant: (1) Bedeutungserklärungen, die nur mit arabischen Zahlen gegliedert sind. Beispiel:
S. 453
GARAGE : 1. Raum zum Einstellen von Kraftfahrzeugen.
2. Autowerkstatt.
Das Lemma "Garage" ist zweifach polysem. W i l l man die Kernkonstituenten i s o l i e r e n , so erhält man mit H i l f e des Substitutionstestes "Raum" und "Autowerkstatt" als Erklärungswörter. (2) Bedeutungserklärungen, die nur mit Kleinbuchstaben gegliedert sind. Beispiel: S. 438
FRIST : a) für einen bestimmten Zweck festgelegte Zeitspanne; b) begrenzter Aufschub; c) [festgesetzter] Zeitpunkt.
Mit der beim Typ (1) angewendeten Methode kommt man auch hier zu eindeutigen Resultaten, nämlich zu "Zeitspanne", "Aufschub" und "Zeitpunkt" als Erklärungswörter für "Frist". (3) Bedeutungserklärungen, die Z i f f e r n und Kleinbuchstaben enthalten.
72
Beispiel:
S. 489
GESPANN : l . a ) vor einem Wagen o.a. gespannte Zugtiere; b) Vagen mit einem Gespann; 2. zwei auf bestimmte Weise zusammengehörende Menschen.
Hier kann m a n n u r nach Z i f f e r n oder nach Z i f f e r n u n d Kleinbuchstaben d i f f e r e n z i e r e n . Je nach Entscheidung wären zwei oder drei Inhalte für den Ausdruck "Gespann" anzusetzen. Benutzt man nur die Z i f f e r n , müßte noch ein Kriterium gefunden werden, ob l . a ) oder l . b ) als Inhalt für "Gespann" zu gelten haben. W i l l man den Typ (3) von den beiden ersten unterscheiden, so müßten die Bedeutungen l . a ) und l . b ) in anderer Weise als Inhalte berücksichtigt werden als die Bedeutung unter Punkt 2. (4) Bedeutungserklärungen, in denen sich unter einer Z i f f e r mehrere Erklärungswörter ermitteln lassen. Beispiel: S. 922
PAPIER : 1. . . . 2. Schriftstück, Aufzeichnung, schriftlich niedergelegter Entwurf, Brief, Aufsatz, Vertrag o.a. 3
Das Wörterbuch enthält keine Informationen, warum unter dem Punkt 2. sechs Erklärungswörter ohne Untergliederung aufgezählt sind. Auch können "Schriftstück", "Aufzeichnung", "Entw u r f " , "Brief", "Aufsatz" und "Vertrag" kaum als Synonyme angesehen werden.a 3 ) 33) Darüber kann das eigene Sprachbewußtsein entscheiden; man kann aber auch die Bedeutungserklärungen zu diesen Wörtern im DUDUNI nachschlagen, um die unterschiedlichen Seme zu belegen.
73
Um den Inhalt des Gliederungspunktes 2. eindeutig zu erfassen, wäre auch die Wahl des j e w e i l s ersten Erklärungswortes (hier "Schriftstück") a l s Repräsentant für die folgenden Wörter denkbar. Dieses Verfahren wäre s i n n v o l l , wenn die Reihenfolge der Erklärungswörter irgendeinem Prinzip ( z . B . Häufigkeit des Auftretens) unterliegen würde. Dies ist aber o f f e n s i c h t l i c h weder im DUDUNI 3 4 > noch in anderen Wörterbüchern der F a l l . 3 5 ' Zu bedenken ist ferner, daß durch derartige Prozeduren die für den Benutzer deutlich erkennbare Polysemie des Lemmas "Papier" unter Punkt 2. unzulässigerweise eingeschränkt werden würde. (5) Bedeutungserklärungen, in denen unter einem K l e i n buchstaben mehrere Erklärungswörter sortiert sind. Beispiel: S. 524
GUCKER : a) kleines Fernglas, Vergrößerungsgerät; Operngucker; b) jmd., der aufdringlich od. neugierig jmdn. od. etw. betrachtet; c) Augen.
Bei der Analyse dieses Wörterbuchartikels gelangt man zu den gleichen Resultaten wie zum Typ ( 4 ) , nur daß in diesem Fall verschiedene Inhalte bei einem Kleinbuchstaben subsumiert sind. Ein "Fernglas", ein "Vergrößerungsgerät" und ein "Operngucker" bedeuten zwar etwas Ä h n l i c h e s , können aber keineswegs als Synonyme gewertet werden.
34) Zum Lemma " K e i m z e l l e " lautet die R e i h e n f o l g e der Erklärungswörter im DUDUNI: "Gamet", "Ausgangspunkt", "Anfang". Zum Lemma " T e i l " v g l . Kap. 7 . 5 . 1 dieser Arbeit. 35) V g l . Wiegand/Kucera 1981, S. 172.
74
(6) Bedeutungserklärungen, die nicht mit Z i f f e r n oder Buchstaben gegliedert sind, die aber mehrere Erklärungswörter enthalten. Beispiel: S. 796
LOOK : Aussehen, Note, Moderichtung, Mode[erscheinung].
Zu dem Lemma "Look" lassen sich bei Berücksichtigung der eckigen Klammern fünf Erklärungswörter ermitteln, die von lexikographischer Seite nicht d i f f e r e n z i e r t s i n d . 3 f c > Vergleicht man den Typ (6) mit den Typen (1) und ( 2 ) , so ist unklar, warum die Bedeutungen zu "Look" nicht mit Z i f f e r n oder Kleinbuchstaben gegliedert werden. Wie in den Beispielen (4) und (5) kann auch beim Typ (6) nicht von einer Monosemie des Lemmas ausgegangen und keinem der aufgeführten Kernkonstituenten der Vorrang gegeben werden. (7) Bedeutungserklärungen, in denen die Typen (1) bis (6) wechselnd vorkommen. Beispiel: S. 894
NOTATION
: 1. Aufzeichnung; System von Zeichen od. Symbolen einer Metasprache. 2 . a ) das Aufzeichnen von Musik in Notenschrift; b) Notenschrift. 3. Aufzeichnung der einzelnen Züge einer Schachpartie.
Versucht man bei diesem Typ die Gliederungsprinzipien des DUDUNI zu H i l f e zu nehmen, so erhält man unter Punkt 1. zwei Kernkonstituenten ("Aufzeichnung", "System"), unter 2 . a ) eine 36) V g l . Schierholz
1988, S. 468 f.
75
Erklärung ("das A u f z e i c h n e n " ) , unter 2 . b ) einen Inhalt ("Not e n s c h r i f t " ) und unter 3. ein Erklärungswort ( " A u f z e i c h n u n g " ) . Bei "das Aufzeichnen" und "Aufzeichnung" handelt es sich um Synonyme, so daß eine ausschließlich nach Z i f f e r n durchgeführte Desambiguierung dreimal die gleichen Kernkonstituenten ergäbe und die Berücksichtigung der Kleinbuchstaben mit "Notenschrift" ein weiteres Erklärungswort. Bei dem dreifachen Auftreten von "Aufzeichnung" muß überlegt werden, ob "Aufzeichnung" dreimal oder nur einmal gezählt werden s o l l . Bei Zugrundelegung der Gliederungen im DUDUNI hätte "System" keine Möglichkeit, als Signifikant für "Notation" zu erscheinen. Die Analysen der ausgewählten Beispiele zeigen, daß die Gliederungspunkte des Wörterbuchs für die Polysemiebestimmung ungeeignet sind, w e i l für den Benutzer kein eindeutig ersichtliches Prinzip erkennbar ist, wann mehrere Bedeutungen hinter einer Gliederungszahl stehen, wann gar keine Gliederungszahl verwendet wird oder nach welchen Kriterien die Benutzung der Kleinbuchstaben e r f o l g t . a ? >
5.2
Die Vorgehensweise in V 3
Die Analyse der aufgeführten Polysemiedefinitionen und der ausgewählten Wörterbuchartikel hat keine Klärung ergeben, wie sich die Polysemie der lexematischen Einheiten eindeutig operationalisieren läßt. 37) Dies gilt auch für andere Wörterbücher, z . B . das "dtvWörterbuch der deutschen Sprache" (Wahrig 1981). Altmann/Beöthy/Best berücksichtigen dies allerdings bei ihrer Bestimmungsmethode - das Zählen der Gliederungspunkte einer Bedeutungserklärung im Wörterbuch - der "Bedeutungskomplexität" nicht; v g l . Altmann/Beöthy/Best 1982. Köhler ist sich der Problematik dieser Bestinunungsmethode bewußt, entwickelt jedoch kein neues Verfahren; vgl. Köhler 1986, S. 91 f.
76
G r e i f t man auf das Verfahren der Kernkonstituentenermittlung z u r ü c k , 3 6 ' so läßt sich unter Benutzung des Substitutionstestes eine intersubjektiv nachvollziehbare Verfahrensweise zur Polysemiebestimmung konzipieren. Die D e f i n i t i o n von Polysemie lautet: Die Polysemie eines Substantivs aus dem Master Corpus ergibt sich durch die Bestimmung der Kernkonstituenten pro Lemma. Es wird zu jedem im Master Corpus implementierten Substantiv ein Polysemiewert 3 > ermittelt. Die in Kapitel 2 aufgeführten definitorischen Abgrenzungen * o > gelten für V 3 ebenso, jedoch sind einige Ergänzungen notwendig.
5.2.1
G l e i c h e Kernkonstituenten
Kernkonstituenten, die in einer Bedeutungserklärung mehrfach vorkommen, werden nur einmal gezählt. Beispiel: S. 894
NOTATION : 1. Aufzeichnung; System von Zeichen od. Symbolen einer Metasprache. 2.a) das Aufzeichnen von Musik in Notenschrift; b) Notenschrift. 3. Aufzeichnung der einzelnen Züge einer Schachpartie.
"Notation" ist dreifach polysem, w e i l sich drei verschiedene Kernkonstituenten mit dem Substitutionstest ermitteln lassen. 38) V g l . Kap. 2.2 dieser Arbeit. 39) Im weiteren P-Wert. 40) V g l . S. 10 ff. dieser Arbeit.
77
5.2.2
Ersatzkernkonstituenten
Die Ersatzkernkonstituenten werden ebenfalls als eine Bedeutung für das betroffene Lemma gewertet. Beispiel: S. 762
LANDWIRT : jmd,, der selbständig Landwirtschaft, Ackerbau u. Viehhaltung betreibt, einen landwirtschaftlichen Betrieb führt, leitet, verwaltet; Bauer.
"Landwirt" erhält den P-Wert ' Z w e i ' .
5.3
Die Darstellung der Ergebnisse aus V 3
Die Resultate der Polysemiebestimmung sind der Tabelle 14 4 1 ) zu entnehmen, und die Abbildung 4 4 2 ) zeigt die dazugehörige graphische Darstellung. In der Spalte xi der Tabelle stehen die P-Werte, in der Spalte y die Counts pro P - W e r t . 4 3 > Die Summe der Counts ergibt die Anzahl a l l e r verschiedenen untersuchten Substantive (7179). In der Spalte X i * y sind die PWerte mit ihren Counts m u l t i p l i z i e r t , so daB die Summe aller Erklärungswörter 16202 und die Gesamtsumme a l l e r implementierten Wörter 233 1 (16202 plus 7179) beträgt. Das Lexem mit der umfangreichsten Polysemie ist "Zug", welches einem P-Wert von '29' besitzt. Die 1260 Substantive mit dem P-Wert ' N u l l 1 tei41) V g l . S. 79 dieser Arbeit. 42) V g l . S. 80 dieser Arbeit. 43) Die Häufigkeiten zur Variablen 'Polysemie' werden ebenf a l l s Counts genannt, um eine einheitliche Terminologie zu verwenden; vgl. S. 55 dieser Arbeit.
78
len sich auf in 577 Wörter * * > , die keine verwertbare Bedeutungserklärung haben, 4 5 ' und 683 Wörter ««· ; , die im DUDUNI nicht lemmatisiert sind, sich aber durch die sukzessive Ermittlung der Lemmata 4 7 ' des Master Corpus ergeben h a b e n . 4 8 1 Das Verhältnis der Kernkonstituenten zu den Lemmata beträgt 16202 71?9
= 2.2568602
Betrachtet man nur die im DUDUNI enthaltenen Lemmata des Master Corpus, so müssen die NA-Lemmata (683) von den 7179 Substantiven subtrahiert werden. Somit erhält man
16202 -6496
=
2.4941502
Dies ist der durchschnittliche P-Wert der Lemmata im DUDUNI; pro Lemma lassen sich statistisch 2.5 Erklärungswörter ermitteln. 44) Diese Lemmata mit keinem Eintrag heißen im weiteren KE-Lemmata. 45) Hierbei handelt es sich im wesentlichen um Lemmata, in deren Bedeutungserläuterung keine kursiv gedruckten Erklärungen enthalten sind ( z . B . "Teilbereich") oder deren kursiv gedruckte Bedeutungserklärung als substantiviertes Verb zum Lemma eine zirkuläre Erklärung darstellt ( z . B . "Atmung: das A t m e n " ) . 46) Diese Substantive, die nicht auffindbar sind (Lemmal ü c k e n ) , heißen im weiteren NA-Lemmata. 47) Zur Vorgehensweise v g l . Kap. 4.2 dieser Arbeit. 48) Natürlich haben diese Wörter auch eine Bedeutung. Sie s o l l e n jedoch bei den nachfolgenden Berechnungen unter dem P-Wert ' N u l l 1 verbleiben.
79
Tabelle 14:
Countverteilung der Substantive nach P-Werten
Xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29
y
Xi *y
1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 1 1 1
0 2602 2442 2076 1648 1470 1254 1008 752 630 410 418 300 234 238 165 176 136 54 57 60 21 22 29
7179
16202
Erläuterungen zu Tab. 14: Xi = P-Werte y = Counts pro P-Wert X i * y = Produkt aus P-Wert und Count.
2500-
2000.
1500
1000 .
500
100 .
ΙΙ.ίι.π.π.π.π.π.
Γι—Ι—ι—Ι—'—Ι—Ι—ι—ι—ι—ι—Ι—ι—ι—Ι—Ι' Ί"ι"ι'"Ί'"Ί'
Ο
2
4
6
β
10
12
14
16
It
20
22
29
Abb. 4: Stabdiagramm zur Verteilung der P-Werte aller untersuchten Substantive (y = Counts) (Darstellung wie bei Biehler 1982, S. 113).
6.
Die Überprüfung der Arbeitshypothesen
D i e formulierten Arbeitshypothesen i > sollen überprüft werden, indem die empirischen Zusammenhänge zwischen den Merkmalen Abstraktheit - Häufigkeit, Abstraktheit - Polysemie und Häufigkeit - Polysemie durch die Ermittlung des j e w e i l i g e n Korrelationskoeffizienten evaluiert werden. Zuvor ist es jedoch notwendig, die Strukturen, Eigenschaften und A u f f ä l l i g k e i t e n der ermittelten Verteilungsdaten zu beschreiben. Dazu können besonders die Mittel und Werkzeuge der explorativen Datenanalyse z > , w i e s i e v o n John W . TUKEY 3 ) maßgeblich entwickelt worden ist, wertvolle H i l f e s t e l l u n g e n l i e f e r n . Durch den mehrfachen Einsatz der vor a l l e m graphischen Darstellungen, die didaktische Vorteile gegenüber den numerisch-algebraischen Verfahren enthalten, können über die Deskription der Daten hinaus Analysen und theoretisch-inhaltliche Erklärungen zu den Ergebnissen gegeben werden. Die Techniken und Methoden der EDA sind mathematisch e i n f a c h und stellen ein mächtiges Instrumentarium zur Stützung der Struktureinsichten d a r . « > Somit ist die EDA nicht nur eine gute Ergänzung zu den Verfahren der beurteilenden oder schließenden S t a t i s t i k , s » sondern es wird mit H i l f e der EDA häufig überhaupt erst beurteilbar, ob die Voraussetzungen für die Applikation i n f e r e n t i e l l e r Verfahren gegeben s i n d . & 1) 2) 3) 4) 5) 6)
V g l . Kap. l dieser Arbeit. Im weiteren EDA. Tukey 1977. V g l . Oldenbürger 1986, S. 59 f. V g l . Biehler 1982, S. 4 ff. V g l . Oldenbürger 1986, S. 12.
82
6.l
Die Deskription der Daten
Es liegen insgesamt 7179 verschiedene Substantive mit 59 unterschiedlichen -Werten zwischen ' N u l l ' und '261' ? > und 24 unterschiedlichen P-Werten zwischen ' N u l l 1 und ' 2 9 ' 8 ' vor. Zu 2724 Substantiven sind außerdem 243 verschiedene A-Werte zwischen .07 1 und ' 8 3 . 4 0 2 ' ermittelt worden. 1 » 4455 Substantive besitzen keinen -Wert, w e i l sie erst im Anschluß an die Bestimmung der -Werte in das Master Corpus aufgenommen worden sind. Betrachtet man die Verteilungen der Rohdaten, so f a l l t auf, daß die kleinen Werte ( z . B . Häufigkeit = 1; Polysemie = 1) oft und die hohen Werte ( z . B . Häufigkeit ab 50; Polysemie ab 10) nur selten belegt sind. Würde man - wie in vielen Untersuchungen üblich - zunächst a l l e Werte rangieren, um den Spearmanschen Rangkorrelationskoeffizienten zu berechnen, > so ergäbe das für die vorliegenden Verteilungen ein verzerrtes B i l d , weil die Abstände zwischen den höchsten Werten zusammengestaucht werden, während die Abstände zwischen den unteren Werten zu sehr großen Rangdistanzen führen. So stünden beim Attribut 'Häufigkeit 1 die drei höchsten Werte (261, 229, 145) auf den Rängen Eins, Zwei und Drei, und die niedrigsten Werte Drei, Zwei und Eins auf den Rangplätzen 1087.5, 1834.5 und 4201.5. Der Abstand zwischen ' 2 6 l 1 und ' 2 2 9 ' würde auf Eins reduziert, die Distanz zwischen der Häufigkeit Eins und Zwei 2367 betragen. Eine Rangierung wäre somit eine für die folgenden Datenanalysen verfälschende Transformation der 7) V g l . Tab. 13, S. 67 dieser Arbeit. 8) V g l . Tab. 14, S. 85 dieser Arbeit. 9) V g l . Tab. A2 im Anhang. 10) Zur Verwendung dieses K o e f f i z i e n t e n in der Linguistik v g l . M u l l e r 1972, S. 144 ff.
83
Originaldaten. Deshalb wird im weiteren Verlauf der Berechnun gen auf Rangierungen verzichtet. über die numerischen Eigenschaften der Verteilungen kann man sich einen zusammenfassenden Überblick durch die Anfertigung eines fenced letter displays : 1 1 (Standardzusammenfassung 1 2 ) verschaffen, in dem bestimmte Strukturmerkmale einer Verteilung enthalten sind und das folgendermaßen zustandekommt: Listet man für je ein Merkmal a l l e Daten einer Distribution nach ihrer Größe auf, so erhält man bei einer Durchnumerierung d i e A n z a h l d e r u n t e r s u c h t e n E i n h e i t e n . D e r M e d i ä n befindet sich genau i n der Mitte dieser Liste, d . h . er ist "derjenige Wert einer Zufallsveränderlichen X, bis zu dem sich 'von unten' b z w . 'von oben' 50 % a l l e r Werte einer Verteilung aufkumuliert ( s i e ! ) haben. Es liegen also ' l i n k s 1 und 'rechts' vom Mediän j e w e i l s 50 % a l l e r Werte einer Häufigkeits- b z w . Wahrscheinlichkeits-verteilung." 1 3 ) D i e T i e f e d e r Verteilung ermittelt man, indem von beiden Extremwerten aus j e w e i l s bis zum Mediän a l l e Werte durchnumeriert werden, so daß das k l e i n s t e u n d d a s g r ö ß t e D a t u m d i e Tiefe l besitzen. Für die Tiefe des Medians d ( M ) g i l t bei einem Datensatz des Umfangs n:
«· \ d /(M) =
n+1
*
14
"Für ein gerades n = 2k wird als Mediän das arithmetische Mittel der beiden Werte mit der Tiefe k genommen." 1 5 '
11) 12) 13) 14)
V g l . Tukey 1977, S. 44 f. V g l . Biehler 1982, S. 47 f. Sievers 1987, S. 101. Biehler 1982, S. 43.
15) Biehler 1982,
S.44.
84
D i e Quart!1e
& > , H u u n d H 0 / s t e l l e n j e w e i l s den Punkt d e r
Tiefe dar, der genau in der Mitte zwischen dem Mediän und den beiden Extremwerten liegt. Die beiden Quartile H u und H 0 lassen sich über die T i e f e d ( H ) folgendermaßen d e f i n i e r e n :
[d ( M ) ] + l d (H) =
17,
'
"Dabei bedeutet t ] die Gauß-Klammer. Bei Ergebnissen wie d ( H ) = 4 + 1/2, die im allgemeinen in der Form d ( H ) = 4h (h wie ' h a l f ' ) notiert werden, ist das arithmetische Mittel j e w e i l s der beiden benachbarten Werte mit den Tiefen 4 und 5 zu bilden." i e > Ein kleines h ( h a l f ) weist darauf h i n , daß ein Resultat (hier: die T i e f e ) nicht ganzzahlig i s t . i 9 ' Hinzugefügt werden die Streuungswerte und die wichtigsten Outlier 2 0 ) , welche folgendermaßen definiert sind. D i e H-Streuung (= S H ) ergibt sich aus der D i f f e r e n z von H 0 minus H u .
SH = Ho - Hu . 2 1 » Die Spanne Si errechnet sich aus der D i f f e r e n z der beiden Extremwerte. 16) Bei Tukey als "hinges" bezeichnet; vgl. Tukey 1977, S. 32 ff. 17) Biehler 1982, S. 44. 18) Biehler 1982, S. 44. 19) Das liegt immer dann vor, wenn ein ungerader Dividend durch den Faktor Zwei geteilt wird; v g l . Biehler 1982, S. 43 ff. 20) Als Outlier werden bei Tukey Ausreißer b z w . Extremwerte bezeichnet. 21) Biehler 1982, S. 46.
85
s i = oberer Extremwert - unterer Extremwert . 2 Die Berechnung der Outlier erfolgt nach einer Faustregel 2 3 1 , die bei TUKEY folgendermaßen definiert
ist:
"-spread' = d i f f e r e n c e between values of hinges. - 'step 1 = 1.5 times H-spread. - 'inner fences' are 1 step outside hinges. - Outer f e n c e s ' are 2 steps outside hinges (and thus 1 step outside of inner f e n c e s ) . - the value at each end closest to, but s t i l l inside, the inner fence is ' a d j a c e n t 1 . - values between an inner fence and its neighboring outer fence are ' o u t s i d e ' . - values beyond outer fences are ' f a r o u t 1 . " 2 * i Die inner fences s o l l e n mit f i und f j , die outer fences mit FI und F:, die adjacent values mit a d j , die outside values m i t o u t u n d d i e f a r o u t values m i t f a r abgekürzt werden, so daß das Schema einer Standardzusammenfassung folgendes Aussehen h a t : 2 5 ' #Anzahl der untersuchten Einheiten Wert MRang T HT i e f e h Hu Ho SH l ( = T i e f e ) Wert Wert S l step
22) 23) 24) 25)
f
fi
fz
F
Fl
F2
out
far out
Biehler 1982, S. 46. Biehler 1982, S. 47. Tukey 1977, S. 44. V g l . Bieler 1982, S. 48, v g l . Tukey 1977, S. 44 f.
adj: out: far:
86
Neben diesen semigraphischen Darstellungen können die Verteilungen auch in box plots (Kastenschaubilder) * b ' präsentiert werden. Der Kasten wird oben und unten durch die beiden Quartilswerte begrenzt und enthält 50 % aller Daten. Der Mediän wird durch einen langen Querstrich abgebildet, und die Abstände zu den adjacent values werden mit gestrichelten Linien kodiert. Die outside values und far out values werden unterschiedlich markiert. Der Vorteil der box plots besteht in der Projektion der numerischen Zusammenhänge auf geometrische Strecken, so daß Form, Lage, Streuung und Outlier der Verteilungen deutlicher zu erkennen s i n d . 2 7 1
6.1.1
Fenced letter displays
Zunächst werden die numerischen Eigenschaften der Resultate aus den Versuchen V l, V 2 und V 3 in den Displays vorgestellt. 2 8 )
Datensatz zu den A-Werten #2724 0. 07 M,1362h H
681
0 .07 0 .07
0 .16
0. 09
83 .402 83. 332
adj: 0.07, 0 . 2 9 2 out: 219 Werte von 0.2975 bis 0.425 far: 247 Werte ab 0.435.
0. 135
f
-0 .065
F
-0 .2
0 .295 out 219 0 .43 247 far out
26) V g l . Biehler 1982, S. 42 ff. 27) V g l . Kap. 6.1.2 dieser Arbeit. 28) Die Rohdaten können den Tabellen 13 und 14, S. 61 und 79 dieser Arbeit sowie A2 im Anhang entnommen werden.
87
Datensatz zu den H-Werten #7179
M, 3590 H 1795h
1
adj: 0, 3
1
2
1
0
261
261
1 f
-0.5
F
-2
out: 249 Werte mit 4 far: 494 Werte ab 6.
1.5 3.5 249 5 494
out far out
Datensatz zu den P-Werten #7179
M, 3590 H 1795h
1 1
3
2
0
29
29
adj: 0, 5 out: 238 Werte von 7 bis 8 far: 181 Werte ab 10,
3 f
-2
F
-5
6 238 9 181
out far out
Die Streuung der Werte ist
besonders zu den A- und H-Werten
sehr ausgeprägt. Bei a l l e n Verteilungen liegt das Zentrum im unteren Wertebereich, der Mediän entspricht in den Displays immer dem Wert des unteren Quartiis. Oberhalb des Medianwertes existieren w e s e n t l i c h mehr verschiedene Werte als unterhalb, da eine stark unsymmetrische Distribution
vor-
liegt. Die Schiefe der Verteilungen wird zusatzlich noch durch ein Übermaß an Outliern (outside und far out values) verdeutlicht, die sich ausschließlich oberhalb des Medians befinden; bei den den
-Werten sind es ca.
-Werten etwa 10 % und bei
17 % a l l e r Werte, bei
den P-Werten ungefähr 6 % .
8
6.1.2
Box plots
Durch die graphische Präsentation der Verteilungen können die numerischen Informationen aus den Displays noch deutlicher akzentuiert werden. Abb. 5: Box plot zu den A-Werten
0.9
2 0 . 9 ) . Die fehlenden Werte können der Tab. 2 im Anhang entnommen werden und gehören a l l e zu den far out values.
89
Abb. 6; Box plot zu den H-Werten
3 0
H 35
30
Erläuterungen zu Abb. 6; H = -Wert M = Median = Ho = adjacent = outside * = far out. 20
10
J±L
M
30) Abbildung ohne Extremwerte (> 3 5 ) . Die fehlenden Werte können der Tab. 13, S. 61 dieser Arbeit entnommen werden und gehören a l l e zu den far out values.
90
Abb. 7; Box plot zu den P-Werten
30
25
Erläuterungen zu Abb. 7: P M
20
*
= = = = = =
P-Wert Median Ho adjacent outside far out.
15
10
M
Wegen der groBen Entfernungen der far out values vom Zentrum mußten bei den A- und
-Werten in den obigen Darstellungen
die Extremwerte weggelassen werden. Der im Verhältnis zu den H- und P-Werten große Kasten im box plot der -Werte entsteht durch die veränderte Skaleneinteilung. Die 50 % der Werte, die durch den Kasten repräsentiert werden, sind sämtlich im unteren Bereich zu f i n d e n . Bei den
-Werten haben der Mediän,
91
der untere adjacent value und der H u -Wert den gleichen Wert ( ' 0 . 0 7 ' ) . In a l l e n Verteilungen dominieren die far out values, bei den -Werten konnten nicht einmal a l l e Werte innerhalb der Skalierung eingetragen werden. Die extreme Schiefe der Distributionen ist in der graphischen Darstellung eindeutig zu erkennen. Auch wenn die Verteilung der P-Werte im Verhältnis zu den anderen Verteilungen weniger unsymmetrisch zu sein scheint, liegt auch hier eine extreme Abweichung von normalverteilten Datensätzen vor.
6.1.3
Mediän und arithmetisches Mittel
Zusätzlich zu den Kenngrößen der EDA s o l l das
arithmetische
M i t t e l , das in der beurteilenden Statistik zu den wichtigen Parametern gehört, in die Datenanalyse einbezogen werden. Zu den vorliegenden Verteilungen ist vor a l l e m ein Vergleich mit dem Mediän von Interesse, w e i l beide Parameter in einer Gaußschen Normalvertei lung den g l e i c h e n Wert annehmen. In der Tabelle 15 ist zu erkennen, daß zwischen dem Mediän und dem arithmetischen Mittel große Differenzen bestehen. Diese spiegeln die Unsymmetrie der Verteilungen und den Einf l u ß der hohen Anzahl von Outliern wider. Hätte man a n s t e l l e des Medians in den fenced letter displays oder box plots das arithmetische Mittel verwendet, wäre durch die v i e l e n Extrem-
Tabelle 15:
Mediän, arithmetisches Mittel und Extremwerte zu den drei Datensätzen Mediän arithmetisches größter kleinster Mittel Count Count A-Werte H-Werte P-Werte
0.07 1.00 1.00
0.2762019 2.256 603 2.256 603
1366 3671 2602
0.07 1.00 1.00
92
werte oberhalb des Medians die Schiefe der Distributionen verschleiert worden. Für unsymmetrische Verteilungen besitzt also der Mediän eine größere R e s i s t e n z . 3 i · Die bisherigen Beschreibungen beziehen sich sämtlich auf die Distribution der Variablen, aber es liegen auch bei den Counts 3 2 ; erhebliche Streuungsbreiten der Daten vor, wie die Tabelle 15 zeigt. Diese Extremwerte sind aufgelistet worden, weil sie für die Berechnung der Korrelationskoeffizienten von großer Bedeutung sind.
6.2
Die Datentransformationen
Die umfangreiche Deskription der Verteilungen zeigt, daß eine Transformation der vorliegenden Daten notwendig ist.
Dafür
sprechen neben statistischen Gründen auch i n h a l t l i c h e und linguistische Argumente.
6.2.1
Die statistische Begründung
Die Berechnung eines Korrelationskoeffizienten erfolgt normalerweise mit der Erwartung, für die Interpretation einen Koe f f i z i e n t e n mit einem Wert zwischen -l und +1 zu erhalten. Dies ist jedoch nicht der F a l l , wenn in einer bivariaten Verteilung mindestens eine der Variablen nicht annähernd symmetrisch b z w . normalvertei1t ist, weil die Lage der Regressionsgeraden sehr stark von der Form der Randverteilungen abhängt bzw. der Körper der Daten im mittleren Bereich der Verteilungen durch die Regressionsgerade nur unzureichend repräsen31) V g l . Biehler 1982, S. 56 ff. 32) Der Terminus 'Counts' wird auch für die Häufigkeiten zur Variablen 'Abstraktheit' benutzt; v g l . S. 55 und 77 dieser Arbeit.
93
tiert werden würde. Diese Situation t r i f f t auf die vorliegenden unsymmetrischen Verteilungen zu. W i l l man dennoch den an NormalVerteilungen orientierten mathematisch-formalen Apparat benutzen, so ist eine Datentransformation geboten. Die Verwendung von Maßen, die konzeptuell der Theorie der Normalverteilung sehr nahe stehen, ist aus Gründen der Praktikabi l itat sinnvoll, w e i l man dadurch eine Grundlage erhalt, um Datensätze einfacher vergleichen und Abweichungen besser berechnen zu können. Zur Ermittlung der Korrelationskoeffizienten über eine lineare Regression muß eine numerische Datentransformation der Originalwerte durchgeführt werden, die das übermäßige Gewicht der Extremwerte r e d u z i e r t . 3 3 > Dies kann durch Logarithmierung, durch Bildung der Quadratwurzel- oder zweifachen Wurzelwerte zu den vorliegenden Daten e r f o l g e n . 3 4 ' Dadurch wird die übermäßige Schiefe der Verteilungen korrigiert, weil die Wurzelung bei hohen Werten eine größere Auswirkung hat. Es kommt zu einer Symmetrisierung der Distribution, so daß die Berechnung der Korrelationskoeffizienten eher ein Resultat innerhalb der erwarteten Grenzwerte ergeben wird. Im weiteren soll l e d i g l i c h die Transformation über die Wurzelung der Werte erfolgen. Innerhalb der EDA werden Datentransformationen häufig vorgenommen, insbesondere, weil die v i s u e l l e Inspektion der Daten und die Hervorhebung von Strukturmerkmalen der Verteilung dadurch verbessert w e r d e n . 3 5 >
6.2.2
Die inhaltliche Begründung
Betrachtet man die resultierenden Werte zur Variablen 'Polys e m i e 1 , so werden die Differenzen zwischen den P-Werten 33) V g l . 34) V g l . vgl. vgl.
Biehler 1982, S. 88 ff. Biehler 1982, S. 91 f f . , Tukey 1977, S. 69 f f . , Emerson/Stoto 1983, S. 109 ff.
35) V g l . Biehler 1982,
S. 102 f.
94
' E i n s 1 und ' Z w e i ' einerseits und den P-Werten ' N e u n ' und ' Z e h n ' andererseits als gleichbedeutend s k a l i e r t . 3 b > Es erscheinen jedoch Z w e i f e l angebracht, ob die zusätzliche Bedeutung von Eins in beiden F ä l l e n die gleiche Aussagekraft besitzt. Unter quantitativ-semantischen Aspekten läßt sich der Standpunkt vertreten, daß der Unterschied zwischen zehn und neun Bedeutungen eines Substantivs eine wesentlich geringere R o l l e spielt als der Unterschied zwischen zwei und einer Bedeutung. Eine andere Evaluation der Polysemie läge vor, wenn das Merkmal ' P o l y s e m i e 1 durch P-Werte gekennzeichnet wäre, die j e w e i l s den doppelten Wert des nächstkleineren P-Werts aufweisen würden. Dann erhielte man P-Wertegruppen mit den Merkmalen ' E i n s ' , ' Z w e i 1 , ' V i e r ' , ' A c h t 1 , . . . , u n d inhaltlich wären zwei Bedeutungen als das Doppelte von einer Bedeutung zu interpretieren. Neun und zehn Bedeutungen würden dann nicht mehr unterschieden, sondern befänden sich gemeinsam in einer Bedeutungsgruppe mit dem gleichen quantitativen Merkmal (in diesem B e i s p i e l : ' A c h t ' ) . Damit käme zum Ausdruck, daß zwischen einer Monosemie und einer zweifachen Polysemie ein wesentlich bedeutungsvollerer Unterschied besteht als zwischen neunfacher und zehnfacher Polysemie. Zwar ist nicht ohne umfangreiche Untersuchungen entscheidbar, nach welchem Modus die Einteilung optimal vorzunehmen ist, aber in der Tendenz s o l l t e n die sehr hohen P-Werte in ihrer qualitativen Aussagekraft reduziert werden. Um dies in der Weise zu realisieren, daß die Reduktion mit steigenden P-Werten zunimmt, bietet sich die Wurzelung der P-Werte an. Dann liegen keine äquidistanten Intervalle zwischen den einzelnen P-Werten mehr vor, und die relativ größten Unterschiede finden sich bei den niedrigen Werten (zwischen ' N u l l ' und ' E i n s ' ) . Diese Abstände hätten unter semantischen Betrachtungen auch das größte Gewicht unter a l l e n quantitativen Bedeutungsdistanzen zwischen 36) Es geht hier nicht um die potentiell möglichen, sondern um die ermittelten lexikalischen Bedeutungen.
95
den Substantiven. Mit dieser Argumentation ist nicht eine grundsätzliche Kritik an quantitativen Arbeiten b z w . an der Ermittlung der Polysemie durch einfaches Addieren der gefundenen Bedeutungen intendiert, aber es erscheint Vorsicht vor einer naiven Verwendung der erhobenen Rohdaten geboten zu sein. Diese Überlegungen t r e f f e n auf das Attribut 'Häufigkeit 1 nur bedingt zu. Es ist jedoch auch hier nicht eindeutig feststellbar, ob Äquidistanzen zwischen den einzelnen Skalenwerten der Häufigkeiten die beste Einteilung sind, um das Merkmal "Häufigkeit 1 und die Relationen zu anderen Merkmalen optimal widerzuspiegeln. Für die -Werte können die i n h a l t l i c h motivierten Argumente keine R o l l e spielen, weil zur Bestimmung der Abstraktheit ein eigenes Verfahren konzipiert worden ist. Somit würde eine Diskussion über die Richtigkeit der Distanzen zwischen den einzelnen Werten unmittelbar zu einer Reflexion über das gesamte Verfahren zur Abstraktheitsbestimmung führen. Dies s o l l jedoch erst bei der Bewertung der Resultate erfolgen.
6.2.3
Die Darstellung der Transformationen
Zu den Verteilungen der A-, H- und P-Werte der 7179 Substantive sind die Quadratwurzelwerte und doppelten Würzelwerte im Anhang e n t h a l t e n . 3 7 1 Die Berechnung der Werte erfolgt auf einer Großrechenanlage 3 ' über ein BMDP-Programm 3 ' > . Um die Visualisierung der untersuchten Verteilungen zu betonen, wird eine breite Pallette an Darstellungen gewählt. 37) V g l . die Tabellen A2 bis A4 im Anhang. 3 ) Sperry 1100 - Univac. Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen. 39) V g l . BMDP P2D 19 5, S. 80 ff. Die erfolgreiche Ausführung dieser Arbeitsschritte ist der tatkräftigen Unterstützung von Hartmut Oldenbürger (Göttingen) zu verdanken.
96
Neben Tabellen und fenced letter displays sollen box plots eingesetzt werden. Im weiteren werden die gewurzelten Werte mit S (square) und doppelt gewurzelte mit SS abgekürzt, so daß die gewurzelten -Werte AS-Werte und die doppelt gewurzelten -Werte ASS-Werte heißen. Gleiches gilt für die Ausprägungen 'Häufigkeit 1 und ' P o l y s e m i e 1 , bei denen die transformierten Datensätze mit HS-, HSS- bzw. PS- und PSS-Werten bezeichnet werden.
6.2.3.1
Fenced letter displays zu den transformierten Daten
Datensatz zu den AS-Herten: «2724 M
1362h
H
681h 1
0.2646 0.2646
0.4
0.1354
0.2646
9.1325
8.8679
adj: 0.2646, 0.6021 out: 127 Werte von 0.6042 bis 0.8016 far: 159 Werte ab 0.8093.
0.2031
f F
0.0615 -0.1416
0.6031 127 . 062 159
out far out
Datensatz zu den ASS-Werten: f2724 M
1362h H 681h
0.5144 0.5144
0.6325
0.1181
0.5144
3.022
2.5076
0.17715
f
0.33725
F
0.1601
0.80965 out 163 0.9868 86 far out
adj: 0.5144, 0.8074 out: 163 Werte von 0.8098 bis 0.9847 far: 86 Werte ab 0.9873.
97
Datensatz zu den HS-Werten: #7179
n 3590 H
1795h
1 1
1. 414
0. 414
16. 155 16. 155
0
0 .621 f F
0. 379 1143 -0. 242
2 . 035 305 out 2. 656 317 far out
Datensatz zu den HSS-Werten: #7179 M 1 3590 1 H 1.189 0.189 1795h l
4.019
0
4.019
0. 2835 f
0.7165
F
0.433 1143
1795h
1
1.732
0.732
0
5.385
5.385
1.098 f
-0. 098
F
-1. 196
a d j : l, 1.414 out: 409 Werte 1.495 bis far: 213 Werte 1.778 und Werte mit
von 1.732 ab 1143 0.
1.4725 409 out 1.756 213 far out
Datensatz zu den PS-Werten: #7179 1 M 3590 H
adj: l, 2 out: 305 Werte von 2.236 bis 2.646 und 1143 mit 0 far: 317 Werte ab 2.Θ28.
2.83 220 3.928 31
out far out
adj: 0, 2.828 out: 220 Werte von 3.00 bis 3.873 far: 31 Werte ab 4.00.
98
Datensatz zu den PSS-Werten: #7179 1 M,3590 H
1795h
1
1.316
0.316
0
2.321
2.321
adj : l , 1.778 out: 139 Werte 1.821 bis far: 2 . 3 2 1 und Werte mit
von 2.166 1260 0.
0. 474~j
f
0. 526
F
0. 052 1260
6.2.3.2
1.79 139 2.264 1
out
far out
Box plots zu den transformierten Daten
Für die Kastenschaubilder zu den gewurzelten Werten wird eine andere Skalierung als zu den box plots in Kapitel 6 . 1 . 2 gewählt. Damit die wesentlichen Merkmale der Distribution erkannt werden können, muß ein Teil der far out values weggelassen werden, wenn diese zu weit von Zentrum entfernt liegen.
99
Abb. 8: Box plot zu AS-Werten und ASS-Werten * 0
AS
)
ASS
1.1 1.0 0.9 0.8 0.7 0.6
0.5 0.4 0.3
Erläuterungen zu Abb. 8: 0.2
AS = AS-Wert ASS = ASS-Wert M Mediän
0.1
Ho adjacent outside far out .
• A
^™ =
40) Abbildung ohne Extremwerte ( > 1.1). Die Werte können der Tab. A2 im Anhang entnommen werden.
100
Abb. 9: Box plot zu den HS-Werten und HSS-Werten HS
HSS
3.5
2.5
1.5 I
0.5
Erläuterungen zu Abb. 9: HS = HS-Wert HSS = HSS-Wert M = Mediän " Ho
adjacent outside far out.
41) Abbildung für HS-Herte ohne Extremwerte (> 4 . 1 ) . Die Werte können der Tab. A3 im Anhang entnommen werden.
101
Abb. 10: Box plot zu den PS-Werten und PSS-Werten
PSS
PS
/
*
5.0
-
4.5
-
Ik * * * * * *
4
3.5
-
3 T 1
2.5
1
1
2
1
1.5
M
1 1 1
0.5
1 1 -L
0
Erläuterungen zu Abb. 10: PS = PS-Wert PSS = PSS-Wert M = Mediän = Ho = adjacent = outside
*
= far
out
M
102
6.3
Die Bewertung der Transformationen
Die Tabellen, Standardzusammenfassungen und Abbildungen verdeutlichen die Erfolge der Datentransformationen auf unterschiedliche Weise. Bei einem Vergleich der fenced letter displays ist zu erkennen, wieweit die Spanne Si durch die Wurzelung der Verteilungen zu jedem untersuchten Merkmal reduziert wird: Si(A) =
83.332
S i ( H ) = 261
Si(P) =
29
Si(AS) =
8.8679
S i ( H S ) = 16.155
Si(PS) =
5.385
S i ( A S S ) = 2.5076 S i ( H S S ) = 4.019
S i ( P S S ) = 2.321 .
Wegen der ausgeprägten Streuungsbreite können in den box plots die Extremwerte nur teilweise eingetragen werden (Ausnahme: P o l y s e m i e ) , so daß die ausgedehnte Schiefe der Verteilungen aus den Displays interpretiert werden muß. Da bei den Variablen 'Häufigkeit' und 'Polysemie' der niedrigste Wert gleich N u l l ist, wird die Wurzelung an dieser Stelle nicht wirksam. Eine Verringerung der Spanne Si erfolgt bei diesen Verteilungen nur von oben. Auch der untere Quartilswert, der bei den H- und P-Werten gleich Eins ist, wird durch die Wurzelung nicht verändert. Dagegen vergrößert sich der Hu-Wert des Merkmals 'Abstraktheit 1 , w e i l dieser bei der Distribution der -Werte zwischen N u l l und Eins liegt. Dadurch wird relativ zu den anderen Verteilungen die Distanz zwischen dem H 0 - und H u -Wert der Variablen 'Abstraktheit' stärker reduziert. Bei a l l e n Variablen liegen Mediän und HuWert übereinander, und bei der 'Abstraktheit' ist dieser Parameter außerdem mit dem tiefsten Wert identisch, weil letzterer über 50 Prozent aller Counts enthält. Zu den Merkmalen 'Häufigkeit' und 'Polysemie 1 ist in den box plots das Gleichbleiben des Medians b z w . H u -Wertes und das Näherrücken
103
des Ho-Wertes erkennbar, während der Mediän zum Merkmal 'Abstraktheit 1 bei den AS- und ASS-Werten größer wird. Durch die Darstellung von zwei Verteilungen in einem Schaubild läßt sich dieser Prozeß unmittelbar vergleichen. Nicht zu erkennen ist in den box plots zu a l l e n Distributionen der 'Abstrakth e i t 1 , zu den HS-, HSS- und PSS-Verteilungen die Lage des unteren adjacent value, weil dieser auf gleicher Höhe mit dem Mediän liegt. Betrachtet man zur Variablen 'Abstraktheit' den Anteil der Outlier an der Gesamtmenge der untersuchten Daten, so ergibt sich eine Verringerung von ca. 17 % (A) auf 10 % (AS) b z w . 9 % (ASS). Vor a l l e m die Menge der far out values verkleinert sich, von 53 % a l l e r Outlier ( -Werte) auf 34 % (ASS-Werte). Trotzdem lassen sich in den box plots nicht a l l e Extremwerte eintragen, ohne das Zentrum der Verteilung zu sehr zu vernachlässigen, so daß zur Variablen 'Abstraktheit' die Schiefe der Verteilung und die Reduktion der Extremwertdi stanzen vom Zentrum der Verteilung nur durch die Tabelle A2 * bzw. die Standardzusammenfassungen verdeutlicht werden können. Beim Attribut 'Häufigkeit' nimmt die Anzahl der Outlier, die oberhalb des Medians liegen, mit der ersten Wurzelung ab (von ca. 10 % auf etwa .6 % ) , mit der zweiten Wurzelung bleibt die Gesamtzahl g l e i c h , aber es verschiebt sich der Ant e i l der far out values (51 % ( H S ) zu 34 % (HSS) a l l e r Outlier) zu Ungunsten der outside values. Immerhin ist es nach der zweiten Wurzelung m ö g l i c h , im box plot zu den HSS-Werten innerhalb einer Skalierung, die die Darstellung aller wesentlichen Strukturmerkmale gestattet, a l l e far out values einzutragen. Eine besondere R o l l e spielt der Wert ' N u l l ' , der bei der HS-Verteilung als outside value und bei der HSS-Verteilung als far out value erscheint. Dies erhöht zwar die Gesamt zahl der Outlier beträchtlich ( ' N u l l 1 hat 1143 Counts), fördert aber den Symmetrisierungsprozeß der Verteilung, weil die ' N u l l 1 unterhalb des Medians liegt. Trotzdem bleibt der visu42) V g l . Anhang, A 3 f.
104
e i l e Eindruck einer Rechtsschiefe der Verteilung im box plot für die HSS-Werte b e s t e h e n . * a > Bei der Variablen ' P o l y s e m i e 1 verringert sich durch die Datentransformationen der Anteil der oberhalb des Medians liegenden outside values deutlich (bei PS-Werten noch 3.5 % a l l e r Daten, bei PSS-Werten nur ein Datum). Gleichzeitig erscheint der Wert ' N u l l 1 bei den PS-Werten als adjacent value und bei den PSS-Werten als far out value, so daß hier - wie bei der ' H ä u f i g k e i t 1 - die Symmetrie der Verteilung wächst (besonders deutlich im box plot zu den PS- und PSS-Werten
er-
kennbar). Z u g l e i c h nimmt die Dominanz der Outlier bei den PSund PSS-Werten gegenüber den P-Werten erheblich a b . 4 4 ' Insgesamt zeigt die d i f f e r e n z i e r t e Darstellung der Zusammenhänge, daß die box plots weniger geeignet sind, wenn es um die Interpretation der Outlier geht bzw. wenn zu viele Outlier vorliegen. Den Displays fehlt die Anschaulichkeit der graphischen Darstellungen, dafür erhält man a l l e wichtigen numerischen Informationen über die Verteilungen. Zwar verdeutlicht die Interpretation der Daten, daß durch die Transformationen die intendierte Symmetrisierung der Verteilungen e r f o l g t , aber aufgrund der graphischen Darstellungsprobleme zu den Variablen "Abstraktheit 1 und 'Häufigkeit' (auch noch bei doppelt gewurzelten Datensätzen) kann man nicht sicher sein, ob die Berechnung der Korrelationskoeffizienten mit den gewurzelten Datensätzen ein Resultat innerhalb der erwarteten Grenzen zwischen -l und +1 ergeben w i r d . Theoretisch ließe sich das Wurzeln der Werte noch mehrfach w i e d e r h o l e n , 4 5 » nur würde die Symmetrisierung, die nach der ersten Datentransformation erkennbar ist, bei häufigerem Wurz e l n der Daten verlorengehen, und es entstünde eine Verzer43) Im Anhang A 5 sind a l l e Werte zu den H-, HS- und HSSVerteilungen aufgeführt. 44) Im Anhang A 6 sind a l l e Werte zu den P-, PS- und PSSVerteilungen enthalten. 45) V g l . u . a . Tukey 1977, S. 192.
105
rung der Verteilung in die andere Richtung. Es ist also notwendig, vor einer Berechnung der Korrelatio n s k o e f f i z i e n t e n die optimale Transformation für jede Variable zu e r m i t t e l n . Optimal' heißt in diesem Zusammenhang ein Maximum an Symmetrie pro Verteilung. Dieses Maximum läßt sich durch die Berechnung der Schiefemaße zu den e i n z e l n e n Verteilungen ermitteln. Daraufhin können die Verteilungen mit den geringsten Schiefewerten bei der Interpretation der Korrelat i o n s k o e f f i z i e n t e n besonders berücksichtigt werden. Zur Bestimmung dieser Maße stehen diverse Verfahren zur Verfügung. Eine einfache Möglichkeit ist der Vergleich des arithmetischen Mittels mit dem Mediän einer V e r t e i l u n g . 4 6 1 Ein standardisiertes Maß - das Schiefemaß nach PEARSON erhält man, wenn man die D i f f e r e n z von arithmetischem Mittel und Mediän durch die Streuung d i v i d i e r t . * 7 · Jedoch ist dieses Verfahren bei einer großen Streuung der Variablen wie bei den hier vorliegenden Verteilungen - nicht besonders geeignet, w e i l den Extremwerten der Distribution ein zu grosses Gewicht beigemessen wird. In ähnlicher Weise läßt sich die Schiefe berechnen, wenn man die D i f f e r e n z aus arithmetischem Mittel und Modus durch die Standardabweichung d i v i d i e r t . 4 8 ! Dieses Vorgehen weist aber zum einen die g l e i c h e n N a c h t e i l e wie das vorherige a u f , zum anderen stimmen in den hier vorliegenden Verteilungen Modus und Mediän jeweils überein, so daß das Resultat das g l e i c h e wäre. Um die Wirkungen der Extremwerte zu reduzieren, s o l l t e man die Quartil- oder Perzentilabstände statt der Streuung bei der Ermittlung des Schiefemaßes v e r w e n d e n . 4 q ' Jedoch ist auch dies bei den vorliegenden Verteilungen nicht s i n n v o l l , w e i l unterhalb des Medians eine zu geringe Klassenbesetzung 46) 47) 48) 49)
Vgl. Vgl. Vgl. Vgl.
Sievers Sievers Spiegel Spiegel
1987, 1987, 1961, 1961,
S. S. S. S.
149. 149. 90 f. 91.
106
e x i s t i e r t ; 5 0 1 zwischen dem Medi n und dem tiefsten Wert befindet sich keine Variable. Mit einer weiteren Methode ermittelt man die sogenannten "ZENTRALEN MOMENTE" s n , Um die Charakteristika einer Distribution numerisch zu b e s t i m m e n . 5 2 » Die Momente (mit " M 1 i " symbolisiert) sind folgenderma en definiert:
M1 i =
- Σ η,-Xj n
(1. Moment)
3
M1- =
l o -n Σ n i X j .
(2. Moment)
M'3 =
3 - Σ nixf
(3. Moment)
M14 =
- Σ njxT
(4. M o m e n t ) . s ;
Wenn man die Momente auf das erste Moment bezieht, erh lt man die "ZENTRALEN MOMENTE", die folgenderma en aussehen: Mi = M ' i M2 = M1 : - Μ Ί 2
M3 = M1 3 - 3 M ' i M 1 t + 2 M ' i 3 M 4 = M 1 4 ~ 4 Μ Ί Μ ' 3 + 6 Μ Ί ? Μ ' 2 ~ 3ΜΊ* . 5 4 )
50) V g l . S. 94 f. und S. 105 f. dieser Arbeit: In a l l e n Datens tzen stimmen die H u -Werte mit dem Medi n berein. 51) Sievers 1987, S. 150. 52) Spiegel wendet ein hnliches Verfahren an; v g l . Spiegel 1961, S. 89 ff. 53) V g l . Sievers 1987, S. 149. 54) V g l . Sievers 1987, S. 150.
107
Danach ist
eine Verteilung symmetrisch, wenn das dritte zen-
trale Moment (M3) g l e i c h N u l l ist, l i n k s s c h i e f , wenn M3 k l e i ner N u l l ist und rechtsschief, wenn M3 größer N u l l i s t . 5 5 ' T e i l t man M3? durch M2 3 und zieht daraus die Quadratwurzel, so erhalt man den Wert MB, der als Schiefemaß eine Verteilung als symmetrisch kennzeichnet, wenn MB g l e i c h N u l l ist und als s c h i e f , wenn MB größer N u l l . 5 6 ' A p p l i z i e r t man dieses Verfahren auf die vorliegenden neun Verteilungen, so erhält man folgende Schiefemaße, die in der Tabelle 16 5 7 ) dargestellt sind. Zum Merkmal 'Abstraktheit' zeigt sich, daß die Distribution der doppelt gewurzelten Werte die höchste Symmetrie aufweist. Am M3-Wert der ASS-Werte ist zu erkennen, daß eine weitere Datentransformation (nochmalige Wurzelung) wahrscheinl i c h schon zu einer Überkorrektur ( d . h . L i n k s s c h i e f e ) führen würde. Andererseits ist der MB-Wert - vor a l l e m im Vergleich zu den MB-Werten der anderen Variablen - sehr hoch. Betrachtet man die MB-Werte zum Merkmal ' H ä u f i g k e i t ' , so weist die Verteilung zu den HSS-Werten die geringste Schiefe a u f , aber der M3-Wert zur HSS-Verteilung ist negativ und bedeutet somit eine geringfügige Linksschiefe durch die doppelte Wurzelung. Zwar liegt der M3-Wert zur HSS-Verteilung nur wenig im negativen Bereich, und bei einer v i s u e l l e n Inspektion der Verteilungen ist weder eine Linksschiefe zu den HSS-Werten noch eine ausgeprägte Symmetrie zu den HS-Werten zu erkennen. Wegen dieser uneindeutigen Differenzen s o l l e n bei den weiteren Interpretationen der Distributionen zum Merkmal ' H ä u f i g k e i t 1 sowohl die einfach als auch die doppelt gewurzelten Daten besonders beachtet werden. Die Variable 'Polysemie' erfährt durch die doppelte Wurzelung eine Überkorrektur; denn der MB-Wert zu den PSS-Werten ist größer als zu den PS-Werten, und der M3-Wert gibt für die 55) V g l . Sievers 1987, S. 150. 56) Sievers 1987, S. 150 f. 57) V g l . S. 108 dieser Arbeit.
108
PSS-Verteilung eine Linksschiefe aus, so daß nach der Tabelle 16 die einfache Wurzelung, deren Verteilung auch gegenüber
Tabelle 16:
Zentrale Momente und Maße der Schiefe
A-Werte
H-Werte
P-Werte
Ml = M2= M3=
Ml= 2.2569 M2= 46.7013 M3= 6241.0936 M4= 1233687.22
Ml= 2.2569 M2= 6.7770 M3= 45.2383 M4= 577.1279
Bl= MB=
Bl= MB=
.2796 3.9298 266.1235 M4= 20427.0347 Bl = MB=
1184.5529 34.4173
AS-Werte
382.4156 19.5555
HS-Werte
6.5749 2.5642
PS-Werte
Ml = M2= M3= M4=
.4101 .1113 .4453 3.1368
Ml = M2= M3= M4=
1.1733 .8803 3.0342 28.3892
Ml= M2= M3= M4=
1.2550 .6817 .2541 1.6709
Bl= MB=
143.5740 11.9822
Bl = MB=
13.4972 3.6739
Bl= MB=
.2038 .4515
HSS-Werte
ASS-Werte
PSS-Werte
Ml = M2= M3= M4=
.6188 .0271 .0177 .0268
Ml = M2= M3= M4=
.9656 .2409 -.0598 .2707
Ml= M2= M3= M4=
.9975 .2601 -.1235 .2073
Bl = MB=
15.6322 3.9538
Bl = MB=
.2556 .5056
Bl= MB=
.8679 .9316
Erläuterungen zu Tab. 16; M l , M2, . . . = 1. ,2., . . . Moment Bl = M32 dividiert durch M23 MB = Quadratwurzel aus Bl. Unterstrichen sind pro Merkmal die j e w e i l s geringsten Schiefemaße.
109
den Rohdaten die besseren Schiefemaße besitzt, als die optimale Datentransformation für die Distribution zum Merkmal 'Polysemie' anzusehen ist.
6.4
Die Berechnung der Korrelationskoeffizienten
In den folgenden Tabellen 17 bis 19 werden die Korrelationsk o e f f i z i e n t e n 5 8 > zwischen a l l e n Verteilungen (Rohdaten, gewurzelte und doppelt gewurzelte) dargestellt. Die Berechnung der K o e f f i z i e n t e n erfolgt mit einem BMDP-Programm. 5 9 > In den Korrelationsmatrizen sind die K o e f f i z i e n t e n zu den Verteilungen, die die geringsten Schiefemaße aufweisen, durch Fettdruck gekennzeichnet.to)
6.4.1
Abstraktheit und Häufigkeit
Die Koeffizientenberechnung beruht auf allen untersuchten Substantiven, die sowohl einen -Wert als auch einen -Wert besitzen. Nicht besonders hoch sind in der Tabelle 17 6 1 > die 58) Die Berechnung eines Korrelationskoeffizienten erfolgt nach der Formel: n
ti -
(3
r(X,Y)
) (yi - y) 2 n
n (3ci
- x)
(7l
- y)
2
vgl. Sievers 1987, S. 213. 59) V g l . BMDP P8D 1985, S. 209 ff. 60) Signifikanzprüfungen können wegen der umfangreichen Datenmengen, die den Berechnungen zugrunde liegen, entfallen. 61) V g l . S. 110 dieser Arbeit.
110
Korrelationsmatrix zu den Variablen Abstraktheit und Häufigkeit
T a b e l l e 17:
A-Werte AS-Werte ASS-Werte H-Werte HS-Werte HSS-Werte A-Werte AS-Werte ASS-Werte
H-Werte HS-Werte HSS-Werte
1.0000 0.8136 0.5653 0.2259 0.2095 0.1497
1.0000 0.9319 0.4753 0.5165 0.4368
1.0000 0.5175 0.6267 0.5722
1.0000 0.7984 0.4936
1.0000 0.8830
1.0000
K o e f f i z i e n t e n zwischen den Rohdaten der Variablen 'Abstraktheit 1 und den Verteilungen zur 'Häufigkeit'
(Spalte "A-Werte"),
Jedoch bewirkt die Datentransformation zur 'Abstraktheit' eine erhebliche Veränderung der Korrelationskoeffizienten; denn horizontal
(von A- zu AS- und ASS-Werten) kommt es durch-
gangig zu einer Steigerung. Somit kann man ohne Test sehen, daß die Berechnung des Schiefemaßes, die zum Attribut 'Abstraktheit' für die ASS-Verteilung die besten Symmetriewerte ergeben h a t , 6 2 ' durch die K o r r e l a t i o n s k o e f f i z i e n t e n bestätigt w i r d . Für die Variable ' H ä u f i g k e i t ' ,
für die die HS- oder HSS-
Werte die optimale Datentransformation darstellen, findet man derartige Übereinstimmungen ausschließlich in der Spalte der ASS-Werte. Entsprechend den Berechnungen zur Symmetrie der Häufigkeitsverteilungen werden die besten Korrelationskoeffizienten zwischen HS-/ASS- b z w . HSS-/ASS-Werten erzielt. Jedoch wirkt sich bei der ' H ä u f i g k e i t 1 die Wurzelung der Daten insgesamt sehr uneinheitlich aus. Die Korrelationskoeff i z i e n t e n zwischen den keit
1
-Werten und der Variablen
'Häufig-
nehmen mit jedem Wurzelungsschritt der Häufigkeits-
verteilung ab, während zu den AS-Werten die HS-Werte zu den besten und die HSS-Werte zu den schlechtesten Resultaten kommen. Mit den ASS-Werten liegt der Korrelationskoeffizient 62) V g l . Tab. 16, S. 108 dieser Arbeit.
Ill
der HS-Werte etwas höher als der der HSS-Werte. Dies kann als ein Indiz dafür angesehen werden, daß die doppelte Wurzelung beim Merkmal 'Häufigkeit 1 zu einer Überkorrektur führt. Gestützt wird dieses Argument durch die drastische Zunahme der far out values bei den HSS-Werten gegenüber den HS-Wert e n . 6 3 > Dies bewirkt o f f e n s i c h t l i c h weniger eine Symmetrisierung, sondern mehr eine Verschiebung der ausgeprägten Rechtsschiefe zu einer leichten L i n k s s c h i e f e , w e i l die Zahl der far out values, die unterhalb des Medians liegt, von Null (HS) auf 1143 (HSS) zunimmt. Der Anteil der erklärten Varianz bil wächst von 5.10 % (H-/A-Werte) auf 26.78 % (H-/ASS-Werte) bzw. 32.74 % (HSS-/ ASS-Werte) und 39.27 % (HS-/ASS-Werte). Damit liegt der Anteil der erklärten Varianz beim K o e f f i z i e n t e n zur HSS/ASSVerteilung nur geringfügig hinter der HS/ASS-Verteilung. Der höchste K o r r e l a t i o n s k o e f f i z i e n t (HS-/ASS-Werte) bedeutet, daß die Datentransformationen eine Steigerung der erklärten Varianz um nahezu das Achtfache (5.10 % (Rohdaten) auf 39.27 % (HS-/ASS-Werte)) bewirkt haben. Somit kann man den Erfolg der Datentransformationen als gut und das Resultat der Korrelationskoeffizientenberechnung zum Merkmalpaar 'Abstraktheit/Häufigkeit 1 als zufriedenstellend bezeichnen. 63) V g l . fenced letter displays, S. 96 f. dieser Arbeit. 64) Die Varianz setzt sich aus der erklärten (voraussagbaren) und der nicht erklärten Varianz zusammen: Var (Y) = r 2 ( X , Y ) Var(Y) + (l - r ^ X . Y ) ) Var(Y) . Die Varianz der durch lineare Regression auf X vorausgesagten Werte yi ist gleich Var (y) = r* ( X , Y ) Var ( Y ) ,
und das Quadrat des Korrelationskoeffizienten gibt den Anteil der erklärten Varianz wieder; vgl. Sievers 1987, S. 219. Durch M u l t i p l i k a t i o n mit 100 kann der Anteil der erklärten Varianz in Prozent angegeben werden, so daß eine einfache Vergleichbarkeit zwischen verschiedenen Verteilungen möglich ist.
112
6.4.2
Abstraktheit und Polysemie
Die Korrelationen sind anhand der Substantive, die sowohl einen -Wert als auch einen P-Wert enthalten, errechnet worden. Sehr niedrige Korrelationskoeffizienten ergeben sich zu der Distribution der -Werte. Jedoch verbessert sich beim Merkmal 'Abstraktheit 1 der K o e f f i z i e n t pro Wurzelungsschritt und erreicht die höchsten Korrelationskoeffizienten in der Spalte unter den ASS-Werten. Damit wird durch die Koeffizientenberechnung zwischen 'Polysemie 1 und 'Abstraktheit' bestätigt, daß die ASS-Verteilung die symmetrischste zum Merkmal 'Abstraktheit' darstellt.
Tabelle 1 :
Korrelationsmatrix zu den Variablen Abstraktheit und Polysemie
A-Werte AS-Werte ASS-Werte P-Werte PS-Werte PSS-Werte
A-Werte AS-Werte ASS-Werte P-Werte PS-Werte PSS-Werte
1.0000 0.8136 0.5653 0.0552 0.0580 0.0486
1.0000 0.9319 0.1483 0.1452 0.1169
1.0000 0.1879 0.1809 0.1438
1.0000 0.9159 0.7320
1.0000 0.9383
1.0000
Beim Attribut ' P o l y s e m i e ' , zu dem die PS-Verteilung die kleinsten Schiefemaße aufweist, liefert die P-Werteverteilung zu den Spalten der AS- und ASS-Werte sogar etwas bessere K o e f f i zienten als die PS-Werteverteilung. Lediglich mit den A-Werten (die aber sehr unsymmetrisch verteilt sind) liefern die PSWerte den besten K o e f f i z i e n t e n der Spalte. Dies steht im Widerspruch zu den oben angestellten Berechnungen der Schiefemaße und muß im Zusammenhang mit der gleichzeitigen, aber nicht synchron wirksamen Wurzelung der Abstraktheitsvertei-
113
lung stehen. Bestätigt wird allerdings die Überkorrektur der PSS-Verteilung, w e i l die PSS-Werte in a l l e n Spalten (A-/AS-/ ASS-Werte) die niedrigsten K o e f f i z i e n t e n der Polysemieverteilungen enthalten. Der Anteil der erklärten Varianz ist durch die Datentransformationen von 0.30 % (Rohdaten) auf 3 . 2 7 % (PS-/ASS-Werte) bzw. 3.53 % (P-/ASS-Werte) angewachsen. Auch wenn 3.5 % sehr wenig sind, ist immerhin eine Steigerung der erklärten Varianz um das Zehnfache erreicht worden. Die hohe E f f i z i e n z der Datentransformationen läßt sich im wesentlichen auf die Wurzelung der -Werte zurückführen, während sich bei der Verteilung der P-Werte die Wurzelung auf die Höhe des Korrelat i o n s k o e f f i z i e n t e n negativ auswirkt.
6.4.3
Häufigkeit und Polysemie
Diese Resultate sind auf der Basis a l l e r untersuchten 7179 Substantive ermittelt w o r d e n . b 5 i Die Verteilungen mit den kleinsten Schiefemaßen sind die PS-Werte und die HS- bzw. HSSWerte. Die besten Korrelationswerte pro Z e i l e finden sich für das Merkmal 'Häufigkeit 1 in der Spalte der HS-Werte. Während diese Koeffizentenverbesserung mit den Ergebnissen der Symmetrieberechnungen der Verteilungen korrespondiert, ist dies zum Merkmal 'Polysemie 1 nicht der F a l l , w e i l zur Distribution der P-Werte j e w e i l s höhere K o r r e l a t i o n s k o e f f i z i e n t e n erzielt werden als zur PS-Verteilung. Auch in dieser Matrix wird die Überkorrektur der PSS-Verteilung durch die niedrigen K o e f f i zienten pro Spalte bestätigt. Der Anteil erklärter Varianz beträgt 10.33 % (PS-/HS-Werte) und sogar 12.66 % (P-/HS-Werte). Beim K o e f f i z i e n t e n zur Verteilung der Rohdaten liegt der Anteil der erklärten Varianz nur bei 5.39 % , Damit wird mit 65) V g l . Tab. 19, S. 114 dieser Arbeit.
114 Tabelle 19:
Korrelationsmatrix zu den Variablen Häufigkeit und Polysemie
H-Werte HS-Werte HSS-Werte P-Werte PS-Werte PSS-Werte H-Werte HS-Werte HSS-Werte P-Werte PS-Werte PSS-Werte
1.0000 0.7984 0.4936 0.2321 0.1973 0.1426
1.0000 0.8830 0.3558 0.3214 0.2461
1.0000 0.2827 0.2596 0.1985
1.0000 0.9159 0.7320
1.0000 0.9383
1.0000
den einfach gewurzelten Daten (PS-/HS-Werte) ungefähr eine Verdoppelung der erklärten Varianz gegenüber den Rohdaten erreicht. Die E f f i z i e n z der Datentransformationen ist beim Merkmalpaar 'Häufigkeit/Polysemie' - gemessen an der Steigerung der erklärten Varianz - nicht besonders hoch.
6.5.
Die Interpretation der Resultate
Die Berechnungen verdeutlichen, daß die Korrelationskoeffizientenhöhe sehr stark von der individuellen Verteilung der jeweiligen Variablen abhängt. Die Datentransformationen modifizieren die Verteilungen unterschiedlich, und durch die gegenseitige Abhängigkeit der Variablen kommt es nach der Wurzelung einer oder beider Variablen zu nicht regelhaften Steigerungen der Koeffizienten. Vergleicht man die drei Matrizen aus Kapitel 6.4, so zeigt sich, daß innerhalb der einzelnen Merkmale die Verteilungen, die die höchsten Korrelationen liefern, immer die ASS-Werte und fast immer die HS- und P-Werte sind.*· 0 * Berücksichtigt 66) Zum Merkmalpaar 'Abstraktheit/Häufigkeit' erreichen die -Werte in der Spalte -Werte1 den höchsten Koeffizi-
115
man in jeder Matrix den j e w e i l s höchsten Korrelationskoeffizienten, so ist dieser nur zu den ASS-, HS- oder P-Werten zu finden. Damit stimmen die Resultate der Schiefemaße zum Merkmal 'Abstraktheit 1 mit denen der Korrelationskoeffizientenberechnungen durchweg überein; beim Attribut 'Häufigkeit 1 weisen die Verteilungen (HS-/HSS-Werte), die aufgrund der errechneten Schiefemaße als symmetrischer bezeichnet worden sind, insgesamt bessere K o e f f i z i e n t e n auf als die H-Werte. Die Resultate zu den HSS-Werten liegen immer hinter den HSWerten zurück. Die Variable 'Polysemie' verhält sich ganz anders, weil die Rohdaten (P-Werte), deren Verteilung eine extreme Schiefe aufweist, die besten K o e f f i z i e n t e n erzielen. W i l l man die Korrelationskoeffizienten qualitativ in ihrer Aussagekraft beurteilen, so wird bei den vorliegenden Resultaten deutlich, daß es kein objektives Maß gibt, das die Korrelationen in ihrer Güte q u a l i f i z i e r t . Das Urteil über die Bedeutung der Höhe eines Korrelationkoeffizienten bleibt immer subjektiv. Die Optimierung, die man durch die Datentransformation erreicht, wird durch einen Vergleich des Anteils erklärter Varianz meßbar, und es wird klar, daß man ohne die Datentransformationen kaum Zusammenhänge zwischen den Variablen konstatiert hätte, weil die K o e f f i z i e n t e n zu den Rohdaten sehr niedrig sind. Trotzdem kann das Resultat in dieser Form nicht zufriedenstellen. Zwar sind die Steigerungsraten, die die Wurzelungsoperationen für die erklärte Varianz erbringen, beachtlich ( l e d i g l i c h beim Merkmalpaar 'Polysemie/ Häufigkeit' kommt es n u r zu einer Verdoppelung), aber eindeutige Abhängigkeiten, die die oben aufgestellten Arbeitshypothesen stützen oder funktionale Zusammenhänge andeuten, werden durch die Korrelationskoeffizientenberechnung nicht indiziert. Lediglich die Variablen 'Abstraktheit' und 'Häufigkeit' korrelieren befriedigend; das Merkmal 'Polysemie 1 steht nach den erfolgten Berechnungen in keinem engen Zusammenhang mit anderen Variablen, und die K o e f f i z i e n t e n , die zwischen enten; die PS-Werte in der Spalte zu den A-Werten.
116
der ' P o l y s e m i e ' und den anderen Variablen errechnet werden, entwickeln sich nach den Datentransformationen unregelmäßig, z . T . widersprüchlich. Um die Ursachen für dieses Phänomen zu eruieren, s o l l e n die Zusammenhänge zwischen den Variablen mit ergänzenden Datenexplorationen analysiert w e r d e n . 6 7 ' Erst dann kann es zu einer abschließenden Beurteilung der Arbeitshypothesen kommen.
6.5.1
Das Variablenpaar
'Abstraktheit/Häufigkeit'
Die ermittelten Korrelationskoeffizienten zeigen einen Zusammenhang zwischen beiden Variablen, wenn man die Verteilungen durch einfache oder doppelte Wurzelung transformiert. Die durchgeführten Datentransformationen haben die durch die Statistik motivierten Bedenken gegen eine Koeffizientenberechnung der nicht normalverteilten Rohdatensätze erfolgreich überwunden. Damit ist die positive Korrelation zwischen den Aund -Werten formal (statistisch) nachgewiesen. Um die Art der Korrelation auch i n h a l t l i c h näher bestimmen zu können, s o l l e n weitere Analysen e r f o l g e n , die die lexikologischen und semantischen Zusammenhänge zwischen den Variablen verdeutlichen. Betrachtet man zu den Rohdaten die Countverteilung in Abhängigkeit von beiden Variablen, so kann man die bivariate Verteilung in einer Kontingenztafel d a r s t e l l e n . b 8 ; Die Form der 67) V g l . Tukey 1977, S. 1: "Exploratory data analysis is detective work — numerical detective work — or counting detective work — or graphical detective work." (Fettdruck im O r i g i n a l ) . 68) V g l . Tab. A6 im Anhang. Die Tafel ist mit H i l f e eines SPSS-X Programms erstellt worden; vgl. SPSS-X 1983, S. 571 ff. Die Tab. 20, S. 118 f. dieser Arbeit, s t e l l t eine übers i c h t l i c h e Zusammenfassung der Tab. A6 dar.
117
Countverteilung wird die Zusammenhänge zwischen den Variablen verdeutlichen und vergleichende Analysen zu den bisherigen Berechnungen zulassen. Anschließend s o l l die Dynamik des Korrel a t i o n s k o e f f i z i e n t e n bei wachsenden A- b z w . -Werten präsentiert werden, indem zu ausgewählten Variablenwerten der Jew e i l i g e K o e f f i z i e n t errechnet und in eine Tafel eingetragen w i r d . 6 ' ! Man erhält dann Aussagen über die Auswirkungen ind i v i d u e l l e r Werte auf die K o r r e l a t i o n s k o e f f i z i e n t e n , z . B . können so auch Ausreißer festgestellt w e r d e n . 7 0 »
6.5.1.1
Die Verteilung der Counts
In der Tabelle 20
7
i ' sind die Eintragungen zum A-Wert '-'
durch eine gestrichelte L i n i e abgeteilt, w e i l es sich hier um die Substantive handelt, die in V l nicht untersucht worden sind und keinen -Wert besitzen. Somit ist von den zur Korrelationskoeffizientenberechnung benutzten Werten das Wertepaar -Wert = 0.075/H-Wert = O 1 mit 841 Counts am höchsten 69) V g l . Tab. 22, S. 124 f. dieser Arbeit. Die Berechnung der Korrelationskoeffizientendynamik erfolgt mit einem zu diesem Zweck geschriebenen Commodore-BASIC-Programm. Die semantische Richtigkeit des Programms läßt sich durch einen Vergleich der errechneten Gesamtkorrelationskoe f f i z i e n t e n nachweisen. 70) In den Tabellen 20 und 22 enthalten die Skalen nur die Variablen, die in den Verteilungen auch Belege (Counts) besitzen. Somit bestehen zwischen den hohen Variablen numerisch größere Distanzen als in den Tafeln graphisch dargestellt, z . B . liegt unterhalb der Häufigkeitsvariable '100' nicht ' 9 9 ' , sondern der nächste Wert mit einer Eintragung, nämlich ' 8 5 ' . Die Extremwertdistanzen sind damit in der semigraphischen Darstellung gestaucht. Zum Attribut 'Abstraktheit' geben die Zahlen in Spalte II Jeweils den mittleren Wert eines Intervalls an, d . h . die Zeile .175 1 enthält a l l e -Werte zwischen .150 1 und 1 .199 . Auch hier liegen aus technischen und didaktischen Gründen keine Xquidistanzen für die gesamte Skalierung vor. Skalierungsänderungen sind durch einen Querstrich gekennzeichnet, Skalenwerte ohne Belege werden übersprungen. Eine Kontingenztafel zur Countverteilung mit a l l e n -Werten ist in Tab. A6 im Anhang enthalten. 71) V g l . S. 118 f. dieser Arbeit.
118
Countverteilung zur 'Abstraktheit 1 und 'H u f i g k e i t '
T a b e l l e 20: III
!1
0.075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0,525 0,575 0.625 0.875 0.725 0.775 0.625 0.675 0.925 0.975 1.025 1.075 1.125 1.175 1.225 1.275 1.325 1.375 1.425 1.475 1.525 1.575 1.675 1.725 1.775 1.625 1.875 1.975 2.05 .25 .35 .55 .65 .75 .85 3.65 4.1 4.3 4.9 5.5 6.3 8.5 O 12.5 15.5 53.5 83.5 I[ V
0 1 2 3 4 5 6 7 8 9 1 J 11 12 13 267 3041 717 235 110 33 23 13 8 2 1 1 _1 _1 Hl H&OiOIl4Γ 1Γ 1Γ 6~6 ~* Γ 3' TAJI JPJ? Π 14 12 6 7 3 1 1 2 2 I59\ 94 20321 19 13 10 10 ( 4 2 4 5 23 \16/12 IlMi Ui 5 6 4 5 2 2 2 2 3 T l 2 _l_jLn 2 2 L 58 33 13 9 ΓΤΤΪΓΤ 4 7 1 1 2 3 1 2 1 2 4 2 l \ i 2 JI j/~ 1 6 3 4 3T~TOT 1 4 2 2 1 1 ΤΪΓ 2 3 6 2 1 3 4 IM ] 1 2 1 1 1 1 1 1 2L 1 I 1 4 1 3 2 1 "Tj 6 5 2 2 1 C 2 5 2 1 1 "l_ 1 2 1 i i 2 2 1 1 1 1 3 1 3 1 1
S-
1
3 1
i
J
1 3 Γ
1
1
1
Γ Γ~ T 1 1 3 1 2 1 \Π· 1 1 1 1 1 1 1
1
"1
1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1
2
Λ
\1
M n
1
1
Γ
1,
1
1
1
r
—i
1
1
1
1
1
iaL
1
—Ί
i i
1 1
1 1 1
L
1
T
1
1 \
i
1
1
1
n.L
u n
1 t
1
': "^z:
^
1
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
I
1
1 1 1
1 l
"
-j
1 1
π-
l i
i i
1
1
i
i i
1
1
t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1143 3671 1064 430 249 126 102 75 57 47 31 15 21 18 10 6 6 12 3 6 11 5 6 1 1 2 3 4 1 4 3
Erl uterungen zu Tab. 20: II = H-Werte III I = Mittelwerte pro Z e i l e
A-Werte Mittelwerte pro Spalte,
119
31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 l l
III
0,075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.825 0.875 0.925 0.975 1.025 1.075 125 175 225 275 325 375 425 1.475 1.525 1.575
1.675
1.725 1.775 1.825 1.875 1.975
ΟΓ 2.25 2.35 2.55 2.65 2.75 2.85 3.65
ΓΓ 4.3 4.9 5.5 6.3 8.5
12!s 15.5 53.5 83.5
IV 4455 1377 244 468 142 26 170 27 34 25
32 8 9 20 21 14 9 l 11 4 12 5 8 2 4 3 2 2 3 l 2 l l 3 l 2 3 3 l 2 l l l l l l 3 l 2 l l l 2 l l l l
31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 3 1 2 3 1 1 4 1 3 1 1 1 1 2 3 2 1 1 1 1 1
IV = Zeilensummen
l
l
l
l
l
l
l
Spaltensummen
7179
120
besetzt. Dies sind 73.58 % der im Master Corpus auftretenden 1143 Substantive, die nie als Kernkonstituente für ein Lemma fungieren. Pro Z e i l e (außer zum -Wert . 0 7 5 1 ) enthält der -Wert '!' jeweils die höchsten Counts, und fast regelmäßig ist eine Verringerung der Counts mit steigenden -Werten zu erkennen. Zum Merkmal 'Abstraktheit' verläuft diese Abnahme tend e n z i e l l g l e i c h , bedingt durch die Verteilungsform der A-Werte jedoch w e l l e n f ö r m i g . Der höchste H-Wert ( ' 2 6 1 ' ) besitzt einen Count bei einem hohen A-Wert ( ' 8 . 5 ' ) , und der höchste A-Wert ( ' 8 3 . 5 ' ) bei der Häufigkeit ' 3 5 ' . In der Tabelle 20 liegt nicht nur eine sehr hohe Punktedichte in der linken oberen Ecke vor, sondern auch in der rechten unteren Ecke (hohe Aund -Werte) finden sich v i e l e Belege. V ö l l i g frei ist die linke untere Ecke, d . h . es gibt keine Substantive mit hohem AWert und gleichzeitig niedrigem -Wert. Ebenso selten existieren niedrige -Werte bei hohen -Werten (die Wertepaare O/145' und O / 2 2 9 ' sind für die Berechnung der Korrelationen nicht berücksichtigt worden). Zusätzlich zur Countverteilung sind in der Tabelle 20 die Mittelwerte pro Spalte und pro Zeile eingetragen w o r d e n . 7 * ' Um die Beziehungsstruktur der beiden Mittelwertsysteme besser hervorzuheben, sind die Werte mit durchgezogenen Linien verbunden. Bei steigenden -Werten erhöht sich der Mittelwert pro Z e i l e , und mit steigenden -Werten der Mittelwert pro Spalte. Dabei kommt es zu einer wachsenden Mäanderisierung 7 3 > beider Mittelwertverbindungslinien, deren Verläufe sich zum Teil überlagern. Der durchschnittliche Verlauf der Mittelwerte pro Z e i l e und pro Spalte indiziert die Lage der beiden Regressionsgeraden, die für die Berechnung des Korrelationskoeffizienten ausschlaggebend sind. Würde man die Regressionskurven in die Kontingenztafel anhand der Mittelwertverteilungen legen, so erhielte man eine verhältnismäßig kleine Schere, 72) F ä l l t ein Mittelwert mit dem eingetragenen Count zusammen, so ist numerisch betrachtet die Markierung für die Spalten ( ) und Z e i l e n (I) immer unterhalb der Counteintragung (bei Spalten links und bei Zeilen oberhalb) gesetzt worden. 73) Dieser Terminus ist
gewählt worden, um die Schwingungen
121
durch die die Ermittlung eines guten Korrelationskoeffizienten gewährleistet ist. Mit der Repräsentation der Daten in der Kontingenztafel wird der Zusammenhang, der über die Rechenoperationen mit H i l f e der transformierten Datensätze gezeigt wird, auch anhand der Rohdaten deutlich demonstriert. Dies ist eine Bestätigung der errechneten Resultate durch eine semigraphische Repräsentation. Die semantischen Zusammenhänge zwischen den Variablen zeigt die Tabelle 21, in die die Substantive mit hohen H- und hohen -Werten eingetragen s i n d . 7 4 ) Die Substantive, die in den Spalten I und IV in Großbuchstaben stehen, erscheinen in beiden Spalten, gehören also sowohl zu den vierzig abstraktesten als auch vierzig häufigsten Wörtern aus V l b z w . V 2. Jedoch besitzen auch viele kleingeschriebene Substantive in Spalte I b z w . Spalte IV relativ hohe Werte der j e w e i l s anderen Variablen. Zu den Ausnahmen in Spalte I gehören "Gedankenaustausch" und "Einrichtungsgegenstand", die beide als Kompositum für eine Bedeutungserklärung schon aus lexikographischen Erwägungen weniger in Frage kommen. Beim Substantiv " V o l l z i e h u n g " kann angenommen werden, daß im DUDUNI häufiger "das V o l l z i e h e n " als Bedeutungserklärung verwendet wird, während bei "Gamet" eine Korrektur des -Wertes sinnvoll erscheint, weil dieses Substantiv als ein biologischer Fachbegriff anzusehen ist und dieser somit nur selten als Erklärungswort fungieren kann. Ä h n l i c h würde man aufgrund einer intuitiven Einschätzung des Abstrakheitsgrades dem Substantiv "Motor" mehr Konkretheit zuordnen; allerdings verwundert das seltene Vorkommen dieses Lexems als Kernkonstituente. Besondere A u f f ä l l i g k e i t e n bezüglich der häufigen Substantive in Spalte IV und V existieren kaum; a l l e n Wörtern läßt sich auch bei eigener Einschätzung eine hohe und umfangreiche Erklärungspotenz zuweisen. Bei den dazugehörigen -Werten (Spalte der Mittelwertverbindungslinien zu kennzeichnen. Köhler bezeichnet (allerdings in anderem Zusammenhang) derartige Schwingungen als " O s z i l l a t i o n " ; v g l . Köhler 1986, S. 137 ff. 74) V g l . S. 122 dieser Arbeit.
122
Tabelle 21:
Substantive mit hohen A- und H-Werten
I 1 2 3 4 5 6 7 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
II
83.402 53.14 MENSCH 15.16 GEGENSTAND 12.82 Sache 9.6825 Ding 9.075 TEIL 8.58 Substanz 6.29 STOFF 5.415 WEISE 4.96 PERSON 4.875 Organismus 4.2525 TIER 4.19 Plan 4.1375 Körper 4 3.625 GERÄT Motor 2.8 STÜCK 2.71 Tatsache 2.675 Konstruktion 2.54 EINHEIT 2.3375 Weg 2.2775 ART 2.26 Angelegenheit 2.045 PFLANZE 1.9625 Wettkampf 1.955 1.95 Gedankenaustausch ZUSTAND 1.875 Merkmal 1.8625 Größe 1.855 Produkt 1.64 Einrichtungsgegenstand 1.8 Dichtung 1.765 Satzglied 1.715 Verlangen 1.7 Gamet 1.7 Fahrzeug 1.69 Tag 1.5675 Vol 1 Ziehung 1 .535 BEREICH 1.5325 WESEN Lebewesen
III 35 13 85 84 27 9 261 21 48 47 100 8 44 7 17 53 2 65 3 7 44 26 143 16 54 12 1 55 12 21 12 3 6 3 10 2 12 11 1 54
IV
TEIL Gesamtheit
ART Stelle PERSON
MENSCH GEGENSTAND
Gruppe Raum STÜCK ZUSTAND
Vorrichtung PFLANZE Menge BEREICH
GERÄT Äußerung Form STOFF WEISE Ort TIER Fähigkeit EINHEIT Handlung Zeichen Wort Beschaffenheit Abschnitt Anzahl Gebäude Linie Gebiet Darstel lung WESEN Platz Fläche Zeit Gefühl Bewegung
V
VI
261
8.58 144 0.565 143 2 . 2 6 115 1.13 100 4.875 85 15.16 84 12.82 76 0.52 68 0.9125 65 2.71 55 1.875 55 1.035 54 1.9625 54 0.6625 54 1.5325 53 3.625 53 0 . 7 6 49 0.47 48 5.415 47 4.96 45 0.8275 44 4.19 44 0 . 2 4 44 2.3375 43 0.545 40 1.445 40 1.0325 40 0.5675 40 0.3725 39 0 . 4 37 0.4475 36 0.325 36 0.985 36 0.65 35 83.402 35 0.94 32 0.7875 31 0.405 31 0.1375 31 0.54
Erläuterungen zu Tab. 21: I II III IV V VI
= = = = = =
Substantive mit höchsten A-Werten A-Werte H-Werte Substantive mit höchsten H-Werten H-Werte A-Werte.
Die in Großbuchstaben geschriebenen Substantive stehen sowohl in der Spalte I als auch in der Spalte IV.
123
VI) f a l l e n nur wenige Substantive a u f . 7 5 » Die niedrigsten Werte besitzen " G e f ü h l " , " L i n i e " , "Abschnitt" und "Fähigk e i t " , wobei in einer Beurteilung dieser B e g r i f f e "Linie" sicherlich konkreter einzuschätzen ist als "Fähigkeit". A l l e r dings birgt gerade die intuitive Einschätzung eine große Fehlergefahr in sich und enthält genau die subjektiven Beurteilungen, die durch die angewendete Methode in V l reduziert werden s o l l e n . Andererseits kann man einwenden, daß zur Überprüfung der entwickelten Abstraktheitsmethode am ehesten die intuitive Einschätzung geeignet sei. In verschiedenen Fachdiskussionen mit Linguisten hat sich jedoch gezeigt, daß das Spektrum der subjektiven Skalierung oft breit gefächert ist ( z . B . "Gott" a l s Abstraktum oder Konkretum ? ) . 7 f e > Zu berücksichtigen ist ferner, daß die Tabelle 21 nur einen kleinen Ausschnitt des Zusammenhangs beider Variablen zeigt. Um die Entwicklung dieses Verhältnisses umfassend zu demonstrieren, soll eine Analyse der Korrelationskoeffizientendynamik e r f o l g e n .
6.5.1.2
Die Verteilung der dynamischen K o e f f i z i e n t e n
In der Tabelle 22 7 7 > ist die schrittweise Entwicklung des Korrelationskoeffizienten (von -Wert = 0.175/H-Wert = 4 ' bis -Wert = 83.5/H-Wert = 2 6 1 ' ) eingetragen w o r d e n . 7 8 » 75) Man muß berücksichtigen, daß ein -Wert von .65 1 ("Darstellung") auf Rang 161 unter a l l e n -Werten steht und somit zu den oberen -Werten zu rechnen ist. 76) Eine Beurteilung der verwendeten Methode zur Abstraktheitsbestimmung wird in Kap. 7.1 e r f o l g e n . 77) V g l . S. 124 f. dieser Arbeit. 78) Da sich eine Berechnung für kleinste A- und -Werte nicht lohnt, ist mit ' 0 . 1 7 5 ' und ' 4 ' begonnen worden. Zur besseren Übersicht wird bei mittleren A- und H- Werten nur jede zweite Variable berücksichtigt und die Skalierung aus Tab. 20 übernommen. Die errechneten Korrelationskoeffizienten sind aus Gründen der Übersichtlichkeit mit 100 m u l t i p l i z i e r t und auf zwei Stellen begrenzt, so daß der erste K o e f f i z i e n t oben links (= 39) .39' zu lesen ist.
124
T a b e l l e 22: Ι Ο
II
1
Korrelationskoeffizientendynamik 2
3
0,075 0.125 0.175 0.215 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.825 0.875 0.925 0.975 1.025 1.075 1.125 1.175 1.225 1.275 1.325 1.375 1.425 1.475 1.525 1.575 1.675 1.725 1.775 1.825 1.875 1.975
or
.25 .35 .55 .65 .75 .85 3.65 ΓΓ 4.3 4.9 5.5 6.3 8.5
975
12.5 15.5 53.5 83.5
1 0
1
2
3
4
5
6 7 β 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
40
39
38
38
37
37
37
37
37
36
*!
47
47
47
47
47
48
$48
48
46
41
43
43
43
43
43
45
46
$46
45
45
42
43
45
45
46
47
47
49
49
$49
49
48
38
41
42
45
45
47
47
48
48
48
49
49
49
38
40
43
46
47
48
48
48
49
49
50
50
49
35
36
39
41
42
42
43
44
45
45
45
45
46
35
35
38
40
41
42
43
44
45
45
45
46
47
35
35
38
40
41
41
42
43
45
46
46
47
48
35
35
38
39
40
40
41
42
44
44
44
45
46
33
33
36
36
38
39
39
40
42
42
43
44
45
32
32
34
36
37
37
37
38
40
41
42
43
43
32
32
35
37
37
37
37
38
41
42
42
43
44
32
32
35
37
37
37
37
38
40
42
43
44
44
32 32
31 31
34 34
36 36
37 38
37 37
37 38
38 38
40 40
42 42
43 43
43 43
44 44
31
31
34
36
37
37
37
37
39
41
42
42
42
31 30
31 30
33 33
35 35
38 38
37 37
37 37
38 37
39 39
42 41
42 42
43 42
43 42
30
30
33
35
38
37
38
38
40
42
42
44
44
30
30
33
35
38
37
38
38
39
41
42
43
43
29 29 19 19 29 29 29 29 29 29 29 (29 )29
28 28 28 28 28 28 28 28 28 28 28 28 28
31 31 31 31 31 31 31 31 31 31 31 31 31
33 33 32 32 32 32 32 32 29 29 29 29 29
36 36 35 35 35 35 35 35 31 31 31 31 31
35 35 34 34 34 34 34 34 30 30 30 15 15
36 36 35 34 34 34 34 34 30 30 30 15 15
36 36 36 35 35 35 35 35 31 31 31 15 15
37 37 37 36 36 36 36 36 32 32 32 15 15
39 39 39 38 38 38 38 38 34 34 34 16 16
40 40 39 38 38 38 39 39 35 35 35 16 16
42 42 40 40 40 40 40 40 36 36 36 16 16
42 42 40 39 39 39 40 40 37 37 37 17 17
39
940
41
45
38
41
39
4
5
40
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Erl uterungen zu Tab. 22; I = H-Werte
II = A-Werte
= Maximalwerte
125
30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 129 261
36
35 35
35 35 35 35
35 35
35 35
35 35 35 35 35 35 35 35 35 35
35
46
46 46
46 46 46 46
45 45
45 45
45 45 45 45 45 45 45 45 45 45
45
45
44 44
44 44 45 45
44 44
44 44
44 44 44 44 44 44 44 44 44 44
44
49
48 48
49 49 49 49
48 48
48 48
48 48 48 48 48 48 48 48 48 48
48
49
49 49
49 49 50)50
50 50
50 50
50 50 50 49 49 49 49 49 49 46
46
50
50 50
50 50 50)51
50 50
50 50
51 51 51 50 50 50 50 50 50 47
47
47
47 47
47 47 47 47
47 47
47 47
48)48 48 47 47 47 47 47 47 44
44
48
48 48
48 48 48 48
48 48
48 49
49)49 49 48 48 48 48 48 48 45
45
48
48 49
50 50 50 50
50 50
50 50
50 50)51 50 50 50 50 50 50 47
47
46
46 47
48 47 48 48
48 48
48 48
49 49)50 49 49 49 49 49 49 46
46
45
45 45
46 46 46 46
46 46
46 46
47 47)48 47 47 47 47 47 47 45
45
43
43 44
45 44 45 45
45 45
45 45
46 46)46 45 45 45 45 46 46 43
43
44
44 44
45 44 45 45
45 45
44 45
45 45)46 45 45 45 45 45 45 43
43
44
44 44
45 44 46 46
46 46
45 46
46 46)47 46 46 46 46 46 46 43
43
43 44
43 44 43 44
44 44 45 45 44 44 45 45
45 45 45 45
45 45 45 45
47 47)47 47 47 47 47 47 47 44 47 47)47 46 46 46 46 46 46 44
44 44
41
42 43
43 43 44 44
44 44
43 44
45 45)46 45 45 45 45 45 45 42
42
43 41
42 43 42 42
43 43 44 44 42 42 43 43
44 44 43 43
43 44 43 43
47 47)47 46 46 46 46 46 46 43 47 47)47 47 47 47 47 46 46 44
43 44
44
43 44
44 43 44 44
44 44
44 44
48 48 48 47 47 47 47 47 )49 46
46
43
43 43
43 43 44 44
45 45
45 45
48 48 48 48 48 48 48 47 )49 47
47
41 41 40 39 39 39 39 39 36 36 36 17 17
41 41 40 38 38 38 38 38 35 35 35 16 16
41 41 40 39 39 39 38 38 35 35 35 16 20
43 43 43 42 42 42 42 42 37 37 37 17 19
43 43 43 42 44 47 46 46 41 41 41 19 20
46 48 48)50 48)50 47)48 48 50 50 51 495 49 50 43 45 43 45 43 45 10 10 19 19
41 41 40 39 39 39 39 39 35 35 35 16 11
41 41 40 38 38 38 38 38 35 35 35 16 10
42 42 40 39 39 39 39 39 35 35 35 16 19
42 42 40 39 39 39 39 39 35 35 35 16 19
43 43 43 42 45 45 44 44 39 39 39 18 19
43 45 45 44 46 48 47 47 42 42 42 19 20
48 50 49 48 50 51 5T 50 44 44 44 10 19
48 49 49 47 49 50 47 49 43 43 43 19 19
48 49 49 47 49 50 47 49 43 48 48 13 11
48 48 49 49 49 49 47 47 49 ISS 50 )54 47)53 49 53 43 46 48 51 51 )54
47 49 48 47 51 53
)49 50 49 47 51 53
5T 3Γ
51 45 49 52 28 17 28 23 24 13
46 48 46 45 50 50 47 49 43 46 49 26
51 45 49 51 27 12 21
46 48 46 45 50 50 49 $59
)Π )!3 54 29
21
30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 119 161
pro Spalte
$ = Maximalwerte pro Zeile.
II
0.075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.815 0.875 0.915 0.975 .015 .075 .115 .175 .115 .175 .315 .375 .415 1.475 1.515 1.575 1.675 1.715 1.775 1.815 1.875 1.975
las
.35 .55 .65 .75 .85 3.65 4ΤΓ 4.3 4.9 5.5 6.3 8.5 0 11.5 15.5 53.5 83.5
126
Jeder K o e f f i z i e n t zeigt die Korrelation zwischen der Abstraktheits- und Häufigkeitsverteilung bis einschließlich zu dem Wert der Skalierung in der gleichen Z e i l e bzw. Spalte, zu dem der K o e f f i z i e n t in der Tafel steht: Auf der Grundlage von 1 84 Counts, die man zu den Obergrenzen .175 1 als Zeilenwert und ' 4 ' a l s Spaltenwert erhält, 7 " » ) errechnet sich e i n Korrelat i o n s k o e f f i z i e n t von . 3 9 ' . A l l e darüberllegenden Z e i l e n - und Spaltenwerte werden abgetrennt, und durch eine schrittweise Verringerung dieser Menge abgeschnittener Werte läBt sich die Dynamik des Korrelationskoeffizienten bei veränderlichen Obergrenzen in den Z e i l e n b z w . Spalten darstellen. Tendenziell ist eine Steigerung der K o e f f i z i e n t e n mit wachsenden Obergrenzen in den Spalten zu erkennen. Die jew e i l s höchsten Werte sind pro Spalte unterstrichen und pro Z e i l e mit einem vorangestellten Dollarzeichen gekennzeichnet. 8 ° > Die maximalen Spaltenwerte erhöhen sich von links oben nach rechts unten, und der Verlauf v o l l z i e h t sich in drei Stufen ( ' 0 . 2 7 5 ' / ' 0 . 6 7 5 ' / ' 5 . 5 ' ) in gleicher Richtung. Ausnahmen bilden die Korrelationswerte auf der Basis der Counts bis zum -Wert = 15.5/H-Wert = 100' und -Wert = 8.5/H-Wert = 2 6 1 ' , w e l c h e z u g l e i c h die insgesamt höchsten Korrelationskoe f f i z i z i e n t e n zum betrachteten Variablenpaar d a r s t e l l e n . 8 i > Bei den maximalen Zeilenwerten ist zwar e b e n f a l l s eine Tendenz von oben links nach unten rechts zu erkennen, aber der Anstieg der maximalen Werte pro Z e i l e ist analog der generellen Entwicklung der K o e f f i z i e n t e n w e l l e n f ö r m i g . V ö l l i g entgegengesetzt zu dieser Dynamik beeinflussen die beiden höchsten -Werte die Höhe des Korrelationskoeffizienten. Dieser f ä l l t 79) V g l . Tab. 20, S. 118 f. dieser Arbeit: Die Addition a l l e r Counts vom -Wert = 0.075/H-Wert = 0 bis zum A-Wert = 0.175/H-Wert = 4 ergibt 1884. 80) Bei gleichen Werten in der Tabelle ergeben sich die Maxima, wenn man auch die dritte (in der Tafel nicht eingetragene) Stelle der K o e f f i z i e n t e n berücksichtigt. 81) Die genauen Werte sind: .5437' (zu -Wert = 15.5/ -Wert = 100') und ' 0 . 5 9 4 7 ' (zu -Wert = 8.5/H-Wert = 261' ) .
127
zu a l l e n Counts bis zu den Obergrenzen ' 5 3 . 5 ' oder ' 8 3 . 5 ' bei gleichzeitigen mittleren und hohen -Werten immer weit hinter die übrigen Spaltenwerte zurück. Der oben errechnete Gesamtk o r r e l a t i o n s k o e f f i z i e n t (= 0 . 2 2 5 9 ) zu a l l e n Substantiven, die einen A- und -Wert besitzen, ist also nur deshalb so niedrig, w e i l die beiden höchsten -Werte den K o e f f i z i e n t e n sehr negativ beeinflussen. Würde man diese AusreiBer bei der Koeffizientenberechnung auslassen, so würde sich der Korrelationskoeffizient mehr als verdoppeln: .54 1 zum -Wert = 15.5/HWert = 2 6 1 ' . Zwar läßt sich der K o e f f i z i e n t zu den Grenzen -Wert = 8.5/H-Wert = 261' noch optimieren (der K o e f f i z i e n t .59 1 bedeutet eine Steigerung gegenüber dem Gesamtkoeffizienten um das 2 . 6 f a c h e ) , aber nach Inspektion der Gesamtverteilung der Korrelationskoeffizienten in der Tabelle 22 ist ein Cut hinter dem A-Wert ' 1 5 . 5 ' als sinnvoll anzusehen. Einen vergleichbaren E i n f l u ß der höchsten Spaltenwerte ( ' 1 4 4 ' , ' 2 6 1 ' ) findet sich nur zu mittleren -Werten ( .575 1 '6.3'); jedoch lohnt hier der Cut nicht, w e i l die Korrelationsk o e f f i z i e n t e n bei Einbeziehung der hohen -Werte wieder ansteigen. Wenn man berücksichtigt, daß man den K o e f f i z i e n t e n zu a l l e n Rohdaten (= . 2 2 1 ) als Beleg für einen sehr geringen Zusammenhang zwischen den Variablen 'Abstraktheit' und 'Häufigkeit' interpretieren würde, so laßt sich ersehen, wie wichtig die wiederholte Datenexploration ist. Nicht nur durch die Transformation der Verteilungen, sondern auch durch das Weglassen der Extremwerte (Ausreißer) kann der Zusammenhang zwischen den beiden Variablen angemessen beurteilt werden. Die Ursache für die starke Wandlung des Korrelationskoeffizienten liegt in der großen Entfernung der beiden höchsten -Werte von den restlichen Variablenwerten. Wahrend die Distanz zwischen unteren -Werten nur 0 . 0 5 betragt, im mittleren Bereich zwischen 0 . 2 und 0.8 und bei hohen -Werten bis maximal 3 steigt ( ' 1 2 . 5 ' auf ' 1 5 . 5 ' ) , ist der Sprung von
12
' 1 5 . 5 ' ( -Wert zu "Mensch") auf ' 5 3 . 5 ' ( -Wert zu "Lebewesen") mit einer Distanz von 38 gewaltig. Zwar gibt es auch bezüglich der Variablen ' H ä u f i g k e i t 1 große Distanzen (117 bei 44' ("Gesamtheit") auf '261' ( " T e i l " ) ) , aber diese D i f f e renz bedeutet gegenüber den Distanzen zwischen den unteren -Werten ( z . B . von ' 3 ' auf ' 4 ' ) nur das l17fache, während der Sprung von ' 1 5 . 5 ' auf ' 5 3 . 5 ' das 720fache gegenüber den direkten Nachbarwerten der Abstraktheitsskalierung im unteren Bereich ( z . B . .175 1 z u . 2 2 5 1 ) darstellt. Diese Argumentation muß auch als ein Hinweis auf die Fragwürdigkeit der verwendeten Skalierungen, von denen a l l e weiteren Berechnungen abhängen, verstanden werden. Eine Häufigkeitserhöhung von ' 4 ' auf ' 6 ' ist ebenso gewichtet wie eine von ' 4 5 ' auf ' 4 7 ' , aber die in beiden Fällen gleiche Distanz von Zwei ist bei dem ersten Wertepaar viel bedeutsamer. Bei den Rechenoperationen wird diese unterschiedliche Bedeutung aber nur berücksichtigt, wenn die Verteilungswerte gewurzelt werden. Gleiches t r i f f t auf die ermittelten -Werte zu, wobei hier außerdem noch die Methode der Abstraktheitsbestimmung, die in V l neu entwickelt worden ist, zu prüfen ist. Das Wort "Wesen", welches den A-Wert ' 8 3 . 5 ' besitzt, hat zu einem Wort mit dem -Wert ' 0 . 1 7 5 ' eine D i f f e r e n z von 8 3 . 3 2 5 . 8 2 ) ob dies gerechtfertigt ist b z w . ob derartig große Abstände praktikabel sind, läßt sich nicht ohne weiteres beurteilen. Nur das erfolgreiche Arbeiten mit der ermittelten Skalierung der AWerte kann die Validität der vorgestellten Bestimmungsmethode erhöhen. 82) Betrachtet man die ermittelten -Werte als Einträge in einer Verhältnisskala, so läßt sich auch formulieren, daß "Wesen" 477mal stärker abstrakt bewertet wird als ein Wort mit dem -Wert .175 1 (Bei Intervallskalen - Beis p i e l : Temperaturskala - können derartige Vergleiche nicht durchgeführt werden, weil man die Werte nicht dividieren darf: Ein Temperaturwert von 20 Grad bedeutet gegenüber einem Wert von 10 Grad nicht, daß es doppelt so warm i s t ) . W i l l man - wie in V l geschehen - Divisionsverfahren zur Abstraktheitsbestimmung einsetzen, darf man die aus der Ebenenbildung resultierenden Ebenenwerte nicht als Ordnungszahlen auffassen, sondern als natürl i c h e Zahlen; vgl. S. 21 dieser Arbeit, Anm. 15.
129
6.5.1.3
Die Beurteilung der Resultate
D i e formulierte Arbeitshypothese z u diesem Variablenpaar 8 3 > kann anhand der durchgeführten Untersuchungen nicht f a l s i f i ziert werden. Sowohl der Weg über die Datentransformationen als auch die systematische Exploration der Dynamik der Korrelationskoeffizientenstruktur in Abhängigkeit von verschiedenen Substantivmengen hat zufriedenstellende Resultate erbracht. Geht man von einer unreflektierten Applikation der Koeffizientenberechnung aus, so erhält man einen Anteil erklärter Varianz von 5.10 % . S 4 > Durch Datentransformationen wird dieser Anteil auf maximal 39.27 % gesteigert und durch den Extremwertcut bei den -Werten auf 35.36 % . Die Ä h n l i c h keit der beiden Resultate kann als eine gegenseitige Bestätigung aufgefaßt werden und wird außerdem durch die v i s u e l l e Inspektion der Tabelle 20 unterstützt, in der die Countverteilung eindeutig zeigt, daß niedrige -Werte häufig mit niedrigen -Werten zusammenfallen und hohe -Werte mit hohen HWerten.es> Jedoch dürfte es sich aufgrund eines Anteils erklärter Varianz von knapp 40 % lohnen, die aufgestellte Arbeitshypothese anhand ähnlicher Daten, die mit anderen Methoden oder anhand anderer Corpora erhoben werden, zu wiederholen. Auch ist zu berücksichtigen, daß die Korrelationskoeffizientenbe83) V g l . Kap. l dieser Arbeit. 84) Zur Berechnung der erklärten Varianz v g l . S. 111 dieser Arbeit, Anm. 64. 85) Eine Kombination beider Analysemethoden erhält man, indem man die Dynamik der K o e f f i z i e n t e n zu den gewurzelten bzw. doppelt gewurzelten Verteilungen errechnet. Die entsprechenden T a f e l n sind im Anhang ( T a b e l l e n A8 bis A l l ) enthalten; die Resultate ergeben aber im wesentlichen nichts Neues. Die -Werte verbessern mit jedem Wurzelungsschritt den K o e f f i z i e n t e n , und die beiden Extremwerte können nach doppelter Wurzelung nicht mehr als Ausreißer betrachtet werden. Die Variable ' H ä u f i g k e i t 1 erfährt bei doppelter Wurzelung eine leichte tiberkorrektur, was sich vor a l l e m bei der Berücksichtigung hoher -Werte in k l e i n e r e n Koeffizienten gegenüber den K o e f f i z i e n t e n bei der einfach gewurzelten Häufigkeitsverteilung ausdrückt.
130
rechnung zu den Rohdaten nur dann zu einem guten K o e f f i z i e n ten gelangt, wenn man die Ausreißer zur 'Abstraktheit' weglaßt. Dafür mag es zwar vernünftige statistische Gründe geben, aber es muß natürlich analysiert werden, ob es inhaltliche Argumente, lexikographische Mängel des untersuchten Wörterbuchs oder methodische D e f i z i t e in V l gibt, die für die extremen -Werte verantwortlich sind. Diese Fragen s o l l e n in Kapitel 7.1 problematisiert werden, wenn unter Einbeziehung der Korrelationskoeffizientenbestimmung zum Variablenpaar 'Abstraktheit/Polysemie' eine kritische R e f l e x i o n der hier applizierten Methode der Abstraktheitsbestimmung erfolgen wird.
6.5.2
Das Variablenpaar 'Abstraktheit/Polysemie'
Bei der Analyse dieses Variablenpaares s o l l die Dynamik des Korrelationskoeffizienten bei wachsenden A- und P-Werten ausgelassen werden, weil der Zusammenhang zwischen beiden Variablen nur sehr schwach ausgeprägt ist. Dennoch muß die Countverteilung analysiert werden, um die oben beobachteten Eigenschaften der Distribution der -Werte bestätigen oder ergänzen zu können und zu einer abschließenden Interpretation des Attributs 'Abstraktheit 1 zu gelangen. Für die Variable 'Polysemie 1 sind supplementäre Datenexplorationen notwendig, weil es nach der Transformation der Daten und nach Errechnung der Schiefemaße teilweise zu widersprüchlichen Resultaten gekommen ist. Durch einen inhaltlichen Vergleich der Substantive, die die Form der Verteilungen beider Variablen stark beeinflussen, s o l l e n die numerischen und graphischen Interpretationen ergänzt werden. Die Countverteilung zu den Rohdaten 6 > wird in einer 86) V g l . Tab. A7 im Anhang. Die Tabelle ist mit H i l f e eines SPSS-X-Programms erstellt worden; v g l . SPSS-X 1983, S. 571 ff. Eine zusammenfassende Darstellung liefert Tab. 23, S. 132 dieser Arbeit.
131
Tafel dargestellt, so daß sich anhand der semigraphischen Darstellungen die Zusammenhänge zwischen den Variablen und die Bedeutungen einzelner Werte besser veranschaulichen l a s s e n . 8 7 1
6.5.2.1
Die Verteilung der Counts
In der Tabelle 23 8 ' sind die Eintragungen zum A-Wert '-' markiert, w e i l sie bei der Berechnung der Korrelationskoeffizienten nicht berücksichtigt worden sind. Von den übrigen Werten findet man die höchsten Counts zum Wertepaar -Wert = 1 0.075/H-Wert = l (567 Eintragungen). In der Spalte zum PWert '!' stehen bei niedrigen -Werten immer die höchsten Counts, die mit steigenden P-Werten langsam a b f a l l e n . Die AWerte haben bei ' 0 . 0 7 5 ' die meisten Eintragungen, und die Abnahme erfolgt mit steigenden -Werten w e l l e n f ö r m i g . Teilt man die Tafel in vier Quadranten, so liegen die Substantive mit hohen -Werten fast ausschließlich im dritten Quadranten, d . h . im unteren bis mittleren Polysemiewertebereich ( z . B . ' 8 3 . 5 ' mit P-Wert ' 7 ' ) , enthalten aber nie den P-Wert ' und nur selten den P-Wert ' ! ' . Ebenso existieren v i e l e Substantive mit hohen P- und niedrigen A-Werten. > a l s auch d i e Korrelationskoeffizientendynamik I C Q ) e r s t e l l t werden, u m durch d i e semigraphische Repräsentation der Daten einen überblick über die Form und Struktur der Distributionen b z w . über die Bedeutungen individueller Variablenwerte zu e r h a l t e n . i ° i > Dazu s o l l eine A u f l i s t u n g der häufigsten und polysemsten Substantive des Master Corpus die semantischen und lexikologischen Dependenzen einzelner Lexeme aufzeigen. 98) V g l . Kap. 6 . 4 . 3 dieser Arbeit. 99) V g l . Tab. 25, S. 138 dieser Arbeit. Die Tabelle ist mit H i l f e eines SPSS-X Programms erstellt worden; v g l . SPSS-X 1983, S. 571 ff. 100) V g l . Tab. 27, S. 143 dieser Arbeit. Die Korrelationskoe f f i z i e n t e n sind durch ein zu diesem Zweck geschriebenes Commodore-BASIC-Programm errechnet worden. Die semantische Richtigkeit des Programms läßt sich durch einen Vergleich des Gesamtkoeffizienten belegen. 101) In den Tabellen 25 und 27 enthalten die Skalierungen nur die Variablenwerte, die in den Verteilungen auch Belege haben. Somit bestehen zwischen den hohen Werten numerisch größere Distanzen als in den T a f e l n graphisch dargestellt, z . B . f o l g t in der Skala unterhalb des Häufigkeitswerts '261' nicht ' 2 6 0 ' , sondern der nächste Wert mit einer Eintragung, nämlich ' 2 2 9 ' .
Tabelle 25; nim
l
2
3
4
5
6
7
212 536 1174 77 58 37 14 12 870 1505 U» 301 147 98 48 45 , 75 44 56 27 30 101 1T~6T;;42 27 16 17 12 57 38 33 ΟΓΤ9\16 10 4 2 1 2 6 1 8 1Π11 Tfl\ 4 5 13 11 23 10 tii 10 T 2 7 11 8 β 2 6 10 5 7 8 3 2 3 7 8 4 5 3 3 2 1 4 5 3 4 Li 3 2 l 2 _2__!D 3 4 5 4 1 ΠΠΤ_
Ο l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261
l l
2 l CLT 2 l ^
1
β
9 10 Π 12 13 14 15 16 17 18 19 20 21 22 29
5 8 3 27 16 8 14 15 9 9 7 8 13 6 4 3.A3\ 2 Ϊ 3 3 2 2 l
2 3
l
l
2 2 l 6 3 2 2 4 l 2 2 4 8 4 l 2 2 1 1 2 3 1 1
l l
l
2 4 1 2 1 1 1 2
l
l
l
__ ,
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
114! 367] 106' 431 24! 121 10! 7! S] 4; 31 l! 21 U K ( l li ! ( 11 l (
25 26 27 28 29 30 31 32 35 36 37 39 40 43
3 · < l < ! 2 l J ! l l 4 l
45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261
l l l l l 2 J l l l l l l l l l l l l
23 24
44
II
V
0
Countverteilung zur ' H u f i g k e i t ' und ' P o l y s e m i e '
0 l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29 1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 l l l
Erl&uterungen zu Tab. 25: II = P-Werte III - H-Werte I = Mittelwerte pro Z e i l e
IV = Zeilensummen
V
= Spaltensununen = Mittelwerte pro Spalte,
l l
:
139
6.5.3.1
Die Verteilung der Counts
In der Tabelle 25 1 0 2 1 enthält die linke obere Ecke im zweiten Quadranten der Kontingenztafel die höchsten Counteintragungen. Dabei tritt das Merkmalpaar -Wert = 1/P-Wert = l ' am häufigsten (1505mal) auf. Jeweils von der Variablen '!' ausgehend verringern sich die Counts mit steigenden HWerten und mit steigenden P-Werten. Zum Wert ' N u l l 1 hin ist bei beiden Variablen ebenfalls ein A b f a l l der Counts zu verzeichnen. Die höchsten P-Werte treten selten mit niedrigen HWerten auf (die rechte obere Ecke des ersten Quadranten weist eine zumindest kleine freie Fläche a u f ) , sondern verteilen sich im mittleren Bereich der -Werte. Bei den hohen H-Werten existieren nur drei Substantive, die gleichzeitig niedrige PWerte enthalten. ° 3 > Ohne diese drei Ausreißer wäre die linke untere Ecke relativ f r e i . Der zweite Quadrant weist eine sehr hohe Wertedichte auf und da der vierte Quadrant nur wenige Belege enthält, kann man die Distribution der Counts in der Kontingenztafel zusammenfassend folgendermaßen beschreiben: Im Master Corpus der untersuchten Substantive existieren kaum Wörter, die gleichzeitig hohe H- und P-Werte enthalten, aber es liegen viele Substantive im unteren und mittleren Bereich der Werteverteilung v o r . 1 0 * ) Dennoch zeigt diese Kontingenztafel die relative Aussagekraft des Korrelationskoeffizienten zu den Rohdaten, weil die Konstellation zwischen den Variablen in der graphischen Darstellung deut102) V g l . S. 138 dieser Arbeit. 103) Es handelt sich hier um folgende Wörter (in Klammern die -Werte): "Gesamtheit" (144), "@Sache" (145), "©Person" ( 2 2 9 ) . Die mit einem Klammeraffen gekennzeichneten Wörter sind Ersatzkonstituenten (vgl. Kap. 2 . 2 . 9 dieser Arbeit), die die ErklärungsWörter "etwas, was" bzw. " j m d . , der" substituieren. 104) Problematisch ist in diesem Zusammenhang natürlich die Verwendung der Termini 'hoch' bzw. ' t i e f . Wenn ein PWert von ' 6 ' bereits als hoch angesehen werden würde, dann gäbe es viele Substantive, die neben einem hohen PWert auch einen hohen -Wert enthalten. Maßgebend für die hier verwendete Terminologie soll die Einteilung in die vier Quadranten sein.
140
l icher zu erkennen ist als es die erklärte Varianz zu den Rohdaten (5.39 %) ausdrückt. Allerdings ergibt der Eintrag der Mittelwerte pro Z e i l e und pro Spalte l ö s ) für die Mittelwertverbindungslinien Verl ä u f e , die eher den Linienverläufen zum Variablenpaar 'Abstraktheit/ Polysemie 1 i Q t > a l s z u m Variablenpaar 'Abstraktheit/Häufigkeit1 ? ' ähneln. Es kommt zu keinen Überschneidungen der Linien, und die Mittelwerte pro Spalte liegen nie höher als bis zum -Wert 3 ' . Zwar steigen die Mittelwerte pro Spalte insgesamt an, aber für höhere Spaltenwerte ist dieser Anstieg zu f l a c h , und die Mittelwertverbindungslinie wird bei steigenden Spaltenwerten zunehmend durch Mäanderisierung geprägt. Kur bis zum P-Wert ' 8 ' erhöht sich der Mittelwert kontinuierlich. Ä h n l i c h verhalten sich die Mittelwerte pro Z e i l e , die ebenf a l l s im unteren Bereich (bis zum H-Wert '11') ständig ansteigen, dann aber mit größer werdenden -Werten auch wachsende Amplituden in der Mittelwertschwankung aufweisen, so daß man fast schon von einem regeiförmigen Aufschaukeln der Amplituden sprechen kann. Tendenziell werden die Mittelwerte mit zunehmenden -Werten größer, erreichen aber nie mehr als den PWert ' 1 3 ' . Betrachtet man die gesamte Verteilung, so ergibt sich für die Lage der beiden Regressionskurven eine relativ große Schere, die auf keinen wesentlichen linearen Zusammenhang zwischen den Variablen hinweist. Die Tabelle 26 i o e > zeigt die vierzig Substantive mit den höchsten H- bzw. P-Werten. Nur ein Lexem ( " L I N I E " ) gehört zu beiden Gruppen und ist deshalb in den Spalten I und IV durch Großbuchstaben markiert. Die P-Werte der häufigsten Substantive sind sehr breit gestreut; elf Wörter besitzen einen P105) Wenn ein Mittelwert mit einem Count zusammenfällt, so ist die Markierung für die Spalten ( ) und Z e i l e n (I) numerisch immer unterhalb der Counteintragung (in Spalten links, in Zeilen oberhalb) e r f o l g t . 106) V g l . Kap. 6.5.1.1 dieser Arbeit. 107) V g l . Kap. 6 . 5 . 2 . 1 dieser Arbeit. 108) V g l . S. 141 dieser Arbeit.
141
Tabelle 26:
Substantive mit hohen H- und P-Werten
I 1 2 3 4 5 6 7 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 36 39 40
Teil gPerson PSache Gesamtheit Art Stelle Person Mensch Gegenstand Gruppe Raum Stück Zustand Vorrichtung Pflanze Menge Bereich Gerat Äußerung Form Stoff Weise Ort Tier Fähigkeit Einheit Handlung Zeichen Wort Beschaffenheit Abschnitt Anzahl Gebäude LINIE Gebiet Darstellung Wesen Platz Fläche Zeit
II
III
261 229
10 0 0 1 11 12 7 5 7 13 6 12 7 3 2 5 5 4 5 10 5 3 9 1 1 6 8 7 11 0 11 3 8 17 4 4 7 11 4 11
145 144 143 115 100 85 4 76 68 65 55 55 54 54 54 53 53 49 48 47 45 44 44 44 43 40 40 40 40 39 37 36 36 36 35 35 32 31
IV
Zug Gang Element Seite Satz Runde Spiel Schlag Modell Sinn Arbeit Alte Stufe Stock Stand Spiegel Schluß LINIE Härte Ausdruck Strich Strenge Stimme Spitze Schnitt Punkt Lager Lage Grund Galerie Ansatz Welt Verbindung Stärke Schale Ruf Moral Kreis Haus Grosse
Erläuterungen zu Tab. 26: I II III IV V VI
= Substantive mit höchsten H-Werten = H-Werte = P-Werte = Substantive mit höchsten P-Werten = P-Werte = H-Werte.
Substantive in Großbuchstaben stehen sowohl in Spalte I als auch in Spalte IV. Die mit einem Klammeraffen gekennzeichneten Wörter sind Ersatzkernkonsrituenten.
V
VI
29 22 21 20 20 20 19 19 19 18 18 18 17 17 17
8 13 7 19 12 4 14 13 3 9 20 0 16 5 10
17 17 17 16 16 16 16 16 16 16 16 16 16 16 15 15 15 15 15 15 15 15 15
36 3 19 3 3 4 6 3 27 5 10 6 0 3 4 29 9 2 4 1 13 8 21
17 17
2 2
142
Wert größer als ' 9 ' und vierzehn Wörter einen P-Wert kleiner als ' 5 ' . Ähnlich sieht es bei den Substantiven mit hohen PWerten aus: Fünfzehn Wörter besitzen -Werte, die größer als ' 9 ' sind und sechzehn Wörter einen P-Wert, der niedriger als ' 5 ' ist. Die verwendeten Ersatzkernkonstituenten, die aus lexikologischen und lexikographischen Überlegungen in die Untersuchungen einbezogen worden sind, beeinflussen die Berechnungen des Korrelationskoeffizienten natürlich sehr negativ, aber auch "Gesamtheit" und " P f l a n z e " weisen niedrige PWerte auf. Es wird in Kapitel 7 zu untersuchen sein, ob lexikographische Mangel des DUDUNI die Ursache für zu niedrige P-Werte sein können.
6.5.3.2
Die Verteilung der dynamischen K o e f f i z i e n t e n
In der Tabelle 27 i ° - ist die Entwicklung der Korrelationsk o e f f i z i e n t e n mit steigenden Variablenwerten dargestel1t.11 > Die Maximalwerte pro Z e i l e finden sich fast immer zu den beiden höchsten P-Werten als Obergrenze, wobei die D i f f e r e n z e n zwischen den Spaltenwerten unter ' 2 2 ' und ' 2 9 ' nur minimal s i n d . 1 1 1 ' Die Maximalwerte steigen zunächst kontinuierlich an (von den H-Werten ' 4 ' bis ' 1 4 ' ) / liegen dann etwa auf gleicher Höhe, erreichen zum -Wert ' 2 ' als Zeilenobergrenze den höchsten K o e f f i z i e n t e n und f a l l e n mit weiter zunehmenden Zeilenwerten a l l m ä h l i c h wieder ab. Der jeweilige Maximalwert pro Spalte klettert mit wachsenden P-Werten von ' 0 . 2 3 6 ' ( -Wert = 4/P-Wert = 4 als Grenze) 109) V g l . S. 143 dieser Arbeit. 110) In den Spalten ist ab dem P-Wert ' 4 ' jeder zweite Wert und der Höchstwert ' 2 9 ' vertreten; die Z e i l e n enthalten bei unteren und mittleren -Werten jeden zweiten und bei oberen -Werten ausgewählte Werte. Die eingetragenen K o e f f i z i e n t e n sind mit 1000 multipliziert und auf drei S t e l l e n begrenzt, so daß der Wert '189' als '0.189' zu lesen ist. 111) Die höchsten Werte pro Spalte sind unterstrichen und die pro Z e i l e mit einem vorangestellten Dollarzeichen gekennzeichnet.
Tabelle 27: ,1 I
0
1
Korrelat i onskoe f f i z i entendynamik 1 3 4
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 1 0
1
2
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22
29
189
227
244
251
258
254
260
258
261
$261 261
226
271
280
283
297
298
305
304
305
1305 305
236
297
306
308
320
335
342
340
340
342 $346
229
296
309
310
324
344
355
358
357
359 {362
225
293
307
307
322
345
354
356
359
360 $362
224
288
304
304
319
342
353
354
364
369 $371
221
283
298
297
311
332
342
347
357
362 $363
216
279
195
300
314
341
349
353
362
366 $367
213
273
293
300
312
336
343
355
367
371 $372
218
274
290
296
307
337
346
357
369
372 $373
217
273
290
296
306
335
344
355
367
370 $371
217
272
293
298
310
342
350
360
371
374 $375
217
275
299
302
313
343
355
365
375
378 $378
215
268
292
293
304
337
352
361
370
373 $373
216 216
272 272
292 294
293 294
306 310
337 340
352 354
360 362
369 370
372 $372 373 $373
219
270
294
292
308
337
350
363
371
$373 373
210 210
261 261
286 289
285 287
307 308
333 334
346 346
357 357
365 365
$367 367 $367 366
198
251
279
279
299
324
335
347
354
$355 355
197
248
275
275
294
319
330
341
347
$349 349
198
246
271
274
292
315
325
336
342
$344 343
192
239
263
265
281
302
311
321
327
$329 328
192
240
262
264
284
304
312
321
326
$328 327
192
240
262
262
282
305
312
320
325
$326 326
192 192 192 159 132 095 095 3 4
238 238 238 210 186 149 149 5 6
256 256 256 234 213 178 178 7 8
256 256 256 234 214 181 180
274 277 276 258 241 210 206
302 303 299 281 264 232 224 16 17
310 310 305 287 270 238 229 18 19
$315 314 314 $315 309 $310 291 $292 $274 274 241 $242 232 $232 20 21 22
9 10
296 297 294 276 259 228 221 12 13 14 15
315 314 309 291 274 242 232 29
Erläuterungen zu Tab. 27: I
= P-Werte = Maximalwerte pro Spalte
II = H-Werte $ = Maximalwerte pro Z e i l e
II 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261
144
auf 0.37 ( -Wert = 28/P-Wert = 2 9 ) . Je größer der P-Wert ist, desto größer ist auch der -Wert, der den höchsten Korrelationskoeffizienten pro Spalte b e s t i m m t . 1 1 2 ' Betrachtet man die Gesamtdynamik der Korrelationskoeffizienten, so lassen sich keine ausgesprochenen Ausreißer finden. L e d i g l i c h zwischen den -Werten 43' ( " A r t " ) und 44 1 ("Gesamtheit") liegt zu a l l e n K o e f f i z i e n t e n ein größerer Sprung vor. Ein Cut dieser Werte würde den Gesamtkoeffizienten allerdings nur von .2321 1 (Berücksichtigung a l l e r 7179 Substantive) auf .3095 1 (zu den Variablenwerten -Wert - 143/P-Wert = 2 9 ' ) verbessern. Die Ursache liegt in der großen P-Wertedifferenz zwischen den Wörtern "Gesamtheit" (P-Wert = 1) und "Art" (PWert = 11) . t ! 3 > Zur Variablen ' P o l y s e m i e 1 ist ein Extremwertcut an keinem Punkt gerechtfertigt, weil die Maximalkoeffizienten pro Z e i l e immer zu den höchsten P-Werten a u f t r e t e n . 1 1 4 ' Betrachtet man die Tafel nur bis zum -Wert = 28/P-Wert = 2 9 ' , so steigen innerhalb dieses Bereichs nicht nur der Maximalkoeffizient, sondern a l l e K o e f f i z i e n t e n bei wachsenden H- bzw. P-Werten.
6.5.3.3
Die Beurteilung der Resultate
Berücksichtigt man ausschließlich den Gesamtkorrelations· k o e f f i z i e n t e n , so muß unter Berücksichtigung der hier benutzten Methoden die Arbeitshypothese zum Variablenpaar
112) Lediglich zum P-Wert 6 1 liegt der höchste K o e f f i zient pro Spalte in einer niedrigeren Z e i l e ( ' 1 0 ' ) als der vorherige; allerdings sind die benachbarten höheren Koeffizienten in der gleichen Spalte (zu den H-Werten ' 1 2 ' und ' 1 4 ' ) nur geringfügig niedriger als der Koeffizient .355' zu -Wert = 10/P-Wert = 16'. 113) V g l . Tab. 26, S. 141 dieser Arbeit. 114) Berechnet man die Korrelationskoeffizientendynamik zu den PS- oder PSS-Werten, so verringern sich sämtliche K o e f f i z i e n t e n gegenüber den Resultaten zu den P-Werten. Die dazugehörigen Tafeln sind in den Tabellen 12 bis AI5 im Anhang enthalten.
145
'Häufigkeit/Polysemie'
i i s i zurückgewiesen werden. D e r K o -
e f f i z i e n t zu den Rohdaten erreicht l e d i g l i c h einen Anteil erklärter Varianz von 5.39 % . i i f c i Dieser läßt sich durch Datentransformationen auf höchstens 12.66 % (P-/HS-Werte) steigern, und durch die Ermittlung des maximalen Korrelationskoe f f i z i e n t e n in der Kontingenztafel auf 14.32 % ( -Wert ' 2 8 ' / P Wert ' 2 9 ' ) . Für einen eindeutigen Zusammenhang dieser beiden Variablen muß dies als zu wenig angesehen werden. Allerdings existieren innerhalb der ersten beiden Quadranten der Kontingenztafein mehrere a u f f ä l l i g e Tendenzen. Zu 7130 Substantiven (bis zum H-Wert ' 2 8 ' ) bestätigt sich die Annahme, daß die untersuchten Wörter mit zunehmenden HWerten auch steigende P-Werte enthalten. Die Mittelwertverbindungslinien verlaufen zu den Spalten bzw. Zeilen im Bereich der unteren Variablenwerte relativ p a r a l l e l und verzeichnen einen kontinuierlichen Anstieg pro Z e i l e bis zum -Wert 1' und pro Spalte bis zum P-Wert ' 8 ' . Im ersten Quadranten existiert eine starke Akkumulation der Counts, insbesondere in der linken oberen Ecke. Somit steigen bis zu einem Limes (H-Wert = 2 8 ) die H- und P-Werte gleichermaßen, und für kleine Variablenwerte g i l t , daß niedrige Hilfe diese taf e l
-Werte mit niedrigen P-Werten z u s a m m e n f a l l e n . 1 1 7 ' Mit einer Korrelationskoeffizientenberechnung läßt sich R e l a t i o n nicht zeigen; jedoch belegen die Kontingenzzur Countverteilung und die Mittelwertverbindungslinien
diesen Zusammenhang zwischen beiden Variablen. Beim Merkmal 'Polysemie' ist die Verwendung von Äquidistanzen zur Polysemiedifferenzierung unter linguistischen Aspekten problematisiert w o r d e n . 1 1 8 ' Für die Berechnung der Korre115) V g l . Kap. l dieser Arbeit. 116) Zur Berechnung der erklärten Varianz vgl. S. 111 dieser Arbeit, Anm. 64. 117) Es scheint eher so zu sein, daß die Formulierung der Arbeitshypothese "Je häufiger ein Substantiv desto umfangreicher die Polysemie" geändert werden müßte in: Je seltener ein Substantiv vorkommt, desto weniger Bedeutungen hat es. 118) Vgl. Kap. 6 . 2 . 2 dieser Arbeit.
146
lationskoeffizienten zwischen 'Polysemie 1 und 'Abstraktheit 1 bzw. 'Häufigkeit' haben diese Äquidistanzen jedoch keinen negativen E i n f l u ß auf die Höhe des K o e f f i z i e n t e n . In nahezu a l l e n Fällen führen die gewurzelten P-Werte zu schlechteren Koeffizienten im Zusammenhang mit den beiden anderen Variablen als die R o h d a t e n . 1 1 9 ) Somit widerspricht die Form der Polysemieverteilung, die wegen ihrer Schiefe aus statistischen Überlegungen eine Transformation verlangt, den Resultaten, die bei der Koeffizientenberechnung erzielt werden. Allerdings ist in Frage zu stellen, ob das Resultat einer empirischen Untersuchung - hier: die Korrelationskoeffizienten - überhaupt nachtraglich die applizierte Methode mit H i l f e eines Vergleichs der j e w e i l s höchsten K o e f f i z i e n t e n q u a l i f i z i e r e n sollte. Angesichts der vorliegenden Ergebnisse lassen sich die Widersprüche zwischen den inhaltlich motivierten Argumenten bzw. Schiefemaßen und den Korrelationskoeffizientenvergleichen nicht eindeutig auflösen. Zum Attribut 'Häufigkeit 1 sind die äquidistanten Skalierungen ebenfalls unter inhaltlichen Gesichtspunkten nicht zu rechtfertigen, wenn man eine Überbewertung hoher -Werte vermeiden w i l l . Unter statistischen Betrachtungen ist eine Datentransformation a l l e i n wegen der großen Schiefe der Verteilung gerechtfertigt. Während die Wurzelung der -Werte für den Gesamtkorrelationskoeffizienten positive Auswirkungen hat, läßt sich anhand der Koeffizientendynamik zu den gewurzelten Verteilungen i 2 0 ) eine Verschiebung des maximalen Korrelationskoeffizienten pro Z e i l e zu höheren -Werten, eine N i v e l l i e rung der Differenzen zwischen den Koeffizienten und eine Verbesserung der Koeffizienten zu hohen -Werten feststellen. Dagegen verschlechtert eine doppelte Wurzelung die H-Werteverteilung in jedem Falle (die Koeffizienten zu niedrigen H119) V g l . Kap. 6 . 4 . 2 und 6 . 4 . 3 dieser Arbeit. 120) V g l . Tabellen A12 bis A15 im Anhang.
147
Werten werden auch schon durch die einfache Würze lung negativ b e e i n f l u ß t ) . Der maximale Korrelationskoeffizient zum Variablenpaar 'Häufigkeit/Polysemie 1 wird jedoch bei keinem Transformationsschritt von einem der K o e f f i z i e n t e n in den Tafeln erreicht.
6.5.4
Fazit aus den Berechnungen
Für die Beurteilung der drei Arbeitshypothesen sind verschiedene Methoden der Datendeskription, -exploration und -interpretation eingesetzt worden. Dabei hat sich erwiesen, daß die m u l t i p l e n Datenanalysen unbedingt notwendig sind, um eine umfassende Interpretation der Zusammenhänge zwischen den Variablen vornehmen zu können. Hütte man die ermittelten Daten einfach mit einem der üblichen Statistikprogramme analysiert, um die Korrelationskoeffizienten ermitteln zu lassen, wäre in a l l e n F ä l l e n eine relativ große Unabhängigkeit zwischen den Variablen herausgekommen. Es ist auch deutlich geworden, daß die vorgenommenen Datentransformationen kein statistischer Kunstgriff s i n d , 1 2 1 ) sondern das Modell der linearen Korrelation und die Definition der Variablen einen E i n f l u ß auf die Resultate haben und daß Transformationen die Variablen modifizieren, um eine bessere Ausnutzung des M o d e l l s zu gewährleisten. Für Forschungsarbeiten im Bereich der Quantitativen Linguistik ergibt sich daraus das Desiderat, grundsätzlich umfangreiche Datenanalysen und vor a l l e m die Methoden der EDA einzusetzen, w e i l dann die Palette der Eigenschaften von Vertei121) Man kann noch weitere Transformationen vornehmen; dies würde jedoch den Rahmen dieser Arbeit sprengen und über das Z i e l der Wurzelungsoperationen, die extreme Schiefe der Verteilungen zu korrigieren, hinausgehen.
148
lungen bzw. Datenmengen detaillierter eruiert werden kann. Dies gilt insbesondere in bezug auf die Berechnung von Korrelationskoeffizienten, ist aber für andere quantitative Untersuchungen zur Struktur der Sprache in ähnlicher Weise anzustreben. Für die hier vorliegenden Datensätze müssen die Explorationen zu Ende geführt werden, indem eine Reflexion der applizierten Methoden bei der Datenerhebung erfolgt. Nur dann kann der E i n f l u ß von möglicherweise vorliegenden Fehlern in der Datenerhebung (hierunter f a l l e n z . B . die Verwendung von äquidistanten Zählmaßen oder die entwickelte Methode der Abstraktheitsbestimmung) auf die erzielten Resultate richtig eingeschätzt werden.
7.
Die Bewertung der Resultate
In einer abschließenden Betrachtung der drei untersuchten Variablen s o l l e n die Untersuchungsmethoden aus V l, V 2 und V 3 sowie die benutzte Datenbasis, das DUDUNI, einer kritischen R e f l e x i o n unterzogen werden. Neben den unmittelbaren Auswirkungen, die die lexikographischen Kodifikationsprinzipien des Wörterbuchs auf die Untersuchungsresultate haben, wird auch die lexikographische Qualität des DUDUNI zur Diskussion stehen, und es s o l l e n Vorschläge zur Wörterbuchoptimierung gemacht werden.
7.l
Die Abstraktheitsbestimmung
Nach ADMONI erscheinen Abstrakta als unteilbare Gesamtbegriffe, die Merkmale, Zustände, Eigenschaften oder Vorgänge bezeichnen, während Konkreta, zu denen Gattungs-, Stoff-, Eigenund Sammelnamen gehören, etwas Wahrnehmbares, Gegenständliches oder Dinghaftes benennen. 1 ' In ähnlicher Weise werden in der DUDEN-Grammatik 2 > Abstrakta als Begriffswörter definiert, die Nichtgegenständliches, etwas Gedachtes, bezeichnen und von den Konkreta, den Gegenstandswörtern, abzugrenzen s i n d . 3 » Zwar sind die Definitionskriterien in beiden Arbeiten recht unscharf, so werden auch in der DUDEN-Grammatik Gattungsbezeichnungen ("Personen", "Tiere", " P f l a n z e n " , " D i n g e " ) * > als Konkreta betrachtet, die 1) 2) 3) 4)
V g l . Admoni 1982, S. 90 ff. Duden 19 4. V g l . Duden-Grammatik 1984, S. 196 ff. V g l . Duden-Grammatik 19 4, S. 198.
150
Kriterien können aber für eine subjektive Einschätzung des Abstraktheitsgrades von Substantiven h i l f r e i c h sein. Unter den hundert Substantiven, die in V l die höchsten AWerte erhalten, 5 > findet man bei Benutzung der Abgrenzungskriterien der DUDEN-Grammatik sowohl Konkreta ( u . a . "Motor", "Wettkampf", "Fahrzeug", "Wirbeltier", "Foto", "Schreibpapier", "Schriftstück") als auch Abstrakta ( u . a . "Wesen", "Tatsache", "Zustand", "Verlangen", "Einigung", "Masse"). Vergleicht man dagegen eine Auswahl von hundert Substantiven mit dem niedrigsten gemessenen -Wert, . 0 7 1 , * ' so ist ein deutlicher Unterschied zwischen den Substantivgruppen beider Tabellen feststellbar. Die Tabelle A17 beinhaltet überwiegend Konkreta, und man findet nur wenige Wörter, die nach der DUDEN-Grammatik als abstrakt anzusehen sind, z . B . "Kastration", "Kasus", "Kriminalität", "Kündigung" oder "Lähmung". Bei der subjektiven Beurteilung des Abstraktheitsgrades von Substantiven der Tabelle A16 wird deutlich, daß die Mehrdeutigkeit einiger Lexeme eine eindeutige Entscheidung für Konkretheit oder für Abstraktheit verhindert. ? > Bei der Verwendung dieser Wörter in Texten werden vor a l l e m die ko- und kontextuellen Bedingungen den Abstraktheitsgrad des j e w e i l i gen Substantivs beeinflussen oder bestimmen. Jedoch muß man auch in Betracht ziehen, daß die Abstraktheitsbestimmungsmethode in V l ein neu entwickeltes Verfahren darstellt und die Resultate bezüglich ihrer Validität möglicherweise eine nicht ausreichende Stabilität aufweisen. Zu einer Verbesserung der Abstraktheitsbestimmung kann auch die Überprüfung und Optimierung der definitorischen Abgrenzungen > beitragen. Besondere Probleme hat in V l die Verwendung der Ersatzkernkonstituenten bereitet. Jede Erklärung mit " j m d . , der" 5) V g l . Tab. A16 im Anhang. 6) V g l . Tab. A17 im Anhang. 7) U . a . sind folgende Wörter gemeint: "Motor", "Weg", "Dichtung", "Verfügung", "Verfassung". ) V g l . Kap. 2 und Kap. 3.2 dieser Arbeit.
151
wird durch die Substantivkette "Mensch - Lebewesen - Wesen" und jede Erklärung mit " e t w . , das" 9 | durch "Gegenstand", "Sache" oder "Ding" fortgesetzt. Dies führt dazu, daß die genannten Substantive ("Mensch", "Lebewesen", "Wesen", "Gegenstand", "Sache", "Ding") die höchsten -Werte besitzen. Zwar treten diese Substantive auch in anderen Ketten auf ( z . B . "Mensch" hinter " K i n d " , "Gegenstand" hinter "Gerät"), aber die -Werte werden durch die Ersatzkernkonstituenten besonders erhöht, so daß im Verhältnis zu diesen Substantiven die übrigen Wörter mit sehr hohen -Werten ( " T e i l " , "Substanz", " S t o f f " , " W e i s e " ) 1 0 1 nicht optimal bewertet werden. Die anderen D e f i n i t i o n e n haben keinen erkennbaren negativen E i n f l u ß auf die A-Wertebestimmung gehabt; die Zahl der Lemmalücken und das Auftreten des lexikographischen Z i r k e l s , zwei Aspekte, die in früheren Untersuchungen 1 1 ( zu Resultatsverzerrungen geführt haben, sind nur selten zu beobachten. ! 2 ' Für die beiden Substantive "Lebewesen" und "Wesen" hat sich gezeigt, daß ihre -Werte zu weit vom Körper der Verteilung entfernt l i e g e n . 1 3 > Diese Extremwerte werden sowohl durch die hohe Häufigkeit, mit der beide Wörter in den Ketten vorkommen, als auch durch die Anzahl der Ebenen, in denen die Substantive auftreten, bestimmt. Anhand der Tabelle 2 1 4 > kann man beobachten, daß beide Substantive in fast a l l e n Ebenen der Kettenbildung mindestens einmal erscheinen. Für hohe Abstraktheitsindices auf den oberen Ebenen ist insbesondere die M u l t i p l i k a t i o n mit dem Ebenenwert 1 5 > verantwortlich. Zwar kommt es durch die Entscheidung, den Mediän 9) Statt "etw., das" kann auch " e t w . , was", "das, was" oder " a l l e s , was" in der Erklärung stehen. 10) V g l . Tab. A16 im Anhang. 11) Schierholz 1989, S. 125 f. 12) In der Stichprobe I mußten 96 Ketten wegen eines nichtlemmatisierten Substantivs in einer Kette abgebrochen werden, in der Stichprobe II 125 Ketten. 13) V g l . Kap. 6 . 5 . 1 . 2 dieser Arbeit. 14) V g l . S. 152 dieser Arbeit. 15) Zum Berechnungsmodus für die Abstraktheitsindices vgl. Kap. 3.8 dieser Arbeit.
152
Tabelle 28:
Abstraktheitsindices zu "Lebewesen" und "Wesen"
Lebewesen
I
Ebene
1 2 3 4 5 6 7
II
_..
1.6 27.18 53.72 78.45 62.04 210 ^
2.08 22.74 48.4 73.65 42 80.78 133.36
Wesen
I 0.67 0.32 3.39 54.48 123.55 234.48 210 533.36
II
0.54 0.32 4.29 47.68 107.9 204 188.44 400
Erläuterungen zu Tab. 28: I = Stichprobe I II = Stichprobe II. Ein fettgedruckter Wert kennzeichnet den in der Mitte liegenden Abstraktheitsindex (Median) der beiden Substantive pro Stichprobe. Wenn in einer Spalte zwei Werte fettgedruckt sind, so ist zwischen beiden das arithmetische Mittel zu b i l d e n .
als
-Wert zu benutzen, zu einer erheblichen Verkleinerung
der Abstraktheitsindices, aber noch günstiger wäre es, die E i n f l ü s s e hoher Ebenenwerte zu minimieren, um extreme A-Werte zu senken. Dies kann z . B . durch einen Proportionalitätsfaktor, der k l e i n e r als Eins ist und mit den Ebenenwerten multip l i z i e r t wird, geschehen. Eine derart m o d i f i z i e r t e Berechnungsmethode ergäbe für jedes Wort neue -Werte, die eine weniger breite Streuung der Variablen zur Folge hätten. Zur direkten Vergleichbarkeit mit den in V l ermittelten Werten wäre eine erneute Untersuchung an dem hier benutzten Datenmaterial angebracht. Bei der vorgeschlagenen Berechnungsmodifikation würden sich jedoch die Rangplätze der e i n z e l n e n Substantive kaum verändern. Somit wären die neuen -Werte für eine Berechnung der K o r r e l a t i o n s k o e f f i z i e n t e n zwar besser
153
operational isierbar, aber es ist nicht vorhersagbar, in welcher Weise sich die K o e f f i z i e n t e n ändern würden. Eine Alternative besteht darin, zu jedem -Wert den Einf l u ß der Auftretenshäufigkeit der Substantive in den B e g r i f f s ketten zu m i n i m i e r e n : Dividiert man den -Wert Jeden Substantivs durch die Summe der Auftretenshäufigkeit in a l l e n Ketten, so rechnet man die Auftretenshäufigkeit wieder heraus und erreicht somit eine Normierung für jeden -Wert, der in V l ermittelt worden i s t . 1 6 ' Dieses Divisionsverfahren ist mit den 1664 Substantiven der ersten Stichprobe aus V l durchgeführt worden. Eine Liste der 100 Substantive, die die höchsten normierten Werte (= A ' Werte) besitzen, ist in der Tabelle 1 e n t h a l t e n . - 7 Vergleicht man die Resultate mit denen der Tabelle A16 1 8 : , in der die 100 Substantive mit den höchsten -Werten aus V l enthalten sind, so erkennt man bei subjektiver Einschätzung, daß die A'-Werte den Abstraktheitsgrad der einzelnen Substantive wesentlich schlechter wiedergeben als die in V l ermittelten A-Werte. Dadurch wird auch d e u t l i c h , daß die Auftretenshäufigkeit in den Begriffsketten i n h a l t l i c h nicht stabil ist und ledigl i c h als ein Gewichtungsfaktor bei der A-Wertebestimmung in V l anzusehen i s t . i Q Insgesamt zeigt die Diskussion um eine optimale Bestimmungsmethode zur Abstraktheit von Substantiven, daß es letzt16) Eine andere Vorgehensweise schlägt Hammerl vor: Eine Normierung kann durchgeführt werden, wenn man für die Countverteilung der Wörter nach deren -Werten eine begründete, diskrete Verteilung wählt und aus den empirischen Counts die Ordinatenwerte a b l i e s t . Somit ließe sich jedem -Wert aus V l ein genormter -Wert (Ordinatenwert) zuordnen, so daß unter der Voraussetzung, daß die gewählte Countverteilung der Abstraktheit g i l t , die -Werte untereinander vergleichbar sind (Persönliche Mitteilung von Herrn H a m m e r l ) . 17) V g l . Anhang, A 30. 18) V g l . Anhang, A 28. 19) Die Häufigkeit als Gewichtungsfaktor ist nicht zu verwechseln mit der Häufigkeit als Variable, wie sie in V 2 auf der Basis anderer D e f i n i t i o n e n verwendet wird.
154
lieh dem einzelnen Forscher überlassen bleibt, welche Operational isierungsschritte vorgenommen, warum und mit welcher Gewlchtung bestimmte Variablen oder Werte berücksichtigt w e r d e n . 2 0 ' So hat auch HAMMERL, der sich von den oben genannten Autoren 2 i ) am intensivsten mit der Abstraktheitsbestimmung auf der Basis des MARTINschen Verfahrens auseinandergesetzt hat, unterschiedliche Ansätze entwickelt b z w . wieder verworfen, um die Zusammenhänge besser zu erklären. Zugleich ist eine wissenschaftliche Diskussion zu diesem Thema ständig im Wandel, und der Optimierungsprozeß kann innerhalb einer Untersuchung nicht unendlich lange fortgesetzt werden, w e i l man dann nie zu einem Abschluß käme. Es soll jedoch demonstriert werden, daß die in V l verwendete Methode eine Verbesserung gegenüber Resultaten darstellt, die nur durch die Begriffskettenbildung Zustandekommen. Dazu sind in der Tabelle 29 2 2 > die abstraktesten Substantive beider Ansätze a u f g e l i s t e t . 2 3 ) Betrachtet man die Substantive, die nach der Kettenbildung in beiden Stichproben auf den Ebenen Sieben und Acht stehen, so kann man erkennen, wie die Berechnungsmethode in V l auf die A-Wertebestimmung der abstraktesten Substantive wirkt: Falls ein Substantiv nur z u f ä l lig oder nur einmal in einer der oberen Ebenen vorkommt, so führt das nicht grundsätzlich zu einem hohen -Wert: Das Substantiv "Grundbestandteil" ist in der Kettenbildung als Erklärungswort zu "Element" aufgetreten und ist selbst nicht im DUDUNI lemmatisiert. Dadurch kann das genus proximum zu "Grundbestandteil", nämlich "Bestandteil" nicht in einer höheren Ebene vorkommen. Hier liegt ein lexikographischer Mangel der Da20) Es ist denkbar, das vorgeschlagene Normierungsverfahren durch Benutzung eines kleineren Divisors, z . B . die Wurzel oder den Logarithmus der Auftretenshäufigkeit in den Ketten, zu optimieren, bis die Verteilung weder eine extreme Schiefe aufweist noch die -Werte einzelner Substantive einer subjektiven Einschätzung widersprechen. 21) V g l . S. 22 dieser Arbeit, Anm. 19.
22) V g l . S. 155 dieser Arbeit. 23) Die Zielsetzungen beider Untersuchungen verlaufen nicht ganz in die gleiche Richtung: In den semantischen Modellen Altmann/Kinds und Hammerl s wird versucht, mit H i l f e
155
Tabelle 29:
Substantive auf oberen Abstraktheitsebenen
Eheine
V 1
Wort
I
II
Wesen Ding Einheit Lebewesen Sache Gegenstand Strecke Substanz Aktion Grundbestandtei 1 Kunstwerk Mensch Organismus Tatsache Wort
8,7 8,7
8,7 7 8,7 8,7 8,7 7
7 7 7 7 7
7 7 7 7 7 7 7 7
Rang 1 6 21 2 5 4 192 6 195 125 240 3 12 19 76
A-Wert 83.402 9.075 2.3375 53.14 9.6825 12.82 0.525 6.29 0.5225 0.74 0.44 15.16 4.2525 2.675 1.0325
Erläuterungen zu Tab. 29: I = Stichprobe I II = Stichprobe I I . tenbasis vor, der die Resultate der Kettenbildung beeinflußt, aber die Ergebnisse in V l kaum, weil der Berechnungsmodus die Häufigkeit des Auftretens in den Ebenen berücksichtigt. Von den Wörtern, die zu den zehn Substantiven mit den höchsten -Werten z ä h l e n , 2 * ) ist " T e i l " das erste Löxem, welches nicht in der Ebene Sieben oder Acht auftritt, bei dem der Martinschen Daten die strukturellen Beziehungen im System der Sprache zu erfassen. Dagegen ist in V l intendiert, jedem untersuchten Substantiv einen empirischen AWert zuzuordnen, um damit Analysen zur StrukturbeZiehung zwischen Substantiven anstellen zu können. Natürlich ist es auch möglich, die Zielsetzungen von Altmann/Kind mit H i l f e der Resultate aus V l zu verfolgen, nur wären dann noch weitere Arbeitsschritte, wie der Entwurf eines mathematisch formulierten Modells zur Beschreibung der Struktur der ermittelten -Werte, erforderlich. 24) Vgl. Tab. AI6 im Anhang.
156
also die Häufigkeit des Auftretens in einer Explikationskette den Ausschlag für einen hohen -Wert gibt. Natürlich kann und s o l l an dieser Stelle nicht jeder Einz e l f a l l danach untersucht werden, wie abstrakt das Wort einzuschätzen ist, wo es in den Explikationsketten auftritt oder welche Faktoren für die Höhe des j e w e i l i g e n -Wertes verantw o r t l i c h sind. Die genannten Beispiele können l e d i g l i c h als Repräsentanten einiger typischer F ä l l e angesehen werden. W i l l man die Resultate aus V l besser evaluieren, kann ein Vergleich mit anderen Verfahren der Abstraktheitsmessung von Substantiven angestellt werden. Allerdings s o l l dies nur exemplarisch e r f o l g e n , w e i l eine V i e l z a h l von Abstraktheitsbestimmungen, die sich sowohl in der Methodik als auch der Zielsetzung stark unterscheiden, in verschiedenen w i s s e n s c h a f t l i c h e n D i s z i p l i n e n anzutreffen sind. Ein weiteres Problem besteht darin, daß viele Untersuchungen, insbesondere d i e j e n i g e n , die mit empirischen Methoden arbeiten, zum Z i e l haben, die Abstraktheit von Texten oder die Abstraktheit einzelner Wörter unter kognitionspsychologischen Gesichtspunkten zu b e s t i m m e n . 2 - ' Einen empirischen Ansatz zur Abstraktheitsmessung, das "Abstraktheitssuffix-Verfahren", haben GÜNTHER/GROEBEN ^ b ; i n Anlehnung an GILLIE 2 7 · entwickelt. Das Verfahren ist erfolgreich zur Differenzierung verschiedener Textsorten (wissenschaftliche Texte versus narrativen Texten) eingesetzt worden. * ; Dabei wird die Abstraktheit durch eine Auswahl von 25) V g l . u . a . Baschek/Bredenkamp/Oehrle/Wippich 1977, Flesh 1950, G i l l i e 1957, Günther/Groeben 1978, Hoffmann 1983, Hoffmann/Zießler/Grosser/Kämpf 1985, K l i x 1967, K l i x 1976, K l i x 1985a, K l i x 1985b, Pikas 1965, Schwibbe 1981, Tancr6 1975. 26) Günther/Groeben 1978. 27) G i l l i e 1957. 28) Die von Günther/Groeben benutzten Suffixe kennzeichnen einerseits Texte, die durch Nominalstil geprägt sind, andererseits Texte, in denen viele Fremdwörter benutzt werden. Die Addition dieser beiden Kriterien dürfte aber für
157
Substantivsuffixen (-heit, -ie, -ik, -ion, -ismus, -ität, -keit, -nz, -tur, -ung) ermittelt. Eine Applikation dieses Verfahrens an den Resultaten aus V l kann nur mit einem Teil der Suffixe durchgeführt werden, w e i l v i e l e S u f f i x e , die GÜNTHER/GEGEBEN benutzen, fast nur in Fremdwörtern auftreten. Diese werden in der Wissenschaftssprache und besonders in wissenschaftlichen Arbeiten häufig erscheinen, während in einer Bedeutungserklärung eines Bedeutungswörterbuchs des Deutschen gerade keine Fremdwörter stehen s o l l t e n . Untersucht man die Suffixe der hundert abstraktesten Wörter aus V I , so findet man insgesamt 24 Suffixe aus der Liste GtiNTHER/GROEBENS, von denen die Endungen '-ung' (14mal) und '-heit' ( 3 m a l ) am häufigsten belegt s i n d . 2 9 » Die typischen Fremdwortendungen (-ie, -ik, -ion, -ismus, -itat, -nz, -tur) treten nur selten a u f . Vergleicht man dagegen die Suffixe der Substantive mit niedrigen A - W e r t e n , 3 0 > so existieren hier nur neun Substantive, die die aufgelisteten Endungen enthalten, und darunter sind fünf Fremdwortsuffixe. Bei der Durchsicht der Wörter mit hohen -Werten f ä l l t außerdem auf, dafl das Abstraktheitssuffix-Verfahren wichtige abstrakte Wörter, insbesondere kurze Wörter ("Wesen", "Sache", "Ding", " T e i l " ) , nicht erfassen kann.a i > Jedoch s o l l t e man versuchen, mit H i l f e der in V l ermittelten Resultate die Abstraktheit von Texten zu bestimmen 3 2 ) und einen Vergleich mit dem Abstraktheitssuffix-Verfahren vor-
29) 30) 31) 32)
die Erkennung wissenschaftlicher Texte schon ausreichen, so daß die erfolgreiche Abgrenzung gegenüber narrativen Texten nicht verwundert. Man findet auch dreimal die Endung ' - n i s ' , die in der Liste von Günther/Groeben nicht enthalten ist. V g l . Tab. A17 im Anhang. V g l . Schwibbe 19 4, S. 39, vgl. Kisro-Völker 1984, S. 140. Es würde den Rahmen dieser Arbeit sprengen und den aufgestellten Zielsetzungen widersprechen, wenn an dieser S t e l l e eine empirische Untersuchung zur Abstraktheitsmessung von Texten angestellt werden würde.
158
nehmen. Denkbar ist, daß eine Kombination beider Methoden eine verbesserte Abstraktheitsmessung ergeben würde, weil die Schwachen des Verfahrens von GÜNTHER/GROEBEN durch die empirischen Werte aus V l behoben werden könnten. Ein Verfahren, das auf der Lexemebene entwickelt worden ist und auch auf Texte angewendet werden kann, wäre wegen seiner Vielseitigkeit anderen Verfahren der Abstraktheitsbestimmung überlegen. Um die in V l applizierte Methode von einer a l l z u großen Wörterbuchabhängigkeit zu befreien, s o l l t e n in Wiederholungsversuchen mehrere Wörterbücher bei der Begriffskettenbildung benutzt werden. Zwar birgt das die Gefahr subjektiver Entscheidungen, - welche Kernkonstituente wähle ich, wenn die Wörterbücher verschiedene anbieten ? - aber man erreicht dadurch einen allgemeineren Gültigkeitsanspruch der Resultate. Da es sich bei der Methode der A-Wertebestimmung um ein sehr langwieriges Verfahren handelt, das im ersten Schritt (der Kettenbildung) nicht mit dem Computer erfolgen kann, wäre es wünschenswert, wenn man anhand von Stichproben (etwa in der Größe der hier angelegten) mit einem Schätzverfahren auch die -Werte weiterer Substantive ermitteln kann. Besonders geeignet sind dazu Variablen, die mit den hier ermittelten Werten hohe Korrelationen a u f w e i s e n . 3 3 > Mit einem Schätzverfahren ließe sich die Bestimmung der Abstraktheit von Substantiven erheblich schneller und ökonomischer durchführen . 33) In einem Probeversuch ist mit H i l f e der Variablen 'Häufigk e i t 1 und 'Polysemie 1 versucht worden, die A-Wertebestimmung der in V l nicht analysierten Wörter vorzunehmen. Dabei hat sich herausgestellt, daß die gute Korrelation zwischen 'Häufigkeit' und 'Abstraktheit 1 brauchbare A-Werte ergibt, die jedoch durch die schlechte Korrelation zwischen ' P o l y s e m i e 1 und 'Abstraktheit 1 immer nach unten korrigiert werden. Dadurch ergaben sich für jedes Substantiv grunds ä t z l i c h nur -Werte zwischen ' und ' ! ' , so daß dieser Ansatz nicht weiterverfolgt worden ist.
159
7 .2
Die Häuf igkeitsbestimtnung
Durch die Häufigkeitsbestimmung der Kernkonstituenten erhält man einen Einblick in die innere Struktur des Wörterbuchs. Die Gültigkeit der Resultate muß aber nicht nur auf das Wörterbuch beschränkt bleiben, sondern kann bei Übereinstimmungen mit Häufigkeitsuntersuchungen zum Deutschen, die auf Texte als Datenbasis zurückgreifen, erweitert werden. Außerdem s o l l eine mathematische Beschreibung der univariaten Distribution versucht werden, um ein formalisiertes Verfahren zur Beschreibung der Lexik zu entwickeln.
7.2.1
Lexikologischer Vergleich
Die benutzten definitorischen Abgrenzungen 3 * > zu V 2 konnten optimal formuliert werden, weil Untersuchungserfahrungen zur Häufigkeitsbestimmung am "dtv-Wörterbuch der deutschen Sprache" 3 5 ) v o r l i e g e n . 3 6 ' In der Durchführung von V 2 hat sich die Benutzung von Ersatzkernkonstituenten als richtig erwiesen. Insgesamt treten diese 374mal a u f . Die Lexeme "jemand" und "etwas" ( b z w . die zusammengesetzten Formeln " j m d . , der" und "etw., das"), die zu den häufigsten Erklärungswörtern in V 2 gehören, können jedoch semantisch noch genauer d i f f e r e n z i e r t werden, weil sie nicht nur Personen b z w . Sachen erklären, sondern u . a . auch Vorgänge, Tätigkeiten oder H a n d l u n g e n . 3 7 > W i l l man jedoch die Häufigkeitsuntersuchungen mit H i l f e eines Wörterbuchs ausdehnen und 34) 35) 36) 37)
V g l . Kap. 2 und Kap. 4 dieser Arbeit. Wahrig 19 1. V g l . Schierholz 198 . V g l . im DUDUNI u . a . die Lemmata: "Begebenheit", "Folge", "Glück", "Unheil", " Z u f a l l " .
160
wortartenübergreifend arbeiten, so ist es von Vorteil, die Indefinitpronomen nicht durch ein Substantiv zu ersetzen. Dadurch hätte man eine Verbindung, eine Schnittstelle, zwischen Substantiven und Pronomina gewonnen, die sich aus dem existierenden Datencorpus ergibt. Eine zweite Schnittstelle bilden die substantivierten Verben, die in dieser Untersuchung nicht als Kernkonstituente berücksichtigt worden s i n d . a e i i n dem untersuchten Datencorpus sind insgesamt 577 verschiedene Wörter aufgetreten, die nicht als Erklärungswort benutzt werden konnten. Davon sind v i e l e wegen ihrer zirkulären Bedeutungserklärung ( z . B . für "Beseelung" "das Beseelen") nicht gezählt worden. Wenn man "das Beseelen" als Verb "beseelen" in das Datencorpus implementieren würde, hätte man eine Verbindung zwischen den Verben und den Substantiven, die im DUDUNI zum Erklärungswortschatz gehören, hergestellt. Für derartige Untersuchungen bietet sich das Master Corpus als Ausgangsbasis an. Damit würde das Datencorpus erheblich anwachsen, aber man bekäme einen E i n b l i c k in die innere Wortschatzstruktur des DUDUNI, der nicht auf eine Wortart beschränkt b l e i b t . Ein großes Problem bei Wortschatzuntersuchungen anhand eines Wörterbuchs stellen die Lemmalücken dar. Im Gegensatz zu anderen Untersuchungen 3 9 > liegt im DUDUNI der Anteil der nicht lemmatisierten Kernkonstituenten (682 Wörter) am Gesamtwortschatz der Erklärungswörter (6036 Wörter) bei 11.3 % . Dies ist immer noch ein relativ hoher Prozentsatz, allerdings handelt es sich bei diesen Substantiven um nicht sehr häufig auftretende Erklärungswörter; mit der Häufigkeit ' 3 1 oder mehr existieren nur acht Substantive, die als Kernkonstituente fungieren und selbst nicht lemmatisiert sind. Von diesen Wörtern treten nur "Geldbetrag" (9mal) und "Personengruppe" ( 6 m a l ) häufiger als dreimal a u f . Dies kann als ein befriedi38) V g l . Kap. 2 . 2 . 8 dieser Arbeit. 39) V g l . Schierholz 1988, S. 465 ff. Im dtv-Wahrig sind vom Wortschatz der Erklärungswörter (9119 Substantive) 5191 Wörter (= 57 %) nicht lemmatisiert.
161
gendes Resultat betrachtet werden, so daß das DUDUNI für zukünftige Wortschatzunteruchungen - zumindestens für den Bereich der Substantive - eine gute Datenbasis d a r s t e l l t . 4 0 ; Durch eine Gegenüberstellung der Substantive, die in zwei verschiedenen Wörterbüchern zu den häufigsten gehören, läßt sich prüfen, ob die Resultate aus V 2 auch auf andere Wörterbücher übertragbar sind. Die Tabelle 30 4 1 ' zeigt eine hohe Übereinstimmung zwischen den häufigsten Erklärungswörtern im DUDUNI und im WAHRIG-Wörterbuch. Ein Vergleich der absoluten Zahlen kann durchaus erfolgen, w e i l die untersuchte Lemmamenge in beiden Wörterbüchern ungefähr gleichgroß ist. Von 40 Substantiven treten 27 ( a l l e in Großbuchstaben geschriebenen Wörter) sowohl im DUDUNI (Spalte I) als auch bei WAHRIG (Spalte IV) a u f . Von den restlichen Substantiven hat kein Lexem einen -Wert unter ' Z e h n 1 , und unter den 15 häufigsten Wörtern ist nur "Angehörige(r)" bei WAHRIG und nicht im DUDUNI unter den häufigsten 40 L e x e m e n . 4 ' 1 Somit kennzeichnen die ermittelten -Werte nicht nur das Auftreten der Substantive als Kernkonstituente im DUDUNI, sondern Substantive, die in Wörterbüchern häufig in den lexikalischen Paraphrasen auftreten und demnach ein besonders hohes Explikationspotential besitzen. Wenn diese Lexeme auch in Häufigkeitsuntersuchungen, die auf Textauszählungen beruhen, besonders häufig erscheinen, so kann die Bedeutung und Stabilität der in V 2 ermittelten Werte noch intensiviert werden. Zu diesem Zweck wird ein Vergleich zu dem Frequenzwörterbuch von MEIER 4 3 > durchgeführt. 40) Lemmalücken sind lexikographisch vor a l l e m von Bedeutung, wenn es sich dabei um Lexeme aus dem Explikationsvokabular handelt oder um Wörter, die in den Benutzungshinweisen eines Wörterbuchs auftreten. Z i e m l i c h fruchtlos erscheint es, wenn man im Wörterbuch nach irgendwelchen seltenen Wörtern sucht, um Lemmalücken aufzudecken; v g l . u . a . Bergenholtz/Mugdan 1986, S. 32 und 100 ff. 41) V g l . S. 162 dieser Arbeit. 42) Da in der Untersuchung zum Wahrig-Wörterbuch keine Ersatzkernkonstituenten gezählt worden sind, haben diese in Spalte III keine Eintragungen. 43) Meier 1967.
162
Tabelle 30;
I
Substantivvergleich zu zwei Wörterbüchern
II
261 229 145 4 GESAMTHEIT 144 143 5 ART 115 6 STELLE 100 7 PERSON 85 8 MENSCH 9 GEGENSTAND 4 76 10 GRUPPE 68 11 RAUM 12 STÜCK 65 13 ZUSTAND 55 14 VORRICHTUNG 55 15 PFLANZE 54 54 16 MENGE 17 Bereich 54 18 GERÄT 53 19 Äußerung 53 20 FORM 49 21 STOFF 48 22 Weise 47 23 ORT 45 44 24 TIER 44 25 FÄHIGKEIT 26 EINHEIT 44 43 27 Handlung 28 ZEICHEN 40 29 Wort 40 30 Beschaffenheit 40 31 ABSCHNITT 40 32 Anzahl 39 33 Gebäude 37 34 Linie 36 35 GEBIET 36 36 DARSTELLUNG 36 37 WESEN 35 38 Platz 35 39 Fläche 32 40 ZEIT 31
1 TEIL
2 ©Person 3 ©Sache
263 136 71 76 74 180 95 71 91 67 55 75 36 74 14 92 24 45 51 15 50 46 42 40 32 44 28 28 39 24 32 26 39 35 42 34 31 50
V
IV
III
1 TEIL 2 MENSCH
3 Angehörige(r) 4 GESAMTHEIT 5 GEGENSTAND 6 GERÄT 7 RAUM 8 STELLE 9 VORRICHTUNG 10 MENGE 11 PERSON 12 ART 13 GRUPPE 14 STÜCK 15 ZUSTAND
16 17 18 19
Bewegung Verbindung STOFF ORT
20 ZEIT
21 Kind 22 TIER 23 FORM
24 Lehre
25 ZEICHEN 26 FÄHIGKEIT 27 WESEN
28 Masse
29 30 31 32 33 34 35 36 37 38 39
EINHEIT ABSCHNITT GEBIET Behälter Körper Land PFLANZE Weg DARSTELLUNG Ende Frucht
40 Werkzeug
263 180 167 136 95 92 91 76 75 74 74 71 71 67 55 54 52 51 50 50 46 46 45 45 44 42 42 41 40 39 39 38 37 36 36 36 35 35 35 35
Erläuterungen zu Tab. 30; I
= Substantive aus dem DUDUNI
I I , VI =
III, IV
-Werte aus V 2
V = Häufigkeiten aus dem dtv-WAHRIG-Wörterbuch = Substantive aus dem dtv-WAHRIG-Wörterbuch.
Die Wörter in Großbuchstaben stehen in Spalte I und IV.
VI 261 85 21 144 84 53 68 115 55 54 100 143 76 65 55 31 29 48 45 31 15 44 49 10 40 44 35 27 44 40 36 19 17 22 54 26 35 17 20 16
163
MEIERS Untersuchungen, die sich auf die Auszählungen KAEDINGS 4 4 > stützen, stellen zwar keine aktuelle Repräsentation des deutschen Wortschatzes dar, dafür l i e f e r n sie aber umfangreiches Datenmaterial, das auf 10 910 777 Wortformen (Tokens) basiert. Für 2240 Wörter existiert auch eine Häufigkeitszählung der Types (bei MEIER B e g r i f f s w ö r t e r ) , die nach Wortarten und in "Begriffswörter, deren verschiedene Wortformen n i c h t i n a n dere Begriffswörter ü b e r g r e i f e n " , 4 5 ' "Begriffswörter, die eine oder mehrere Wortformen g e m e i n s a m haben" 4 6 > u n d "Begriffswörter, d i e m e h r e r e Wortformen gemeinsam haben" « 7 > , aufgeteilt sind. In der Tabelle 31 4 e > sind die 100 häufigsten Substantive mit ihren Häufigkeitswerten aus V 2 und den Häufigkeitswerten nach MEIER eingetragen. Wenn die Werte von MEIER auf mehreren Tokens beruhen, so ist dies markiert. Für Substantive, die sich nicht in der Begriffswortliste MEIERS befinden, sind aus der alphabetisch sortierten Häufigkeitsverteilung * ·» > der Tokens die Types errechnet, indem die Häufigkeiten a l l e r Flexionsformen zu einem Lemma addiert worden sind. Für die Ersatzkernkonstituenten sind die Häufigkeiten zu "jemand" b z w . "etwas" eingetragen worden. Nur 22 Substantive der T a b e l l e 31 haben bei MEIER einen Häufigkeitswert unter ' 5 0 0 ' , 9 Substantive unter ' 2 5 0 ' . Für die markierten Substantive ist der Vergleich nur unter Einschränkungen möglich, w e i l die Zahlen MEIERS die Tokens aus Wörtern verschiedener Wortarten zusammenfassen. Jedoch läßt sich anhand der häufigen Substantive eine relativ gute Übereinstimmung beider Untersuchungsresultate f e s t s t e l l e n . Auch die Form der Verteilung sieht bei MEIER ähnlich wie in V 2 aus: Das "Vergleichsspektrum" enthält wenige Wörter, die häufig auftre44) 45) 46) 47) 48) 49)
Kaeding 1898. Meier 1967, Bd. 2, Meier 1967, Bd. 2, Meier 1967, Bd. 2, V g l . S. 164 dieser Meier 1967, Bd. 2,
S. 138 ff. (Hervorhebungen im O r i g i n a l ) . S. 141 f. (Hervorhebungen im O r i g i n a l ) . S. 142 ff. (Hervorhebungen im O r i g i n a l ) . Arbeit. S. 3 ff.
Tabelle 31:
100 Substantive mit höchsten II
I
1 Teil 2 @Person 3 »Sache 4 Gesamtheit 5 Art 6 Stelle 7 Person 8 Mensch 9 Gegenstand 10 Gruppe 1 1 Raum 12 Stück 13 Zustand 14 Vorrichtung 15 P f l a n z e 16 Menge 17 Bereich 18 Gerat 19 Äußerung 20 Form 21 Stoff 22 Weise 23 Ort 24 Tier 25 Fähigkeit 26 Einheit 27 Handlung 28 Zeichen 29 Wort 30 Beschaffenheit 31 Abschnitt 32 Anzahl 33 Gebäude 34 Linie 35 Gebiet 36 Darstellung 37 Wesen 38 Platz 39 Fläche 40 Zeit 41 Gefühl 42 Bewegung 43 Schicht 44 Kraft 45 Gebilde 46 Werk 47 Verhalten 48 Verbindung 49 Gefäß 50 Anlage
III
-Werten in V 2 IV
261 9410 51 Sache 229 1234 52 Punkt 145 8462 53 Masse 144 230 54 Haltung 143 5430 55 Wert 115 10610(+) 56 Weg 100 3360 57 Einrichtung 85 8750 58 Stellung 84 2410 59 Folge 76 600 60 Ergebnis 68 2 1 8 0 ( + ) 61 Verhältnis 65 2220 62 Zeitraum 55 2430 63 Organ 55 202 64 Mann 54 7 1 0 ( + ) 65 Land 54 2050 66 Eigenschaft 54 210 67 Bild 53 2 5 8 ( + ) 68 Wirkung 53 730 69 Tätigkeit 49 4210(+) 70 Substanz 48 1570 71 Größe 47 14750(*) 72 Angehörige 45 2760 73 Vorstellung 44 1220 74 Vertiefung 44 429 75 Veranstaltung 44 383 76 Meinung 43 1450 77 Material 40 1150 78 Frucht 40 8310 79 Frau 40 443 80 Flüssigkeit 40 500 81 Beziehung 39 1220 82 Auseinandersetzung 37 670 83 Arbeit 36 1710 84 Zahl 36 6 0 3 0 ( * ) 85 Umstand 36 1075 86 Seite 35 2240 87 Maß 35 2500 88 Behälter 32 493 89 Ausdruck 31 16270 90 Strecke 31 2280 91 Mittel 31 2690 92 Blatt 30 406 93 Vorgang 30 479K + ) 94 Text 30 95 Spieler 172 29 4040 96 Reihe 29 687(+) 97 Mitglied 29 2290 98 Körper 29 496 99 Geld 28 830 100 Figur
V 27
4790 27 2220 27 1670 27 471 26 3 4 5 9 ( * ) 26 9 6 2 1 ( * ) 26 1280 25 3000 25 4506(+) 24 630 23 5519 22 339 22 690 22 10670 22 5780 22 1070 22 3280 21 2139 21 1590 293 21 21 1150 21 285 20 1030 20 155 20 89 20 2360 20 940 920 20 20 6350 20 400 20 1970 20 115 20 6190(+) 19 3 8 7 0 ( + ) 19 2840 19 8210 19 2160(*) 57 19 19 2 3 7 0 ( + ) 18 860(+) 18 3470(+) 18 1597(+) 17 650 17 393 17 56 17 1870 17 2220 17 1940 17 2520 17 1670
Erläuterungen zu Tab. 31: I , IV II, V I I I , VI (+) (*)
= Substantive mit höchsten H-Werten = -Werte aus V 2 = Häufigkeiten nach MEIER 1967, Bd. 2, S. 3 = Häufigkeitswert zu Wörtern aus zwei verschiedenen Wortarten = Häufigkeitswert zu Wörtern aus mehreren verschiedenen Wortarten.
VI
ff.
165
ten und v i e l e Wörter, die nur zwei- oder einmal vorkommen.s o Betrachtet man ROSENGRENS H ä u f i g k e i t s z ä h l u n g e n zur deutschen Z e i t u n g s s p r a c h e , 5 1 ' so kann man zwar auf aktuellere Frequenzangaben als bei MEIER z u r ü c k g r e i f e n , die Resultate verändern sich indes kaum. Von den 100 häufigsten Substantiven des Master Corpus sind 83 unter den 3000 häufigsten Wörtern ( a l l e Wortarten) der Zählungen zur "Süddeutschen Zeitung" zu finden. 5 2 ) von den 83 Substantiven sind 48 ( b z w . 51 bei den Frequenzangaben zur Zeitung "Die W e l t " 5 3 ! ) unter den häufigsten 1000 Wörtern bei ROSENGREN a u f z u f i n d e n . s * > gen,
Abweichun-
die für die in dieser Arbeit getätigten Untersuchungen
relevant sind, lassen sich zwischen MEIERS und ROSENGRENS Daten bei einer v i s u e l l e n Inspektion nicht entdecken. Häufigkeitsverteilungen, die auf der Basis von Kernkonstituenten in den lexikalischen Paraphrasen eines Wörterbuchs beruhen, unterscheiden sich a l s o nicht grundsätzlich von den Zählungen, die anhand der Auszählung von Texten e n t s t e h e n . 5 5 · Zur Entdeckung von Sprachstrukturen bietet das Wörterbuch jedoch Vorteile, w e i l das Wörterbuch das Produkt einer lexikographischen Bearbeitung von Texten und somit eine andere Qualität darstellt als sonstige Textsorten.
Zudem ist eine Häufig-
k e i t s z ä h l u n g mit einem Wörterbuch ökonomischer, w e i l die Rückführung der Tokens auf Types einfacher ist. Untersucht man das ganze Wörterbuch oder Stichproben aus mehreren Wörterbüchern, e n t f ä l l t das bekannte Corpusproblem (Repräsentativität der auszuwertenden Texte). 50) 51) 52) 53) 54) 55)
V g l . Meier 1967, Bd. l, S. 54 und S. 408. Rosengren 1977. V g l . Rosengren 1977, S. 313 ff. V g l . Rosengren 1977, S. 223 ff. V g l . Rosengren 1977, S. 313 ff. Um dies als eine gesicherte Aussage betrachten zu können, s o l l t e n mathematische Vergleiche auf der Basis großer Wortmengen durchgeführt werden.
166
Der Variablen ' H ä u f i g k e i t ' kann nach Abschluß der Untersuchungen eine grundlegende Funktion bei der Deskription von WortschatzStrukturen zugesprochen werden. Mit der Häufigkeit, mit der ein Substantiv als Erklärungswort für ein anderes Substantiv stehen kann, wird g l e i c h z e i t i g ausgedrückt, wie polyfunktional dieses Substantiv ist. Um dies auch terminologisch zum Ausdruck zu bringen, s o l l t e man in lexikologischen Zusammenhängen statt von der 'Häufigkeit' von der P o l y f u n k t i o n a l i t ä t sprechen. Für lexikologische Untersuchungen wird der Aufbau eines Polyfunktionalitätswörterbuchs 5 6 > angeregt, welches d a s Explikationsvokabular als Lemmata und die erklärten Stichwörter als lexikalische Paraphrasen enthält. Auch für die Ermittlung von Grund- und Kernwortschätzen stellt die Polyfunktionalität eine wichtige R o l l e dar. Zwar wird man zu einer empirisch orientierten Kernwortschatzisolation auch andere Variablen benötigen, aber da die Polyfunktional ität eines Wortes seine Explikationspotenz für andere lexematische Einheiten widerspiegelt, scheint diese Variable eine dominante R o l l e zu spielen. Nicht nur für den Schulunterricht, sondern vor a l l e m für Fremdsprachl er und insbesondere für diejenigen, die nur wenig Deutsch sprechen, ist es von groSer Bedeutung, wenn sie am Anfang die Wörter lernen, die eine hohe Extension und eine große Benutzungsvielfalt aufweisen. Dazu reichen natürlich Substantive nicht aus, sondern es müssen auch andere Wortarten untersucht werden. Der unmittelbare Nutzen von Häufigkeitszählungen in der Lexikographie wird in einem gesonderten Kapitel erörtert werden. 5 7 '
56) Der Terminus "Häufigkeitswörterbuch" ( b z w . "Frequenzwörterbuch"), der sich aufgrund der Terminologie in V 2 ergeben würde, ist in der Lexikographie schon eindeutig belegt (für Häufigkeiten in Texten), so daß es nur zu Verwechselungen kommen könnte. 57) V g l . Kap. 7.5 dieser Arbeit.
167
7.2.2
Der Versuch einer mathematischen Beschreibung
Häufigkeitszahlungen von Substantiven liegen zu zwei Wörterbüchern, dem DUDUNI und dem "dtv-Wörterbuch der deutschen Sprache" s » ) , v o r . s " ) Um die Ähnlichkeit der Resultate genau prüfen zu können, s o l l e n die Charakteristika der Distributionsdaten zum DUDUNI erfaßt werden, indem eine Anpassung mathematischer Funktionen an die Daten versucht wird. Dazu werden die gleichen vier curvilinearen Funktionen mit zwei Kenngrößen o i benutzt, die bereits zum WAHRIG-Wörterbuch ausgewählt worden waren, um eine unmittelbare Vergleichbarkeit der Verteilungen aus beiden Wörterbüchern zu ermöglichen. 6 l )
7.2.2.1
Die Potenzfunktion
Diese curvilineare Funktion kann progressiv b z w . degressiv und steigend b z w . f a l l e n d verlaufen. Das Ausgangsmodell lautet: y = ax .
Es erfolgt Linearisierung durch Logarithmieren: l o g y = l o g a + b log
.
Die Anwendung des Kleinst-Quadrat-Kriteriums auf die logarithmierte Fassung ergibt die Normalgleichungen (Struktur des linearen Ansatzes): 5 ) Wahrig 19 1. 59) V g l . Schierholz 1988, S. 466.
60) V g l . Dietrich/Schmutzler 1968. 61) Beide Anpassungen werden mit dem gleichen DV-Programm berechnet, das zur Anpassung der Wahrig-Daten entwickelt worden ist, so daß auf der Ebene der Berechnung Vergleichbarkeit herrscht.
168
Σ log y
= N l o g a
+ b Σ log x
Σ log x log y
= l o g a Z l o g x + b Z ( l o g x )
ο
Die Aufl sung der Gleichungen nach den Unbekannten ergibt:
(Σ log y) (Σ ( l o g x ) 2 ) - (Σ log χ) (Σ log χ log y) log a =
N Σ (log x ) 2 - (Σ log χ) (Σ log x)
N Σ log x log y - (Σ log y) (Σ log x) b =
N Σ ( l o g χΓ - (Σ log χ) (Σ log x)
W i l l man die Daten einsetzen, mu man delogarithmieren, um die urspr ngliche Fassung der Potenzfunktion zu erhalten: a = exp ( l o g a) .
7.2.2.2
Die Exponentialfunktion
Der Verlauf dieser Funktion ist durch progressives Ansteigen oder F a l l e n gekennzeichnet. Das Ausgangsmodell lautet: y = ab x .
Es erfolgt Linearisierung durch Logarithmieren: l o g y = log a + l o g b x . Die Anwendung des Kleinst-Quadrat-Kriteriums auf die logarithmierte Fassung ergibt die Normalgleichungen: Σlogy
= N l o g a + l o g b Σ x
Σ x log y
= log a Σ χ + log b Σ x
.
169
Die A u f l sung nach den Unbekannten ergibt:
(Σ log y) (Σ x 2 ) - (Σ χ) (Σ χ log y) log a =
log b =
N (Σ x 2 ) - (Σ χ) (Σ x) N (Σ χ log y) - (Σ log y) (Σ x) ~ N (Σ x*) - (Σ χ) (Σ x)
Man mu delogarithmieren, um die urspr ngliche Fassung der Exponentialfunktion zu erhalten:
a = exp ( l o g a) b = exp ( l o g b ) .
7.2.2.3
Die Logarithmusfunktion
Diese Funktion verl uft degressiv steigend bzw. f a l l e n d und erreicht keinen S ttigungspunkt. Das Ausgangsmodell lautet: y = a + b logx . Da hier keine Linearisierung notwendig ist, NormaIgle i chungen:
Σy
lauten die
= N a + b Σ l o g x
Σ y log x = a Σ log x + b Σ ( l o g x) Die A u f l sung der Gleichungen nach den Unbekannten ergibt:
170
(Σ y) (Σ ( l o g χ ) 2 ) - (Σ log χ) (Σ y log x) a =
Ν Σ ( l o g χ ) 2 - (Σ log χ) (Σ log χ)
Ν Σ y log χ
- (Σ y) (Σ log χ)
Ν Σ ( l o g χΓ - (Σ log χ) (Σ log χ) 7.2.2.4
Die Hyperbel
Der Verlauf dieser Funktion ist degressiv steigend b z w . f a l lend mit einer S ttigung bei a. Das Ausgangsmodel l lautet:
y= Es ist keine Linearisierung notwendig, so da gleichungen lauten:
die Normal-
Die Aufl sung der Gleichungen nach den Unbekannten ergibt;
(Σ y) (Σ a =
2)
- (Σ
(Σ
N
N (I £> - (Σ y) (Σ s b =
N (t i a ) - (Σ i, (Σ i
Tabelle 32:
Beobachtete und berechnete Countwerte nach Häufigkeiten
X
y
*P
*E
*L
*H
1
3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4 3 3 1 2 3 1 1 4 1 3 1 1 1 1
1882.7 624.4 327.4 207.1 145.1 108.6 84.9 68.7 56.9 48.1 41.3 36.0 31.7 28.2 25.2 22.8 20.7 18.9 17.3 16.0 14.8 13.8 12.8 11.9 11.2 10.5 9.9 9.3 8.8 8.4 7.9 7.6 6.6 6.3 6.0 5.5 5.3 4.7 4.5 4.4 4.1 4.0 3.8
394.1 386.2 378.6 371.0 363.7 356.4 349.3 342.4 335.6 329.0 322.4 316.0 309.7 303.6 297.5 291.6 285.8 280.2 274.6 269.1 263.8 258.5 253.4 248.4 243.4 238.6 233.9 229.2 224.7 220.2 215.8 211.6 199.2 195.2 191 .4 183.8 160.2 169.6 166.3 163.0 156.5 153.4 150.4
888.1 723.5 627.2 558.8 505.8 462.5 425.9 394.2 366.2 341.2 318.5 297.9 278.9 261.3 244.9 229.5 215.1 201.6 188.7 176.5 164.9 153.9 143.3 133.2 123.5 114.2 105.3 96.6 88.3 80.3 72.4 64.9 43.6 36.9 30.4 17.9 11.9 - 5.3 - 10.7 - 16.1 - 26.4 - 31.4 - 36.3
3012.9 1436.4 910.8 648.1 490.4 385.3 310.2 253.9 210.1 175.1 146.4 122.5 102.3 85.0 70.0 56.9 45.3 35.0 25.8 17.4 9.9 3.1 - 3.1 - 8.8 - 14.1 - 18.9 - 23.4 - 27.6 - 31.5 - 35.1 - 38.5 - 41.7 - 50.1 - 52.6 - 55.0 - 59.4 - 61.4 - 66.9 - 68.6 - 70.1 - 73.1 - 74.5 - 75.9
2 3 4 5 6 7 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49
172
Tabelle 32:
(Fortsetzung)
yp
y
X
53 54 55 65 6Θ 76 Θ4 85 100 115 143 144 145 229 261
2 3 2 1 1 1 1 1 1 1 1 1 1 1 1
3.4 3.3 3.2 2.4 2.3 1.9 1.6 1.6 1.2 1.0 0.7 0.7 0.7 0.3 0.3
yE 138.8 136.0 133.3 109.1 102.7 87.5 74.5 73.0 54.0 40.0 22.8 22.3 21 .9 4.1 2.1
yL
yH
- 55.0 - 59.4 - 63.8 -103.4 -114.1 -140.6 -164.3 -167.2 -205.8 -239.0 -290.7 -292.4 -294.1 -402.6 -433.6
- 80.7 - 81.8 - 82.9 - 91.7 - 93.8 - 98.7 -102.7 -103.1 -108.7 -112.8 -118.2 -118.3 -118.5 -126.5 -128.1
Erl uterungen zu Tabelle 32: χ y Yp YE γ^ YH
7.2.2.5
= = = = = =
absolute H ufigkeit beobachtete Werte errechnete Werte der errechnete Werte der errechnete Werte der errechnete Werte der
Potenzfunktion Exponentialfunktion Logarithmusfunktion Hyperbel.
Der Vergleich der theoretischen Funktionen
W i l l man die Deskriptionsleistung der theoretischen Funktionen berpr f e n , so l t sich dies durch einen Vergleich der Determinationskoeffizienten erreichen:
D = l -
Σ (y - y)
Σ (y - y) 6 2
Σ (y - y ) '
Σ (y - y)
62) y = Mittelwert, y = vorausgesagter y-Wert, y = wahrer y-Wert.
173
Mit diesem Verfahren kann man den optimalen Funktionstyp erm i t t e l n . Es ist allerdings zu beachten, daß bei der Potenzund Exponentialfunktion die Kenngrößen a und b im Ansatz für die Prädikation der logarithmierten y-Werte und nicht der y-Werte selbst optimiert werden. Dadurch wird die Abbildungsleistung der Potenz- und Exponentialfunktion geringfügig unterschätzt. 7.2.2.6
Die Berechnung und Beurteilung der Werte
Die Mittelwert- und Varianzberechnung ergibt: Mittelwert von Varianz von Mittelwert von y Varianz von y
46.00 2622.41 104.07 245993.31
Die Summe der Abweichungsquadrate von y ist: 14267611.7 Die Berechnung der Kenngrößen a und b ergibt: Potenzfunkti on Exponentialfunktion Logarithmusfunktion Hyperbel
a a a a
1882.70 402.04 888.13 -140.22
b b b b
1.59 0.98 - 237.53 3153.16
Bei der Berechnung des Determinationskoeffizienten erhält man die Tabelle 33 ( z u m Vergleich sind die Resultate zum dtvWAHRIG angefügt). Tabelle 33:
Determinationskoeffizienten
Potenz funkt i on Exponentialfunktion Logar i thmus funkt ion Hyperbe 1
DUDUNI
Wahr i g
0.7611 0.0496 0.2827 0.8883
0.9969 0.0963 0.3027 0.8982
174
Zum DUDUNI erhält man für die Potenz funktion und die Hyperbel sehr gute D e t e r m i n a t i o n s k o e f f i z i e n t e n . 6 3 ) Für die Potenzfunktion ließe sich der K o e f f i z i e n t noch etwas verbessern, wenn man nicht die Kenngrößen a und b zuerst an den logarithmierten y-Werten optimiert hätte. Da dazu jedoch umfangreiche Verfahren notwendig wären, s o l l darauf verzichtet werden. Die Hyperbel erreicht zwar das bessere Resultat (89 % ) , aber störend wirkt sich das Schneiden der x-Achse aus, w e i l ab = 23 die berechneten y-Werte negativ werden. Die Exponential- und Logarithmusfunktionen erreichen keine guten Beschreibungsleistungen. Vergleicht man die Determinationskoeffizienten zu beiden Wörterbüchern 6 4 > , so wird d e u t l i c h , daß sich die Exponential- und Logarithmusfunktion für die Deskription der Wortschat z Strukturen 6 5 im Wörterbuch nicht eignen. Zwar wird die sehr gute Beschreibungsleistung, die die Potenzfunktion zum WAHRIG-Wörterbuch erreicht, beim DUDUNI nicht e r z i e l t , aber 76 % s t e l l e n ein befriedigendes Resultat dar. Die Hyperbel kann in beiden Wörterbüchern ähnlich gut angepaßt werden, allerdings schneiden die errechneten Werte die x-Achse, weil die berechneten y-Werte zu den unteren x-Werten den weiteren Verlauf der Kurve wesentlich bestimmen.*>*> Für weitere Wörterbuchvergleiche sollte man ausschließlich diese beiden Funktionen betrachten, über den Zusammenhang dieser mathematischen Resultate mit den lexikographischen wird in Kapitel 7.6 berichtet. 63) Der Determinationskoeffizient liegt zwischen 0 und 1. Je näher der K o e f f i z i e n t an l liegt, desto besser ist die Anpassung der Funktion. Setzt man den Determinationskoeffizienten l gleich 100 % , so lassen sich die Werte zu den Funktionen in Prozent ausdrücken. 64) Da hier nur der Wortschatz des Kernkonstituentenvokabulars betrachtet wird, haben die lexikographischen Mängel, die zum Wahrig-Wörterbuch festgestellt worden sind, hier keine Auswirkungen. 65) Es s o l l in Kapitel 7.5 gezeigt werden, daß die untersuchten Substantive repräsentativ für den Wortschatz des Wörterbuchs stehen. Dies gilt zumindestens für das DUDUNI. 66) Dies ist bei den Wahrig-Daten ab = 24 der F a l l .
175
7.3
Die Polysemiebestimmung
Für die Durchführung von V 3 hat sich die aufgestellte Polysemiedefinition b 7 ' als praktikabel erwiesen. Jedoch können die definitorischen Abgrenzungen in einigen Punkten m o d i f i ziert werden. So werden durch das Zählen von Kernkonstituenten keine qualitativen Unterschiede der Bedeutungserklärungen in einem Wörterbuchartikel registriert. 6 > Mit einem verbesserten Verfahren zur P-Werteermittlung, das zwischen verschiedenen Explikationstypen d i f f e r e n z i e r t , können Wortbedeutungen in Haupt-, Unter- oder Nebenbedeutungen - ahnlich wie es im DUDUNI durch arabische Zahlen und Kleinbuchstaben geschieht gegliedert werden. Ein derartiges Vorgehen muß aber weiterhin die intersubjektive überprüfbarkeit der Polysemiebestimmung gewährleisten. Dies dürfte nur mit einem sehr umfangreichen Regelapparat umsetzbar sein, der den Anteil subjektiver Entscheidungen des Untersuchenden auf ein Minimum zu reduzieren hätte. Ob indes eine differenziertere Polysemiebestimmung tatsächlich bessere Resultate als die in V 3 erzielten erbringt, bleibt a n z u z w e i f e l n . Betrachtet man die P-Werte der 40 Wörter, die am häufigsten im DUDUNI v o r k o m m e n , 6 9 ' so f a l l e n besonders die folgenden mit sehr niedrigen Werten auf (P-Werte in Klammern): "§Person" ( 0 ) , "©Sache" ( 0 ) , "Gesamtheit" ( 1 ) , " P f l a n z e " ( 2 ) , "Tier" ( 1 ) , "Fähigkeit" ( 1 ) , "Beschaffenheit" ( 0 ) . Bei einer Ermittlung der P-Werte zu den Ersatzkernkonstitu67) V g l . Kap. 5.2 dieser Arbeit. 68) V g l . das Beispiel zum Lemma "Landwirt", S. 77 dieser Arbeit. Aufgrund der definitorischen Abgrenzungen können die Kernkonstituenten " j m d . , der" und "Bauer" nicht unterschiedlich bewertet werden, obwohl sie einen verschiedenen semantischen Gehalt und eine unterschiedliche lexikographische Struktur aufweisen. 69) V g l . Tab. 26, S. 141 dieser Arbeit.
176
enten erhält man für "jemand" (©Person) zwei Erklärungswörter und für "etwas" (©Sache) keine Kernkonstituente, weil im Wörterbuchartikel zu "etwas" keine Bedeutungserklärung in Kursivschrift vorliegt. Der niedrige P-Wert zu "Gesamtheit" läßt sich durch eine Ergänzung in den definitorischen Abgrenzungen verändern, indem hinter "alle" jedes Substantiv als Erklärungswort zu zählen ist, das in dem Substitutionstest eingesetzt werden kann. Beispiel: S. 1472 GESAMTHEIT : 1. alle Personen, Dinge, Vorgänge, Erscheinungen, die auf Grund von bestimmten übereinstimmenden Eigenschaften, Merkmalen, Bedingungen u.a. zusammengehören, alle ... zusammen 2. Allgemeinheit.
Somit erhielte man für "Gesamtheit" den P-Wert ' 5 ' , der aus den Kernkonstituenten "Person", "Ding", "Vorgang", "Erscheinung" und "Allgemeinheit" entsteht. Allerdings wird an diesem Beispiel die unterschiedliche Erklärungspotenz eines Lexems in der Plural- bzw. Singularform verdeutlicht; denn die Erklärungswörter zu "Gesamtheit" können nur im Plural den Substitutionstest bestehen. Somit müßte man als Folge der vorgeschlagenen Definitionsergänzung eine Differenzierung der Kernkonstituenten nach grammatischen Kategorien in Erwägung ziehen. Der niedrige P-Wert zu "Fähigkeit" und "Beschaffenheit" beruht auf einer unzureichenden lexikographischen Bearbeitung der Wörterbuchartikel zu diesen Lemmata. Zu "Fähigkeit" existieren im DUDUNI neben "Anlage" drei weitere Bedeutungen
177
("Befähigtsein", "Imstandesein" und "In-der-Lage-Sein"), die wegen des S u f f i x e s "-sein" in V 3 nicht berücksichtigt worden sind und die als zirkuläre Erklärungen (insbesondere "Befähigtsein") aufgefaßt werden müssen. Zum Substantiv "Beschaffenheit" erhält man im DUDUNI nur die lexikalische Paraphrase "das Beschaffensein einer Sache". Für ein Wort, das unter 7179 Lemmata insgesamt 40mal (Rang 28 in der Häufigkeitsverteilung) auftritt, ist diese zirkuläre Explikation sehr dürftig. Da die niedrigen P-Werte zu den oben genannten Substantiven (allerdings auch zu anderen) auf lexikographische Mängel des DUDUNI zurückzuführen sind, bietet die Verwendung mehrerer Wörterbücher einen Ausweg, um den E i n f l u ß der Datenbasis auf die lexikologischen Untersuchungen zu relativieren. Benutzt man als Vergleich das "Deutsche Wörterbuch" 7 ° ' , so erhält man zu den oben genannten Substantiven folgende P-Werte (in Klammern): "jemand" ( 2 ) , "etwas" ( 1 ) , "Gesamtheit" (3), " P f l a n z e " ( 2 ) , "Tier" ( 1 ) , "Fähigkeit" ( 3 ) , "Beschaffenheit" ( 3 ) . O f f e n s i c h t l i c h ist der niedrige P-Wert zu "Tier" kein lexikographisches Fehlprodukt des DUDUNI, denn in beiden Wörterbüchern kommt (im Zusammenhang mit den Modifikatoren) nur die Kernkonstituente "Lebewesen" vor. Anders verhält es sich bei " P f l a n z e " : Hier bietet zwar jedes Wörterbuch niedrige P-Werte, aber während im DUDUNI die Erklärungswörter zu "Pflanze" "Organismus" und "Mensch" sind, findet man im "Deutschen Wörterbuch" von WAHRIG "Lebewesen" und "Person". In der Summe ließen sich somit vier verschiedene Bedeutungen zu "Pflanze" ermitteln. Wendet man dieses Verfahren (zwei Wörterbücher als Datenbasis) auf die restlichen oben aufgezählten Lemmata an, so kommt man auf folgende Ergebnisse (P-Werte in Klammern): "jemand" ( 2 ) , "etwas" ( 1 ) , "Gesamtheit" ( ) , "Fähigkeit" ( 4 ) , 70) Wahrig 1980.
178
"Beschaffenheit" ( 3 ) . Damit gelangt man zu einer Erhöhung des Polysemieumfangs, die sich über a l l e P-Werteklassen relativ gleichmäßig verteilen d ü r f t e . 7 1 » Die Erhöhung bei den Lexemen mit hohen -Werten ist jedoch von besonderer Bedeutung, weil sich dadurch erhebliche Veränderungen in der Korrelationskoeffizientenberechnung zum Variablenpaar 'Häufigkeit/ Polysemie' ergeben würden. Gerade die oben genannten Substantive beeinflussen wegen ihrer hohen Häufigkeit und niedrigen Polysemie den Korrelationskoeffizienten sehr negativ. Wenn diese Lexeme höhere P-Werte besitzen würden, dürfte der Koeff i z i e n t , der bis zum H-Wert ' 2 8 ' ständig wächst, auch bei hohen -Werten weiter ansteigen. Zwar ist damit auch ein erheblich größerer Bearbeitungsaufwand verbunden, aber unter Beibehaltung der aufgestellten Definitionen zur Polysemiebestimmung gelangt man zu einer größeren Unabhängigkeit von dem untersuchten Wörterbuch und somit zu einem verbesserten Datencorpus. G l e i c h z e i t i g würde sich auch die Liste der NA-Lemmata verkleinern, denn es ist nicht zu erwarten, daß die gleichen Lexeme, die im DUDUNI nicht lemmatisiert sind, auch in anderen Wörterbüchern f e h l e n . Weiterhin ließen sich zu den 577 KE-Lemmata, zu denen u.a. "Beschaffenheit" gehört, Bedeutungserklärungen aus anderen Wörterbüchern f i n d e n . Dies erscheint besonders wichtig zu sein, weil es unter semantischen Gesichtspunkten unsinnig ist, wenn in einer Polysemiebestimmung einigen Lexemen der PWert ' N u l l ' zugewiesen wird. An diesem Punkt wird die Abhängigkeit der Untersuchungen von dem benutzten Wörterbuch be71) Wenn man die P o l y s e m i e d e f i n i t i o n etwas weiter fassen würde und nicht nur Substantive als ErklärungsWörter zuließe, sondern auch Pronomen und substantivierte Formen, die keine zirkulären Erklärungen zum Lemma sind, dann erhielte man zu den sieben Substantiven folgende P-Werte (in Klammern): "jemand" ( 3 ) , "etwas" ( 5 ) , "Gesamtheit" ( 9 ) , P f l a n z e " ( 4 ) , "Tier" ( 1 ) , "Fähigkeit" ( 6 ) , "Beschaffenheit" ( 4 ) .
179
sonders deutlich. Diese Überlegungen zeigen, daß die Bestimmung der Polysemie erheblich stärker von der untersuchten Datenbasis, dem DUDUNI, abhängt als die Bestimmung der anderen V a r i a b l e n . 7 2 ' Somit enthält die F a l s i f i k a t i o n der dritten Arbeitshypothese keine Gültigkeit für den Wortschatz der deutschen Sprache, sondern nur für das Master Corpus, das aus dem DUDUNI ermittelt worden ist. Während für die Häufigkeitsverteilung die Gültigkeit der Resultate über das Wörterbuch h i n a u s w e i s t , 7 3 > g i l t dies für die Polysemieverteilung nicht. Die Falsifikation der Arbeitshypothesen zur Abstraktheit - Polysemie und Häufigkeit - Polysemie liegt im wesentlichen bei der Variablen ' P o l y s e m i e ' begründet. Mit ähnlichen Methoden wie in V 3 ist von KRYLOV 7 * > eine Bestimmung der Polysemie zu russischen Verben durchgeführt worden. KRYLOV hat den semantischen Gehalt von Verben anhand verschiedener Bedeutungswörterbücher ("Definitionswörterbücher" 7 5 i ) untersucht. Auch wenn aus seinen definitorischen Abgrenzungen nicht eindeutig hervorgeht, mit welchem Verfahren KRYLOV den Polysemiegehalt ermittelt h a t , 7 ' ' ) lassen sich aufgrund des Umfangs seines Datencorpus, der mathematischen Berechnungen und der resultierenden Zusammenhänge Vergleiche zu den Ergebnissen aus V 3 ziehen. KRYLOV hat das Gesetz des maximalen semantischen Gehalts formuliert, welches folgendes ausdrückt: " ( . . . ) die Menge der zweideutigen Wörter beträgt die H ä l f t e der der eindeutigen, die Menge der dreideutigen d i e H ä l f t e d e r d e r zweideutigen u s w . " 7 7 > A l l e r d i n g s i s t 72) Es kann hier zur Polysemiebestimmung nur auf eine Auswahl von (besonders wichtigen) Beispielen eingegangen werden, die für die Zielsetzungen dieser Arbeit von Bedeutung sind. 73) V g l . Kap. 7.2 dieser Arbeit. 74) Krylov 1982. 75) V g l . Krylov 19 2 , S. 234.
76) V g l . Krylov 1982, S. 237 ff. 77) V g l . Krylov 1982, S. 250.
180
KRYLOVS Annahme, daß es sich bei dem von ihm beobachteten Zusammenhang um ein "universelles Gesetz, gültig für beliebige Sprachen" 7 8 > , h a n d e l t , inzwischen von ihm selbst anhand weiterer empirischer Überprüfungen f a l s i f i z i e r t w o r d e n . 7 9 · Verg l e i c h t man die Countverteilung zur Variablen ' P o l y s e m i e ' 9 0 ) mit dem KRYLOVschen Zusammenhang, so g i l t dieser im Deutschen nur für ein-, zwei- und dreideutige Wörter. Ab X4 sind die y-Werte zu Xi größer als die Hälfte des y-Wertes zu X i - i Somit kann das KRYLOVsche Modell durch die P-Werteverteilung aus V 3 nicht bestätigt werden. Jedoch s o l l t e beachtet werden, daß die t e n d e n z i e l l e Reduktion der Wortmengen pro P-Wert im Deutschen ähnlich wie im Russischen verläuft. Die unterschiedliche Intensität der Abnahme könnte verschiedene Ausprägungen einzelner Sprachen in bezug auf ihre semantische Divers i f i k a t i o n kennzeichnen. A l l e r d i n g s läßt sich nicht nachprüfen, ob die unterschiedlichen Methoden der Polysemiebestimmung in beiden Untersuchungen für die Resultate verantwortlich sind. KRYLOV scheint die lexikographische Zuverlässigkeit des von ihm benutzten Wörterbuchs nicht in Z w e i f e l zu z i e h e n , 8 1 ein Umstand, der auf das Deutsche nicht ohne weiteres übertragen werden kann. Dies gilt aufgrund der oben festgestellten Mängel in den l e x i k a l i s c h e n Paraphrasen und der lexikographischen Kritik am Untersuchungsgegenstand. 8 2 ' Eine grundsätzliche Modifikation der Polysemiebestimmung ergibt sich, wenn man von einer Zählmethode ausgeht, die nicht auf äquidistanten Intervallen a u f b a u t . 8 3 > Unter linguistischen Gesichtspunkten erscheint die Argumentation gegen eine Verwendung von Äquidistanzen sinnvoll zu sein; jedoch sollte dieser Ansatz zukünftigen Untersuchungen zur Polysemiebestimmung vorbehalten bleiben. 78) V g l . Krylov 1982, S. 250. 79) Persönliche Mitteilung von J. Sambor und G. Altmann. 80) V g l . Tab. 14, S. 79 dieser Arbeit. 81) V g l . Krylov 1982, S. 242.
82) V g l . Kap. 7.5 dieser Arbeit. 83) V g l . Kap. 6 . 2 . 2 dieser Arbeit.
181
7.4
Der Substitutionstest
In der Diskussion zu den einzelnen Variablen sind bereits problematische F ä l l e der Datenerhebung vorgestellt worden, die in unmittelbarem Zusammenhang mit der lexikographischen Qualität des DUDUNI stehen. Es ist bislang aber noch nicht auf den Substitutionstest eingegangen worden. Dieser Test, der während der Datenerhebung die Entscheidungsgrundlage zur Bildung der Explikationsketten und Bestimmung der Polyfunktionalität sowie Polysemie der Lexeme darstellt, bildet für statistische Untersuchungen eine hervorragende Basis und stellt den Untersuchenden nur selten vor Entscheidungsprobleme. Aus lexikographischer Sicht ist der Test jedoch unzureichend, weil aus den lexikalischen Paraphrasen der Wörterbuchartikel nur das genus proximum ( f a l l s vorhanden) bzw. das erklärende Synonym oder Quasisynonym berücksichtigt wird, nicht aber die d i f f e r e n t i a s p e c i f i c a . Gerade diese kennzeichnen jedoch in einer Bedeutungserklärung die unterschiedlichen Bedeutungen der Lemmata. Beispiele: S. 537
HAMMONDORGEL
S. 693
KLAVICHORD
elektroakustisches Tasteninstrument mit variierbarer Klangfarbe, das bes. in der Unterhaltungsmusik verwendet wird.
altes Tasteninstrument, dessen Tasten am Ende Metal l stifte od. -plättchen tragen, mit denen die waagrecht liegenden Saiten angeschlagen werden.
182
Die Lexeme "Hammondorgel" und "Klavichord" sind zwar beide "Tasteninstrumente", aber der Unterschied zwischen beiden wird durch d i e d i f f e r e n t i a specifica, d i e Modifikatoren e * > , erklärt. Somit enthalten diese den entscheidenden Teil der lexikalischen Paraphrase. Dies gilt jedoch nur für umfassende Bedeutungserklärungen, die mit großer lexikographischer Sorgf a l t sowohl genus proximum als auch d i f f e r e n t i a specifica enthalten. Prüft man daraufhin das DUDUNI, so findet man (bei zufälliger Auswahl irgendeiner Wörterbuchseite) etwa gleich viele ausführliche lexikalische Paraphrasen wie Einworterklärungen. Ob dafür lexikalische Ursachen vorliegen oder ob sich ausführliche Bedeutungserklärungen für ein einbändiges Wörterbuch als unökonomisch erweisen würden oder kaufmännisch-verlegerische Gründe eine R o l l e spielen, kann hier nicht entschieden werden. Für eine Untersuchung, die insbesondere die Modifikatoren einbeziehen w i l l , müßte die Zielsetzung anders formuliert werden als in dieser Arbeit. Für die Analysen zu den strukturellen Beziehungen zwischen Substantiven reicht die Bestimmung von genus proximum, Quasisynonymen oder Synonymen aus. Für ein semantisches Netz hat man dadurch die Knoten der Netzstruktur ermittelt. In einem weiteren Schritt wären die Kanten, die Verknüpfungen zwischen den Substantiven, qualitativ zu beschreiben. Dazu benötigt man aus den Wörterbüchern die Modifikatoren, kann quantitative Merkmale (Abstraktheit, Häufigkeit, Polysemie, Wortlänge, Silbenzahl, . . . ) hinzufügen und weitere lexikalische Variablen (Hyponym, Superonym, Antonym, . . . ) 8 5 > ergänzen. * > Z u r qualitativen Beschreibung reichte auch hier die Verwendung eines einzigen Wörterbuchs nicht aus, weil man sehr stark von der lexikographischen Qualität dieses Wörterbuchs abhinge. Der Substitutionstest bildet jedoch für ein derartiges Vorhaben den ersten Arbeitsschritt und kann in der Form, wie er 84) V g l . Jansen 1977, S. 348 f. 85) V g l . u . a . Wiegand 1977b, S. 72 ff. 86) Skorochod'ko entwirft ein semantisches Netz, das weitere semantische Relationen der Lexik zur Beschreibung eines Modells enthält; vgl. Skorochod'ko 1981. Neubauer zeigt 40 "elementare lexikalische Funktionen"
183
in diesen Untersuchungen eingesetzt worden ist, lung der Netzknoten verwendet werden.
7.5
zur Ermitt-
Zur Qualität des Untersuchungsgegenstands
Als die Datenerhebungen zu den Versuchen V l, V 2 und V 3 vorgenommen worden sind, war das DUDUNI das aktuellste einbändige Bedeutungswörterbuch der deutschen Sprache, das auf dem Wörterbuchmarkt zu erhalten war. In verschiedenen Analysen zur Qualität des DUDUNI ist festgestellt worden, daß es in bezug auf die Wortschatzrepräsentation als eines der besseren Wörterbücher in der deutschen Wörterbuchlandschaft anzusehen s e i . e 7 » Dennoch haben die gleichen Autoren auch eine Fülle von kritischen Anmerkungen und Verbesserungsvorschlägen zum DUDUNI gegeben, so daß eine Überprüfung des Wörterbuchs für die Bereiche, die in unmittelbarem Zusammenhang mit den hier durchgeführten Versuchen stehen, notwendig ist.
7.5.1
Die lexikographische Kritik
Es geht in diesem Kapitel nicht darum, die umfangreiche und kritische Arbeit von BERGENHOLTZ/MUGDAN zu wiederholen oder die mangelnde Konsequenz des DUDUNI in formalen Fragen zu thematisieren. Für die in dieser Arbeit durchgeführten Untersuchungen ist es vor a l l e m wichtig, ob der Substantivwortschatz der deutschen Sprache im DUDUNI angemessen repräsentiert ist und ob sich die lexikographischen Kodifikationsprinzipien oder unbrauchbare Informationen in den lexikali-
(nach M e l ' c u k 1974), in denen die Relationen zwischen Wörtern abgebildet sind; vgl. Neubauer 1980, S. 22 ff. 87) U . a . Bergenholtz/Mugdan 1986, Knobloch 1984, Hausmann 1984. 88) Bergenholtz/Nugdan 1986.
184
sehen Paraphrasen auf die ermittelten Resultate negativ ausgewirkt haben. Durch eine Interpretation der Tabelle 34 8 9 ) wird demonstriert werden, wie man mit quantitativen Methoden die Repräsentation des Wortschatzes und - für Teilbereiche - die lexikographische Qualität eines Wörterbuchs auf einfache Weise analysieren k a n n . " > Die Werte werden in der Tabelle nach I n i t i a l e n der Lemmata (Spalte I) sortiert. In der Spalte II ist die Seitenanzahl, die im DUDUNI pro I n i tial der Lemmata zur Verfügung steht, aufgeführt. In der Spalte III findet man den durchschnittlichen Seitenumfang aus drei Bedeutungswörterbüchern 9 J ! (auf ganze Zahlenwerte gerundet), wobei diese Werte auf die Gesamtseitenzahl im DUDUNI umgerechnet worden sind, so daß man die Zahlen in Spalte II und III unmittelbar miteinander vergleichen k a n n . 9 2 1 Die Lemmamengen pro Buchstabe sind im DUDUNI gemessen an den drei anderen Wörterbüchern r e l a t i v gleichmäßig repräsentiert; < ) 3 : Ausnahmen findet man unter den Initialen "B" (DUDUNI: 81, Durchschnitt: 94) und "P" (DUDUNI: 74, Durchschnitt: 59) . Die Spalte IV enthält die Substantivmengen des Master Corpus, aufgeteilt nach Anfangsbuchstaben und umgerechnet auf die Gesamtseitenzahl des DUDUNI (1482). Ein Vergleich mit der Spalte II gibt darüber Aufschluß, ob es unter e i n z e l n e n Anfangsbuchstaben besondere Abweichungen der Lemmamengen im untersuchten Datencorpus gibt. 89) V g l . S. 185 dieser Arbeit. 90) In einigen Punkten deutet Krylov ähnliche Verfahren an; v g l . Krylov 1982, S. 240 ff. 91) Folgende Wörterbücher, die sich im Aufbau ( z . B . Art der Kompositalemmatisierung) ä h n e l n , sind benutzt worden: Wahrig 1980, Duden 1976 f f . , dtv-Wahrig 1981. 92) Die Gesamtseitenzahl im DUDUNI beträgt 1482 Seiten (1504 minus 22 Seiten Benutzungshinweise). 93) In den quantitativen Analysen zur Tabelle 34 werden die Werte zu den Buchstaben "C", " I " , "J", "Q", "X" und "Y" nicht ausgewertet, weil z . T . nur sehr k l e i n e Werte vorliegen.
185
Tabelle 34:
Lexemverteilung nach Anfangsbuchstaben
I
B C D E F G H I J K L M N 0 P Q R S T U V W X
y z
II
III
IV
V
129 81 12 61 78 66 78 87 29 11 101 48 62 34 17 74 6 61 189 56 44 62 50 1 0 45
125 94 8 59 87 72 88 93 23 10 97 49 62 36 16 59 5 58 186 49 44 60 54 1 0 47
121 116 4 43 78 82 112 70 14 6 97 55 64 28 16 55 4 58 178 58 48 70 61 0 0 44
584 561 21 208 379 398 539 341 69 27 468 266 309 135 78 268 20 283 863 281 232 341 296 0 0 212
1482
1482
1482
7179
X
VII
VIII
6.5 9.7 0 9.6 11.6 9.9 10.8 12.3 4.4 7.5 7.4 9.8 14.3 6.7 12.8 7.9 10.1 9.9 10.0 9.7 6.9 8.3 12.2 0 0 7.2
12.1 8.6 4.7 4.7 10.2 6.0 5.1 5.2 7.1 0 3.1 3.7 5.1 11.9 1.1 5.2 10.0 7.7 4.8 6.8 23.7 19.1 9.7 0 0 12.7
2.7 2.2 2.6 2.2 2.0 2. 1 2.2 2.3 2.8 1.8 2.6 2.3 2.3 1.9 2.2 2.5 2.0 2.2 2.5 2.1 1.6 1.6 1.9 0 0 2.2
9.4
8. 1
2.3
VI
Erläuterungen zu Tab. 34: I II III
= Initialen der Substantive = Seitenanzahl im DUDUNI = Durchschnittliche Seitenanzahl aus drei Wörterbüchern IV = Substantivmenge im Master Corpus pro I n i t i a l , umgerechnet auf Seitenzahl im DUDUNI V = Substantivmenge im Master Corpus VI = Prozentualer Anteil der NA-Lemmata an den Werten in Spalte V VII = Prozentualer Anteil der KE-Lemmata an den Werten in Spalte V V I I I = Polysemieverhältnis im Master Corpus.
I
B C D E F G H I J K L M N 0 P
Q
R S T U V W X
z
186
Bei einer Inspektion der Werte f a l l e n die Buchstaben "B", "F", "G" und "W" mit relativ vielen und die Buchstaben " D " , "H" und "P" mit relativ wenigen Substantiven a u f . Diese Werte, die das Verhältnis der untersuchten Substantive zur gesamten Lemmamenge im DUDUNI angeben, sind zunächst ohne entscheidende Aussagekraft, werden aber im folgenden zur Stützung lexikographischer Resultate benötigt. In der Spalte V sind die tatsächlich vorhandenen Substantive des Master Corpus nach Anfangsbuchstaben sortiert. Diese Werte bilden für die Berechnung der Daten in den Spalten VI bis V I I I den Bezugspunkt. In der Spalte VI findet man den prozentualen Anteil der NALemmata an der Gesamtzahl der Lemmata des Master Corpus. Der durchschnittliche Anteil a l l e r NA-Lemmata beträgt 9.4 % ; die meisten Lemmalücken existieren bei Substantiven mit dem Anfangsbuchstaben "M" ( 1 4 . 3 % ) , : ) 4 1 während die Lemmaauswahl zu den Buchstaben "A" ( 6 . 5 % ) , "N" ( 6 . 7 *) und "U" ( 6 . 9 %) o f f e n s i c h t l i c h sehr sorgfältig erfolgt ist. Die Spalte VII enthält den prozentualen Anteil der KE-Lemmata an a l l e n Lemmata des Master Corpus. KE-Lemmata verweisen auf Mängel in der lexikalischen Paraphrase, insbesondere das Vorkommen von Bedeutungserklärungen ohne Explikationswert, in v i e l e n F ä l l e n substantivierte Verben zu Derivaten des gleichen Grundwortes. Besonders gut scheint die lexikographische Arbeit zum Buchstaben "K" gelungen zu sein, denn dort ist der Anteil der KE-Lemmata sehr gering. Nahezu katastrophal ist der Anteil der KE-Lemmata zu "U" ( 2 3 . 7 %) und "V" (19.1 %) sowie etwas günstiger zu "Z" ( 1 2 . 7 % ) , "A" (12.1 %) und "N" (11.9 % ) . In der Spalte V I I I ist das Verhältnis von Erklärungswörtern zu Lemmata im Master Corpus angegeben. Der Durchschnitts94) Von den 44 NA-Lemmata mit dem I n i t i a l e n "M" existieren a l l e i n 11 (25 %) mit dem Kompositumsglied " M e t a l l " . Eine vergleichbare A u f f ä l l i g k e i t gibt es zum Buchstaben "H": Von 42 NA-Lemmata beginnen Komposita (19 %) mit " H o l z " .
187
wert liegt bei 2.3 Kernkonstituenten pro L e m m a ; 9 5 ) abweichende Werte findet man zum Buchstaben "A" ( 2 . 7 ) sowie zu "U" ( 1 . 6 ) , " V " ( 1 . 6 ) u n d " N " ( 1 . 9 ) . Wenn m a n nicht voraussetzt,' < > · daß die Polysemie von Substantiven sich je nach I n i t i a l verändert, dann lassen diese Abweichungen vom Durchschnitt nur den Schluß zu, daß die Substantive mit den Initialen "U", "V" und "N" mit geringerer lexikographischer Sorgfalt bearbeitet worden sind als die ü b r i g e n . 9 7 > Dies wird besonders dadurch hervorgehoben, daß in den Spalten VI bis V I I I die größten Abweichungen vom Durchschnittswert bei den zuletzt genannten Buchstaben auftreten, so daß für einige Anfangsbuchstaben folgende Schlüsse gezogen werden müssen: Der Buchstabe "U" ist lexikographisch besonders mangelhaft bearbeitet worden, weil zu den lemmatisierten Substantiven im DUDUNI die semantische Diversifikation unzureichend erarbeitet worden ist und in v i e l e n F ä l l e n nur eine Bedeutungserklärung mit H i l f e eines lexikographischen Z i r k e l s (KE-Lemmata) e r f o l g t . Zugleich sind die in der deutschen Sprache existierenden Substantive, die mit "U" beginnen, in ausreichendem Maße lemmatisiert worden, denn es gibt zum Buchstaben "U" nur wenige NA-Lemmata, und der Anteil der Substantive mit "U" liegt im Master Corpus gemessen an den Seiten, die im DUDUNI für den Buchstaben "U" zur Verfügung stehen, proportional zum Durchschnitt. Die Buchstaben "V" und "N" weisen ähnliche Tendenzen wie 95) Zu beachten ist, daß hier der durchschnittliche P-Wert auf der Basis a l l e r lemmatisierten Substantive des Master Corpus errechnet worden ist und dieser Wert vom durchschnittlichen P-Wert der im DUDUNI lemmatisierten Substantive zu unterscheiden ist ( v g l . Kap. 5.3 dieser Arbeit). 96) Es ist keine Untersuchung bekannt, die diesen Sachverhalt zum Thema hat. 97) Die Resultate Krylovs, die im Russischen den Polysemiegehalt der Lemmata mit den Initialen " I " , "K" und "S" als repräsentativ für die P-Werte des ganzen Wörterbuchs beschreiben, lassen sich auf die deutsche Sprache nicht ohne weiteres übertragen; vgl.
K r y l o v 19 2, S. 251 f.
188
"U" a u f , nur sind die Ausprägungen zu den einzelnen Merkmalen etwas schwächer. Die lexikalischen Paraphrasen zum Buchstaben "A" sind gut bearbeitet, w e i l die Polysemiedarstellung der Lemmata mit "A" sehr d i f f e r e n z i e r t erfolgt und der Anteil der NA-Lemmata sehr k l e i n ist. Die lexikographische Qualität ließe sich noch verbessern, wenn man den relativ hohen Anteil der KE-Lemmata minimieren würde. Greift man auf die Spalten I bis IV der T a b e l l e 34 zurück, so ist bemerkenswert, daß gerade die Initialen " A " , " N " , "U" und " V " , die in den Spalten VI bis V I I I die a u f f ä l l i g s t e n Werte beinhalten, bei der Verteilung der Seiten pro Anfangsbuchstaben keine nennenswerten Abweichungen aufweisen. Auch im Vergleich zu den Durchschnittswerten aus anderen Wörterbüchern (Spalte I I I ) treten diese I n i t i a l e n nicht besonders in Erscheinung. Dies belegt, daß zu den vier I n i t i a l e n " A " , " N " , "U" und "V" im DUDUNI genügend Raum zur Verfügung steht. Zudem entspricht pro Initial der Substantivanteil im DUDUNI dem durchschnittlichen Lexemanteil pro I n i t i a l . Aufgrund dieser Zusammenhänge sind nicht f a l s c h e Relationen der lemmatisierten Wortmengen im DUDUNI oder f a l s c h e Substantivanteile, sondern eine unzureichende Bearbeitung der lexikalischen Paraphrasen bei den genannten I n i t i a l e n die Ursache für die abweichenden Werte in der Tabelle 34 . "> e Zu den Substantiven mit dem Anfangsbuchstaben "U" sind jedoch noch weitere wichtige Anmerkungen zu m a c h e n . 9 9 > Zählt man a l l e Lemmata mit einem großgeschriebenen "U" am Anfang, die eine kursiv gedruckte Bedeutungserklärung enthal98) Bei Krylovs Versuch, die Wortschatzrepräsentation im Wörterbuch mit H i l f e eines Vergleichs des Polysemiegehalts verschiedener Lemmainitialen einzuschätzen, kommen lexikographische Analysen zu kurz, so daß lediglich quantitative Aussagen, aber keine qualitativen gemacht werden können; vgl. Krylov 1982, S. 243. 99) V g l . Bergenholtz/Mugdan 1986, S. 41. Die Autoren untersuchen nur das Präfix "un-" und versäumen damit wichtige Erkenntnisse. Zudem ist der Substantivanteil mit 531 Wörtern f a l s c h errechnet oder gezählt. Es sind 590 Substantive, die mit "Un" beginnen.
189
ten, so kommt man auf 1766 W ö r t e r . 1 0 0 ' Von diesen Lemmata werden d i e j e n i g e n markiert, d i e a u s s c h l i e ß l i c h eine lexikalische Paraphrase in Form einer Substantivierung der folgenden Typen enthalten: Beispiel: Typ 1:
S. 1304
ÜBEREINSTIMMUNG : das übereinstimmen.
Typ 2:
S. 1327
UNGEZWUNGENHEIT : das Ungezwungensein.
Man erhält 489 Substantive ( 2 7 . 7 % ) , die sich auf den Typ l (207 Wörter) oder den Typ 2 ( 2 8 2 Wörter) verteilen. ° > Besonders merkwürdig ist es, daß unter den ersten 640 lemmatisierten Substantiven (bis "Umzugstag"), die 177 markierte Substantive enthalten, der Typ l mit 90 % vorkommt und der Typ 2 mit 10 % . 1 0 2 » Unter den restlichen 1126 Substantivlemmata kann man 312 Wörter markieren, von denen der Typ 2 einen Anteil von 85 % , der Typ l von 15 % besitzt. Zwar enthalten die ersten 640 Lexeme häufig die Präfixe "über-" und "Um-" und die restlichen Lexeme oft die Präfixe "Un-", "Unter-" und "Ur-", aber es existiert keine linguistisch begründete Hypothese, daß Präfixe die Verwendung von substanti100)
Die Gesamtzahl ist nicht ein zweites Mal geprüft worden, so daß mit einer Fehlerquote von plus minus fünf Lemmata gerechnet werden muß. 101) Wenn in einem Wörterbuchartikel neben einer Erklärung des des Typs l oder 2 auch eine Explikation enthalten ist, die aufgrund der definitorischen Abgrenzungen in Kap. 2.2 zu berücksichtigen ist, dann ist dieses Lemma nicht bei den 489 Lemmata mitgezählt worden. 102) Das Zählverfahren sieht folgendermaßen aus: Wenn zu einem Lemma nur der Typ l oder der Typ l plus dem Typ 2 vorkommt, wird eine Eintragung unter Typ l gemacht. Unter die Gesamtmenge zum Typ 2 f a l l e n also nur die Lemmata, die nur zum Typ 2 gehören.
190
vischen Erklärungen determinieren und dies auch noch für verschiedene Präfixe nach den oben gebildeten Typen geschieht. Auch wenn für die gezeigten Phänomene zur Zeit keine befriedigende linguistische Erklärung abgegeben werden kann, so zeigen die ermittelten Daten doch deutliche Unterschiede pro I n i t i a l , die unmöglich dem Z u f a l l unterliegen können. S o l l t e beim Dudenverlag die lexikographische Bearbeitung der Wörterbuchartikel in irgendeiner Weise nach Lemmainitialen organisiert sein, so hat es sich der Bearbeiter oder das Bearbeitungsteam zum Buchstaben "U" extrem leicht gemacht. Durch die angewandten Methoden ist deutlich gezeigt worden, in welcher Weise quantitative Analysen für Wörterbücher wichtige Unregelmäßigkeiten aufdecken können. Dieser Hinweis erscheint notwendig, w e i l bisher nur selten quantitative Methoden in der Lexikographie a p p l i z i e r t worden sind, dies aber in Zukunft wünschenswert und vor a l l e m unter Z u h i l f e nahme computerlinguistischer Verfahren m ö g l i c h sein wird. Die folgenden Beispiele betreffen vornehmlich die lexikalischen Paraphrasen in den Wörterbuchartikeln. Die Gliederung der Bedeutungserklärungen in arabische Zahlen und nach Kleinbuchstaben f o l g t keiner für den Benutzer erkennbaren Systematik. 3 ; Besonders störend wirkt es sich aus, daß die Bedeutungen der Lemmata nicht in einer bestimmten R e i h e n f o l g e angegeben w e r d e n . 1 ° « ' Zu dem Lemma "Teil" existieren neun Bedeutungen, wenn man die in dieser Arbeit verwendete Polysemiedefinition zur Grundlage n i m m t . 1 0 - ' Das Lexem "Stück", das bei der Bildung von Explikationsketten in den meisten F ä l l e n die passende Kernkonstituente hinter "Teil" bedeuten würde, steht erst an neunter S t e l l e . Das Substantiv " T e i l " wird durch die anderen Kernkonstituenten des Wörterbuchartikels ( " e t w . , w a s " , "Menge", "Masse", "Teilbe103) V g l . Kap. 5 . 1 . 3 dieser Arbeit. 104) V g l . Bergenholtz/Mugdan 19 6, S. 86. 105) V g l . S. 76 dieser Arbeit.
191
r e i c h " , " A n t e i l " , "Beitrag", "Person", "Gruppe") unpräziser erklärt als durch "Stück". Von diesen anderen Erklärungswörtern weisen "Teilbereich" und "Anteil" die größte semantische Ä h n l i c h k e i t mit "Stück" a u f . Während "Anteil" wiederum " T e i l " als erste Kernkonstituente enthält, findet man in der Bedeutungserklärung zu "Teilbereich" recte geschrieben: "vgl. Teilb e g r i f f " . Da "Teilbereich" und " T e i l b e g r i f f " von unterschiedlicher Bedeutung sind, handelt es sich um einen v ö l l i g unsinnigen V e r w e i s . i O b ) F ü r d i e Kettenbildungen haben d i e Wörterbucheintragungen zu diesem Lemma eine besondere R o l l e gespielt, weil das Wort "Teil" häufig als Erklärungswort in den Ketten auftritt und in sehr v i e l e n Fällen das erste verwendbare Erklärungswort zu "Teil" "Teilbereich" war. Dies hat hinter "Teilbereich" immer zu einem Kettenabbruch geführt, weil keine Bedeutungserklärung in Kursivschrift v o r l i e g t . l ° 7 > Neben diesen Auswirkungen ist es auch für den Wörterbuchbenutzer von großem Nachteil, wenn er mit Verweisen durch das Wörterbuch geschickt wird oder er die einfachste b z w . wichtigste Bedeutungserklärung erst am Ende eines Wörterbuchartikels findet. Die Verwendung von eckigen und runden Klammern w i r f t beim Wörterbuchbenutzer viele Fragen a u f . i o a > D i e Verwendungsweise eckiger Klammern in Bedeutungsangaben wird in "Anlage und Artike laufbau" * ° 9 ' nicht erklärt, und über runde Klammern findet man folgendes: "Bedeutungsschattierungen, Kontextbedeutungen und die Bedeutungen der idiomatischen Ausdrücke stehen in runden Klammern hinter dem betreffenden Wort oder betref106) 107)
108) 109)
Zur Sinnhaftigkeit der Verweise im DUDUNI v g l . Bergenholtz/Mugdan 1986, S. 90 ff. Auswahl weiterer Lemmata, die keine Explikationen, sondern nur Verweise enthalten: Abbauverfahren, Lehranstalt, Lehrwerk, Mengenbegriff, M e t a l l s c h e i b e , Metalls t i f t , Münzeinheit, Nebeneingang, Uniformhemd, Weinbrandbohne . V g l . Bergenholtz/Mugdan 1986, S. 94 ff. V g l . DUDUNI 1983, S. 9 ff.
192
fen den Fügung und sind kursiv gedruckt, ( . . . ) " 1 1 0 ) Das f o l gende Beispiel zeigt jedoch, daß eckige Klammern auch in Bedeutungsangaben vorkommen und runde Klammern auch anders als angegeben benutzt werden. Beispiel: S. 1187
< i ' S P I R I T U S : technischen Zwecken dienender, vergrällter (Äthyl)alkohol < 2'SPIRITUS : Hauch, Atem, [Lebens]geist,
Der Benutzer weiß nicht, ob die runde Klammer etwas anderes bedeutet als die eckige, der erfahrene Wörterbuchbenutzer ahnt, daß beide Klammern aus Platzersparnisgründen gesetzt werden und sowohl "Äthylalkohol" als auch "Alkohol" b z w . "Lebensgeist" und "Geist" als Bedeutungen für "Spiritus" gelten sollen. Die häufige Verwendung eines substantivierten Verbs in der lexikalischen Paraphrase konzentriert sich nicht nur auf die oben genannten Initialen. Besonders oft werden Lemmata mit dem Suffix "-ung" durch ein substantiviertes Verb des gleichen Worts erklart.111' Dies bringt jedoch für den Wörterbuchbenutzer keinen Erkenntnisgewinn. Der lexikographische Zirkel erscheint im DUDUNI nicht übermaßig h ä u f i g , 1 1 2 ) aber es gibt eine Reihe von Beispielen zu konkreten und seltenen Wörtern, die dort besonders ungünstige 110) V g l . DUDUNI 1983, S. 17. 111) Substantive dieses Typs aus dem Master Corpus, die mit "E" beginnen: Einhaltung, Einspritzung, Einstülpung, Einweisung, Einwirkung, Einziehung, Entladung, Entscheidung, Entstehung, Entwicklung, Entzündung, Erfassung, Erforschung, Erfüllung, Erneuerung, Errichtung, Erschließung, Erschwerung, Erstreckung, Erteilung, Erwähnung , Erwei terung. 112) Die Untersuchungen Burghardts ergeben zu Nominalausdrükken in verschiedenen Bedeutungswörterbüchern einen Anteil von 30 bis 40 % an zirkulären Ausdrücken; vgl. Burghardt 1977, S. 22. Derart hohe Werte werden im DUDUNI - auch, wenn man Zirkularitat über mehrere Explikationsstufen betrachtet - nicht erreicht.
193
Auswirkungen h a b e n . 1 1 3 ' Dazu gehören auch die Erklärungen mit lateinischen Fachausdrücken, die keinem Benutzer des DUDUNI dienlich sein k ö n n e n . 1 1 4 1 Unter lexikographischem Blickwinkel sind diese Zirkel überflussig und können insbesondere fremdsprachliche Benutzer am Wert des DUDUNI z w e i f e l n lassen. Die folgenden Wortfolgen enthalten nach jedem Doppelpunkt die Bedeutungserklärungen, wobei in einigen F ä l l e n nur die in diesem Zusammenhang wesentlichen Teile der lexikalischen Paraphrase aus dem DUDUNI übernommen worden sind: Beispiele: Espe : Zitterpappel : Espe Scheidenentzündung : Kolpitis : Entzündung der Scheide Quillaja : Seifenbaum : (nicht lemmatisiert) Abmachung : Vereinbarung : Abmachung, übereinkommen Abmachung, Einigung : das Sicheinigen, Einigwerden überpflanze : Epiphyt : P f l a n z e Wiederholungszahlwort : Multiplikativum Vervielfältigungszahlwort : Multiplikativum :
Zahlwort, Wiederholungs-, Zellehre
:
Umverteilung : Gebäckstück : Hersteller :
Einsiedler
:
Vervielfältigungszahlwort Zytologie : Wissenschaft, Zellforschung, Z e l l e n l e h r e , Zellehre Redistribution : Korrektur geformtes Stück Gebäck Produzent ( . . . ) : j m d . , der etw. produziert, Hersteller, Erzeuger : Vater, j m d . , der etw. produziert, erzeugt, . . . Eremit : Einsiedler, Klausner : Einsiedler, Bewohner einer Klause jmd.,, der etwas bewohnt, Ungeziefer, . . . : . . . .
113) V g l . Bergenholtz/Mugdan l986, S. 99 f. 114) V g l . Bergenholtz/Mugdan 1986, S. 89.
194
7.5.2
Wörterbuchvergleich
Es liegen Daten zur lexikologischen Struktur der Substantive aus zwei Wörterbüchern, dem DUDUNI und dem "dtv-Wörterbuch der deutschen Sprache" i i S ) , vor. In der Untersuchung zum WAHRIG-Wörterbuch ist f e s t g e s t e l l t worden, daß der Substantivwortschatz der deutschen Sprache in dem Wörterbuch mangelhaft lemmatisiert worden i s t . i i 6 ' Bei einem V e r g l e i c h der beiden Wörterbücher ist zu erwarten, daß das DUDUNI trotz der oben aufgeführten Kritik eine erheblich bessere lexikographische Qualität a u f w e i s t . In der Tabelle 35 > sind die wichtigsten Vergleichsdaten, die zu den Wörterbüchern erhoben worden sind, zusammengestellt worden. Von besonderem Vorteil ist es, daß die Menge der untersuchten Lemmata in beiden Datencorpora ungefähr gleichgroß ist. Dadurch können die weiteren Daten einfach verglichen werden. Das Wörterbuch von WAHRIG enthält pro Lemma mehr Bedeutungen; der durchschnittliche P-Wert ist mit 3.21 Erklärungswörtern um fast 50 % höher als der Wert zum DUDUNI. Dies kann auf eine sorgfältigere Bearbeitung der semantischen D i v e r s i f i kation der Substantive im dtv-Wörterbuch hinweisen. Der Substantivwortschatz, der zur Erklärung der Lemmata verwendet wird, ist im "dtv-Wörterbuch der deutschen Sprache" erheblich umfangreicher. Allerdings muß dies kein Vorteil sein, w e i l man unter lexikographischen Gesichtspunkten auch die Verwendung eines limitierten Kernwortschatzes in den lexikalischen Paraphrasen bevorzugen kann. Die Z e i l e "Nurlemmata" enthält die Summe der Lexeme, die nur als Lemma vorkommen, aber niemals als Kernkonstituente. Zusammen mit den Werten in der darüberllegenden Z e i l e ("Ver115) 116)
Wahrig 19 1. V g l . Schierholz 1988, S. 466 ff.
117) V g l . S. 195 dieser Arbeit.
195
Tabelle 35:
Daten zu zwei Wörterbüchern
Lemmata Erk 1 ärungswört er Erklärungswörter pro Lemma
DUDUNI
WAHR IG
7179
7421
16202
23813
2.26
3.21
Verschiedene Erklärungswörter
6036
9119
Nur lemmata
1143
3493
Verschiedene Erklärungswörter, die lemmatisiert sind
5354
3928
Anteil der NA-Lemmata an verschiedenen Erklärungswörtern
11.3 %
56.9 %
A n t e i l der NA-Lemmata an a l l e n Lemmata
9.4 %
41.2 %
Anteil der KE-Lemmata an a l l e n Lemmata
8.1 %
-
Häufigkeit des häufigsten Erklärungswortes: Teil
261
263
118)
schiedene Erklärungswörter") erkennt man, daß der Wortschatz a l l e r verschiedenen Substantive,
die als Lemma oder in einer
l e x i k a l i s c h e n Paraphrase zu den Substantiven vorkommen, WAHRIG w e s e n t l i c h umfangreicher i s t
als
i m DUDUNI.
bei
'>
118) KE-Lemmata sind in der Untersuchung zum Wahrig-Wörterbuch nicht gezählt worden. 119) A l l e r d i n g s ist zu beachten, daß im dtv-Wörterbuch a l l e lemmatisierten Substantive untersucht worden sind, während im DUDUNI nur ein T e i l der Substantivlemmata - vor a l l e m die häufigen - das Master Corpus b i l d e t . Würde man die Untersuchungen im DUDUNI auf den gesamten Lemmabestand der Substantive ausdehnen, so würde der A n t e i l an neuen Wörtern anwachsen, so daß die Summe der verschiedenen Substantive erheblich zunehmen würde.
196
Jedoch sind im dtv-Wörterbuch von 9119 verschiedenen Erklärungswörtern nur 3928 im Wörterbuch lemmatisiert, während im DUDUNI von 6036 Erklärungswörtern 5354 lemmatisiert sind. Deutlicher zeigt die Z e i l e mit dem Anteil der NA-Lemmata das lexikalische Mißverhältnis im WAHRIG-Wörterbuch: 56.9 % a l l e r verschiedenen Kernkonstituenten sind nicht lemmatisiert, während es im DUDUNI nur 11.3 % sind. Man kann diesen Anteil auch an der Gesamtzahl a l l e r Lemmata der beiden Datencorpora berechnen, dann sind die Resultate etwas niedriger. In bezug auf die lexikologische Bearbeitung der Substantive weist das DUDUNI also eine bedeutend bessere lexikographische Qualität a u f . Der relativ umfangreiche Wortschatz an Erklärungswörtern im WAHRIG-Wörterbuch ist ohne Nutzen, w e i l über die H ä l f t e der Kernkonstituenten nicht lemmatisiert ist. Dieser Aspekt wiegt um so mehr, als im WAHRIG-Wörterbuch unter den nicht lemmatisierten Erklärungswörtern v i e l e Substantive vorkommen, die sehr häufig als Kernkonstituente auftret e n , 1 2 0 5 während dieser Sachverhalt im Master Corpus nicht existiert. A l l e r d i n g s wird im DUDUNI der Anteil der NA-Lemmata zunehmen, wenn man a l l e lemmatisierten Substantive untersucht, w e i l im existierenden Master Corpus die häufigen Substantive enthalten s i n d . 1 2 1 Ein Vergleich der KE-Lemmata kann nicht e r f o l g e n , weil diese in der WAHRIG-Untersuchung nicht gezählt worden sind. Das größte Explikationspotential a l l e r Kernkonstituenten, die in den lexikalischen Paraphrasen auftreten, besitzt das Lexem " T e i l " , w e i l es in beiden Wörterbüchern am häufigsten (und mit fast gleicher Frequenz) auftritt. 120) V g l . Schierholz 1988, S. 466, Anm 13. 121) Dies wird dadurch belegt, daß von den NA-Lemmata nur zwei ("Geldbetrag", "Personengruppe") häufiger als dreimal als Kernkonstituente auftreten.
197
7.5.3
Wörterbuchoptimierung
Aus den Überlegungen und Vergleichen der Kapitel 7.5.1 und 7 . 5 . 2 läßt sich ein kleiner Katalog erstellen, der von Lexikographen zur Wörterbuchverbesserung eingesetzt werden sollte. Natürlich handelt es sich nur um den Ausschnitt von Optimierungsmöglichkeiten, die sich aus den drei angestellten lexikologischen Versuchen ergeben, die aber sämtlich auf quantitativen Analysen beruhen. Wörterbücher müssen mit quantitativen Methoden analysiert werden. Diese Untersuchungen sollte man auf a l l e Wortarten ausdehnen. Besonders die Häufigkeitszählung des ExplikationeVokabulars ergibt wichtige Aufschlüsse über die lexikologischen Strukturen innerhalb eines Wörterbuchs. Durch den Aufbau eines Polyfunktional itätswörterbuchs, in dem das Explikationsvokabular von Bedeutungswörterbüchern lemmatisiert ist, wird das Prinzip traditioneller Bedeutungswörterbücher umgedreht und ein neuer Wörterbuchtyp geschaffen, mit dem sich zahlreiche lexikologische Studien betreiben lassen. Zwar entstehen damit Überschneidungen zu onomasiologisch aufgebauten Lexika, aber da diese nicht auf der Basis empirischer Analysen entstanden sind, bieten die Polyfunktionalitätswörterbücher eine bessere Basis für quantitative Untersuchungen. Mit H i l f e eines Polyfunktionalitätswörterbuchs können intersubjektiv überprüfbare Aussagen über die Qualität bestehender Wörterbücher gemacht werden. Neuauflagen und zukünftige Wörterbücher werden dadurch in ihren lexikologischen Strukturen verbessert. Durch den Einsatz von Methoden der Datenverarbeitung lassen sich die sehr umfangreichen Arbeitsprozesse bewältigen.
198
A l l e Kernkonstituenten, die in den lexikalischen Paraphrasen zur Erklärung der Lemmata benutzt werden, müssen selbst lemmatisiert w e r d e n . 1 2 2 ) Zur Überprüfung dieses Sachverhalts eignet sich ein Polyfunktionalitätswörterbuch. Der lexikographische Zirkel sollte bei einer ausgewählten Wortgruppe (Kriterium: hoher Häufigkeitswert) akzeptiert werden. Bei Substantiven, die selten vorkommen und konkret sind, muß der Zirkel vermieden w e r d e n . i z a » Das Aufspüren eines lexikographischen Zirkels in einem Bedeutungswörterbuch kann mit H i l f e eines Polyfunktionalitätswörterbuchs erfolgen. Ist ein Lemma polysem, so müssen die verschiedenen Bedeutungserklärungen in eine sinnvolle Reihenfolge gebracht werden. Jeweils die wichtigste oder allgemeinste Explikation sollte am Anfang stehen. Die Kriterien für diese Reihung lassen sich durch die Extension und die Häufigkeit eines Wortes ermitteln. Es ist denkbar, daß weitere Kriterien herangezogen werden müssen. Zu bevorzugen sind dabei empirisch meßbare Werte, die für a l l e Lexeme ermittelt werden können. Neben einer Reihung der Bedeutungen ist auch eine Differenzierung der Bedeutungen nach Haupt-, Neben- oder Unterbedeutung aus lexikologischen und semantisehen Gründen sinnvoll sowie für den Wörterbuchbenutzer h i l f r e i c h . Das System, nach dem diese Differenzierung stattfindet, muß sowohl für den Benutzer durchschaubar als auch für den Linguisten intersubjektiv nachprüfbar sein. Der Einsatz von quantitativen und algebraischen Verfahren scheint dazu unabdingbar zu sein. Die Isolierung eines gesonderten Explikationsvokabulars die Ermittlung von "semantischen Primitiven" i 2 * > - ist anzustreben. Dieses Vokabular sollte vor a l l e m aus Lexemen be122) Natürlich muß dies auf die restlichen Lexeme einer Bedeutungserklärung (die Modifikatoren) ausgedehnt werden. 123) Neubauer kritisiert grundsätzlich die Zirkularität von Explikationen, so auch zu der Begriffskette "Lebewesen Organismus - Lebewesen". Dabei fehlt eine differenzierte Betrachtung der Substantive, z . B . aufgrund der Häufigkeitswerte; vgl. Neubauer 1980, S. 2 ff. 124) Vgl. Neubauer 1980, S. 9
ff.
199
stehen, die häufig für andere als Kernkonstituente fungieren und die in einem lexikographischen Z i r k e l v e r h ä l t n i s zueinander s t e h e n . - - - ·
7.5.4
Die Auswirkungen auf die durchgeführten Versuche
Die umfangreiche Kritik zum DUDUNI ist vor a l l e m von lexikographischer Bedeutung. Es würde jedoch die Güte der Untersuchungsresultate erheblich beeinträchtigen, wenn die lexikographischen Mängel eine Ursache für eine Resultatsverzerrung darstellen würden. Die oben aufgezählten Kritikpunkte sind in ihrer Bedeutung für die Durchführung der Versuche und die Untersuchungsergebnisse an verschiedenen S t e l l e n aufgeführt worden, so daß im folgenden eine zusammenfassende A u f l i s t u n g der wichtigsten Punkte gegeben wird. Der Anteil der NA- und KE-Lemmata ist nicht so hoch, daß dadurch die lexikologischen Zusammenhänge zwischen den Substantiven nicht repräsentiert werden können. Bei der Polysemiebestimmung sind wenige Substantive unzureichend erklärt. Die lexikographische Bearbeitung zum Buchstaben "U" wirkt sich auf die Höhe des durchschnittlichen P-Wertes aus. Dieser würde geringfügig höher liegen, wenn die semantische Diversifikation der Lemmata mit dem Initial "U" besser ausgearbeitet wäre. Die R e i h e n f o l g e der Erklärungswörter hat einen erheblichen E i n f l u ß auf die Bildung der Explikationsketten g e h a b t . 1 2 ° ' 125) Der oben vorgenommene V e r g l e i c h zwischen den häufigsten Substantiven aus V 2 und den Frequenzwörterbüchern, die auf Textwörtern basieren, hat zwar gute Übereinstimmungen gezeigt, aber es scheint außerdem ein besonderes lexikographisches Vokabular zu existieren, das in lexikalischen Paraphrasen häufig a u f z u f i n d e n ist, w e i l es Vorgänge, Zustände, Eigenschaften u . a . kennzeichnet. Dazu gehören u . a . folgende Substantive, die auch in der T a b e l l e 31 stehen: Gesamtheit, Vorrichtung, Beschaffenheit, Abschnitt, Fläche, Gebilde, Gefäß, Substanz, Angehörige, Vertiefung, Flüssigkeit, Behälter, Spieler. 126) V g l . Kap. 3.2 dieser Arbeit.
200
Die uneinheitliche Verwendung eckiger und runder Klammern ist ein Ärgernis für den Benutzer. Durch die definitorischen Abgrenzungen ist die Ermittlung der Erklärungswörter in diesen Fällen klar geregelt. Der lexikographische Zirkel hat auf die lexikologischen Untersuchungen keinen wesentlichen Einfluß gehabt. Die Verwendung lateinischer Fachausdrücke anstelle eines genus proximum führt zu einem etwas höheren Anteil verschiedener Substantive mit der Häufigkeit ' E i n s 1 und gleichzeitig zu einer geringeren Häufigkeit bei Wörtern mit hohen H-Werten. Somit kann man das DUDUNI als ein Wörterbuch bezeichnen, das für lexikologische Untersuchungen eine gute lexikographische Datenbasis darstellt und für ähnliche linguistische Forschungsvorhaben empfohlen werden k a n n . 1 2 7 '
7.6
Resultatsapplikationen
In der Bewertung der Ergebnisse sind bereits unterschiedliche Applikationen in der Linguistik b z w . deren Nachbardisziplinen dargestellt worden. Dies b e t r i f f t methodische Fragen zur Datenerhebung, Datendeskription sowie zur statistischen Auswertung der Distributionen. Die ausführliche Diskussion über die Form und Struktur der ermittelten Verteilungen hat die E f f i zienz der Methoden der EDA und ihre Bedeutung für die Quantitative Linguistik demonstriert. Das aufgebaute Master Corpus eignet sich nicht nur zur Ermittlung weiterer semantischer Zusammenhänge zwischen den Substantiven, sondern sollte als Ausgangsbasis zu einer wortartenübergreifenden Erfassung lexikalischer Strukturen verwendet 127)
Dieses Resultat unterstützt die von der Dudenredaktion im Vorwort verfaßte Bemerkung, daß das DUDUNI "in erster Linie ein Bedeutungswörterbuch mit ausführlichen Bedeutungsangaben ( . . . ) " sei; vgl. DUDUNI 1983, S. 5.
201
werden. Eine Benutzung verschiedener Wörterbücher ist auch für die Begriffskettenbildung von V o r t e i l , während dies für die Bestimmung der P o l y f u n k t i o n a l i t ä t wegen der hohen Stabilität der Resultate überflüssig erscheint. In bezug auf die Lexikographie bieten die Untersuchungsmethoden und -ergebnisse wichtige Ansätze zur Beurteilung und Optimierung von Wörterbüchern. Vergleiche mit anderen wissenschaflichen Untersuchungen weisen darauf h i n , daß die in dieser Arbeit ermittelten Resultate über das DUDUNI hinaus Gültigkeit besitzen. Dies bet r i f f t zunächst die Strukturen weiterer Bedeutungswörterbücher der deutschen Sprache. Außerdem lassen sich struktur e l l e lexikologische Beziehungen, die in der deutschen Sprache existieren, mit den durchgeführten Versuchen aufdecken, wie die obigen Vergleiche der Untersuchungsresultate zu Frequenzwörterbüchern und Abstraktheitsbestimmungen zeigen. Somit kann durchaus die Auffassung vertreten werden, daß ein gut konzipiertes Wörterbuch die R o l l e eines Mediums innehat, das dem Linguisten allgemeine Sprachstrukturen auf eine einfachere Weise als ein Textcorpus zugänglich macht. Das entwickelte Verfahren zur Abstraktheitsbestimmung liefert nicht nur -Werte zu einer Auswahl von Substantiven des DUDUNI, sondern läßt sich auch zur Abstraktheitsmessung von Texten einsetzen, wenn eine Kombination mit dem Abstraktheitssuffix-Verfahren von GÜNTHER/GROEBEN erreicht werden kann.12 Die Untersuchungen zur Häufigkeitsverteilung der Kernkonstituenten im DUDUNI zeigen die Polyfunktionalität der Substantive im Wörterbuch. Diese ist nicht nur lexikographisch relevant, sondern enthält auch eine lexikologische Komponente, w e i l andere Bedeutungswörterbücher ä h n l i c h strukturiert sind und gleiche Substantive in verschiedenen Wörterbüchern eine hohe Erklärungspotenz enthalten. 128)
V g l . S. 156 ff.
dieser Arbeit.
202
Um weitere Wörterbücher auf diesen Sachverhalt hin zu untersuchen, reicht das Arbeiten mit kleineren Stichproben aus. Da die Polyfunktionalitatswerte der Substantive aus V 2 Übereinstimmungen mit den Häufigkeitswerten aus Frequenzwörterbüchern aufweisen, sollten Untersuchungen angestrebt werden, in denen die Polyfunktional itat der Substantive aus Texten eruiert wird. Für die Polysemiebestimmung ist eine Translation der Resultate schwierig, weil sich die entwickelte Definition zur Polysemie im Zusammenhang mit den lexikographischen Mangeln des DUDUNI auf die Ermittlung der P-Werte negativ ausgewirkt hat. Die applizierte Bestimmungsmethode ist allerdings wegen ihrer intersubjektiven überprüfbarkeit auch für die Zukunft als geeignet anzusehen. Ein Wiederholungsversuch zur Ermittlung empirischer P-Werte s o l l t e unter Einbeziehung mehrerer Wörterbücher durchgeführt werden und die oben aufgeführten Kritikpunkte b e r ü c k s i c h t i g e n . 1 2 ^ > Die Häufigkeitswerte, die sich aus Frequenzwörterbüchern ermitteln lassen, haben in der Vergangenheit eine ausschlaggebende R o l l e bei der Erstellung von Grundwortschatz listen, Grundschulwörterbüchern und Rechtschreibgrundwortschatzlisten g e s p i e l t . 1 3 0 ) Dabei sind die Häufigkeitslisten von KAED I N G , 1 3 1 > die unter stenographischen Zielsetzungen erstellt worden sind, f ä l s c h l i c h e r w e i s e zur Grundlage für sprachpädagogische und lexikographische Zwecke umformuliert w o r d e n . 1 3 2 ' Diese defektive Anwendung läßt sich jedoch durch die Verwendung anderer Häufigkeitszählungen, z . B . der Begriffswörterzählung bei M E I E R , 1 3 3 > die auch auf dem KAEDINGschen Datencorpus beruht, verhindern. Auch die in V 2 erzielten Resultate zur Häufigkeitsverteilung der Kernkonstituenten können herangezogen werden, vor a l l e m , weil aktuelle Ergebnisse zum deutschen Substantivwortschatz vorliegen. A l l e r d i n g s handelt es 129) 130) 131) 132)
V g l . Kap. 7.3 dieser Arbeit. V g l . Kühn 1987, S. 18 ff. Kaeding 1898. V g l . Kühn 1987, S. 19.
133) Vgl. Meier 1967, Bd. 2, S. 137
ff.
203
sich in V 2 um sprachsystematische Untersuchungen, die nicht unter der Zielperspektive angefertigt worden sind, einen Grundwortschatz für die Unterrichtspraxis zu erstellen. Gleichwohl ist das Attribut 'Häufigkeit 1 als grundlegend anzusehen, das sich im Zusammenspiel mit anderen Variablen zur Ermittlung von Grundwortschätzen eignet.* 3 * ) Damit entsteht aber nicht automatisch ein Grundschulwörterbuch bzw. eine Rechtschreibgrundwortschatzliste, weil für diese lernpraktischen Wortschatze neben dem Attribut 'Häufigkeit 1 vor allem anthropogene und situative Faktoren des jeweiligen Unterrichtsgeschehens ausschlaggebend s i n d . 1 3 5 ) Beim Grundwortschatz ist zudem zu differenzieren zwischen einem allgemeinen Grundwortschatz, der nach dem Kriterium 'Häufigkeit 1 entstanden ist (und z . B . auf der Basis von Häufigkeiten des Explikationsvokabulars in Bedeutungswörterbüchern entstanden sein kann), und vielen Grundwortschätzen, die sich nach Benutzungssituationen und individuellen Anforderungen ausrichten, z . B . für den Schulunterricht oder Deutsch für Fremdsprachler. Ein weiteres breites Anwendungsgebiet für die ermittelten Ergebnisse läßt sich im Bereich der Künstlichen Intelligenz finden. In der KI-Forschung besteht eine wesentliche Komponente aus der Darstellung des Weltwissens bzw. des semantischen Wissens in Form von semantischen Netzen, deren Struktur durch Kanten und Knoten gekennzeichnet i s t . 1 3 6 » Die Kanten stellen die verschiedenen Relationen zwischen den lexematischen Einheiten dar. Eine dieser Relationen 1st die Relation ISA (von engl. is a ) , i 3 7 > die auch bei den in dieser Arbeit untersuchten Substantiven existiert. Die festgestellten H- und P-Werte demonstrieren Netzausschnitte, da die Häufigkeit eines Substantivs Aussagen über die verschiedenen Vorgänger eines Substantivs macht, die Polysemie eines Substantivs die Anzahl der verschiedenen Nachfolger bezeichnet. Die ISA-Relation wird somit 134) V g l . Schuhmacher 1978, S. 42. 135) V g l . Kühn 19 7, S. 41. 136) V g l . u . a . Hefl/Brustkern/Lenders 1983, S. 137 f f . , Laubsch 1985, S. 60 f f . , Lenders/Willee 1986, S. 76 ff. 137) V g l . Lenders/Willee 1986, S. 78.
204
von zwei Seiten beschrieben, die sich darin zeigen, daß z . B . das Lexem "Teil" 261 Vorgänger besitzt und das Lexem "Zug" 29 Nachfolger. Die H- und P-Werte determinieren somit die Position eines Substantivs in dem Netz, da die zentralen Positionen nur von Substantiven mit v i e l e n ISA-Relationen (Zentralwörter) eingenommen werden können, wahrend die Randpositionen durch die Peripheriewörter (wenige ISA-Relationen) gekennzeichnet sind. Um semantische Netze zu konstruieren, die in der KI-Forschung eingesetzt werden können, ist eine detailliertere Deskription der qualitativen Relationen zwischen den Wörtern e r f o r d e r l i c h . * ^ 8 > Dabei wird man sich auch nicht nur auf eine Wortart - Substantive - beschränken können. Die vorhandenen Verteilungen der H- b z w . P-Werte ermöglichen es dem Untersuchenden, beim Aufbau eines semantischen Netzes vorab zu entscheiden, an welcher Stelle im Netz er seine Untersuchungen beginnen w i l l . Der Vorteil des existierenden Master Corpus besteht vor a l l e m darin, daß ein Wortschatz der Allgemeinsprache durch empirische Methoden aufgebaut worden ist. Die Forschungen im KI-Bereich beziehen sich aus Gründen der Komplexitätsreduktion meist auf M i n i - W e l t e n , l 3 9 > in denen ein überschaubares Vokabular in den semantischen Netzen gebraucht wird. Um zwischen verschiedenen Mini-Welten Verbindungen herzustellen, wird ein allgemeiner Wortschatz gebraucht. Zu diesem Vorhaben kann das Master Corpus eine wertvolle Ausgangsbasis sein, weil es die Grobstruktur eines Netzes allgemeinsprachlicher Substantive enthält. Ausführliche Darstellungen von Resultatsapplikationen ließen 138) V g l . u . a . Hahn/Hoeppner/Jameson/WahIster 1980, S. 148. 139) Hier sei auf HAM-RPM (Hamburger Redepartnermodell) bzw. das Nachfolgesystem HAM-ANS (Hamburger Anwendungsorientiertes Natürlichsprachliches System) verwiesen, in dem vier Miniwelten (bürgerliches Wohnzimmer, Zimmer mit kaputten Möbeln, Verkehrsszene, Hotelreservierung) enthalten sind; v g l . Heß/Brustkern/Lenders 1983, S. 134 f f . , vgl. Huonker 1987, S.68 f f .
205
sich nahezu beliebig ausdehnen. In» weiteren sollen jedoch nur noch kurze Hinweise auf einzelne Forschungsgebiete erfolgen. Die Variable 'Wortlänge', die in verschiedenen Untersuchungen der Quantitativen Linguistik eine wesentliche R o l l e s p i e l t , 1 4 0 » kann zu den vorliegenden Ergebnissen der 'Abstraktheit', 'Häufigkeit 1 und 'Polysemie' in Beziehung gesetzt werden. Die von ALTMANN entwickelten Hypothesen zu deutschen Komposita i * i > lassen sich - soweit sie sich auf die Variablen "meaning" 1 * 2 1 , "length" i * 3 > oder "frequency" 1 4 4 > beziehen - mit H i l f e des vorliegenden Datencorpus überprüfen. In einem weiteren Schritt sollte versucht werden, die Resultate in das von ALTMANN und KÖHLER entwickelte Modell der linguistischen Synergetik 1 4 5 > z u integrieren. Häufigkeitsverteilungen, die auf der Basis von Wörterbuchanalysen entstanden sind, sollten auch in diachronen Sprachuntersuchungen verwendet werden. Mit H i l f e von Wörterbüchern aus verschiedenen Epochen können Erkenntnisse über den lexikologischen Wandel einer natürlichen Sprache gewonnen werden. Einerseits lassen sich somit die Arbeiten zum Sprachwandel, die auf Textanalysen b a s i e r e n , 1 4 6 ) ergänzen, andererseits können im Bereich des Sprachgebrauchs und der Sprachschöpfung, in denen die sprachverändernden Wirkungen bisher nur wenig systematisch untersucht worden s i n d , 1 4 7 » Annahmen zum Wandel (Kontinuitäts-, Reguläritats-, Korrekturprinzip) 1 4 s > mit umfangreichen Datenmengen aus Wörterbüchern systematisch überprüft werden. Auch interlinguale Vergleiche sollten unter Anwendung quantitativer Methoden durchgeführt werden. Damit lassen sich 140) 141) 142) 143) 144) 145) 146) 147) 148)
Vgl. u . a . Altmann/Beöthy/Best 1982, Fickermann/ Markner-Jäger/Rothe 1984, Köhler 1986, Rothe 1983. V g l . Altmann 1989, S. 100 ff. V g l . Altmann 1989, S. 102 f. V g l . Altmann 1989, S. 104. V g l . Altmann 1989, S. 105. V g l . Köhler 1986. V g l . u . a . Best/Kohlhase 1983, S. l ff. V g l . Cherubim 1980b, S. 133. Vgl. Cherubim 1980b, S. 128 f.
206
auch die Zusammenhänge zwischen der Häufigkeit und dem Alter lexematischer Einheiten sowie Fragestellungen der Glottochronologie u n t e r s u c h e n . J * 9 > In der Kognitionspsychologie existieren zur Abstraktheitsmessung Analysen, in denen von Versuchspersonen die Begriffsketten von Substantiven gebildet w e r d e n . 1 5 0 ' Die große Ähnlichkeit dieser Verfahren mit dem in Kapitel 3 vorgestellten s o l l t e ein Anlaß sein, die gebildeten Begriffsketten der Versuchspersonen mit denen aus einem Wörterbuch zu vergleichen. Somit ließe sich möglicherweise die Frage, welches Gewicht die Komplettierung der Begriffsketten nach eigener Kompetenz bei sonstiger Datenentnahme aus dem Wörterbuch hat, empirisch klären. Dabei ergeben sich auch Vergleichsmöglichkeiten zwischen den Resultaten individueller Sprachbenutzer und überindividueller Daten, die anhand eines Wörterbuchs ermittelt worden sind. Durch die erfolgte Anpassung der Häufigkeitsverteilung an die Hyperbel und Potenzfunktion 1 5 i > lassen sich weitere interlinguale Untersuchungen, die auf quantifizierbaren Resultaten basieren, durchführen. Somit können Annahmen der qualitativen Linguistik - z . B . die Hypothese, daß Sprachen mit vielen kurzen Wörtern (Englisch, Französisch) mehr Homonyme als Sprachen mit längeren Wörtern und reicher Kompositabildung (Deutsch, Italienisch) enthalten 1 5 2 > - empirisch geprüft werden. Die in dieser Arbeit durchgeführten Untersuchungen haben somit neben wesentlichen Erkenntnissen über die R o l l e statistischer Verfahren in der Quantitativen Linguistik und die Zusammenhänge zwischen bedeutenden Variablen in einem semantisehen Netz deutscher Substantive gezeigt, daß die empirisch erhobenen Daten einen Ausgangspunkt für verschiedene linguistische Forschungsarbeiten bieten. 149) 150) 151) 152)
V g l . Arapov/Cherc 1983. V g l . u.a. K l i x 1985a. V g l . Kap. 7 . 2 . 2 dieser Arbeit. V g l . U l l m a n n 1972, S. 86 ff.
8.
Zusammenfassung und Kritik
Die Konzeption der vorliegenden lexikologischen Analysen von deutschen Substantiven hat ursprünglich die folgende einfache Abfolge von Arbeitsschritten beinhaltet: 1. Formulierung von Hypothesen, 2. Datenerhebungen, 3. Datenauswertungen bzw. Hypothesenüberprüfungen. Im Verlauf der Durchführung hat sich jedoch gezeigt, daß diese Vorgehensweise nur in bezug auf die ersten beiden Schritte durchzuhalten war. Die Entwicklung von Arbeitshypothesen beruht l e t z t l i c h auf der Intuition und dem Vorwissen des Untersuchenden. In dieser Arbeit orientiert sich die Formulierung außerdem daran, inwieweit statistische Verfahren und Methoden der Quantitativen Linguistik zur Überprüfung eingesetzt werden können. Bei der Erhebung der Sprachdaten wird darauf Wert gelegt, in jeder Phase eine intersubjektive tiberprüf barkeit der Erhebungsprozeduren gewährleisten zu können. Dabei ist die Erfahrung aus früheren Untersuchungen sehr h i l f r e i c h und eine genaue Kenntnis des benutzten Wörterbuchs notwendig gewesen. Die Probleme, die während der Datenauswertung aufgetreten sind, lassen sich zum einen mit einer etwas zu naiven Einstellung zur Statistik, das vor Untersuchungsbeginn bestanden hat, zum anderen mit den existierenden eingeschränkten Applikationsmöglichkeiten, die von den gebräuchlichen Methoden der beurteilenden Statistik zur Verfügung gestellt werden, begründen. Aufgrund der Struktur der ermittelten Verteilungen sind differenzierte Inspektionen und Deskriptionen zu den Datensätzen sowie ausgewählten Einzeldaten notwendig geworden. Dadurch sind umfangreiche und gegenüber der Statistik kritische Analysen entstanden, die weit über den üblichen Rahmen quantitativer Arbeiten in der Linguistik hinausgehen. Somit
208
wird in den vorgestellten Untersuchungen auf der Basis linguistischer Daten ein Forschungsbeitrag zur Integration von traditionellen statistischen Methoden und Ansätzen der EDA geliefert. Ein wesentliches Resultat stellt dabei die Erkenntnis dar, daß man umfangreiche Datenmengen nicht ohne detaillierte Strukturanalysen der Daten von einem Computerprogramm bearbeiten lassen sollte, wenn man die Ergebnisse als reliabel und valide repräsentieren w i l l . Neben einer genauen Betrachtung der Datenstrukturen, einer kritischen Reflexion der Auswertungsmethoden und benutzten Algorithmen werden aber auch die Erhebungsmethoden, mit denen die Sprachdaten ermittelt worden sind, geprüft. Dies betrifft in dieser Arbeit insbesondere die Variable 'Abstraktheit 1 , weil hier - basierend auf den Untersuchungen MARTINS, ALTMANNS, HAMMERLS u.a. - eine neue Methode zur Abstrakheitsbestimmung von Substantiven entwickelt wird. Im Anschluß an die durchgeführten Analysen wird versucht, mögliche Optimierungsschritte v o r z u s t e l l e n . Während deutlich wird, daß die in V l benutzte Methode gegenüber existenten Verfahren Vorteile bietet, ist das Gesamtresultat noch keinesf a l l s so befriedigend, daß eine Anwendung für Bereiche der Psycholinguistik oder zur Abstraktheitsbestimmung von Texten derzeit möglich erscheint. 1 » Die Ermittlung der Häufigkeitswerte der Substantive geschieht mit H i l f e einfacher definitorischer Abgrenzungen, folgt aber nicht dem üblichen Vorgehen bei Frequenzuntersuchungen, w e i l nicht Texte, sondern das Explikationsvokabular des untersuchten Wörterbuchs die Basis für die Häufigkeitsverteilung darstellt. Es wird der Vorschlag gemacht, mit einem neuen Wörterbuchtyp, einem Polyfunktionalitätswörterbuch, eine Grundlage für lexikographische und lexikologische Untersuchungen sowie zur Optimierung von Wörterbüchern zu 1) Allerdings ist dies auch nicht unmittelbar in der Z i e l setzung dieser Arbeit enthalten.
209
schaffen. Die Herstellung eines Polyfunktionalitätswörterbuchs wird weniger Probleme bereiten, wenn in Zukunft Bedeutungswörterbücher in Datenbanken implementiert sein werden. Die erfolgte Anpassung verschiedener mathematischer Funktionen an die ermittelte Häufigkeitsverteilung eröffnet insbesondere der Quantitativen Linguistik gute Perspektiven für weitere Verwendungen. Aus einer vergleichenden Analyse bestehender Polysemiedefinitionen wird für die 'Polysemie 1 eine neue Definition konzipiert, die sich vor a l l e m an Kriterien wie Nachvollziehbarkeit und Operational isierung orientiert. Für die Falsifikation von zwei Arbeitshypothesen können aufgrund der inhaltlichen Auswertung die Resultate der P-Wertebestimmung verantwortlich gemacht werden. Für zukünftige linguistische Arbeiten können Differenzierungen in Haupt- und Nebenbedeutungen b e h i l f l i c h sein, die 'Polysemie 1 von Substantiven exakter erfassen und für sprachwissenschaftliche Forschungen besser verwenden zu können. Die Berechnungen der Korrelationskoeffizienten, die zur mathematischen Überprüfung der Arbeitshypothesen dienen, haben einerseits an den geschilderten Auswertungsproblemen gelitten, andererseits wichtige Aufschlüsse über das Explikationsvokabular und die lexikologische Struktur des Wörterbuchs gel i e f e r t . Demnach lassen sich die Substantive in Peripheriewörter, die selten vorkommen und relativ konkret einzuschätzen sind, und ZentralWörter, die sehr häufig auftreten und abstrakt sind, einteilen. Dies kann als eine brauchbare Ausgangsbasis für lexikologische Untersuchungen und quantitative Arbeiten sowie für die Konstruktion semantischer Netze angesehen werden, welche in der modernen Linguistik, insbesondere der Semantik, der Computerlinguistik und der KI-Forschung eine bedeutende R o l l e spielen. Zu dem benutzten Datenmaterial, dem DUDUNI, laßt sich insgesamt ein positives Urteil abgeben. Dies gilt im wesentlichen für die Bereiche der Lexikographie, Lexikologie und Semantik, während die aufgeführte lexikographische Kritik -
210
vor a l l e m im Vergleich zu anderen Wörterbüchern - sehr milde ausfällt. Dennoch sollten ähnlich angelegte wissenschaftliche Untersuchungen (insbesondere zu Polysemiebestimmungen) in Zukunft mehrere Wörterbücher als Datenbasis benutzen, um die Abhängigkeit von lexikographischen Unzulänglichkeiten eines einzelnen Wörterbuchs zu vermeiden und den Gültigkeitsbereich der erz i e l t e n Resultate zu maximieren. Im Verlauf der Arbeit wird gezeigt, daß die Ursachen für die niedrigen Korrelationskoeffizienten sowohl in den statistischen Methoden als auch in den benutzten linguistischen Verfahren b z w . in der Abfolge der Untersuchungsschritte zu suchen sind. Ausgehend von einem an der Quantitativen Linguistik orientierten Ansatz ist somit eine interdisziplinäre Arbeit entstanden, in der neue Verfahren zur Ermittlung von Variablen, verschiedene Methoden der Statistik und diverse Applikationen für unterschiedliche wissenschaftliche Forschungsbereiche integriert werden.
9. Literatur
Admoni, Wladimir : Der deutsche Sprachbau. 4 . , überarbeitete und erweiterte Auflage. München 1982. Altmann, Gabriel : Status und Ziele der ALTMANN 1972 quantitativen Sprachwissenschaft. In: Jäger, Siegfried ( H r s g . ) : Linguistik und Statistik (= Schriften zur Linguistik Bd. 6 ) . Braunschweig 1972, S. 1-9. Altmann, Gabriel : Zur Funktionalanalyse in ALTMANN 1981 der Linguistik. In: Esser, Jürgen/Hübler, Axel ( e d . ) : Forms and Functions (= Tübinger Beiträge zur Linguistik Bd. 149). Tübingen 1981, S. 25-32. ALTMANN/BEÖTHY/BEST 1982 Altmann, Gabriel/Beöthy, E./Best, Karl Heinz : Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 35. 1982, S. 537-543. ADMONI l982
ALTMANN/KIND 1983
ALTMANN 1985a ALTMANN 1985b ALTMANN 1988 ALTMANN
1989
Altmann, Gabriel/Kind, Bernd : Ein semantisches Gesetz. In: Köhler, Reinhard/ Boy, Joachim ( H r s g . ) : Glottometrika 5 (= Quantitative Linguistics V o l . 2 0 ) . Bochum 1983, S. 1-13. Altmann, Gabriel : Semantische Diversifikation. In: Folia Linguistica Bd. 19. 1985, S. 177-200. Altmann, Gabriel : Sprachtheorie und mathematische Modelle. In: SAIS Arbeitsberichte H. 8. K i e l 1985, S. 1-13. Altmann, Gabriel : Wiederholungen in Texten (= Quantitative Linguistics V o l . 36). Bochum 1988. Altmann, Gabriel : Hypotheses about compounds. In: Hammerl, Rolf ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 38). Bochum 1989, S. 100-107.
ARAPOV/CHERC 1983
Arapov, Michail V./Cherc, Maja M. : Mathematische Methoden in der historischen Linguistik (= Quantitative Linguistics V o l . 17). Bochum 1983.
212 BASCHEK/BREDENKAMP/OEHRLE/WIPPICH 1977
Baschek, Ilse-Lore/Bredenkamp, Jürgen/ Oehrle, Brigitte/Wippich, Werner : Bestimmung der Bildhaftigkeit ( I ) , Konkretheit (C) und der Bedeutungshaltigkeit ( m 1 ) von 800 Substantiven. In: Zeitschrift für experimentelle und angewandte Psychologie Bd. 24. 1977, S. 353-396. BERGENHOLTZ/MUGDAN 1986
BERGMANN 1973
BERGMANN 1977
Bergenholtz, Henning/Mugdan, Joachim : Der neue "Super-Duden". Die authentische Darstellung des deutschen Wortschatzes ? In: Studien zur neuhochdeutschen Lexikographie VI, 1. Teilbd. (= Germanistische Linguistik 84-86). 1986, S. 1-149. Bergmann, R o l f : Zur Abgrenzung von Homonymie und Polysemie im Neuhochdeutschen. In: Archiv für das Studium der neueren Sprachen und Literaturen Bd. 210. 1973, S. 22-40. Bergmann, R o l f : Homonymie und Polysemie in Semantik und Lexikographie. In: Sprachwissenschaft 2. 1977, S.27-60.
BEST/KOHLHASE 1983
BIEHLER 1982
BLANKE 1973
BMDP P2D 1985 BMDP P8D 1985 BOLC 1979 BOY/KÖHLER 1984 BURGHARDT 1977
CHERUBIM 1980a
Best, Karl-Heinz/Kohlhase, Jörg (Hrsg.) : Exakte Sprachwandelforschung. Göttingen 1983. Biehler, R o l f : Explorative Datenanalyse Eine Untersuchung aus der Perspektive einer deskriptiv-empirischen Wissenschaftstheorie (= Materialien und Studien Bd. 2 4 ) . B i e l e f e l d 1982. Blanke, Gustav H. : Einführung in die semantische Analyse. München 1973. Dixon, W . J . et a l . : BMDP. Statistical software 1985 Printing. Berkeley/ Los Angel es/London 1985. Dixon, W . J . et al. : BMDP. Statistical software 1985 Printing. Berkeley/ Los Angeles/London 1985. B o l e , Leonard ( e d . ) : Natural Language Based Computer Systems. München/Wien 1980. Boy, Joachim/Köhler, Reinhard ( H r s g . ) : Glottometrika 6 (= Quantitative Linguistics V o l . 2 5 ) . Bochum 1984. Burghardt, Wolfgang : Wie h i l f r e i c h sind fachund umgangssprachliche Wörterbücher? In: P e t ö f i , Janos S./Bredemeier, Jürgen ( H r s g . ) : Das Lexikon in der Grammatik - die Grammatik im Lexikon (= Papiere zur Textlinguistik Bd. 13). Hamburg 1977, S. 1-25. Cherubim, Dieter ( H r s g . ) : Fehlerlinguistik (= Reihe Germanistische Linguistik 2 4 ) . Tübingen 1980.
213
CHERUBIM 1980b
Cherubim, Dieter : Abweichung und Sprachw a n d e l . In: Cherubim, Dieter ( H r s g . ) : F e h l e r l i n g u i s t i k (= Reihe Germanistische Linguistik 2 4 ) . Tübingen 1980, S. 124-152.
DAVID/MARTIN 1974 David, J . / M ä r t i n , Robert ( H r s g . ) : Statistique et linguistique. Paris 1974. DIETRICH/SCHMUTZLER 1968 Dietrich, Hans/Schmutzler, Olaf : Statistische Methoden in der Marktforschung. B e r l i n 1968. DROSDOWSKI/HENNE/WIEGAND 1977 Drosdowski, Günther/Henne, Helmut/Wiegand, Herbert E. : Nachdenken über Wörterbücher. Mannheim 1977. DUDEN 1984 Duden. Grammatik der deutschen Gegenwartssprache. 4 . , v ö l l i g neu bearbeitete und erweiterte A u f l a g e . Hrsg. und bearb. von Günter Drosdowski in Zusammenarbeit mit Gerhard Äugst, Hermann Gelhaus, Helmut Gipper, Max Mangold, Horst Sitta, Hans Wellmann und Christian W i n k l e r . Mannheim/Wien/Zürich 1984. DUDEN 1976 f f , Duden. Das große Wörterbuch der deutschen Sprache in sechs Bänden. Hrsg. und bearb. vom Wissenschaftlichen Rat und den Mitarbeitern der Dudenredaktion unter Leitung von Günther Drosdowski. Mannheim/Wien/Zürich 1976-1981. DUDEN 1983 Duden. Deutsches UniversalWörterbuch. Hrsg. und bearb. vom W i s s e n s c h a f t l i c h e n Rat und den Mitarbeitern der Dudenredaktion unter Leitung von Günther Drosdowski. Mannheim/Wien/Zürich 1983. EMERSON/STOTO 1983 Emerson, John D./Stoto, Michael A. : Transforming Data. In: Hoaglin, David C./ M o s t e l l e r , Frederic/Tukey, John W . ( e d . ) : Understanding Robust and Exploratory Data A n a l y s i s . New York 1983, S. 97-127. ERBEN 1965 Erben, Johannes : Abriß der deutschen Sprache. 8. A u f l . B e r l i n 1965. ESSER/HÜBLER 1981 Esser, Jürgen/Hübler, Axel ( e d . ) : Forms and Functions (= Tübinger Beitrage zur Linguistik Bd. 149). Tübingen 1981. FICKERMANN 1987 Fickermann, Ingeborg ( H r s g . ) : Glottometrika 8 (= Quantitative Linguistics V o l . 3 2 ) . Bochum 1987. FICKERMANN/MARKNER-JÄGER/ROTHE 1984 Fickermann, Ingeborg/Markner-Jäger, B . / R o t h e , Ursula : Wort länge und Bedeutungskomplexität. In: Boy, Joachim/Köhler, Reinhard ( H r s g . ) : Glottometrika 6 (= Quantitative Linguistics V o l . 2 5 ) . Bochum 1984, S. 115-126.
214
FLESH 1950
Flesh, R . F . : Measuring the level of abstraction. In: Journal of Applied Psychology 34. 1950, S. 384-390. Fries, Norbert : Ambiguität und Vagheit (= Linguistische Arbeiten 84). Tübingen 1980. G i l l i e , P . J . : A s i m p l i f i e d formula for measuring abstraction in writing. In: Journal of Applied Psychology 41. 1957, S. 214-217. Gipper, Helmut : Polysemie, Homonymie und Kontext. In: Schweisthal, Klaus Günther ( H r s g . ) : Grammatik - Kybernetik - Kommunikation. Bonn 1971, S. 202-214.
FRIES 1980 GILLIE 1957 GIPPER 1971
GÜNTHER/GROEBEN
1978
Günther, UlIrich/Groeben, Norbert : Abstraktheitssuffix-Verfahren: Vorschlag einer objektiven ökonomischen Messung der Abstraktheit/ Konkretheit von Texten. In: Zeitschrift für experimentelle und angewandte Psychologie Bd. 25. 1978, S. 55-74. GUITER/ARAPOV 1982
HABEL 1985
Guiter, Henri/Arapov, Michail V. : Studies on Z i p f ' s law (= Quantitative Linguistics V o l . 16). Bochum 1982. Habel, Christopher (Hrsg.) : Künstliche Intelligenz (= Informatik Fachberichte Bd. 9 3 ) . Berlin/Heidelberg/New York/Tokyo 1985.
HAHN/HOEPPNER/JAMESON/WAHLSTER I960
HAMMERL 1987
HAMMERL 1988a
HAMMERL 1988b HAMMERL 1989a
Hahn, Walther von/Hoeppner, Wolfgang/ Jameson, Anthony/Wahlster, Wolfgang : The Anatomy of the Natural Language Dialogue System HAM-RPM. In: Bole, Leonard ( e d . ) : Natural Language Based Computer Systems. München/Wien 1980, S. 119-253. Hammerl, Rolf : Untersuchungen zur mathematischen Beschreibung des Martingesetzes der Abstraktionsebenen. In: Fickermann, Ingeborg ( H r s g . ) : Glottometrika 8 (= Quantitative Linguistics V o l . 3 2 ) . Bochum 1987, S. 113-129. Hammerl, Rolf : Neue Model ltheoretische ( s i e ! ) Untersuchungen im Zusammenhang mit dem Martingesetz der Abstraktionsebenen. In: Schulz, Klaus-Peter ( H r s g . ) : Glottometrika 9 (= Quantitative Linguistics V o l . 3 5 ) . Bochum 1988, S.105-121. Hammerl, Rolf : Vom Martingesetz zu einem neuen semantischen Strukturgesetz (unveröffentllches Manuskript). Bochum 1988. Hammerl, Rolf ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 38). Bochum 1989.
215
HAMMERL 1989b
HAMMERL 1989c
HAMMERL 1989d HAMMERL 1989e
HAUSMANN 1984 HEGER 1963 HEGER 1969
HENNE 1972 HENNE 1976
HENNE 1977
Hammerl, Rolf : Neue Perspektiven der sprachlichen Synergetik: Begriffsstrukturen kognitive Gesetze. In: Hammerl, R o l f ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 3 8 ) . Bochum 1989, S. 129-140. Hammerl, R o l f : Untersuchung struktureller Eigenschaften von B e g r i f f s n e t z e n . In: Hammerl, R o l f ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 3 8 ) . Bochum 1989, S. 141-154. Hammerl, R o l f : Überprüfung des Martingesetzes an deutschem Sprachmaterial. Bochum 1989 (erscheint). Hammerl, R o l f : Synergetic aspects of the formation of d e f i n i t i o n chains. In: Köhler, Reinhard ( e d . ) : Studies in language Synergetics. Bochum 1989 ( e r s c h e i n t ) . Hausmann, Franz Josef : Kurzrezension zu Duden. Deutsches Universalwörterbuch. In: Sprache und Literatur 54. 1984, S. 123-124. Heger, Klaus : Homographie, Homonymie und Kontext. In: Zeitschrift für Romanische Philologie Bd. 79. 1963, S. 471-491. Heger, Klaus : Die Semantik und die Dichotomie von Langue und Parole. In: Zeitschrift für Romanische P h i l o l o g i e Bd. 85. 1969, S.144-215. Henne, Helmut : Semantik und Lexikographie. Berlin 1972. Henne, Helmut Prinzipien einsprachiger Lexikographie, In: Moser, Hugo ( H r s g . ) : Probleme der Lexikologie und Lexikographie (= Sprache der Gegenwart Bd. 3 9 ) . Düsseldorf 1976, S. 95-117. Henne, Helmut : Was die Valenz lexikographie bedenken s o l l t e . In: Kopenhagener Beiträge zur germanistischen Linguistik 12. 1977. S. 5-18.
HEfl/BRUSTKERN/LENDERS 1983
HJELMSLEV 1963
Heß, Kl aus/Brustkern, Jan/Lenders, W i n f r i e d : Maschinenlesbare deutsche Wörterbücher (= Sprache und Information Bd. 6 ) . Tübingen 1983. H j e l m s l e v , Louis : Prolegomena to a theory of language. Translated by Francis J. W h i t f i e l d . M a d i s o n ( W i s e . ) 1963.
HOAGLIN/MOSTELLER/TUKEY 1983
H o a g l i n , David C . / M o s t e l l e r . Frederic/Tukey, John W. ( e d . ) : Understanding Robust and Exploratory Data A n a l y s i s . New York 1983, S. 97-127.
216
HOFFMANN 1983
Hoffmann, Joachim : Das aktive Gedächtnis. Psychologische Experimente und Theorien zur menschlichen Gedächtnistätigkeit. Berlin/Heidelberg/New York 1983.
HOFFMANN/ZIBßLER/GROSSER/KÄMPF 1985
Hoffmann, Joachim/Zießler, M./Grosser, U . / Kampf, U. : Struktur- und Prozeßkomponenten in b e g r i f f l i c h e n Identifikations Ieistungen. In: Zeitschrift für Psychologie Bd. 193. 1985, HORLITZ 1975
HUONKER 1987 JÄGER 1972 JANSEN 1977
KAEDING 1898
S. 51-70.
H o r l i t z , Bernd : Theorie und Praxis der Lexikographie. In: Zeitschrift für germanistische Linguistik Bd. 3. 1975, S. 212-220. Huonker, Hans : Maschinenlesbare Wörterbücher als Instrument für syntaktische und semantische Analysen. Zürich 1987. Jäger, Siegfried (Hrsg.) : Linguistik und Statistik (= Schriften zur Linguistik Bd. 6 ) . Braunschweig 1972. Jansen, Louise, M. : Zur b e g r i f f l i c h e n Ordnung substantivischer Lexikoneinheiten. In: P e t ö f i , Janos S./Bredemeier, Jürgen ( H r s g . ) : Das Lexikon in der Grammatik - die Grammatik im Lexikon (= Papiere zur Textlinguistik Bd. 13). Hamburg 1977, S. 335-379. Kaeding, F . W . : Häufigkeitswörterbuch der deutschen Sprache. Berlin-Steglitz 1898.
KISRO-VÖLKER 1984
KLIX 1967
KLIX 1976
KLIX 1985a KLIX 1985b
Kisro-Völker, S. : On the measurement of abstractness in lexicon. In: Boy, Joachim/ K ö h l e r , Reinhard ( H r s g . ) : Glottometrika 6 (= Quantitative Linguistics V o l . 2 5 ) . Bochum 1984, S. 139-151. Kl ix, Friedhardt : Untersuchungen zur Begriff sbildung I. Psychologische Probleme des Ursprungs, des Erwerbs und der Struktur beg r i f f l i c h e n K l a s s i f i z i e r e n s . I n : Zeitschrift für Psychologie Bd. 173. 1967, S. 159-207. K l ix, Friedhardt : Information und Verhalten. 3. A u f l . Berlin (DDR) 1976. Kl ix, Friedhardt : über Basisprozesse für geistige Dispositionen. In: Zeitschrift für Psychologie Bd. 193. 1985, S.27-49. Kl ix, Friedhardt : über die Nachbildung von Denkanforderungen, die Wahrnehmungseigenschaften, GedächtnisStruktur und Entscheidungsoperationen e i n s c h l i e ß e n . In: Zeitschrift für Psychologie Bd. 193. 1985, S. 175-211.
217
KNOBLOCH 1984
KÖHLER 19 6
KÖHLER l989 KÖHLER/BOY
1983
KRYLOV 1982
KÜHN
1979
KÜHN
1987
LAUBSCH
1985
Knobloch, Clemens : Duden kontra Wahrig. Zwei einbändige Wörterbücher der deutschen Gegenwartssprache im V e r g l e i c h . In: Der Deutschunterricht 36. 1984, S. 101-107. K ö h l e r , Reinhard : Zur linguistischen Synergetik: Struktur und Dynamik der Lexik O Quantitative Linguistics V o l . 31). Bochum 1986. Köhler, Reinhard ( e d . ) : Studies in language Synergetics. Bochum 1989 ( e r s c h e i n t ) . K ö h l e r , Reinhard/Boy, Joachim (Hrsg.) : Glottometrika 5 (= Quantitative Linguistics V o l . 2 0 ) . Bochum 1983. Krylov, J u . K . : Eine Untersuchung statistischer Gesetzmäßigkeiten auf der paradigmatischen Ebene der Lexik natürlicher Sprachen. I n : Guiter, Henri/Arapov, Michail V . : Studies on Z i p f ' s law (= Quantitative Linguistics V o l . 16). Bochum 1982, S. 234-262. Kühn, Peter : Der Grundwortschatz (= Reihe Germanistische Linguistik 1 7 ) . Tübingen 1979. Mit dem Wörterbuch arbeiten. Eine Einführung in die Didaktik und Methodik der Wörterbuchbenutzung. (= Schriften zur DeutschDidaktik) Bonn - Bad Godesberg 1987. Laubsch, Joachim : Techniken der Wissensdarstellung. In: Habel, Christopher ( H r s g . ) : Künstliche I n t e l l i g e n z (= Informatik Fachberichte Bd. 9 3 ) . Berlin/Heidelberg/ New York/Tokyo 1985, S. 48-93.
LENDERS/WILLSE 1986 LYONS
1977
MARTIN
MARX
1974
1979
MEIER 1967 MEL'&JK 1974
Lenders, W i n f r i e d / W i l Ue, Gerd : Linguistische Datenverarbeitung. Opladen 1986 Lyons, John : Semantics V o l . I / I I . Cambridge. University Press 1977. Martin, Robert : Syntaxe de la d e f i n i t i o n lexicographique: etude quantitative des definissants dans le "Dictionnaire fondamental de la langue francaise". In: David, J . / M a r t i n , Robert ( H r s g . ) : Statistique et linguistique. Paris 1974, S. 61-71. Marx, Wolfgang : Die Dominanz des Substantivs als Träger der Assoziativen Bedeutung. In: Z e i t s c h r i f t für experimentelle und angewandte Psychologie Bd. 26. 1979, S. 596-602. Meier, Helmut : Deutsche Sprachstatistik Bd. 1-2. 2 . , erweiterte und verbesserte A u f l a g e . Hildesheim 1967. M e l ' c u k , Igor 1 A. : Opyt teorii lingvisticeskich m o d e l e j "smysl < = > tekst": Semantika. sintaksis. Moskva 1974.
21
Moser, Hugo (Hrsg.) : Probleme der Lexikologie und Lexikographie (= Sprache der Gegenwart Bd. 3 9 ) . Düsseldorf 1976. Mull er, Charles : Einführung in die SprachMULLER 1972 statistik. München 1972. NEUBAUER 19 Neubauer, Fritz : Die Struktur der Explikationen in deutschen einsprachigen Wörterbüchern (= Papiere zur Textlinguistik Bd. 2 7 ) . Hamburg 1980. Oldenbürger, Hartmut A. : Zur Erhebung und OLDENBÜRGER 1986 Repräsentation kognitiver Strukturen. (= Braunschweiger Studien zur Erziehungsund Sozialarbeitswissenschaft Bd. 18). Braunschweig 1986. PETÖFI/BREDEMEIER 1977 P e t ö f i , Janos S./Bredemeier, Jürgen (Hrsg.) : Das Lexikon in der Grammatik die Grammatik im Lexikon (= Papiere zur Textlinguistik Bd. 13). Hamburg 1977. Pikas, Anatol : Abstraction and concept PIKAS 1965 formation (= Studia scientiale paedagogicae Upsaliensia V I I ) . Stockholm 1965. Pinkai, Manfred : Logik und Lexikon - Die PINKAL 1985 Semantik des Unbestimmten. Berlin/New York 1985. Rosengren, Inger : Ein Frequenzwörterbuch ROSENGREN 1977 der deutschen Zeitungssprache. Die W e l t . Süddeutsche Zeitung Bd. 2 (= Lunder germanistische Forschungen 43). Gleerup 1977. ROTHE 1983 Rothe, Ursula : Wortlange und Bedeutungsmenge: Eine Untersuchung zum Menzerathschen Gesetz an drei romanischen Sprachen. In: Köhler, Reinhard/Boy, Joachim ( H r s g . ) : Glottometrika 5 (= Quantitative Linguistics V o l . 2 0 ) . Bochum 1983, S. 101-112. SAMBOR 1982 Sambor, Jadwiga : Lexikographische Definitionen (unveröffentlichte Sammlung von 1000 Begriffsketten für die polnische Sprache unter Ausnutzung folgenden Wörterbuchs: Skorupka, S./Auderska, H./bempicka, Z . : Maiy stownik jezyka pol skiego. Warszawa, Panstwowe Wydawnictwo Naukowe 1968). Bochum 1982. Sambor, Jadwiga : 0 budowie tzw. ciagow SAMBOR 1983 definicyjnych (na materiale d e f i n i c j i leksykalnych). Biuletyn Polskiego Towarzysztwa Jezykoznawczego 40. 1983, S. 151-165. SCHAEDER 1981 Schaeder, Burkhard : Lexikographie als Praxis und Theorie (= Reihe Germanistische Linguistik 34). Tübingen 1981. MOSER 1976
219
SCHIERHOLZ 1982
SCHIERHOLZ 19
SCHIERHOLZ 1989
SCHILDT 1969
SCHIPPAN 1984 SCHNEIDER 1988
Schierholz, Stefan : Untersuchungen zur Polysemie im Deutschen ( U n v e r ö f f e n t l i c h t e s c h r i f t l i c h e Hausarbeit im Rahmen der fachwissenschaftlichen Prüfung für das Lehramt an Gymnasien). Göttingen 1982. S c h i e r h o l z , Stefan : Bedeutungswörterbücher als Grundlage empirischer Wortschatzuntersuchungen. In: Studien zur neuhochdeutschen Lexikographie V I , 2 . T e i l b d . (= Germanistische Linguistik 87-90). Hildesheim 1988, S. 463-478. S c h i e r h o l z , Stefan : Kritische Aspekte zum Martinschen Gesetz. In: Hammerl, Rolf ( e d . ) : Glottometrika 10 (= Quantitative Linguistics Vol. 38). Bochum 1989, S. 108-128. Schildt, Joachim : Gedanken zum Problem Homonymie - Polysemie in synchronischer Sicht. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung Bd. 22. 1969, S. 352-359. Schippan, Thea : Lexikologie der deutschen Gegenwartssprache. Leipzig 1984. Schneider, Edgar W. : Variabilität, Polysemie und Unscharfe der Wortbedeutung Bd. l (= Linguistische Arbeiten 196). Tübingen 1988.
SCHUHMACHER 1978
Schuhmacher, Helmut : Grundwortschatzsammlungen des Deutschen. In: Jahrbuch Deutsch als Fremdsprache 1978 Bd. 4, S. 41-55. SCHULZ 1988 Schulz, Klaus-Peter ( H r s g . ) : Glottometrika 9 (= Quantitative Linguistics V o l . 35). Bochum 1988. SCHULZ-OTTO/HAMMERL 1989 Schulz-Otto, Klaus-Peter und Hammerl, R o l f : Untersuchungen von Strukturen sprachlicher B e g r i f f e . In : W i l l e , Rudolf ( H r s g . ) : K l a s s i f i k a t i o n und Ordnung (= Studien zur K l a s s i f i k a t i o n Bd. 19). Frankfurt/M. 1989, S. 221-223. SCHWEISTHAL 1971
SCHWIBBE 1984 SCHWIBBE 1981
Schweisthal, Klaus Günther ( H r s g . ) : Grammatik - Kybernetik - Kommunikation. Bonn 1971. Schwibbe, Gudrun : Intelligenz und Sprache (= Quantitative Linguistics V o l . 2 3 ) . Bochum 1984. Schwibbe, Michael : Untersuchungen zur Validierung kontentanalytischer Indikatoren: Dogmatisierung, Abstraktheit, Redundanz. Göttingen 1981.
220
SIEVERS 1987
Sievers, Walter Göttingen 1987.
Elemente der Statistik.
SKOROCHOD'KO 19 1
SPIEGEL 1961 SPILLNER 1971
SPSS-X 1983 STECHOW 1971 TANCR* 1975
TUKEY 1977 ULLMANN 1972 ULLMANN 1973 VIEHWEGER 1977 WAHRIG 1980
WAHRIG 1981
WEBER 1974
WERSIG 1978
WICHTER 1988 WIEGAND 1970
Skorochod'ko, Eduard F. : Semantische Relationen in der Lexik und in Texten (= Quantitative Linguistics V o l . 10). Bochum 1981. Spiegel, Murray R. : Theory and Problems of statistics. New York 1961. S p i l l n e r , Bernd : Polysemie und Disambiguierung. In: v. Stechow, Arnim ( H r s g . ) : Beiträge zur generativen Grammatik. Braunschweig 1971, S. 247-257. SPSS I n c . : Spssx U s e r ' s Guide, o . O . 1983. Stechow, Arnim von ( H r s g . ) : Beiträge zur generativen Grammatik. Braunschweig 1971. Tancre, Ines : Transformationelle Analyse von Abstraktheitskomposita (= Forschungsberichte des Instituts für deutsche Sprache 2 2 ) . Tübingen 1975. Tukey, John W. : Exploratory Data Analysis. Reading ( M a s s . ) 1977. U l l m a n n , Stephen : Sprache und Stil. Tübingen 1972. U l l m a n n , Stephen : Semantik. Eine Einführung in die Bedeutungslehre. Deutsche Fassung von S. Koopmann. Frankfurt/M. 1973. Viehweger, Dieter ( A u t o r e n k o l l e k t i v ) : Probleme der semantischen Analyse (= studia grammatica X V ) . B e r l i n 1977. Wahrig, Gerhard : Deutsches Wörterbuch. Hrsg. in Zusammenarbeit mit zahlreichen Wissenschaftlern und anderen Fachleuten. V ö l l i g überarbeitete Neuausgabe, o . O . 1980. Wahrig, Gerhard : dtv-Wörterbuch der deutschen Sprache. Hrsg. in Zusammenarbeit mit zahlreichen Wissenschaftlern und anderen Fachleuten. 4. A u f l . München 1981. Weber, Heinz Josef : Mehrdeutige Wortformen im heutigen Deutsch. Studien zu ihrer grammatischen Beschreibung und lexikographischen Erfassung. Tübingen 1974. Wersig, Gernot : Thesaurus - Leitfaden. Eine Einführung in das Thesaurus - P r i n z i p in Theorie und Praxis. DGD Schriftenreihe 8. München 1978. Wichter, Sigurd : Signifikantgleiche Zeichen (= Tübinger Beiträge zur Linguistik Bd. 160) Tübingen 1988. Wiegand, Herbert E. : Onomasiologie und Semasiologie (= Germanistische Linguistik H. 3 ) . Hildesheim 1970.
221
WIEGAND 1977a
WIEGAND 1977b
Wiegand, Herbert E. : Nachdenken über Wörterbücher. Aktuelle Probleme. In: Drosdowski, Günther/Henne, Helmut/Wiegand, Herbert E . : Nachdenken über Wörterbücher. Mannheim 1977, S. 51-102. Wiegand, Herbert E. : Einige grundlegende semantisch - pragmatische Aspekte von Wörterbucheinträgen. In: Kopenhagener Beitrage zur germanistischen Linguistik 12. 1977, S. 59-149.
WIEGAND/KUCERA l98l
WILLE 1989 WOTJAK 1971 ZEPIO 1970 ZIPF 1949
Wiegand, Herbert E./Kucera, Antonin : Brockhaus - Wahrig : Deutsches Wörterbuch auf dem Prüfstand der praktischen Lexikologie I . T e i l . In: Kopenhagener Beiträge zur Germanistischen Linguistik 18. 1981, S. 94-217. W i l l e , Rudolf (Hrsg.) : Klassifikation und Ordnung (= Studien zur K l a s s i f i k a t i o n Bd. 19). Frankfurt/M. 1989. Wotjak, Gerd : Untersuchungen zur Struktur der Bedeutung. Berlin 1971. Zepic, Stanko : Morphologie und Semantik der deutschen Nominalkomposita. Zagreb 1970. Z i p f , George Kingsley : Human behavior and the principle of least e f f o r t . Cambridge/Mass. 1949.
10.
Anhang
Tabelle A I :
BegriffskettenbiIdung in V l (Zu den ersten 20 und letzten 20 Stichwörtern der ersten Stichprobe)
Aa - Ausscheidung - Stoffwechselprodukt - Stoff - Substanz Stoff. Abate - Weltgeistlicher- Geistlicher - Seelsorger Geistlicher. Abblende - Übergang - Phase - Abschnitt - Zeitspanne Spanne - Zeitraum - KE. Abdämmung - Bereich - Gebiet - Bereich. Abendland - Einheit - Ganzheit - Einheit. Abfall - Rest - Überrest - KE. Abfuhr - Abtransport - das Abtransportieren. Abgemessenheit - Art - Weise - Art. Abgrund - T i e f e - Ausdehnung - KE. Abhitze - Abwärme - Wärme - Wärmeenergie - Energie Kraft - KE. Abkochung - Lösung - Flüssigkeit - Stoff - Substanz - S t o f f , Ablaut - Vokalwechsel - NA. Ablösungssumme - Ablösesumme - Geldsumme - Summe Geldbetrag - NA. Abonnement - Bezug - das Beziehen. Abreißkalender - Kalender - Verzeichnis - Zusammenstellung QSache - Gegenstand - Sache. Abschaum - Teil - Gruppe - Kreis - Gruppe. Abschmierfett - Fett - Stoff - Substanz - S t o f f . Abschwung - Rückgang - Verminderung - das Vermindern. Absinth - Branntwein - Getränk - Flüssigkeit - Stoff Substanz - S t o f f . Abstammung - Herkunft - Abstammung.
A 2
Tabelle A I :
(Fortsetzung)
Zugkontrolle - Kontrolle - Überprüfung - das überprüfen. Zukost - Beikost - Nahrung - Eßbares. Zumischung - Mischung - Gemisch - Mischung. Zungenakrobatik - Bewegung - das Sichbewegen. Zurechtweisung - Äußerung - Bemerkung - Äußerung. Zurückgezogenheit - Zustand - Art - Weise - Art. Zurücksetzung - Handlung - Ergebnis - Folge - Auswirkung das Sichauswirken. Zurückzahlung - Rückzahlung - KE. Zusammenfassung - Darstellung - etw. Dargestelltes. Zusammenrottung - Menschenmenge - KE. Zusatz - Beigabe - das Beigeben. Zuschrift - Schreiben - Mitteilung - KE. Zustimmung - Bejahung - das Bejahen. Zuwendung - Geld - Summe - Geldbetrag - NA. Zwangsvollstreckung - Verfahren - Folge - Auswirkung das Sichauswirken. Z w e i f e l s f a l l - Fall - Angelegenheit - Sachverhalt - Umstand Tatsache - Umstand. Zwenke - Süßgras - NA. Z w i l l i n g s f o r m e l - Verbindung - Kombination - Verbindung. Zwischenlager - Lager - Platz - Fläche - Bereich - Raum Platz. Zyklide - Fläche - Oberfläche - Fläche.
Erläuterungen zu Tab. A I ; KE = Es ist im untersuchten Wörterbuch kein Kettenglied gemäß den aufgestellten Definitionen zu ermitteln. NA = Das Substantiv ist im DUDUNI nicht lemmatisiert.
Tabelle A2:
c 4455 1366 11 15 3 120 3 71 1 2 15 2 10 2 1 3 9 415 2 1 2 19 2 3 10 1 39 7 3 1 1 1 3 6 2 5 4 1 1 14 2 51 1 3 1 5 1 3 4 3 1 2 1 1 1 1 1 1 1
Verteilung der Α-Werte, AS-Werte und ASS-Werte
A
AS
ASS
_
_
_
0.07 0.0925 0.1 0.1075 0.115 0.1225 0.13 0.1325 0.135 0.1375 0.1425 0.145 0.1475 0.15 0.1525 0.1575 0.16 0.165 0. 17 0.1775 0. 18 0.1875 0.1925 0.195 0.1975 0.2 0.2025 0.205 0.2075 0.2125 0.215 0.2175 0.2225 0.225 0.23 0.2325 0.235 0.2375 0.24 0.2425 0.245 0.2475 0.26 0.2625 0.265 0.2725 0.275 0.2775 0.2825 0.285 0.2875 0.2925 0.295 0.2975 0.3 0.3025 0.3075 0.31
0.2646 0.3041 0.3162 0.3279 0.3391 0.35 0.3606 0.364 0.3674 0.3708 0.3775 0.3808 0.3841 0.3873 0.3905 0.3969 0.40 0.4062 0.4123 0.4213 0.4243 0.433 0.4387 0.4416 0.4444 0.4472 0.45 0.4528 0.4555 0.461 0.4637 0.4664 0.4717 0.4743 0.4796 0.4822 0.4848 0.4873 0.4899 0.4924 0.495 0.4975 0.5099 0.5123 0.5148 0.522 0.5244 0.5268 0.5315 0.5339 0.5362 0.5408 0.5431 0.5454 0.5477 0.55 0.5545 0.5568
0.5144 0.5515 0.5623 0.5726 0.5823 0.5916 0.6005 0.6033 0.6062 0.6089 0.6144 0.6171 0.6197 0.6223 0.6249 0.63 0.6325 0.6373 0.6421 0.6491 0.6514 0.658 0.6624 0.6645 0.6666 0.6687 0.6708 0.6729 0.6749 0.679 0.6809 0.6829 0.6868 0.6887 0.6925 0.6944 0.6963 0.6981 0.6999 0.7017 0.7035 0.7053 0.7141 0.7158 0.7175 0.7225 0.7242 0.7258 0.729 0.7307 0.7323 0.7354 0.737 0.7385 0.7401 0.7416 0.7447 0.7462
C 1 1 1 1 1 1 2 3 1 4 1 1 1 3 1 1 3 1 1 2 11 1 1 1 3 1 1 10 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 2 1 1 2 1
A
0.6075 0.62 0.625 0.6325 0.6375 0.64 0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0,7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0 9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 1.01 1.015 1.025 1.0325 1.035 1.0375
AS
0.7794 0.7874 0.7906 0.7953 0.79Θ4 0.80 0.8016 0.8062 0.8093 0.8124 0.8139 0.817 0.8185 0.8216 0.8246 0.8292 0.8307 0.8322 0.8367 0.8426 0.8485 0.8515 0.8544 0.8559 0.8602 0.8646 0.8689 0.8718 0.8775 0.8874 0.8888 0.90 0.9028 0.9042 0.9055 0.9097 0.9165 0.9192 0.9247 0.9487 0.9539 0.9552 0.9566 0.9644 0.9657 0.9682 0.9695 0.9747 0.9823 0.9925 0.9937 1.0025 1.0037 1.005 1.0075 1.0124 1.0161 1.0173 1.0186
ASS
0.8828 0.8874 0.8891 0.8918 0.8936 0.8944 0.8953 0.8979 0.8996 0.9013 0.9022 0.9039 0.9047 0.9064 0.9081 0.9106 0.9114 0.9122 0.9147 0.9179 0.9212 0.9228 0.9243 0.9251 0.9275 0.9298 0.9322 0.9337 0.9367 0.942 0.9428 0.9487 0.9501 0.9509 0.9516 0.9538 0.9573 0.9588 0.9616 0.974 0.9767 0.9774 0.978 0.982 0.9827 0.984 0.9847 0.9873 0.9911 0.9962 0.9969 1.0012 1.0019 1.0025 1.0037 1.0062 1.008 1.0086 1.0092
Tabelle A2: 31 2 12 5 109 1 3 2 1 1 1 1 1 4 5 2 1 1 1 4 1 4 5 3 1 4 1 1 6 1 2 3 6 1 2 4 1 2 2 6 2 1 1 1 3 3 1 7 5 1 3 1 3 1 7 1 1 2 1 1 1 1 1
0.32
(Fortsetzung)
0.3225 0.325 0.3275 0.33 0.3325 0.34 0.3425 0.345 0.35 0.3525 0.3575 0.36 0.3625 0.365 0.3675 0.37 0.3725 0.3775 0.385 0.3925 0.395 0.4 0.405 0.4075 0.41 0.4125 0.42 0.425 0.43 0.435 0.4375 0.44 0.4475 0.455 0.46 0.4625 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4925 0.495 0.5025 0.505 0.51 0.52 0.5225 0.525 0.535 0.54 0.5425 0.545 0.55 0.5525 0.565 0.5675 0.5725 0.59 0.5925 0.6025
0.5657 0.5679 0.5701 0.5723 0.5745 0.5766 0.5831 0.5852 0.5874 0.5916 0.5937 0.5979 0.60 0.6021 0.6042 0.6062 0.6083 0.6103 0.6144 0.6205 0.6265 0.6285 0.6325 0.6364 0.6384 0.6403 0.6423 0.6481 0.6519 0.6557 0.6595 0.6614 0.6633 0.669 0.6745 0.6782 0.6801 0.6837 0.6856 0.6928 0.6964 0.6982 0.70 0.7018 0.7036 0.7089 0.7106 0.7141 0.7211 0.7228 0.7246 0.7314 0.7348 0.7365 0.7382 0.7416 0.7433 0.7517 0.7533 0.7566 0.7681 0.7697 0.7762
0.7521 0.7536 0.755 0.7565 0.7579 0.7594 0.7636 0.765 0.7664 0.7692 0.7705 0.7732 0.7746 0.7759 0.7773 0.7786 0.7799 0.7812 0.7838 0.7877 0.7915 0.7928 0.7953 0.7977 0.799 0.8002 0.8014 0.805 0.8074 0.8098 0.8121 0.8133 0.8144 0.8179 0.8213 0.8235 0.8247 0.8269 0.828 0.8324 0.8345 0.8356 0.8367 0.8377 0.8388 O. 8419 0.843 0.8451 0.8492 0.8502 0.8512 0.8552 0.8572 0.8582 0.8592 0.8612 0.8622 0.867 0.8679 0.8698 0.8764 0.8773 0.881
2 3 1 1 1 1 1 1 4 1 1 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1
1 2 1 1 1 1 1 1
1
1 1 1 1 1
1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1.04 1.0525 1.055 1.07 1.1 1.1225 1.1275 1.13 1.14 1.18 1.1825 1.2175 1.22 1.255 1.2825 1.29 1.335 1.3375 1.3675 1.3725 1.4 1.42 1 .445 1.46 1.5325 1.535 1.5675 1.69 1.7 1.715 1.765 1.8 1.84 1.855 1.8625 1.875 1.95 1.955 1.9625 2.045 2.26 2.2775 2.3375 2.54 2.675 2.71 2.8 3.625 4.0 4.1375 4.19 4.2525 4.875 4.96 5.415 6.29 8.58 9.075 9.6825 12.82 15.16 53.14 83.402
Erläuterungen zu Tab. A2 : C = Counts pro Wert A = -Werte
AS = AS-Werte ASS = ASS-Werte.
1.0198 1.0259 1.0271 1.0344 1.0488 1.0595 1.0618 1.0630 1.0677 1.0863 1.0874 1.1034 1.1045 1.1203 1.1325 1.1358 1.1554 1.1565 1. 1694 1.1715 1.1832 1.1916 1.2021 1.2083 1.2379 1.239 1.252 1.30 1.3038 1.3096 1.3285 1.3416 1.3565 1.362 1.3647 1.3693 1.3964 1.3982 1.4009 1.43 1.5033 1.5091 1.5289 1.5937 1.6355 1.6462 1.6733 1.9039 2.00 2.0341 2.0469 2.0622 2.2079 2.2271 2.327 2.508 2.9292 3.0125 3.1117 3.5805 3.8936 7.2897 9.1325
1.0099 1.0129 1.0135 1.0171 1.0241 1.0293 1 .0305 1.031 1.0333 1.0422 1.0428 1.0504 1.051 1.0584 1.0642 1.0657 1.0749 1.0754 1.0814 1.0824 1.0878 1.0916 1.0964 1.0992 1.1126 1.1131 1.1189 1.1402 1.1419 1.1444 1.1526 1.1583 1.1647 1.167 1.1682 1.1702 1.1817 1.1825 1.1836 1.1958 1.2261 1.2285 1.2365 1.2624 1.2789 1.283 1.2936 1.3798 1.4142 1.4262 1.4307 1.436 1.4859 1.4923 1.5255 1.5837 1.7115 1.7356 1.764 1.8922 1.9732 2.6999 3.022
Tabelle A3:
Verteilung der
-Werte, HS-Werte und HSS-Werte
C
H
HS
HSS
c
1143 3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4
0.00 1 .00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 23.00 24.00 25,00 26.00 27.00 28.00 29.00
0.00 1.00 1.414 1.732 2.00 2.236 2.449 2.646 2.828 3.00 3.162 3.317 3.464 3.606 3.742 3.873 4.00 4.123 4.243 4.359 4.472 4.583 4.690 4.796 4.899 5.00 5.099 5.196 5.292 5.385
0.00 1.00 1.189 1.316 1.414 1.495 1.565 1.627 1.682 1.732 1.778 1.821 1.861 1.899 1.934 1.968 2.00 2.031 2.060 2.088 2.115 2.141 2.166 2.190 2.213 2.236 2.258 2.260 2.300 2.321
3 3 1 2 3 1 1 4 1 3 1 1 1 1 2 3 2 1 1 1 1 1 1 1 1 1 1 1 1
H
30.00 31.00 32.00 35.00 36.00 37.00 39.00 40.00 43.00 44.00 45.00 47.00 48.00 49.00 53.00 54.00 55.00 65.00 68.00 76.00 84.00 85.00 100.00 115.00 143.00 144.00 145.00 229.00 261.00
HS
HSS
5.477 5.568 5.657 5.916 6.000 6.083 6.245 6.325 6.557 6.633 6.708 6.856 6.928 7.00 7.280 7.348 7.416 8.062 8.246 8.718 9.165 9.220 10.00 10.724 11.958 12.00 12.042 15.133 16.155
2.340 2.360 2.378 2.432 2.449 2.466 2.499 2.515 2.561 2.576 2.590 2.618 2.632 2.646 2.698 2.711 2.723 2.839 2.872 2.953 3.027 3.036 3.162 3.275 3.458 3.464 3.470 3.890 4.019
Erläuterungen zu Tab. A3; C = Counts pro Wert H = H-Werte
HS = HS-Werte HSS = HSS-Werte
A 6
Tabelle A4:
Verteilung der P-Werte, PS-Werte und PSS-Werte
c
P
PS
PSS
1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 1 1 1
0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 29.00
0.00 1.00 1.414 1.732 2.00 2.236 2.449 2.646 2.828 3.00 3.162 3.317 3.464 3.606 3.742 3.873 4.00 4.123 4.243 4.359 4.472 4.583 4.690 5.385
0.00 1.00 1.189 1.316 1.414 1.495 1.565 1.627 1.682 1.732 1.778 1.821 1.861 1.899 1.934 1.968 2.00 2.031 2.060 2.088 2.115 2.141 2.166 2.321
Erl&uterungen zu Tab. A4: C P PS PSS
= = = =
Counts pro Wert P-Werte PS-Werte PSS-Werte.
A 7
Tabelle A5:
c 4455 1377 244 46 142 26 170 27 34 25 32 9 20 21 14 9 1 11 4 12 5 2 4 3 2 2 3 1 2 1 — 1
Verteilung zusammengefaßter A-, AS- und ASS-Werte
A
AS
ASS
_
__
__
0.075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.825 0.875 0.925 0.975 1.025 1.075 1.125 1.175 1.225 1.275 1.325 1.375 1.425 1.475 1.525 1.575 1.625 1.675
0.2738 0.3535 0.4183 0.4743 0.5244 0.5700 0.6123 0.6519 0.6892 0.7245 0.7582 0.7905 0.8215 0.8514 0.8803 0.9082 0.9354 0.9617 0.9874 1.0124 1.0368 1.0606 1.0839 1.1067 1.1291 1.1510 1.1726 1.1937 1.2144 1.2349 1.2549 1.2747 1.2942
0.5233 0.5946 0.6467 0.6887 0.7241 0.7550 0.7825 0.8074 0.8301 0.8512 0.8707 0.8891 0.9064 0.9227 0.9382 0.9530 0.9671 0.9806 0.9936 1.0061 1 .0182 1.0298 1.0411 1.0520 1.0626 1.0728 1.0828 1.0925 1.1020 1.1112 1.1202 1.1290 1.1376
C 3 1 2 3 3 1 2 1 —1
1
1 1 -
—1
3 1 —2 1 1 — 1 2 1 1 2
A
1.725 1.775 1.825 1.875 1.925 1.975 2.05 2.15 2.25 2.35 2.45 2.55 2.65 2.75 2.85 2.95 3.15 3.35 3.55 3.75 3.95 4.1 4.3 4.5 4.7 4.9 5.5 6.5 7.5 8.5 9.5 12.5 15.5 >50.00
AS
1.3133 1 .3322 1.3509 1.3693 1.3874 1.4053 1.4317 1.4662 1.5000 1.5329 1.5652 1.5968 1.6278 1.6583 1.6881 1.7175 1.7748 1.8303 1.8841 1.9364 1.9874 2.0248 2.0736 2.1213 2.1679 2.2135 2.3452 2.5495 2.7386 2.9154 3.0822 3.5355 3.9370 7.0710
Erläuterungen zu Tab. A5: C = Counts pro Wert A = A-Werte
AS = AS-Werte ASS = ASS-Werte.
Die Werte in den Spalten A, AS, ASS sind j e w e i l s die mittleren Werte eines I n t e r v a l l s ; eine d e t a i l l i e r t e Verteilung der Counts enthält Tabelle A2.
ASS
1.1460 1.1542 1.1622 1.1701 1.1778 1.1854 1.1965 1.2109 1.2247 1.2381 1.2510 1.2636 1.2758 1.2877 1.2993 1.3105 1.3322 1.3528 1.3726 1.3915 1.4097 1.4229 1.4400 1.4564 1.4723 1.4878 1.5314 1.5967 1.6548 1 .7074 1.7556 1.8803 1.9841 2.6591
A 8
Tabelie A6;
II
I
0
Kontingenztafel zu den Variablen Abstraktheit und H ufigkeit
1
0.0 267 3041 0.07 841 262 0.0925 2 0. 3 3 0. 075 0. 15 1 32 0. 225 0. 3 23 9 0. 325 0. 35 1 0. 375 1 0. 425 1 0. 45 0. 475 0, 5 0. 525 0.1 575 1 0.16 2 203 0.165 0.17 0.1775 0.18 2 0.1 875 0. 925 0. 95 3 ο.: 975 5 9 0.1 1 0.] 025 0.205 0.2075 0.2125 0.215 0.2175 0.3 225 1 0.! 25 ο.; 3 1 ο.; 325 ο.; 35 0.! 375 0.! i 2 0.! 425 9 0.! 45 ο.: 475 ο.; 6 ο.; 625 0.2 65 2 0.2725 1 0.275 0.2775 0.2825 0.285 0.2875 0.2925 0.295 0.2975 0.3 0.3025 0.3075 0.31 7 0.32 0.3225
2
3
4
5
6 7 8 9 10 Π 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35
717 235 110 33 23 13 B 2 110 58 45 16 10 6 6 4 3 3 2 1 3 2 2 1 2 21 18 13 11 6 6 5 1 1 1 1 10 9 6 4 4 3 1 2 1 2 3 2 4 2 1 3 1 1 3 1 1 1 1 1 2 2 1 1 90 50 15 15 12 10 6 6 1 1 1 1 2 3 3 2 1 1 1 1 1 2 1 2 2 1 1 1 1 1 6 5 3 3 i 1 2 1 1 1 1 2 1
4
1 1 1 1 1 5 9 2 3 1 2 1 1
1
1
1
2
1
1
1
1 1 2
2
1 2 1
1 1 1 1 1 1
1 1 1
11
1 1
1 1 1
1
2
1
1
1 1
1
1
1
1
1 1
1
1
1 1 1
1
2
1
1
1 i
1
1
1 1 1 1 1 1 1 2 1 1 1
1
1 1 ]
4
1 1 1 1 1 3 2 1 1 3 1 1
2
3 2 1
1
2 1 1 2 1
1 1 11
1
A 9
Tabelle A6: II
0.315 0.3175 0.33 0.3315 0.34 0,3415 0.345 0.35 0.3515 0,3575 0.36 0.3615 0.365 0,3675 0,37 0,3715 0.3775 0.385 0.3915 0.395 0,4 0,405 0.4075 0.41 0.4115 0.41 0.415 0.43 0.435 0.4375 0.44 0,4475 0.455 0.46 0.4615 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4915 0.495 0.5015 0.505 0.51 0.51 0.5115 0.515 0.535 0.54 0.5415 0.545 0.55 0.5515 0.565 0.5675 0.5715 0,59 0.5915 0.6015 0.6075 0.61 0.615 0.6315 0.6375 0.64
I
0
l
l 50
(Fortsetzung) 2
3
4 13 11
l
4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 11 13 14 15 16 17 18 19 3D 31 31 35
1 1 1 1 3 8 4 4 3 1 1 l l l
1 1
1 1 1
1
l
l l l
1
l l l l
l l
l
l
l
l l
l
l l
l l
l
l
l
l
l l l l 2 l
l l l
l
l
l
l l
l l l
l l
l l l
l
l l
l l
A 10
Tabelle A6: II
I
0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0,93 0.9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 1.01 1.015 1.025 1.0325 1.035 1.0375 04 1.0525 055 07
0
l
(Fortsetzung) 2
4
5
6 7 ί 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35
l l
l l
l
l
5
l 2
1
2
2
5
l l 2
l l
225 275
8 1825 2175 22 1.255
3
2 l
l 2
l
l l
l
l
l
A 11
labelle A6: II
I
0
1.2825 1.29 1.335 1.3375 1.3675 1.3725 1.4 1.42 1.445 1.46 1.5325 1.535 1.5675 1.69
1
2
3
4
5
6 7 S 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35
1
1
1 1 1 1
1 1
!?15 .765 .8 .84 .855 .8625 ,875 1.95 1.955 1.9625 .045 .26 .2775 .3375 .54 .675 .71
1 1
1 1
.625 .0 .1375 .19 .2525 .875 .96 .415 .29 .58 .075 .6825 12.82 15.16 53.14 83.402
1 1
I IV
(Fortsetzung)
0
1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35
1143 3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4 3 3 1 2
A
12
TabeHe A6 :
(Fortsetzung)
36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 1
1
1
II
III
O.I) 4455 0.07 1366 0.925 11 0. 1 15 0.1075 3 0.115 120 0,1225 3 0,13 71 0, 325 1 0. 35 2 0. 375 15 0. 425 2 0. 45 10 0. 475 2 0. 5 1 0. 525 3 0.1575 9 0.16 415 0.165 2 0.17 1 0.1775 2 0.18 19 0. 875 2 0. 925 3 0. 95 10 0. 975 1 0. 39 0. 025 7 0.205 3 0.2075 1 0.2125 1 0.215 1 0.2175 3 0.2225 6 0,225 2 0.23 5 0.2325 4 0.235 1 1 0.2375 0.24 14 0.2425 2 0.245 51 1 0.2475 0.26 3 0.2625 1 0.265 5 0.2725 1 0.275 3 4 0.2775 0.2825 3 0.3 85 1 o.: 875 2 0.! 925 1 o.: 95 1 o.: 975 1 0.2 1 0.3025 1 0.3075 1 0.31 1 0.32 31 0.3225 2
A 13
Tabelle A6:
(Fortsetzung)
36 37 39 40 43 44 45 47 48 49 S3 54 55 65 6ί 76 84 85 100 115 143 144 145 129 261 1
1
1
1
1
1
1 1
1
11
III
0.325 0.3175 0.33 0.3325 0.34 0.3425 0.345 0.35 0.3525 0.3575 0.36 0.3625 0.365 0.3675 0.37 0.3725 0.3775 0.385 0.3925 0.395 0.4 0.405 0.4075 0.41 0.4125 0.42 0.425 0.43 0.435 0.4375 0.44 0.4475 0.455 0.46 0.4625 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4925 0.495 0.5025 0.505 0.51 0.52 0.5225 0.525 0.535 0.54 0.5425 0.545 0.55 0.5525 0.565 0.5675 0.5725 0.59 0.5925 0.6025 0.6075 0.62 0.625 0.6325 0.6375 0.64
1 109 1 3 2 1 1 1 1 1 4 5 2 1 1 1 4 1
1 1 1 3 3 1 7 5 1 3 1 3 1 7 1 1 2 1
1 1
A 14
Tabelle AS:
(Fortsetzung)
36 3? 39 40 43 44 45 47 46 49 S3 54 55 65 68 76 Θ4 85 100 115 143 144 145 229 261
H
0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.6β 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0.9325 0.9375 0.94 0.95
1 1
1
1
1
0.965
1
1
1
1
0.985 0.9875 1.005 1.0075 1.01 1.015 1.025 1.0325 1.035 .0375 .04 .0525 .055 .07 .1 .1225 .1275 1.13 1.14 1. β 1.1825 1.2175 1.22 1.255
III 2 3 1 4 1 1 1 3 1 1 3 1 1 2
11
1 1 3 1 1 10 1 1
3
4
1 1 1 1 1 2
1
3 1 1 1
1
1 4 1 1 3 1 1
A 15
T a b e l l e A6:
(Fortsetzung)
36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261
1.2825 1.29 1.335 1.3375 1.3675 1.3725 1.4 1.42 1.445 1.46 1.5325 1.535 1.5675 1.69 .7 1.715 ,765 1.8 1.84 1,855 .8625 ,875 1.95 1.955 1,9625 2.045 2.26 2.2775 2.3375 2.54 2.675 2.71 .8 .625 .0 .1375 .19 .2525 .875 4.96 5.415 6.29 1 8.58 9.075 9.6825 12.82 15.16 53.14 83.402
1 1
1 1 1 1 1 1 1 1
1 1
1
II
1
III 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1
36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 129 261 3 1 1 4 1 3 L 1 1 1 2 3 2 1 1 1 1 1
1
1
1
Erläuterungen zu Tab. A6: I = H-Werte III = Zeilensummen I I = A-Werte IV = Spaltensummen.
1
1
1
1
7179
A 16
T a b e l l e A7:
X
\
iN 0.0 0.07 0.0925 0.1 0.1075 0.115 0.1225 0.13 0.1325 0.135 0.1375 0.1425 0.145 0.1475 0.15 0.1525 0.1575 0.16 0.165 0.17 0.1775 0.18 0,1875 0.1925 0.195 0.1975 0.2 0.2025 0.205 0,2075 0.2125 0.215 0.2175 0.2225 0.225 0.23 0.2325 0.235 0.2375 0.24 0.2425 0.245 0.2475 0.26 0.2625 0.265 0.2725 0.275 0.2775 0.2625 0.285 0.2875 0.2925 0.295 0.2975 0.3 0.3025 0.3075 0.31 0.32 0.3225
1
0
Kontingenztafel zu den Variablen Abstraktheit und Polysemie 1
J
3
4
896 1680 780 447 230 210 565 216 99 81 1 2 3 2 1 1 5 1 1 1 1 10 25 22 15 13 2 7 16 12 6 3 1 1 1 2 5 2 1 1 1 1 1 2 1
1 5 65 149
2
3 1
1
4
7
13
1 2 2
5
6
3
1 4 2 1 1
39 19 1 2 1 1 3
22 13 8 11 4 5 3 2 1 1 27 9 6 5 4 3 11
1 2 1 2 2 3 3 1
1 2 1 1 7 8
1
1 1 1 1
1 7 9 4 4 3 2 1 1
2 1
1
1
2 1 1 2 1
1
1 1
1
1 1 1
4
l
1 1
1
3
1
1
5
2
3
1
2
II 0. ) 0,07 0.925 0. l 0.1075 0. 15 0. 225 0. 0. 325 0. 35 0. 375 0. 425 0. 45 0. 475 0. 5 0. 525 0. 575 0.16 0,165 0.17 0.1775 0.18 0.1875 0.1925 0.195 0.1975
D.;
1 1 1 1
1 2 1 1
1
1
1
1 1 1 1 1 1 1 1
3
1 1 3
1
1
1
1
1
4
1
1 1
1
1
1 1 5 1
1
1 1
1
1 1 1 1 1 1 1 1 2 1 1 1 1 1
1 1 1 3 2
7 8 9 10 11 12 13 14 15 16 17 1β 19 20 21 22 29
147 100 64 51 30 38 2 1 2 13 9 5 6 5 3
1 1 1 1 65 40 27 23 11 1 1 1 1 4 3 2 3 1 2 1 4 2 1 2 1 10 6 3 3 2 4 4 1 1
2 2
1
5
0.2025 0.205 0.2075 0.2125 0.215 0.2175 0.2225 0.225 0.23 0.2325 0,235 0.2375 0.24 0.2425 0.245 0,2475 0.26 0.2625 0.265 0.2725 0.275 0.2775 0.2825 0.2 85 o.; 875 0.! 925 0.! 95 o.: 975 0.3 0,3025 0.3075 0.31 0.32 0.3225
III
4455 1366 11 15 3 120 71 2 15 2 10 2 1 9 415 2 2 19 2 3 10 1 39 7 3 1 1 1 3 6 2 5 4 1 1 14 2 51 1 3 1 1 3 4 3
1 1 31 2
A 17
Tabelle A7:
(Fortsetzung)
"N.
0.325 0.3275 0.33 0.3325 0.34 0.3425 0.345 0.35 0.3525 0.3575 0.36 0.3625 0.365 0.3675 0.37 0.3725 0.3775 0.385 0.3925 0.395 0.4 0.405 0.4075 0.41 0.4125 0.42 0.425 0.43 0,435 0.4375 0.44 0.4475 0.455 0.46 0.4625 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4925 0,495 0.5025 0.505 0.51 0.52 0.5225 0.525 0.535 0.54 0.5425 0.545 0.55 0,5525 0.565 0.5675 0.5725 0.59 0.5925 0.6025 0.6075 0.62 0.625 0.6325 0.6375 0.64
I
0
1
2
4
2 3 29 1
2
21
1
1 1 1 1 2 1 1 2 5 1 1
1
1
3
4
1
20 15 1
1 7
5
1 4 1 1
1 1 1
2
1
2 1 1
1 1
1 1
1 1 6
1 1 2 1
2
1
2
1 1 1 1 2 1 1
1 1
1 3 2 1
1 1
2 1
, 2
1
1 1
2 1
1 1
1 1 1
11 1 1
1 1 1 3 1
1 1
1
1
1 1
1
1
1
1
1 1
1
1
1
1
1
1
1 1
1
1
1 1
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29
1
1 1
6
1
1 2
1
1
1
1
1 1
1 1
1
l
1 1
1 1 1
l 1 1 1
1
II
111
0.325 12 5 0.3275 0.33 109 1 0.3325 3 0.34 : 0.3425 0.345 0.35 0.3525 0.3575 0.36 4 0.3625 5 0.365 0.3675 2 1 0.37 1 0.3725 1 0.3775 4 0.385 1 0.3925 0.395 4 5 0.4 3 0.405 1 0.4075 4 0.41 1 0.4125 1 0.42 0.425 6 1 0.43 2 0.435 3 0.4375 6 0.44 1 0.4475 0.455 2 0.46 1 0.4625 0.4675 2 0.47 2 6 0.48 2 0.485 1 0.4875 1 0.49 0.4925 3 0.495 0.5025 3 1 0.505 0.51 5 0.52 0.5225 1 0.525 1 0.535 3 0.54 1 0.5425 0.545 1 0.55 0.5525 2 0.565 1 0.5675 0.5725 1 1 0.59 1 0.5925 0.6025 0.6075 1 0.62 0.625 • 0.6325 0.6375 0.64 •
A 18
Tabelle A7:
(Fortsetzung)
V 0.6425 0.65 0.655 0.66 0.66]5 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0,84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0.9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 .01 1.015 1.025 1.0325 1.035 1,0375 1.04 1.0525 1.055 1.07 1.1 1.1225 1.1275 1.13 1.14 1.18 1.1825 1.2175 1.22 1.255
I
0
1
2
3
4
1
1 1
2
1 1 1
1 1 1
1 1 2
1
3 2 3
2
1 1 3 1
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29 1 1
1 1
1
1
1 1
1 1 1 1 2 1
1
1 1
1
1
1 1 1
1
2 1 1 1
1
1
1 1
1 1
1
1
1
1 2 1 2
1
1
1 1
1
1
4 1
1 1 1
6
1
1 1 1 1 1
5
1 1
1 1
1
1
1 1
1 1 1 1 1
1 1
l
II 0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0.9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 1.01 .015 .025 .0325 .035 .0375 .04 .0525 1.055 1.07 l.l 1.1225 1.1275 1.13 1,14 1.18 1,1825 1.2175 1.22 1.255
III 2 3 4 1 1 1 3
2 11 1 1 3 1 1 10 1 1 1
i
1 1 3
1
4 1 1 1 1
' • '
; ; 1
3 1 1
A 19 Tabe 1J.J5_ A7 :
(Fortsetzung)
ViN
2
I
1,2625 1.29 .335 1.3375 1.3675 1,3725 1.4 1.42 1.445 1,46 1.5325 1.535 1.5675 1.69 .7 .715 .765 .8 .4 .855 .8625 .875 .95 .955 .9625 .045 .26 .2775 .3375 .54 .675 .71 .8 3.625 4.0 4.1375 4.19 4.2525 4.875 4.96 5.415 6.29 8.58 9.075 9.6825 11,82 15.16 53.14 83.402
1
1
3
4
5
6
1
1
1 1 1 1
1 1 1
1 1
1 1
1
1 1 1
1
1 1 1
1 1
1 1
1
1
1
1
1
1
1 1
1 1 1 1 1
1
1
1
1
1
1
0
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29
1 1
I IV
0
2
1
1
1 1
3
4
5
6
II
III 1 1 1 1
1.2825 1.29 1.335 ,3375 1.3675 1.3725 1.4 1.42 1.445 1.46 1,5325 1.535 1.5675 1,69 1.7 1.715 1.765 1.8 1.84 1.855 1.8625 1.875 1.95 1.955 1.9625 .045 .26 .2775 .3375 .54 .675 .71 .8 .625 .0 .1375 .19 .2525 .875 .96 5.415 6.29 8.58 9.075 9.6825 12.82 15.16 53.14 B3.401
j
1 1 1 1 2 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29
1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 1 1 1
Erläuterungen zu Tab. A7: I = P-Werte III II = A-Werte IV
= Z e i l ansummen = Spaltensummen.
7179
20
Tabelle A8:
Korrelationskoeffizientendynamik zu ausgewählten ASS- und HS-Werten
30
35
37
40
45
49
55
68
85 100
143 144
261
0.675
60
60
60
61
61
61
6l
61
61 61
61 61
61
0.675
0.875
59
59
59
59
60
60
60
60
60 60
60 60
60
0.875
1.075
59
59
59
60
60
60
60
61
61 60
61 61
61 1.075
1.275
57
58
58
58
59
59
59
59
59 59
60 59
59 1.275
1.475
58
58
58
59
59
59
60
60
60 60
60 60
60 1.475
1.675
58
58
58
59
59
59
60
60
60 60
60 60
60 1.675
1.875
57
58
58
59
59
59
60
60
60 60
60 60
60 1.875
2.25
58
58
58
59
59
59
60
60
60 60
61 61
61 2.25
2.55
58
58
58
59
59
59
60
61
60 60
61 61
61 2 . 5 5
2.85
57
57
58
58
59
59
60
60
60 60
61 61
61 2.85
4.1
57
57
58
58
59
59
61
61
61 61
61 61
61
4.9 5.5 6.3 8.5 975 12.5 15.5 53.5 83.5
57 57 57 57 57 57 57 56 56
57 57 57 57 57 57 57 56 55
57 57 58 58 57 57 57 56 56
58 58 58 58 58 58 58 57 56
59 59 59 59 59 59 59 57 57
59 60 60 60 59 59 59 58 57
61 61 61 61 61 61 61 60 59
61 62 62 62 61 61 61 60 59
61 62 62 62 61 62 63 61 60
62 63 63 63 62 63 63 62 61
62 4.9 62 5.5 62 6.3 63 8.5 63 975 64 12.5 64 15.5 63 53.5 62 83.5
30
35
37
40
45
49
55
68
85 100
11
I
I
62 62 62 62 62 63 63 62 61
62 62 62 62 62 63 63 62 61
143 144
n
4.1
261
Erläuterungen zu Tab. A8: I = Häufigkeit II = Abstraktheit. Um einen vergleich der Tafeln untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
A 21
Tabelle A9:
30
35
37
40
45
49
55
68
85 100 115 143 144
261
„
0.675
60
60
60
60
61
61
61
61
61 61
61 61
61
0.675
O.S75
59
59
59
59
60
60
60
60
60 60
60 60
60
0.875
1.075
58
58
59
59
59
59
60
60
60 60
60 60
60 1.075
1.275
57
57
58
58
58
58
59
59
59 59
59 59
59 1.275
1.475
57
57
58
58
58
58
59
59
59 59
59 59
59 1.475
1.675
57
57
58
58
58
58
59
59
59 59
59 59
59 1.675
1.875
57
57
57
58
58
58
58
59
59 59
59 59
59 1.875
1.25
57
57
57
57
58
58
58
59
59 59
59 59
59 2 . 2 5
2.55
56
57
57
57
58
58
59
59
59 59
59 59
59 2.55
2.85
56
56
57
57
57
57
58
58
58 58
59 59
59 2.85
4.1
56
56
56
57
57
57
58
58
58 58
59 59
59
4.1
4.9 5.5 6.3 8.5
56 56 56 56 55 55 55 54 54
56 56 56 56 55 55 55 54 52
56 56 56 56 56 56 56 54 53
57 57 56 56 56 56 56 54 53
57 57 57 57 56 56 56 55 53
57 57 57 57 57 57 57 55 54
58 58 58 58 58 58 58 56 55
58 58 58 58 58 58 58 56 55
58 58 58 58 58 58 58 57 55
59 59 59 59 58 59 59 57 56
59 59 59 59 59 59 59 57 56
59 59 59 59 59 59 59 58 56
4.9 5.5 6. 8. O 12. 15. 53. 83.
30
35
37
40
45
49
55
68
85 100
143 144
261
II
I
Korrelationskoeffizientendynamik zu ausgewählten ASS- und HSS-Werten
12.5 15.5 53.5 83.5 I
59 59 59 59 58 58 58 57 56
Erläuterungen zu Tab. A9: I = Häufigkeit II = Abstraktheit. Um einen vergleich der T a f e l n untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
22
Tabelle A I 0 :
30
35
37
40
45
49
55
6
85 100
143 144
261
0,675
59
59
59
60
60
60
60
60
60 60
60 60
60
0.675
0.875
57
57
58
58
58
58
59
59
59 59
59 59
59
0.875
1.075
56
57
57
58
58
58
59
59
59 59
59 59
59 1.075
1.275
55
55
56
56
56
56
57
57
57 57
57 57
57 1.275
1.475
55
55
56
56
57
57
57
57
57 57
58 58
58 1.475
1.675
55
55
55
56
56
56
57
58
58 58
58 58
58 1.675
1.875
54
55
55
56
56
56
57
57
57 57
58 57
57
2.25
54
55
55
56
56
56
57
58
58 58
59 58
58 2 . 2 5
2.55
54
54
55
55
56
56
58
58
58 58
59 59
59 2.55
2.85
53
54
54
55
55
55
57
58
58 58
58 58
58
2.85
4.1
53
53
54
54
55
55
57
58
58 58
59 58
58
4.1
4.9 5.5 6.3 8.5 575 12.5 15.5 53.5 83.5
53 53 53 53 52 52 52 46 46
53 53 53 53 52 52 52 46 42
53 53 53 53 52 52 52 46 42
54 54 54 54 53 53 53 47 43
55 55 55 55 54 54 54 47 44
55 56 56 56 55 55 55 49 45
57 58 58 58 56 56 56 50 46
58 58 58 58 57 57 57 51 47
58 58 58 58 57 58 58 52 48
60 60 60 60 58 59 59 54 50
59 60 59 59 58 59 59 54 49
59 60 59 61 60 60 61 55 51
4.9 5.5 6.3 8.5 5 12.5 15.5 53.5 83.5
30
35
37
40
45
49
55
68
85 100
143 144
261
11
I
K o r r e l a t i o n s k o e f f i z i e n t e n d y n a m i k zu ausgewählten AS- und HS-Werten
I
Erläuterungen
59 59 59 59 58 58 59 54 49
n
1.875
zu Tab. A10:
I = Häufigkeit II = Abstraktheit. Um einen vergleich der Tafeln untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
A 23
Tabelle A l l :
30
35
37
40
45
49
55
68
85 100
143 144
261
0.675
58
58
58
5}
59
59
59
59
59 59
59 59
59
0.675
0.875
56
56
57
57
57
57
57
57
58 58
58 58
58
0.875
1.075
55
55
56
56
56
56
57
57
57 57
57 57
57 1.075
1.275
54
54
54
55
55
55
55
55
56 56
56 56
56 1.275
1.475
53
54
54
55
55
55
55
55
55 55
56 56
56 1.475
1.675
53
53
54
54
54
55
55
55
55 55
56 56
56 1.675
1.875
53
53
53
54
54
54
55
55
55 55
55 55
55 1.875
3.25
52
53
53
53
54
54
54
55
55 55
55 55
55 2.25
2.55
52
52
53
53
53
54
54
55
55 55
55 55
55 2.55
2. β5
51
52
52
53
53
53
54
54
54 54
55 55
55 2.85
4.1
51
51
51
52
52
52
53
54
54 54
54 54
54
4.1
4.9 5.5 6.3 8.5 Ο 12.5 15.5 53.5 83.5
51 51 50 50 49 49 49 42 42
51 51 50 50 49 49 49 43 38
51 51 51 51 49 49 49 43 38
52 52 51 51 50 50 50 43 38
52 52 52 52 50 50 50 44 39
52 52 52 52 50 50 50 44 39
53 53 53 53 51 51 51 45 40
53 53 53 53 51 51 51 46 41
53 53 53 53 52 51 51 46 41
54 54 54 54 52 52 52 47 42
54 54 54 54 52 52 52 47 42
54 54 54 54 53 53 52 47 43
4.9 5.5 6.3 8.5 ΓΤ 12.5 15.5 53.5 83.5
30
35
37
40
45
49
55
68
85 100
143 144
261
II
I
Korrelationskoeffizientendynamik zu ausgew hlten AS- und HSS-Werten
I
54 54 53 53 52 52 51 46 42
n
Erl uterungen zu Tab. A l l : I = H ufigkeit II = Abstraktheit. Um einen vergleich der T a f e l n untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
A 24
Tabelle AI2:
Korrelationskoeffizientendynamik zu ausgewählten HS- und P-Werten 4
6
8
10
12
14
16
18
20
22
29
II
139
170
187
191
196
193
197
195
197
197
197
4
193
246
259
261
271
281
286
284
285
286
288
8
12
199
260
277
279
291
307
314
314
316
318
319
12
16
204
263
281
282
293
309
317
320
326
329
330
16
20
205
265
286
292
303
321
328
335
343
346
346
20
24
211
268
288
294
304
326
334
340
348
351
351
24
28
211
271
297
300
312
335
345
351
358
360
361
28
32
215
276
299
301
314
338
350
355
362
364
364
32
37
218
277
302
304
318
342
353
361
367
369
370
37
43
216
274
304
304
323
345
356
363
369
371
372
43
48
214
273
301
303
321
343
353
360
366
368
368
48
55
215
276
302
306
322
342
351
358
364
366
366
55
68
215
278
303
306
325
345
354
361
366
368
368
68
84
215
278
305
307
326
349
357
364
369
370
370
84
100
215
279
307
308
326
348
356
363
368
369
369
100
143 144 145 229 261
215 210 204 194 194
279 274 267 258 258
307 302 296 288 288
308 304 298 290 293
333 329 323 316 317
354 349 344 336 337
361 357 351 344 344
367 362 357 349 350
372 367 362 354 354
373 368 363 355 356
373 368 363 355 355
143 144 145 229 261
4
6
8
10
12
14
16
18
20
22
29
11
I
4
I
Erläuterungen zu Tab. AI2: I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
A 25
Tabelle AI3;
Korrelationskoeffizientendynamik zu ausgewählten HSS- und P-Werten 4
6
8
10
12
14
16
18
20
22
29
II
4
093
115
130
132
135
133
135
133
134
134
134
4
8
131
170
183
185
191
197
200
198
199
200
200
8
12
139
184
200
201
209
219
224
223
225
225
226
12
16
144
189
206
207
215
225
230
230
234
236
236
16
20
146
192
211
216
223
235
239
242
247
249
249
20
U
150
195
214
218
225
239
245
247
252
254
254
24
28
151
197
220
223
231
246
252
255
259
261
261
28
32
153
201
223
225
234
250
257
260
264
265
265
32
37
155
202
226
227
237
253
260
264
268
270
270
37
43
155
202
227
229
241
256
263
267
271
273
273
43
48
155
203
228
230
243
257
264
268
272
273
273
48
55
157
207
231
234
246
260
267
270
274
275
275
55
68
157
208
232
235
249
263
269
272
276
277
277
68
84
157
208
234
236
250
265
272
275
278
280
280
84
100
157
209
236
238
251
267
273
276
279
281
281
100
143 144 145 229 261
157 156 155 153 153
209 208 207 205 205
236 235 234 232 232
238 237 236 234 237
256 255 253 252 254
271 270 269 267 269
276 276 274 273 275
280 279 277 276 278
283 282 281 279 281
284 283 282 281 282
284 283 282 281 282
143 144 145 229 261
4
6
8
10
12
14
16
18
20
22
29
II
I
I
Erläuterungen zu Tab. A I 3 : I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
A 26
Tabelle A I 4 :
Korrelationskoeffizientendynamik zu ausgewählten HS- und PS-Werten 4
6
8
10
12
14
16
18
20
11
19
II
4
118
150
169
177
183
182
186
185
187
187
187
4
8
165
217
136
244
255
264
269
269
170
171
273
8
12
172
229
153
161
273
286
294
295
197
298
299
12
16
177
233
157
265
177
290
298
301
305
308
309
16
20
179
235
161
273
185
299
306
312
318
320
321
20
24
183
239
264
174
186
303
311
317
323
325
326
24
18
183
241
269
179
292
310
319
324
330
332
333
28
31
186
144
271
180
193
311
323
328
333
335
336
32
37
188
145
174
182
197
315
325
332
337
339
340
37
43
185
242
173
181
298
316
326
333
338
339
340
43
48
184
241
171
281
297
314
324
330
335
337
338
48
SS
185
243
171
282
298
314
313
330
334
336
337
55
68
185
244
273
283
300
316
325
331
336
337
338
68
84
185
144
274
283
300
318
327
333
337
339
339
84
100
185
145
275
284
300
318
326
332
337
338
339
100
143 144 145 229 261
185 182 174 164 164
245 241 234 214 224
275 271 264 255 155
284 280 273 164 265
303 299 293 284 285
320 316 310 301 301
328 324 318 310 309
334 330 314 315 315
338 334 328 320 319
340 336 330 321 320
340 336 330 321 321
143 144 145 229
4
6
8
10
12
14
16
18
20
22
29
I
11
I
Erläuterungen zu Tab. A14: I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
261
A 27
Tabelle AI5:
Korrelationskoeffizientendynamik zu ausgewählten HSS- und PS-Werten 4
6
8
10
12
14
16
18
20
22
29
II
4
073
096
112
117
121
121
123
123
124
124
124
4
8
107
145
163
169
176
182
166
185
166
187
188
8
12
114
156
176
185
194
203
208
208
210
210
211
12
16
119
163
164
190
199
208
214
216
219
220
221
16
20
122
166
189
198
207
217
223
226
230
231
232
20
24
125
169
192
201
209
221
227
230
234
236
236
24
26
125
171
196
204
214
226
233
236
240
241
242
28
32
127
174
199
207
217
230
238
241
244
246
246
32
37
129
175
201
209
220
233
240
244
246
249
250
37
43
128
174
202
209
222
235
242
246
250
251
252
43
46
128
176
203
211
223
236
243
247
151
252
253
46
55
130
179
206
214
227
239
246
250
254
255
255
55
68
130
180
206
215
228
241
248
252
255
256
257
68
64
130
180
207
216
229
243
250
254
257
258
259
84
100
130
181
209
217
230
244
251
255
258
259
260
100
143 144 145 229 261
130 130 126 126 126
181 180 178 176 176
209 208 207 205 205
217 217 215 213 215
233 233 231 229 230
247 246 244 242 244
253 253 251 249 250
257 256 255 253 254
260 260 256 256 257
262 261 259 257 258
262 261 260 258 259
143 144 145 229 261
4
6
8
10
12
14
16
18
20
22
29
I
II
I
Erl&uterungen zu Tab. A I 5 : I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.
28
T a b e l l e A16:
100 Substantive mit höchsten A-Werten
I
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
II
83.402 Wesen 53.14 Lebewesen 15.16 Mensch 12.82 Gegenstand 9.6825 Sache 9.075 Ding 8.58 Teil 6.29 Substanz 5.415 Stoff 4.96 Weise 4.875 Person 4.2525 Organismus 4.19 Tier 4.1375 Plan Körper 4 Gerät 3.625 2.8 Motor 2.71 Stück Tatsache 2.675 Konstruktion 2.54 Einheit 2.3375 2.2775 Weg Art 2.26 Angelegenheit 2.045 1 .9625 Pflanze 1.955 Wettkampf 1.95 Gedankenaustausch 1.875 Zustand 1.8625 Merkmal Größe 1.855 Produkt 1.84 Einrichtungsgegenstand 1.8 1.765 Dichtung 1.715 Satzglied Verlangen 1.7 Game t 1.7 Fahrzeug 1.69 1.5675 Tag Vollziehung 1.535 Bereich 1.5325 Zeitspanne 1.46 1.445 Zeichen Tätigkeit 1.42 Teilbereich 1.4 Verfügung 1.3725 1.3675 Flüssigkeit Bau 1.3375 Erzeugnis 1.335 1 .29 Gesamtanlage Vorhaben 1.2825
Erl&uterungen zu Tab. A I 6 ; I II
= Substantive = A-Werte.
I
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
Zeitraum Einigung Wirbeltier Verrichtung Symbol Ganzheit Vereinbarung Spanne Geldbetrag Foto Außenseite Stelle Verhältnis Bemühung Schreibpapier Apparatur Leben Schriftstück Druckerzeugnis Abmachung Sachverhalt Arbeit Benennung Vorrichtung Jahrestag Wort Amt Schreiben Objekt Reihenfolge Apparat Wasserfahrzeug Verfassung Gebiet Eigenart Mitglied Platz Mechanismus Auswirkung Wert Mischung Gedicht Bodenerhebung Material Raum Angehörige Kampf Gedenktag Möbel Masse
II
1.255 1.22 1.2175
1.2175 1.2175 1.1825 1.18 1.14 1.14 1.14 1.14 1.13 1.1275 1.1225 1.1 1.07 1.055 1.0525 1.0525 1.0525 1.04 1.04 1.0375 1.035 1.035 1.0325 1.025 1.015 1.015 1.01 1.0075 1.005 0.9875 0.985 0.965 0.95 0.94 0.9375 0.9325 0.93 0.93 0.93 0.93 0.915 0.9125 0.91 0.9 0.855 0.84 0.84
A 29
Tabelle
17:
Auswahl von 100 Substantiven mit dem k l e i n s t e n -Wert .07'
1 Kapuzineraffe 2 Karnevalsumzug 3 Karpfenfisch 4 Kassenbuch 5 Kastration 6 Kasus 7 Kaufmann Kegel 9 Kegelbahn 10 K e h l k o p f s p i e g e l 11 Kehrbesen 12 Kehrreim 13 Keimblatt 14 Kelch 15 Ketzer 16 K i e f e r n z a p f e n 17 Kies 18 Kinderpflegerin 19 Kissen 20 K l a f t e r h o l z 21 Klagelaut 22 Klassenarbeit 23 Klatsch 24 Klecks 25 Kleingebäck 26 Knacks 27 Knitter 28 Knochenbruch 29 Kochtopf 30 Kölnischwasser 31 Königskerze 32 Kohlenwasserstoff 33 Kokosflocken 34 Kolk 35 Kolonialtruppe 36 Kolpitis 37 Komassation 38 Kommentar 39 Kondolenzkarte 40 Konkurrent 41 Kontinentalklima 42 Kontrabaß 43 Kontrahent 44 Konverter 45 Kopfbahnhof 46 Kopfschutz 47 Kopierstift 48 Koralle 49 Kost 50 Kosten
51 Kraftfahrzeugschein 52 Kraftwagen 53 Kragen 54 Krampe 55 Krapfen 56 Kriminalität 57 K r i t i k 58 Küche 59 Kücheneinrichtung 60 Küchenherd 61 Kündigung 62 Kür 63 Kunstobjekt 64 Kupferlegierung 65 Kupferstich 66 Kurzstreckenläufer 67 Kuß 6 Labferment 69 Labial stimme 70 Lähmung 71 Lagerarbeiter 72 Lama 73 L a m m f e l l m ü t z e 74 Landgut 75 Landstreicher 76 Landungsplatz 77 Lastkann 78 Lastkraftwagen 79 Laub 80 Laubbaum 81 Laufschuh 82 Lauge 83 Laute 84 Lautmalerei 85 Lebensalter 86 Lebensfreude 87 Lederhose 88 Legitimation 89 Legitimationspapier 90 Lehrer 91 Leichenbegräbnis 92 Leichtsinn 93 Leinwand 94 Leiter 95 Lemure 96 Lichtbündel 97 Lichtschalter 98 Liebste 99 Liederjahn 100 Liter
A 30
Tabelle A18:
100 Substantive mit höchsten A'-Werten
II
I
II
2.2125 1.95 1 .95 1.95 1.95 1.95 1.95 1.265 1.1717 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .7467 .74 .705 .6775 .5717 .57 .57 .57 .57 .5275 .5275 .5275 .4896 .4407 .37 .37 .37 .345 .345 .345 .345 .345
51 Augenblick 52 übereinkommen 53 Fertigkeit 54 Zusammenlegung 55 Zusammenkunft 56 Zusammenklang 57 Zusammenhang 58 Zusammengehörigkeit 59 Wirkung 60 Wehrdienstpflichtige 61 Wahl spruch 62 Vorlage 63 Vorführung 64 V o l l z i e h u n g 65 Vokal part 66 V i e l z e l l e r 67 Unterscheidung 68 Unterhaltung 69 Trieb 70 Tonfolge 71 Territorium 72 Straße 73 Spielplatte 74 Sphäre 75 Sorte 76 Silbe 77 Sektor 78 Schema 79 Sachbereich 80 R i c h t l i n i e 81 Reproduktion 82 Repräsentant 83 Rennen 84 Quantum 85 Ornament 86 Niederschlag 87 Nachricht 88 Mineral 89 Materie 90 Marsch 91 Luftfahrzeug 92 Ladung 93 Laden 94 Kriechtier 95 Kreis 96 Kontakt 97 Körperteil 98 Knochenfisch 99 Kaufangebot 100 Kärtchen
.345 .34 .34
I
1 Plan 2 Verhältnis 3 Tatsache 4 Reihenfolge 5 Motor 6 Gedankenaustausch 7 Außenseite 8 Wettkampf 9 Weg 10 Zusammenleben 11 Verwaltungseinheit 12 Verkehrsweg 13 Veranlassung 14 Tauglichkeit 15 Rohmaterial 16 Moment 17 Kurve 18 Konzept 19 Grundbestandteil 20 Gespräch 21 Gemüts läge 22 Frachtgut 23 Erde 24 Entwurf 25 Container 26 Bewegtheit 27 Ausspruch 28 Aufeinanderfolge 29 Einigung 30 Schreibpapier 31 Symbol 32 Vorhaben 33 Verrichtung 34 Wert 35 Spanne 36 Gesamtanlage 37 Foto 38 Sendung 39 Leben 40 Erscheinungsweise 41 Ding 42 Wesen 43 Mechanismus 44 Kampf 45 Einrichtungsgegenstand 46 Nahrungsmittel 47 Kraftmaschine 48 Kleidungsstück 49 Kennzeichnung 50 Aussage
Erläuterungen zu Tab. AI8; I II
= Substantive = Normierte A-Werte.
.33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33